谷歌Alpha家族再添新成員。
作者 | ?李水青
編輯 | ?心緣
智東西6月25日?qǐng)?bào)道,今天,谷歌DeepMind推出AlphaGenome,一款能幫助人們快速預(yù)測(cè)基因變化影響的AI模型。AlphaGenome就像一臺(tái)“觀察人類DNA的AI顯微鏡”,以長(zhǎng)達(dá)100萬(wàn)個(gè)堿基對(duì)的長(zhǎng)DNA序列作為輸入,預(yù)測(cè)數(shù)千種表征其調(diào)控活性的分子特性,在超20項(xiàng)廣泛的基因組預(yù)測(cè)基準(zhǔn)中實(shí)現(xiàn)了最先進(jìn)的性能。與已有的DNA序列模型相比,AlphaGenome具有幾個(gè)獨(dú)特的特點(diǎn):支持高分辨率的長(zhǎng)序列上下文、綜合多模態(tài)預(yù)測(cè)、高效變異評(píng)分和新穎的剪接連接模型。當(dāng)下,谷歌通過AlphaGenome API提供AlphaGenome預(yù)覽版,供非商業(yè)研究使用,并計(jì)劃在未來(lái)發(fā)布該模型。紀(jì)念斯隆·凱特琳癌癥中心的博士Caleb Lareau說(shuō):“這是該領(lǐng)域的一個(gè)里程碑。我們首次擁有一個(gè)能夠統(tǒng)一遠(yuǎn)程上下文、基礎(chǔ)精度和各種基因組任務(wù)的尖端性能的單一模型?!?img decoding="async" class="aligncenter" src="https://wximg.eefocus.com/forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2Fz7ZD1WagSLia5D4O33O8mic8HK4qs6cQc8wjghtzQZ6zga1Phic6hK64mndovq3xZEzH5g1cMg0pAwhSNY5Z4J1Ug%2F640%3Ffrom%3Dappmsg&s=b115bf" />論文地址:https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
01.百萬(wàn)DNA序列輸入預(yù)測(cè)數(shù)千種分子特性
?
AlphaGenome模型以長(zhǎng)達(dá)100萬(wàn)個(gè)堿基對(duì)的長(zhǎng)DNA序列作為輸入,預(yù)測(cè)數(shù)千種表征其調(diào)控活性的分子特性。它還可以通過比較突變序列與未突變序列的預(yù)測(cè)結(jié)果來(lái)評(píng)估遺傳變異或突變的影響。預(yù)測(cè)的屬性包括基因在不同細(xì)胞類型和組織中的起始和終止位置、基因剪接的位置、產(chǎn)生的RNA數(shù)量,以及哪些DNA堿基可接近、彼此靠近或與某些蛋白質(zhì)結(jié)合。訓(xùn)練數(shù)據(jù)來(lái)源于大型公共聯(lián)盟,包括ENCODE、GTEx、4D Nucleome和FANTOM5,這些聯(lián)盟通過實(shí)驗(yàn)測(cè)量了這些屬性,涵蓋了數(shù)百種人類和小鼠細(xì)胞類型和組織中基因調(diào)控的重要模式。以下動(dòng)畫顯示AlphaGenome將一百萬(wàn)個(gè)DNA字母作為輸入,并預(yù)測(cè)不同組織和細(xì)胞類型的不同分子特性。AlphaGenome架構(gòu)使用卷積層初步檢測(cè)基因組序列中的短模式,使用轉(zhuǎn)換器在序列的所有位置傳遞信息,最后使用一系列層將檢測(cè)到的模式轉(zhuǎn)化為不同模態(tài)的預(yù)測(cè)。在訓(xùn)練過程中,此計(jì)算分布在單個(gè)序列的多個(gè)互連張量處理單元(TPU)上。該模型以谷歌之前的基因組學(xué)模型Enformer為基礎(chǔ),并與AlphaMissense相輔相成,后者專門對(duì)蛋白質(zhì)編碼區(qū)內(nèi)變異的影響進(jìn)行分類。這些區(qū)域覆蓋了基因組的2%。其余98%的區(qū)域稱為非編碼區(qū),對(duì)調(diào)控基因活動(dòng)至關(guān)重要,并包含許多與疾病相關(guān)的變異。AlphaGenome為解讀這些廣泛的序列及其內(nèi)部的變異提供了一個(gè)新的視角。
02.高分辨率的長(zhǎng)序列上下文綜合多模態(tài)預(yù)測(cè)
?
與已有的DNA序列模型相比,AlphaGenome具有幾個(gè)獨(dú)特的特點(diǎn):1、高分辨率的長(zhǎng)序列上下文谷歌的模型分析多達(dá)一百萬(wàn)個(gè)DNA堿基,并以單個(gè)堿基的分辨率進(jìn)行預(yù)測(cè)。長(zhǎng)序列上下文對(duì)于覆蓋遠(yuǎn)處調(diào)控基因的區(qū)域至關(guān)重要,而堿基分辨率對(duì)于捕捉精細(xì)的生物學(xué)細(xì)節(jié)至關(guān)重要。先前的模型必須在序列長(zhǎng)度和分辨率之間做出權(quán)衡,這限制了它們能夠聯(lián)合建模并準(zhǔn)確預(yù)測(cè)的模態(tài)范圍。谷歌的技術(shù)進(jìn)步解決了這一限制,且無(wú)需顯著增加訓(xùn)練資源——訓(xùn)練單個(gè)AlphaGenome模型(未進(jìn)行數(shù)據(jù)蒸餾)耗時(shí)4小時(shí),且所需的計(jì)算預(yù)算僅為訓(xùn)練原始Enformer模型的一半。2、綜合多模態(tài)預(yù)測(cè)通過解鎖長(zhǎng)輸入序列的高分辨率預(yù)測(cè),AlphaGenome能夠預(yù)測(cè)最多樣化的模態(tài)。由此,AlphaGenome為科學(xué)家提供了有關(guān)基因調(diào)控復(fù)雜步驟的更全面的信息。3、高效變異評(píng)分除了預(yù)測(cè)各種分子特性外,AlphaGenome還能在一秒鐘內(nèi)高效地評(píng)估基因變異對(duì)所有這些特性的影響。它通過對(duì)比突變序列和未突變序列的預(yù)測(cè),并針對(duì)不同模式使用不同的方法高效地總結(jié)這種對(duì)比來(lái)實(shí)現(xiàn)這一點(diǎn)。4、新穎的剪接連接模型許多罕見遺傳疾病,例如脊髓性肌萎縮癥和某些形式的囊性纖維化,都可能由RNA剪接錯(cuò)誤引起。RNA剪接是指RNA分子的部分被移除,或“剪接掉”,然后剩余的末端重新連接在一起的過程。AlphaGenome首次能夠直接從序列中明確模擬這些連接的位置和表達(dá)水平,從而更深入地了解遺傳變異對(duì)RNA剪接的影響。
03.超20項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)最佳
?
AlphaGenome在廣泛的基因組預(yù)測(cè)基準(zhǔn)中實(shí)現(xiàn)了最先進(jìn)的性能,例如預(yù)測(cè)DNA分子的哪些部分將會(huì)靠近,遺傳變異是否會(huì)增加或減少基因的表達(dá),或者它是否會(huì)改變基因的剪接模式。下方條形圖顯示了AlphaGenome在選定的DNA序列和變異效應(yīng)任務(wù)上的相對(duì)改進(jìn),并與每個(gè)類別中當(dāng)前最佳方法的結(jié)果進(jìn)行了比較。在對(duì)單個(gè)DNA序列進(jìn)行預(yù)測(cè)時(shí),AlphaGenome在24項(xiàng)評(píng)估中,有22項(xiàng)的表現(xiàn)優(yōu)于市面上已有的最佳模型。在預(yù)測(cè)變異的調(diào)控效應(yīng)時(shí),它在26項(xiàng)評(píng)估中,有24項(xiàng)的表現(xiàn)與最佳外部模型相當(dāng)甚至超過了最佳外部模型。本次比較涵蓋了針對(duì)特定任務(wù)的模型。AlphaGenome是唯一能夠聯(lián)合預(yù)測(cè)所有評(píng)估模態(tài)的模型,彰顯了其通用性。
04.統(tǒng)一模型更快地生成和測(cè)試假設(shè)
?
AlphaGenome的通用性使科學(xué)家能夠通過單個(gè)API調(diào)用同時(shí)探索一個(gè)變異對(duì)多種模式的影響。這意味著科學(xué)家可以更快地生成和測(cè)試假設(shè),而無(wú)需使用多個(gè)模型來(lái)研究不同的模式。此外,AlphaGenome的出色表現(xiàn)表明,它已經(jīng)在基因調(diào)控的背景下學(xué)習(xí)到了相對(duì)通用的DNA序列表征。這為更廣泛的研究社區(qū)奠定了堅(jiān)實(shí)的基礎(chǔ)。一旦該模型全面發(fā)布,科學(xué)家們將能夠在自己的數(shù)據(jù)集上對(duì)其進(jìn)行調(diào)整和微調(diào),以更好地解決他們獨(dú)特的研究問題。最后,這種方法為未來(lái)提供了一個(gè)靈活且可擴(kuò)展的架構(gòu)。通過擴(kuò)展訓(xùn)練數(shù)據(jù),AlphaGenome的功能可以得到擴(kuò)展,從而獲得更好的性能,覆蓋更多物種,或包含更多模態(tài),使模型更加全面。
05.助力疾病理解、基礎(chǔ)研究等
?
AlphaGenome的預(yù)測(cè)能力可以幫助多種研究途徑:1、疾病理解:通過更準(zhǔn)確地預(yù)測(cè)基因突變,AlphaGenome可以幫助研究人員更精準(zhǔn)地查明疾病的潛在病因,并更好地解釋與某些性狀相關(guān)的變異的功能影響,從而可能發(fā)現(xiàn)新的治療靶點(diǎn)。我們認(rèn)為該模型尤其適用于研究可能產(chǎn)生巨大影響的罕見變異,例如導(dǎo)致罕見孟德爾遺傳病的變異。2、合成生物學(xué):它的預(yù)測(cè)可用于指導(dǎo)具有特定調(diào)節(jié)功能的合成DNA的設(shè)計(jì)——例如,僅激活神經(jīng)細(xì)胞中的基因,而不是肌肉細(xì)胞中的基因。3、基礎(chǔ)研究:它可以通過協(xié)助繪制基因組的關(guān)鍵功能元素并定義其作用,識(shí)別調(diào)節(jié)特定細(xì)胞類型功能的最重要DNA指令,加速我們對(duì)基因組的理解。例如,谷歌使用AlphaGenome研究了一種癌癥相關(guān)突變的潛在機(jī)制。在一項(xiàng)針對(duì)T細(xì)胞急性淋巴細(xì)胞白血?。═-ALL)患者的現(xiàn)有研究中,研究人員觀察到基因組特定位置的突變。利用AlphaGenome,他們預(yù)測(cè)這些突變會(huì)通過引入MYB DNA結(jié)合基序來(lái)激活附近的TAL1基因,這復(fù)制了已知的疾病機(jī)制,并凸顯了AlphaGenome將特定非編碼變異與疾病基因關(guān)聯(lián)起來(lái)的能力。倫敦大學(xué)學(xué)院Marc Mansour教授說(shuō):“AlphaGenome將成為該領(lǐng)域的一個(gè)強(qiáng)大工具。確定不同非編碼變異之間的相關(guān)性可能極具挑戰(zhàn)性,尤其是在大規(guī)模研究的情況下。該工具將提供關(guān)鍵的線索,幫助我們更好地理解癌癥等疾病?!?/p>
06.結(jié)語(yǔ):AI基因預(yù)測(cè)重要一步
?
AlphaGenome標(biāo)志著AI基因預(yù)測(cè)向前邁出了重要一步,但仍有其局限性。與其他基于序列的模型一樣,準(zhǔn)確捕捉極遠(yuǎn)距離調(diào)控元件的影響(如那些相距超過10萬(wàn) DNA 堿基的調(diào)控元件)仍然是一個(gè)尚未解決的挑戰(zhàn)。同時(shí),谷歌尚未設(shè)計(jì)或驗(yàn)證AlphaGenome用于個(gè)人基因組預(yù)測(cè)。雖然AlphaGenome可以預(yù)測(cè)分子結(jié)果,但它并不能全面展現(xiàn)基因變異如何導(dǎo)致復(fù)雜的性狀或疾病。
(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)