Google今天一口氣推出兩個王牌,一個是對標Claude Code和Cursor的開源程式碼神器Gemini CLI,另一個就是AlphaGenome,專門用來精準預測基因變異。
Google DeepMind宣布推出一款名為AlphaGenome的全新人工智慧(AI)模型。該模型旨在更深入、更準確地理解基因體,透過預測DNA序列的微小變化如何影響複雜的基因調控過程,為疾病研究、基因治療和基礎生命科學開闢了新的可能性。目前,AlphaGenome已透過API向非商業研究領域開放。
基因體是指導生命體生長、發育、運作和繁殖的終極「細胞說明書」。這本由DNA構成的「說明書」中的細微變化,即基因變異,可能深刻影響我們對環境的反應,甚至決定我們對某些疾病的易感性。然而,破譯基因體指令在分子層面被讀取的全過程,以及一個微小的DNA變異究竟會引發何種連鎖反應,至今仍是生物學最大的謎團之一。
為了攻克這一難題,Google DeepMind推出了AlphaGenome——一個全新的AI工具。它能夠更全面、更精確地預測人類DNA序列中的單個變異或突變如何影響廣泛的基因調控生物過程。這一突破得益於模型架構的技術進步,使其能夠處理超長的DNA序列並輸出高解析度的預測結果。
DeepMind相信,AlphaGenome將成為科學界的重要資源,幫助科學家更好地理解基因體功能、疾病生物學,並最終推動新的生物學發現和新療法的開發。
AlphaGenome如何運作?
AlphaGenome的核心工作流程是:接收一段長達100萬個鹼基對的DNA序列作為輸入,並預測數千種表徵其調控活性的分子特性。同時,它還能透過對比突變序列和原始序列的預測結果,來評估特定基因變異或突變所帶來的影響。
其預測的特性範圍極廣,包括:
- 在不同細胞和組織中,基因的起始和終止位置。
- RNA的剪接方式。
- RNA的生成數量。
- DNA鹼基的可及性、空間上的接近程度,以及是否與特定蛋白質結合。
為了實現這些功能,AlphaGenome在來自ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共資料庫的海量實驗資料上進行了訓練。這些資料涵蓋了數百種人類和老鼠細胞及組織中重要的基因調控模式。
在技術架構上,AlphaGenome採用了卷積層來初步檢測基因體序列中的短模式,再利用Transformer模型來整合序列上所有位置的資訊,最終透過一系列輸出層將這些模式轉化為對不同分子特性的具體預測。
值得一提的是,該模型建立在DeepMind之前的基因體學模型Enformer之上,並與專注於解讀蛋白質編碼區(僅占基因體2%)變異影響的AlphaMissense形成完美互補。AlphaGenome則專注於解讀占基因體98%的廣闊非編碼區,這些區域對調控基因活動至關重要,並包含了大量與疾病相關的變異。
AlphaGenome的四大獨特優勢
相較於現有的DNA序列模型,AlphaGenome展現出幾個顯著的特點:
- 長序列上下文與高解析度: 模型能分析長達100萬個DNA鹼基對的序列,並以單個鹼基的解析度進行預測。這對於捕捉遠距離基因調控元件和精細的生物學細節至關重要。與以往模型需要在序列長度和解析度之間做出取捨不同,AlphaGenome在不顯著增加訓練成本的情況下(訓練時間僅為4小時,計算預算為原Enformer模型的一半)實現了二者的統一。
- 全面的多模態預測: 透過解鎖對長序列的高解析度預測,AlphaGenome能夠同時預測最多樣化的分子特性,為科學家提供關於基因調控複雜步驟的更全面資訊。
- 高效的變異評分: 模型可以在一秒內高效評估一個基因變異對所有相關分子特性的影響。它透過對比突變前後的預測差異來實現這一點,並為不同特性提供了高效的差異總結方法。
- 新穎的剪接點建模: 許多罕見遺傳病(如脊髓性肌肉萎縮症)由RNA剪接錯誤引起。AlphaGenome首次能夠直接從DNA序列中明確地模擬剪接點的位置和表達水平,為理解遺傳變異如何影響RNA剪接提供了更深刻的見解。
在多項基準測試中,AlphaGenome均表現出業界頂尖(State-of-the-art)的性能。無論是預測DNA序列功能,還是評估變異影響,它在絕大多數評測中都優於或持平於當前最優的專用模型,充分展示了其強大的通用性。
圖:AlphaGenome在選定的DNA序列任務和變異效應任務上,相對於目前最佳方法的性能提升百分比。
研究潛力
AlphaGenome的通用性使其成為一個強大的科研工具,有望在多個領域發揮關鍵作用:
疾病理解: 透過更精確地預測遺傳變異的功能影響,幫助研究人員精確定位疾病的潛在原因,更好地解釋與特定性狀相關的變異,甚至發現新的治療靶點。尤其適用於研究那些效應較大的罕見孟德爾疾病。
合成生物學: 其預測能力可用於指導設計具有特定調控功能的合成DNA。例如,設計一段只在神經細胞中啟動某個基因,而在肌肉細胞中保持沉默的DNA序列。
基礎研究: 加速我們對基因體的理解,幫助繪製關鍵功能元件圖譜,並定義它們在調控特定細胞類型功能中的確切作用。
目前的局限性
儘管AlphaGenome是重要的一步,但DeepMind也坦承其存在局限性。例如,精確捕捉超過10萬個鹼基對的超遠距離調控元件仍是挑戰。此外,該模型目前並未針對個人基因體預測進行設計或驗證,也不能完全描繪出遺傳變異如何導致複雜性狀或疾病(這些通常涉及更廣泛的生物過程及環境因素)。
開放社群
為了推動科學進步,AlphaGenome現已透過AlphaGenome API向全球研究人員提供非商業性使用。DeepMind誠邀學術界、工業界和政府組織的研究人員試用該模型,並透過社群論壇分享潛在用例、提出問題或提供反饋。
DeepMind希望透過與更廣泛的科學界合作,共同深化對DNA序列中複雜細胞過程的理解,推動基因體學和醫療健康的顛覆性新發現。
paper:https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
AlphaGenome API 使用:https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
參考:https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/