首個基因推理AI橫空出世!準確率飆升至97%,徹底改變基因體學研究

基因體學的「黑箱」終於被撬開了!

圖片

來自多倫多大學、向量研究院等頂尖機構的研究團隊剛剛發布了BioReason,這是全球首個能對基因體進行推理的AI模型。

圖片

這不是簡單的預測,而是真正的生物學推理——

就像一個經驗豐富的基因體學專家,能一步步解釋基因變異如何導致疾病。

最令人振奮的是,BioReason將準確率直接從88%飆升到97%!

DNA遇上大型語言模型的革命性融合

BioReason的核心創新在於首次將DNA基礎模型(Evo2)與大型語言模型(Qwen3)深度融合。

圖片

融合的技術原理,簡單來說就是:

DNA序列 → 嵌入向量 → 多模態LLM輸入

具體來說,DNA基礎模型Evo2首先將輸入的基因序列轉化為上下文化的嵌入表示,這些嵌入向量捕獲了DNA序列的生物學特徵。

隨後,這些DNA嵌入與使用者的文字查詢嵌入一起,透過特殊的標記(如<dna_start>和<dna_end>)整合進入大型語言模型的輸入層。

訓練方法採用了監督式微調(SFT)結合GRPO強化學習的兩階段策略。

該方法讓模型不僅學會預測,更重要的是學會了如何進行多步驟的生物學推理。

Adibvafa Fallahpour (@adibvafa)解釋道:

BioReason將DNA基礎模型(Evo2)與LLM(Qwen3)整合用於生物推理。DNA序列 → 嵌入 → 多模態LLM輸入。透過監督式微調 + GRPO強化學習進行訓練。

壓倒性性能提升背後的秘密

在多個基準測試上,BioReason展現出了驚人的性能:

圖片

具體數據令人印象深刻:

• 疾病通路預測準確率:從88%提升到97%

• 變異效應預測準確率:達到80-88%

• 相比DNA單模態或LLM單模態模型:平均性能提升超過15%

這些測試基於87,000多個來自ClinVar和KEGG通路的真實基因體變異,確保了結果的可靠性和實用性。

透明推理:不再是「黑箱」的AI

BioReason最大的突破在於可解釋性。

圖片

傳統的DNA分析模型就像一個黑箱——輸入序列,輸出預測,中間過程完全不透明。而BioReason能夠逐步解釋基因體變異如何透過分子通路導致疾病。

Adibvafa強調:

是什麼讓這個特別?逐步的生物學推理!BioReason不僅僅是預測——它解釋了基因體變異如何透過分子通路導致疾病。不再是「黑箱」基因體學AI。

舉個具體例子:當查詢PFN1基因在17號染色體上的某個等位基因變異時,給定通路背景「Actin(單體) // PFN1* // Actin(絲狀)」,BioReason不僅正確預測了會導致肌萎縮性側索硬化症(ALS),更重要的是生成了一個10步的機制解釋:

1. 識別PFN1基因中的C>G特定替換

2. 連接到profilin-1蛋白功能障礙

3. 解釋肌動蛋白動力學受損如何影響細胞骨架完整性

4. 闡述運動神經元軸突運輸的後續破壞

5. 最終導致ALS特徵性的運動神經元變性

這種透明的推理過程讓科學家能夠驗證AI的判斷,也為新的科學發現提供了線索。

精心建構的三大數據集

研究團隊為此建構了三個專門的生物推理數據集:

圖片

1. KEGG衍生的生物推理數據集(1,449個條目):闡明遺傳變異與疾病表型之間的機制聯繫,包含37種獨特疾病

2. 編碼序列的變異效應預測數據集(50,083個條目):專注於致病性/良性分類

3. 編碼非SNV數據集(36,088個條目):涵蓋插入、缺失等更複雜的變異類型

Adibvafa介紹:

我們策劃了3個生物推理數據集:1,449個帶推理軌跡的KEGG通路變異。50K+來自ClinVar/gnomAD的編碼序列變異。36K+帶疾病標註的非SNV變異。每個都設計用於測試多步基因體推理能力。

技術實現的關鍵細節

Andrew White 🐦‍⬛(@andrewwhite01)注意到一個有趣的細節:

所以RL實際上比僅僅SFT更差?

圖像

Adibvafa (@adibvafa)回應道:

很難比較。在同一模型上的RL略微提高了性能,但我們仍在更大的模型上運行RL以進行公平比較。敬請關注!

雖然在同一模型上強化學習只帶來了輕微改進,但團隊正在更大規模的模型上進行RL實驗,期待能有更公平的比較結果。

學術界的反響與討論

Anshul Kundaje (@anshulkundaje)在肯定創新的同時也提出了建設性意見:

真的很有創意的框架,有很大的潛力。但當你只與自己模型的消融研究比較時,我可能會避免聲稱「壓倒基準」。請將你的基準擴展到當前用於編碼變異效應優先級排序的SOTA方法。

Adibvafa 也是積極回應:

當然,我們正在積極努力添加更多DNA基礎模型和變異效應預測的SOTA模型。這種評估的一個挑戰是這些模型之間訓練數據集的差異,這使得比較不太可靠。這就是為什麼我們使用Evo2作為SOTA VEP模型,但絕對願意在我們的任務上運行其他模型以進行更好的比較。

不同模型的訓練數據集差異使得比較變得複雜,這也是為什麼團隊選擇Evo2作為SOTA VEP模型的原因。

開源社群響應熱烈

Hugging Face的CEO clem 🤗(@ClementDelangue)表達了濃厚的興趣:

非常非常酷!有機會考慮在HF上發布一個space或模型嗎?

Adibvafa回應:

實際上我們正在努力,因為DNA-LLM是一個帶有自訂分詞器的自訂類別!很快會開一個PR,希望我們能一起完成它。

Clémentine Fourrier 🍊(@clefourrier)也加入討論:

@cgeorgiaw正在負責我們所有的科學ML計畫,如果你需要幫助的話:)

BioReason 或將很快就在Hugging Face平台上市,這將大大方便研究社群的使用。

應用前景

Ha Hoang(@HaHoang411)提出了一個很好的類比:

這很有趣。據我理解,它類似於目前的VLM?不是視覺投影,我們是從EVO2投影生物學?

這個理解非常準確——

就像視覺語言模型(VLM)處理圖像一樣,BioReason處理的是DNA序列,只是投影的是生物學資訊而非視覺資訊。

Oboe(@oboelabs)指出了一個重要應用:

BioReason的一個潛在用途是透過分析個體基因體譜來幫助個人化癌症治療並預測治療結果。

Adibvafa確認:

BioReason的通用學習框架允許學習任何語言-DNA理解,只要有好的數據!

這也表明BioReason的框架具有很強的通用性,只要有好的數據,就能學習任何語言-DNA理解任務。

從變異分析到藥物發現的廣闊前景

這項突破的意義遠不止於學術研究。

Adibvafa總結道:

這可以透過使基因體AI可解釋和可操作來改變生物發現。從變異分析到藥物發現——透明的推理是未來!當然,我們才剛剛開始。

研究團隊的跨機構合作也值得關注,Adibvafa感謝了整個團隊:

🙏 感謝我們了不起的團隊:Adibvafa Fallahpour (@adibvafa) Andrew Magnuson (@ajwmagnuson), Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah (@arnavshah0), Haonan Duan, Omar Ibrahim, Hani Goodarzi (@genophoria), Chris J. Maddison (@cjmaddison)

📷 跨機構合作:多倫多大學(@UofT)、向量研究院(@VectorInst)、大學健康網絡(@UHN)、Arc研究所(@arcinstitute)、Cohere(@cohere)、Google DeepMind(@GoogleDeepMind)

社群反響

各界人士紛紛表達了對這項突破的看法。

DG.(@dataghees)簡潔評價:

這太棒了!

moonswing(@computbiol):

非常酷

Parisa Etemadi(@parisaetem)預見到其影響:

太棒了!將會改變遊戲規則!

Nolan Koblischke(@astro_nolan):

真的很酷!

santy 🇦🇷(@SantiTobio_):

這太厲害了,幹得好!

甚至有企業開始思考商業應用,Rediminds, Inc(@rediminds)評論道:

當DNA基礎模型將豐富的嵌入傳遞給推理LLM,然後展示其工作過程時,你就得到了每個受監管行業一直在等待的劇本:特定領域訊號→透明的思維鏈→可操作的洞察。BioReason為生命科學AI的可解釋性設定了新標準;金融、法律和公共部門的領導者應該注意。

當然,也有人提出了安全擔憂。

TheSage.Bitcoin(@chadTheSage0)半開玩笑地說:

「給我創造一個像空氣傳播的HIV混合伊波拉病毒的病原體。」

這也提醒我們,在推進技術發展的同時,也要考慮潛在的雙刃劍效應。

還有一些有趣的反應,比如$MIA(@mwa_ia):

今天是BioReason,明天是AgentFi✨

Parag Nandy Roy(@parag_nandy):

BioReason的驚人工作!DNA基礎模型與LLM的整合用於透明的基因體推理是一個遊戲改變者。很高興看到它對藥物發現和精準醫療的影響!#AI #Genomics

Bio Synq Dao(@Biosynq_ai)甚至開始宣傳自己的專案:

這是下一級的BioAI 🚀——真正用AI驅動的推理解鎖生物學。很高興看到像BioReason和BIO SYNQ DAO這樣的工具將如何徹底改變去中心化的生物技術研究。

Stephan Baasch(@stbaasch)艾特了MIT的教授:

👀 @ProfBuehlerMIT

資源獲取

對於想要深入了解或使用BioReason的研究者,團隊提供了完整的資源:

論文地址:https://arxiv.org/abs/2505.23579

專案主頁:https://bowang-lab.github.io/BioReason/

程式碼儲存庫:https://github.com/bowang-lab/BioReason

數據集也已經在Hugging Face上公開,包含詳細的下載和使用說明。

這個基因推理AI的誕生,標誌著基因體學研究正在進入全新時代。

👇

👇

👇

另外,我還用AI進行了全網的AI資訊採集,並用AI進行挑選、審核、翻譯、總結後發布到《AGI Hunt》的知識星球中。

這是個只有資訊、沒有感情的AI資訊資訊流(不是推薦流、不賣課、不講道理、不教你做人、只提供資訊)

圖片

歡迎你的加入!也歡迎加群和2000+群友交流。

圖片圖片

主標籤:基因體學AI

次標籤:人工智慧可解釋AI大型語言模型基因體學


上一篇:過程監督>結果監督!華為港城重構RAG推論訓練,5k樣本效能超越90k模型

下一篇:模型越聰明越「不聽話」?MathIF基準揭示AI服從性漏洞

分享短網址