初のゲノム推論AIが登場!精度97%に急上昇、ゲノム研究を根本的に変革

ゲノム学の「ブラックボックス」がついにこじ開けられました!

画像

トロント大学、ベクター研究所などのトップ機関の研究チームが、ゲノムの推論が可能な世界初のAIモデルであるBioReasonをリリースしました。

画像

これは単なる予測ではなく、真の生物学的推論です—

経験豊富なゲノム学の専門家のように、遺伝子変異がどのように病気を引き起こすかを段階的に説明できます。

最も刺激的なのは、BioReasonが精度を88%から97%に直接急上昇させたことです!

DNAと大規模言語モデルの革命的な融合

BioReasonの核となる革新は、DNA基盤モデル(Evo2)と大規模言語モデル(Qwen3)の初の深い融合にあります。

画像

融合の技術原理を簡単に言えば、次のようになります:

DNAシーケンス → 埋め込みベクトル → マルチモーダルLLM入力

具体的には、DNA基盤モデルEvo2はまず入力された遺伝子シーケンスを文脈化された埋め込み表現に変換し、これらの埋め込みベクトルがDNAシーケンスの生物学的特徴を捉えます。

その後、これらのDNA埋め込みは、ユーザーのテキストクエリ埋め込みと共に、特殊なトークン(例:<dna_start>や<dna_end>)を介して大規模言語モデルの入力層に統合されます。

トレーニング方法には、教師ありファインチューニング(SFT)とGRPO強化学習を組み合わせた2段階戦略が採用されています。

この方法により、モデルは予測を学ぶだけでなく、より重要なことに、多段階の生物学的推論を実行する方法を学びました。

Adibvafa Fallahpour(@adibvafa)は次のように説明しています:

BioReasonは、生物学的推論のためにDNA基盤モデル(Evo2)とLLM(Qwen3)を統合しています。DNAシーケンス → 埋め込み → マルチモーダルLLM入力。教師ありファインチューニング + GRPO強化学習を通じて訓練されます。

圧倒的な性能向上を支える秘密

BioReasonは、複数のベンチマークで驚くべき性能を発揮しました:

画像

具体的なデータは印象的です:

• 疾患経路予測精度:88%から97%に向上

• 変異効果予測精度:80-88%に達する

• DNA単一モダリティモデルまたはLLM単一モダリティモデルと比較して:平均性能が15%以上向上

これらのテストは、ClinVarおよびKEGG経路から得られた87,000以上の実際のゲノム変異に基づいており、結果の信頼性と実用性を保証しています。

透明な推論:「ブラックボックス」ではないAI

BioReasonの最大のブレークスルーは、その説明可能性にあります。

画像

従来のDNA解析モデルはブラックボックスのようでした—シーケンスを入力すると予測が出力されるだけで、中間プロセスは完全に不透明でした。しかし、BioReasonはゲノム変異が分子経路を介してどのように病気を引き起こすかを段階的に説明できます。

Adibvafaは強調します:

何がこれを特別にしているのか?段階的な生物学的推論です!BioReasonは単なる予測ではありません—ゲノム変異が分子経路を介してどのように病気を引き起こすかを説明します。「ブラックボックス」ゲノムAIはもうありません。

具体的な例を挙げると、染色体17上のPFN1遺伝子のある対立遺伝子変異について、「Actin(単量体) // PFN1* // Actin(線状)」という経路の背景が与えられた場合、BioReasonは筋萎縮性側索硬化症(ALS)を引き起こすと正しく予測しただけでなく、さらに重要なことに、10段階のメカニズム説明を生成しました:

1. PFN1遺伝子における特定のC>G置換を特定

2. プロフィリン-1タンパク質の機能不全に連結

3. アクチン動態の損傷が細胞骨格の完全性にどのように影響するかを説明

4. 運動ニューロン軸索輸送のその後の破壊を詳述

5. 最終的にALSの特徴的な運動ニューロン変性を引き起こす

この透明な推論プロセスにより、科学者はAIの判断を検証でき、新たな科学的発見のヒントも得られます。

綿密に構築された3つの主要データセット

研究チームは、この目的のために3つの専門的な生物学的推論データセットを構築しました:

画像

1. KEGG由来の生物学的推論データセット(1,449エントリ):遺伝子変異と疾患表現型の間のメカニズム的関連を明確にし、37種類のユニークな疾患を含む

2. コーディング配列の変異効果予測データセット(50,083エントリ):病原性/良性の分類に焦点を当てる

3. 非SNVコーディングデータセット(36,088エントリ):挿入、欠失などのより複雑な変異タイプをカバー

Adibvafaは紹介しています:

私たちは3つの生物学的推論データセットをキュレーションしました:推論軌跡を持つKEGG経路変異が1,449個。ClinVar/gnomADからのコーディング配列変異が50K以上。疾患アノテーション付きの非SNV変異が36K以上。それぞれが多段階のゲノム推論能力をテストするように設計されています。

技術実装の重要な詳細

Andrew White 🐦‍⬛(@andrewwhite01)は興味深い詳細に気づきました:

つまりRLはSFT単独よりも実際には悪いということ?

画像

Adibvafa (@adibvafa)は次のように答えています:

比較は難しいです。同じモデルでのRLはわずかに性能を向上させましたが、公平な比較のために、より大きなモデルでRLを実行中です。ご期待ください!

同じモデルでの強化学習はわずかな改善しかもたらしませんでしたが、チームはより大規模なモデルでRL実験を行っており、より公平な比較結果が期待されています。

学界の反響と議論

Anshul Kundaje(@anshulkundaje)は、革新性を肯定しつつも建設的な意見を述べました:

非常に創造的なフレームワークであり、大きな可能性があります。しかし、自身のモデルのアブレーション研究のみと比較する場合、「ベンチマークを圧倒する」という主張は避けるべきかもしれません。コード化された変異効果の優先順位付けに使用されている現在のSOTA方法にもベンチマークを拡張してください。

Adibvafaも積極的に応じました:

もちろん、私たちは積極的に、より多くのDNA基盤モデルと変異効果予測のSOTAモデルを追加するよう取り組んでいます。この評価における課題の一つは、これらのモデル間のトレーニングデータセットの違いであり、これにより比較の信頼性が低下します。そのため、Evo2をSOTA VEPモデルとして使用しましたが、より良い比較のために、私たちのタスクで他のモデルを実行することに全く問題ありません。

異なるモデル間のトレーニングデータセットの違いが比較を複雑にしているため、チームはEvo2をSOTA VEPモデルとして選択しました。

オープンソースコミュニティの熱い反応

Hugging FaceのCEO clem 🤗(@ClementDelangue)は強い関心を示しました:

非常に素晴らしい!HFでスペースやモデルをリリースすることを検討する機会はありますか?

Adibvafaは次のように答えました:

実際に取り組んでいます。DNA-LLMはカスタムトークナイザーを備えたカスタムクラスなので!すぐにPRを開き、一緒に完成できることを願っています。

Clémentine Fourrier 🍊(@clefourrier)も議論に参加しました:

@cgeorgiawが私たちの科学MLイニシアチブをすべて担当しています。もし助けが必要なら:)

BioReasonはまもなくHugging Faceプラットフォームに登場する予定であり、これにより研究コミュニティでの利用が大幅に容易になるでしょう。

応用展望

Ha Hoang(@HaHoang411)は素晴らしい類推を提案しました:

これは面白いですね。私の理解では、現在のVLMに似ていますか?視覚的な投影ではなく、EVO2から生物学を投影していると?

この理解は非常に正確です—

視覚言語モデル(VLM)が画像を処理するのと同様に、BioReasonはDNAシーケンスを処理しますが、視覚情報ではなく生物学的情報を投影します。

Oboe(@oboelabs)は重要な応用を指摘しました:

BioReasonの潜在的な用途の一つは、個々のゲノムプロファイルを分析することで、個別化がん治療を支援し、治療結果を予測することです。

Adibvafaは確認しました:

BioReasonの汎用学習フレームワークは、良いデータがあれば、いかなる言語-DNA理解も学習することを可能にします!

これは、BioReasonのフレームワークが非常に汎用性が高く、良いデータがあれば、どんな言語-DNA理解タスクでも学習できることを示しています。

変異解析から新薬発見への広大な展望

このブレークスルーの意義は、学術研究にとどまりません。

Adibvafaは次のように結論付けています:

これにより、ゲノムAIを解釈可能かつ実行可能にすることで、生物学的発見を変革できます。変異解析から新薬発見まで—透明な推論が未来です!もちろん、私たちはまだ始まったばかりです。

研究チームの機関横断的な協力も注目に値します。Adibvafaはチーム全体に感謝の意を表しました:

🙏 私たちの素晴らしいチームに感謝します:Adibvafa Fallahpour(@adibvafa)、Andrew Magnuson(@ajwmagnuson)、Purav Gupta、Shihao Ma、Jack Naimer、Arnav Shah(@arnavshah0)、Haonan Duan、Omar Ibrahim、Hani Goodarzi(@genophoria)、Chris J. Maddison(@cjmaddison)

📷 機関横断的な協力:トロント大学(@UofT)、ベクター研究所(@VectorInst)、大学健康ネットワーク(@UHN)、アーク研究所(@arcinstitute)、Cohere(@cohere)、Google DeepMind(@GoogleDeepMind)

コミュニティの反響

各界の人々がこのブレークスルーについて見解を表明しました。

DG.(@dataghees)は簡潔に評価しました:

これは素晴らしい!

moonswing(@computbiol):

とてもクール

Parisa Etemadi(@parisaetem)はその影響を予見しました:

素晴らしい!ゲームチェンジャーになるでしょう!

Nolan Koblischke(@astro_nolan):

本当にクール!

santy 🇦🇷(@SantiTobio_):

これはすごい、よくやった!

企業でさえ商業的応用を考え始めています。Rediminds, Inc(@rediminds)は次のようにコメントしました:

DNA基盤モデルが豊富な埋め込みを推論LLMに渡し、その作業プロセスを示すとき、規制対象のすべての業界が待ち望んでいた「手順書」が手に入ります。つまり、特定の領域のシグナル→透明な思考の連鎖→実行可能な洞察です。BioReasonは生命科学AIの説明可能性において新たな基準を設定しました。金融、法務、公共部門のリーダーは注目すべきです。

もちろん、安全上の懸念を提起する人もいました。

TheSage.Bitcoin(@chadTheSage0)は冗談めかして言いました:

「空気感染するHIVとエボラウイルスのハイブリッド病原体を作ってくれ。」

これはまた、技術開発を進める一方で、潜在的な両刃の剣効果も考慮しなければならないことを思い出させます。

他にも面白い反応がありました。例えば、$MIA(@mwa_ia):

今日はBioReason、明日はAgentFi✨

Parag Nandy Roy(@parag_nandy):

BioReasonの素晴らしい成果!DNA基盤モデルとLLMの統合による透明なゲノム推論は、ゲームチェンジャーです。新薬発見と精密医療への影響を見るのが楽しみです!#AI #Genomics

Bio Synq Dao(@Biosynq_ai)は自社のプロジェクトを宣伝し始めました:

これは次世代のBioAI 🚀 — AI駆動の推論で生物学を真に解き放つものです。BioReasonやBIO SYNQ DAOのようなツールが分散型バイオテクノロジー研究をどのように根本的に変えるかを見るのが楽しみです。

Stephan Baasch(@stbaasch)はMITの教授をタグ付けしました:

👀 @ProfBuehlerMIT

リソースの入手

BioReasonについて深く理解したり、利用したい研究者のために、チームは完全なリソースを提供しています:

論文アドレス:https://arxiv.org/abs/2505.23579

プロジェクトホームページ:https://bowang-lab.github.io/BioReason/

コードリポジトリ:https://github.com/bowang-lab/BioReason

データセットもHugging Faceで公開されており、詳細なダウンロードと使用方法が記載されています。

このゲノム推論AIの誕生は、ゲノム研究が全く新しい時代に入りつつあることを示しています。

👇

👇

👇

さらに、私はAIを使ってインターネット全体のAIニュースを収集し、AIで選択、レビュー、翻訳、要約したものを「AGI Hunt」の知識プラネットに公開しています。

これは、情報のみで感情のないAIニュースフィードです(推奨フィードではなく、コース販売も、説教も、人生の教訓もありません。情報のみを提供します)。

画像

ご参加をお待ちしております!2000人以上のメンバーとのグループチャットも歓迎です。

画像画像

メインタグ:ゲノムAI

サブタグ:人工知能説明可能なAI大規模言語モデルゲノム科学


前の記事:プロセス監視>結果監視!華為港城がRAG推論トレーニングを再構築、5kサンプルで90kモデルの性能を凌駕

次の記事:モデルが賢くなればなるほど「言うことを聞かなくなる」?MathIFベンチマークがAIの服従性における脆弱性を明らかに

短いURLをシェア