谷歌開源 DeepPolisher,基因組組裝錯誤率減半,Jeff Dean:令人振奮!

圖片

編輯丨coisini

精確的基因組組裝(Genome assembly)是生物學研究的基石,但即便最高品質的組裝仍會殘留建構技術導致的錯誤。人類基因組包含 30 億個核苷酸,即使微小的錯誤率也會導致錯誤總量驚人,進而削弱基因組數據的應用價值。

鹼基層面的錯誤通常需要透過額外的拋光(polishing)步驟來修正——該步驟利用與初版組裝比對後的測序讀段來識別必要的編輯。然而,現有方法難以在過度拋光與拋光不足之間取得平衡。

為此,Google 聯合加州大學聖塔克魯茲分校基因體學研究所等機構開發了一款新型深度學習工具——DeepPolisher,旨在透過精準修正鹼基級錯誤顯著提升基因組組裝精度。

圖片

論文連結:https://genome.cshlp.org/content/35/7/1595

開源連結:https://github.com/google/deeppolisher

DeepPolisher 近期在完善人類泛基因體參考圖譜中發揮了關鍵作用。Google 首席科學家 Jeff Dean 稱讚道:「(DeepPolisher)在基因組組裝精度方面取得了令人振奮的進步!」

圖片

DeepPolisher 的創新突破

圖片

DeepPolisher 是一個基於 Transformer 架構的純編碼器模型,利用 PacBio HiFi 讀段與二倍體組裝的比對結果來預測底層序列的修正方案。

DeepPolisher 創新性地引入了「同型合子區域讀段定相法(PHARAOH)」,透過 ONT 超長讀段數據確保比對相位準確性,並能在錯誤同型合子區域正確引入異型合子修正。

DeepPolisher 的訓練數據來自個人基因體計畫(Personal Genomes Project)捐贈的人類細胞系基因組。該參考基因組經過美國國家標準暨技術研究院(NIST)和美國國家人類基因體研究所(NHGRI)的全面鑑定,並採用多種定序技術驗證,預計完整度達 100%,準確率達 99.99999%。

研究團隊使用人類 1-19 號染色體進行訓練,21、22 號染色體用於模型篩選,20 號染色體用於最終精度驗證。

模型輸入包含四大維度:鹼基資訊、測序儀報告的品質分數、讀段定位品質、錯配鹼基註釋。DeepPolisher 能分類識別組裝錯誤並提出修正方案,最終實現基因組組裝的精準校正。

性能表現

DeepPolisher 能將基因組組裝錯誤減少約 50%,其中「插入 - 缺失錯誤(InDel)」的改善尤為顯著,降幅超過 70%。

插入 - 缺失錯誤的修正至關重要,因為鹼基的插入或缺失會導致「移碼突變 (frame shift mutation)」,致使基因組註釋程式漏標相關基因,從而影響臨床分析或藥物研發中的檢測報告。

為了評估 DeepPolisher 的優化效果,研究團隊已將其應用於人類泛基因體參考聯盟(HPRC)新數據發布的 180 個組裝樣本,透過交叉驗證不同測序技術對同一樣本的檢測結果,成功識別出組裝序列中的異常核苷酸組合,使基因組主要區域的預測品質值(QV)從平均 Q66.7 提升至 Q70.1,平均提升 3.4(相當於錯誤率降低 54%),並且所有評估樣本均展現出顯著改進。

圖片

DeepPolisher 現已投入實際應用。今年 5 月,HPRC 宣布的第二批數據經 DeepPolisher 處理,單核苷酸錯誤和插入 - 缺失錯誤率降低至原有水平的 50%,最終實現每五十萬組裝鹼基中錯誤少於一個的極低誤差率。

Google 表示將DeepPolisher作為開源工具發布,是為了讓其更廣泛地服務於科研社群。DeepPolisher 將持續為科學界優化基因體學資源。

參考連結:https://research.google/blog/highly-accurate-genome-polishing-with-deeppolisher-enhancing-the-foundation-of-genomic-research/

主標籤:基因體學

次標籤:深度學習基因體人工智慧生物資訊學基因組組裝


上一篇:AI 修復錯誤新 SOTA:SWE-Bench Lite 修正率達 60.33%,能像人一樣累積經驗,中科院軟體所出品

下一篇:大型語言模型的黑化開關!Anthropic團隊新作:大型語言模型的人格變數,人類終於找到了!提出人格漂移工具鏈,破解讓模型失控的黑箱

分享短網址