編集者丨coisini
正確なゲノムアセンブリは生物学研究の基礎ですが、最高品質のアセンブリであっても、構築技術に起因するエラーが残ることがあります。ヒトゲノムには30億個のヌクレオチドが含まれており、わずかなエラー率でも膨大な総エラー数となり、ゲノムデータの応用価値を損なう可能性があります。
塩基レベルのエラーは通常、追加のポリッシング(polishing)ステップで修正する必要があります。このステップでは、初期のアセンブリにアラインされたシーケンスリードを利用して必要な編集を特定します。しかし、既存の方法では、過剰なポリッシングと不十分なポリッシングの間のバランスを取ることが困難でした。
このため、Googleはカリフォルニア大学サンタクルーズ校ゲノミクス研究所などの機関と共同で、新しい深層学習ツールDeepPolisherを開発しました。これは、塩基レベルのエラーを正確に修正することで、ゲノムアセンブリの精度を大幅に向上させることを目指しています。
論文リンク:https://genome.cshlp.org/content/35/7/1595
オープンソースリンク:https://github.com/google/deeppolisher
DeepPolisherは最近、ヒトパンスーパーゲノム参照マップの完成に重要な役割を果たしました。Googleの主任科学者ジェフ・ディーン氏は、「(DeepPolisherは)ゲノムアセンブリの精度において、感動的な進歩を遂げた!」と称賛しました。
DeepPolisherの画期的なイノベーション
DeepPolisherは、Transformerアーキテクチャに基づく純粋なエンコーダモデルであり、PacBio HiFiリードと二倍体アセンブリのアラインメント結果を利用して、下層のシーケンスの修正案を予測します。
DeepPolisherは、「純粋ホモ接合領域リードフェージング法(PHARAOH)」を革新的に導入しました。これはONT超長リードデータを通じてアラインメントの位相精度を確保し、誤った純粋ホモ接合領域に正確にヘテロ接合性修正を導入することを可能にします。
DeepPolisherのトレーニングデータは、パーソナルゲノムプロジェクトから寄贈されたヒト細胞株ゲノムから得られています。この参照ゲノムは、米国国立標準技術研究所(NIST)と米国国立ヒトゲノム研究所(NHGRI)によって徹底的に鑑定され、多様なシーケンス技術で検証されており、完全性は100%、精度は99.99999%に達すると予想されています。
研究チームは、ヒトの1〜19番染色体をトレーニングに、21番、22番染色体をモデルスクリーニングに、20番染色体を最終的な精度検証に使用しました。
モデル入力は、塩基情報、シーケンサーが報告する品質スコア、リード位置の品質、ミスマッチ塩基の注釈の4つの主要な側面を含みます。DeepPolisherはアセンブリエラーを分類して特定し、修正案を提案することで、最終的にゲノムアセンブリの正確な補正を実現します。
性能評価
DeepPolisherはゲノムアセンブリのエラーを約50%削減し、特に「挿入・欠失エラー(InDel)」の改善が顕著で、70%以上の削減を達成しました。
挿入・欠失エラーの修正は極めて重要です。なぜなら、塩基の挿入または欠失は「フレームシフト変異」を引き起こし、ゲノムアノテーションプログラムが関連遺伝子を見落とすことになり、結果として臨床分析や医薬品開発における検出報告に影響を与える可能性があるからです。
DeepPolisherの最適化効果を評価するため、研究チームはこれをヒトパンスーパーゲノム参照コンソーシアム(HPRC)が新たに発表した180のアセンブリサンプルに適用しました。異なるシーケンス技術を用いた同一サンプルの検出結果を相互検証することで、アセンブリシーケンス内の異常なヌクレオチドの組み合わせを特定することに成功しました。これにより、ゲノム主要領域の予測品質値(QV)が平均Q66.7からQ70.1に向上し、平均3.4の改善(エラー率が54%減少に相当)を達成し、全ての評価サンプルで顕著な改善が見られました。
DeepPolisherは現在、実際に運用されています。今年5月、HPRCが発表した第2弾のデータはDeepPolisherによって処理され、一塩基置換エラーと挿入・欠失エラー率が元のレベルの50%にまで削減され、最終的には50万アセンブル塩基あたり1つ未満という極めて低いエラー率を達成しました。
Googleは、DeepPolisherをオープンソースツールとして公開することで、研究コミュニティにより広く貢献することを目指しています。DeepPolisherは今後も科学界のためにゲノミクスリソースの最適化を継続します。