鷺羽 量子位 | 公式アカウント QbitAI
炭素ベースの生物が文献レビューを書くために100個のブラウザウィンドウを開いている間にも、隣のAIはすでに競争を激化させています。(doge)
人類の12年分の仕事を2日で完了——
医療研究分野において、システマティックレビュー(SRs)は臨床意思決定のゴールドスタンダードですが、平均16ヶ月以上かかり、10万ドル以上の費用がかかり、無効または有害な治療法の使用を長引かせることがあります。
そこで、トロント大学やハーバードメディカルスクールなどの機関が共同で、AIのエンドツーエンドワークフロー「otto-SR」を開発しました。
GPT-4.1とo3-miniを組み合わせてスクリーニングとデータ抽出を行うことで、従来の方式では12年かかるとされるコクランシステマティックレビューの更新をわずか2日で完了させました。
さらに複数の指標で人間を凌駕し、ベンチマークテストではotto-SRの感度が96.7%(人間の81.7%)、特異度が93.9%、データ抽出精度が93.1%(人間の79.7%)に達し、人間が見落とした54本の重要な研究も発見しました。
そう、PubMedで夜を徹して、髪の毛を失ったあの年月は一体何だったのか……
涙を拭いて、具体的な実装プロセスを見ていきましょう。
システマティックレビュー自動化のためのインテリジェントなワークフロー
チームは、初期検索からデータ分析まで、完全に自動化された人間とAIの協調によるシステマティックレビュープロセスをサポートする、LLMベースのエンドツーエンドワークフロー「otto-SR」を導入しました。
otto-SRはまず、最初の検索で特定されたRIS形式の引用文献を収集し、GPT-4.1が独立したレビューアとしてスクリーニングを行います。
スクリーニングされた論文群は、データ抽出のためにo3-mini-highモデルに入力され、PDF形式のファイルはGemini 2.0 flashによって処理され、構造化されたMarkdownファイルに変換されて、下流タスクに利用されます。
具体的には、スクリーニングと抽出の2つの機能に細分できます。
SR文献スクリーニング
研究チームは、命令追従に長けたGPT-4.1モデルと最適化されたプロンプト戦略を利用したスクリーニングエージェントを開発し、抄録と全文段階で文献のスクリーニングを行うことができます。
また、このエージェントは各レビューの初期目標と適格基準を補足説明に組み込みます。
研究では、5つのレビューの完全な初期検索(合計32357件の引用)において、otto-SRのスクリーニング性能評価を行いました。
レビューはオックスフォード・エビデンスベース医学センター(CEBM)の4つの問題タイプ(有病率、診断テストの正確性、予後、介入効果)をカバーし、人間による2人レビューア(現在の標準ワークフロー)とElicit(LLMベースの商用システマティックレビュー自動化ソフトウェア)の評価結果と比較しました。
抄録スクリーニング段階では、otto-SRは最高の感度96.6%を達成し、特異度93.9%は人間のレビューの95.7%に匹敵しました。
全文スクリーニング段階でも、otto-SRは最高の感度96.2%を維持しましたが、人間レビューアの感度は63.3%に著しく低下し、特異度は両者ともに高い水準を維持しました。
したがって、otto-SRは、従来の人間による2人スクリーニングよりも、より多くの関連研究を捕捉しながら、十分な特異性を維持できることが研究によって示されました。
SRデータ抽出
研究チームは、OpenAI o3mini-highモデルを抽出エージェントとして選択しました。その理由は、強力な科学的推論能力、堅牢な長文脈検索能力、そして費用対効果が高いからです。プロンプトはすべて、原著者によって定義された変数記述を採用しました。
研究では、7つのレビューの495の研究においてotto-SRとElicitのデータ抽出性能を比較し、その後、人間による2人のレビューアが各レビューのランダムに抽出された文献サブセットで評価を行いました。
結果として、otto-SRの平均加重精度は93.1%に達し、人間による2人レビューアの79.7%およびElicitの74.8%をはるかに上回ることが判明しました。
さらに、otto-SRの抽出値が元のレビュー著者と異なる場合に対処するため、チームは盲検化されたレビュアーパネルを導入して判断を下し、その結果、69.3%のケースでotto-SRを支持しました。
対照的に、盲検化されたレビュアーパネルが人間による2人の抽出者を支持したのはわずか28.1%のケース、Elicitを支持したのは22.4%のケースでした。
これは、otto-SRのデータ抽出性能における優位性をさらに示しており、他の方法よりも著しく優れています。
レビューの迅速な再現と更新
otto-SRの実用性を評価するため、チームはコクランデータベースの2024年4月版SRsの完全な再現を行いました。これらのシステマティックレビューは通常、臨床ガイドラインの情報源として使用されます。
検索を2025年5月8日まで更新し、利用可能な12のレビューを対象に合計146,276件の引用文献が特定され、重複排除処理の後、元の基準に基づいてotto-SRによってスクリーニングされました。
結果を元の検索期限に合わせてフィルタリングすると、otto-SRは54本の見落とされた適格研究を特定しました(中央値2、IQR:各レビューあたり1から6.25)。また、手動レビューの結果、otto-SRが誤って10本の偽陽性記事を含んでいたことが判明し、そのうち9本は関連データを含む可能性がありました。
日付を2025年5月8日に延長すると、さらに14本の適格研究(合計n=64、中央値2.5、IQR 各レビューあたり1から7.25)が増え、さらに2本の偽陽性記事が含まれ、そのうち1本は関連データを含んでいました。
これらの作業により、適格な論文の数が2倍になり、研究者が12労働年を要する作業を48時間以内に短縮することができました。
抽出データを元のレビューとメタアナリシスで比較し、3つの比較グループを設けました。
1. マッチンググループ:otto-SRが元のコクラン分析に含まれるのと同じ論文セット。
2. 拡張グループ:otto-SRが特定したすべての適格研究を含み、元の検索期限までフィルタリングしたもの。
3. 更新グループ:すべての論文を評価し、検索期限を2025年5月8日に更新したもの。
さらに、データ抽出タスクの可能性を考慮し、各グループの修正値を導き出すために、人間による2人レビューを導入しました。これは、偽陽性記事を削除し、偽陰性記事を追加する作業です。
マッチンググループでは、otto-SRが生成したメタアナリシスの効果推定値は、元のコクランデータおよび修正されたデータセットの95%信頼区間と重複していました。
拡張分析では、2つのレビューで新たな統計的有意性が生じ、1つのレビューでは有意性を失ったことが判明しました。
例えば、栄養学分野のレビューでは、otto-SRが5つの追加研究を特定し、興味深い事実を発見しました。それは、胃手術前の術前免疫強化が、平均入院期間を1日短縮する可能性があるというものです。
otto-SRの登場は、システマティックレビューの遅く骨の折れるプロセスを劇的に軽減するでしょう。将来的には、数ヶ月あるいは数年かかっていた作業が数時間、あるいは数分に短縮される可能性があり、これにより新しい治療法やパンデミックへの対応をより迅速に行うことができるようになります。
さらに、資金不足のためにシステマティックレビューを実施できない地域も、最先端医療の恩恵を受けられるようになるでしょう。著者たちは論文の最後に次のように述べています。
要するに、ゴールドスタンダードはもはや人間のものではありません。