2天完成人類12年工作，AI自動更新文獻回顧，準確率碾壓人類近15%

鷺羽發自凹非寺量子位 | 公眾號 QbitAI

當碳基生物還在為寫文獻回顧，打開了一百個瀏覽器視窗時，旁邊的AI都已經開始內捲了。(doge)

兩天完成人類12年工作——

醫學研究領域中，系統性回顧(SRs)作為臨床決策的黃金標準，平均耗費時間超過16個月，花費超過十萬美元，且容易延長無效或有害治療方法的使用。

於是多倫多大學、哈佛醫學院等機構共同開發了AI端到端工作流程——otto-SR。

結合GPT-4.1和o3-mini進行篩選和資料擷取，僅花費兩天時間就完成了傳統方法需要12年才能完成的Cochrane系統性回顧更新。

在多項指標上更是超越人類，基準測試中otto-SR敏感度達96.7%(人類81.7%)，特異度93.9%，資料擷取準確率93.1%(人類79.7%)，更發現了人類遺漏的54篇關鍵研究。

所以那些年在PubMed上熬的夜、掉的頭髮，又算什麼呢……

擦乾眼淚，下面一起來看具體實現過程。

用於系統性回顧自動化的智慧工作流程

團隊引入了一種基於LLM的端到端工作流程otto-SR，支援從初始檢索到資料分析，完全自動化與人機協作的系統性回顧流程。

otto-SR首先會收集從原始檢索中識別的RIS格式的引用文獻，GPT-4.1隨即將作為獨立審閱員進行篩選。

篩選出的文章集合將輸入o3-mini-high模型進行資料擷取，其中PDF格式將由Gemini 2.0 flash處理並轉換為結構化Markdown檔案，並用於下游任務。

具體而言，可以細分為篩選和擷取兩種功能：

SR文獻篩選

研究團隊開發了一種篩選代理 (Agent)，利用擅長指令遵循的GPT-4.1模型，並結合優化的提示策略，可以在摘要和全文階段對文獻進行篩選。

另外，該代理會將各回顧的初始目標和合格標準納入補充說明。

研究在五項回顧的完整原始檢索(總計32357條引文)中，進行otto-SR篩選效能評估。

回顧涵蓋牛津循證醫學中心(CEBM)的四種問題類型(患病率、診斷試驗準確性、預後、干預效益)，並橫向比較兩人人類審閱員(目前標準工作流程)和Elicit(基於LLM的商業系統性回顧自動化軟體)的評估結果。

在摘要篩選階段，otto-SR實現了最高的敏感性96.6%，在特異性上以93.9%和人類審閱的95.7%相當。

在全文篩選階段，otto-SR也同樣保持了最高的敏感性96.2%，而人類審閱員的敏感性顯著下降至63.3%，特異性則兩者都保持較高水平。

因此研究發現，otto-SR可以比傳統的兩人人工篩選，在捕獲更多的相關研究時，還能維持足夠的特異性。

SR資料擷取

研究團隊選擇OpenAI o3mini-high模型作為擷取代理 (Agent)，因為其強大的科學推理能力、穩健的長上下文檢索能力和成本效益，其中Prompt皆採用原作者定義的變數描述。

研究在七項回顧495項研究中比較otto-SR和Elicit的資料擷取效能，再讓兩人人類審閱員在每項回顧的隨機抽樣文獻子集中進行評估。

結果發現，otto-SR的平均加權準確率可達93.1%，遠高於兩人人類審閱員的79.7%和Elicit的74.8%。

此外，為了解決部分情況下，otto-SR的擷取值與原回顧作者存在差異，團隊引入盲法審閱員小組進行決策，其中在69.3%的案例中選擇支持otto-SR。

相比之下，盲法審閱員小組只在28.1%的案例中支持兩人人類擷取員，在22.4%的案例中支持Elicit。

這進一步體現了otto-SR在資料擷取效能上的優越性，顯著高於其他方法。

可快速重現及更新回顧

為了評估otto-SR的實際適用性，團隊對Cochrane資料庫2024年4月期的SRs進行完整重現，而這些系統性回顧通常用於為臨床指南提供資訊。

將檢索更新至2025年5月8日，針對可用的12篇回顧，共識別出146276條引文，然後經過去重處理後，交由otto-SR根據原標準進行篩選。

再將結果過濾至與原始檢索截止日期一致，otto-SR共確定了54項被遺漏的合格研究(中位數2，IQR：每項回顧1至6.25)，另外經過人工審閱後，發現otto-SR錯誤納入了10篇偽陽性文章，其中九篇都可能包含相關資料。

而將日期擴展回2025年5月8日，則多出14項合格研究(總計n=64，中位數2.5，IQR 每項回顧1至7.25)，包含另外2篇偽陽性文章，其中1篇包含相關資料。

以上工作將符合條件的文章數量翻了一倍，並讓研究人員需要12個工作年才能完成的工作，縮短至48小時內。

將擷取資料與原回顧進行統合分析，涉及三個比較組：

1. 匹配組otto-SR與原Cochrane分析中包含的相同文章集。

2. 擴展組包括otto-SR識別的所有合格研究，過濾至原始檢索截止日期。

3. 更新組評估所有文章，檢索截止日期更新為2025年5月8日。

另外考慮到可能存在的資料擷取任務，還引入兩人人工審查為每個組得出校正值，即移除偽陽性文章和添加偽陰性文章。

在匹配組中，otto-SR生成的統合分析效應估計值，與原Cochrane資料和校正資料集的95%信賴區間重疊。

在擴展分析中，則發現有兩篇回顧產生了新的統計學意義，也存在一篇回顧失去了意義。

例如在營養領域回顧中，otto-SR識別出5項額外研究，並發現了一個有趣的事實：胃部手術前進行術前免疫增強，可能會將平均住院時間縮短一天。

otto-SR的出現，將會極大地緩解系統性回顧緩慢而費力的過程，在未來，可能將會從需要數月甚至數年才能完成的工作縮減至幾個小時或幾分鐘，從而可以更快地對新療法或大流行病做出反應。

另外，一些因為資金不足而缺乏進行系統性回顧的地區，也能夠享受到前瞻性醫學，正如作者在文章末尾寫道：

簡言之，黃金標準已不再屬於人類。In short, the gold standard is no longer human.

2天完成人類12年工作，AI自動更新文獻回顧，準確率碾壓人類近15%

用於系統性回顧自動化的智慧工作流程

SR文獻篩選

SR資料擷取

可快速重現及更新回顧

分享短網址