專業醫師遠不如AI模型?OpenAI推出醫療開源測試基準HealthBench,o3表現最強

OpenAI推出 HealthBench開源基準測試:一項旨在更好地衡量 AI 系統在醫療健康領域能力的全新基準測試

圖片

HealthBench 由 262 位在 60 個國家/地區執業的醫生合作打造 ,包含 5,000 段真實的健康對話,與以前的狹窄基準不同,HealthBench 透過 48,562 個獨特的醫生編寫的評分標準進行有意義的開放式評估,涵蓋多個健康背景(例如,緊急情況、全球健康)和行為維度(例如,準確性、遵循指示、溝通)

圖片

blog:

https://openai.com/index/healthbench/

論文:

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

代碼:

https://github.com/openai/simple-evals

OpenAI自家模型評估表現如下:

o3綜合表現最佳,得分超過60%

圖片

圖片

這次評測就特別關注了“最壞情況下的表現”。結果發現,在HealthBench的16個樣本測試中,o3模型在應對這些‘最差情況’時取得的分數,是GPT-4o的兩倍以上, 這說明o3在極端或複雜情況下的表現更穩健,更能兜底

圖片

HealthBench家族還推出了兩個“硬骨頭”:

HealthBench Hard:顧名思義,難度爆表。目前最頂尖的o3模型,在這上面也只能拿到32%的分數

圖片

HealthBench Consensus:這個基準的特色是經過了專業醫生的驗證。確保模型得分高低,真的能反映臨床醫生的判斷水平

HealthBench評測靠譜嗎?數據說話!

這HealthBench的評分,到底能不能代表真實水平?

官方也給出了答案。他們在HealthBench Consensus上,把模型自動打分結果和真人醫生的評分做了對比。發現在總共7個評估領域中,有6個領域,模型的打分結果和中位數水平醫生的判斷高度一致

圖片

AI vs 醫生:誰更強?

HealthBench還做了一項有意思的實驗:讓人類醫生來回答這些問題。

無AI輔助 vs AI:

在沒有AI參考的情況下,即便是專業醫生寫的回復,在HealthBench上的得分也相對較低(得分0.13),遠不如AI模型。當然,這可能和醫生不習慣這種評測形式、回復偏簡潔有關

有AI輔助:

當給醫生提供2024年9月水平的模型(GPT-40/o1-preview)的回復作為參考時,醫生能在其基礎上進行修改和提升(得分從0.28提升到0.31),尤其在完整性和準確性上

但當給醫生提供2025年4月水平的模型(GPT-4.1/o3)的回復時,醫生幾乎無法在其基礎上做出有效改進(得分都是0.49左右,醫生修改後甚至在某些方面略有下降)

圖片

頂尖AI模型在處理這類任務上的能力已經達到了相當高的水準,甚至超出了無輔助的人類專家,並且對於最新的模型,即使是專家也很難再“錦上添花”

以下是HealthBench論文詳細解讀:

圖片

大家都知道,AI尤其大語言模型(LLM)在醫療領域潛力巨大,從輔助診斷到健康諮詢,想像空間無限。但醫療是人命關天的領域,模型稍有差池,後果不堪設想

問題來了:我們怎麼知道哪個模型更靠譜?

現有的評估方法,很多都差點意思,主要有三大痛點:

不夠“有意義” (Meaningful): 很多評估還在用選擇題、填空題,跟醫生、患者真實交流的開放式、動態場景差太遠。分數高,不代表真能解決實際問題

不夠“可信” (Trustworthy): 很多評估缺乏專業的醫生判斷作為“金標準”。模型說自己好,醫生認嗎?

不夠“有挑戰” (Unsaturated): 有些老舊的基準測試,頂尖模型早就“考滿分”了,區分不出好壞,也無法激勵模型繼續進步

HealthBench:更真實、更專業、更有區分度

為了解決這些痛點,OpenAI聯合了來自全球60個國家、26個專業的262名醫生,耗時11個月,精心打造了HealthBench

它有啥不一樣?

真實場景對話: 包含5000個真實的、多輪的醫患或醫醫對話場景。不再是簡單的問答,而是模擬真實互動

醫生定制“評分標準”: 每個對話都有由醫生專門編寫的、極其細緻的“評分細則”(Rubric)。總共包含了48,562條獨特的評分標準!這些標準非常具體,比如“是否提到了某個關鍵副作用”、“溝通是否清晰易懂”、“是否注意到了用戶的特殊情況”等等,有加分項也有減分項 (-10到+10分)

智能+專家驗證的評分: 使用一個經過驗證的模型(GPT-4.1)作為“評分員”,對照醫生寫的評分細則,給模型的回复打分。這保證了大規模評估的可行性,同時信度也經過了與醫生評分的比對驗證(後面會細說)

覆蓋廣泛且深入:

七大主題 (Themes): 覆蓋了急診分流、全球健康、處理不確定性、專業溝通、上下文理解、醫療數據任務、回復深度等關鍵醫療交互場景

五大行為維度 (Axes): 從準確性 (Accuracy)、完整性 (Completeness)、溝通質量 (Communication quality)、上下文意識 (Context awareness)、指令遵循 (Instruction following) 五個角度全面考察模型行為

簡單說,HealthBench就是想用一套更接近真實世界醫療需求的“模擬考”,來檢驗AI模型的“醫術”和“醫德”

HealthBench上的模型表現:進步神速,但挑戰仍在

OpenAI在HealthBench上評估了一系列自家和別家的模型,結果很有看點:

1.模型進步飛快:

從GPT-3.5 Turbo的16%得分,到GPT-40的32%,再到最新o3模型的60%!進步速度,尤其是近期的提升,非常顯著

看性能-成本前沿 ,新的模型(如o3, o4-mini, GPT-4.1)不僅性能更強,而且在不同成本檔位上都定義了新的標竿

特別亮眼的是小模型的崛起:GPT-4.1 nano的性能居然超過了2024年8月發布的GPT-40,而且便宜了整整25倍!這意味著高性能AI醫療輔助未來可能更加普惠

2.強項與軟肋並存 :

模型在“急診分流”、“專業溝通”這類主題上普遍得分較高

但在需要主動“尋求上下文資訊” (Context seeking)、處理“醫療數據任務”和“全球健康”場景下,表現相對落後。這說明模型在資訊不全時主動追問、處理結構化數據、適應不同地域醫療環境方面,還有很大提升空間

從行為維度看,“完整性” (Completeness) 和“上下文意識”是普遍的失分點,而準確性相對較好。

3.可靠性提升,但離“萬無一失”還遠 :

醫療場景不能只看平均分,一次“翻車”就可能造成嚴重後果。HealthBench引入了“最壞情況下的表現”(worst-at-k)評估

結果顯示,新模型(如o3)的可靠性比老模型(如GPT-40)提升了一倍多

但即使是最好的o3模型,在重複測試16次的最差情況下,得分也會從60%掉到約40%,說明在某些難題上,模型表現仍不穩定,需要持續改進

4.模型變強,不只因為“話癆” :

有人擔心模型分高是不是純靠回復長、顯得全面?HealthBench做了對比

結果顯示,新模型得分高,確實部分因為回復更詳細周到,但更重要的是模型本身能力的提升。即使控制回復長度相近,強模型依然優勢明顯。

兩個特別版:聚焦關鍵問題和未來挑戰

HealthBench還推出了兩個特別版本:

HealthBench Consensus (共識版): 只包含34個被多位醫生一致認為極其重要、且達成共識的關鍵評分標準(比如,在緊急情況下是否清晰建議立即就醫)。這部分錯誤率極低,更聚焦於模型的“底線安全”。數據顯示,模型在這方面的錯誤率已從GPT-3.5時代大幅降低了超過4倍 ,但像“尋求上下文”、“處理不確定性”等方面仍有改進空間

HealthBench Hard (困難版): 精選了1000個對當前最強模型來說也極具挑戰性的難題。目前最強的o3模型在此得分僅為32% ,為下一代模型的突破留足了空間,堪稱“攻堅靶場”

評分模型靠譜嗎?元評估告訴你

用模型給模型打分,這個“裁判”自己公正嗎?HealthBench對此進行了“元評估”(Meta-evaluation),專門針對HealthBench Consensus中的標準進行

他們比較了模型評分員(GPT-4.1)的打分結果和多位醫生的打分結果的一致性(用Macro F1分數衡量)

圖片

結果顯示:

GPT-4.1評分員的表現,在7個主題中的5個超過了醫生的平均水平

在所有主題上,其表現都處於醫生群體中的中上游水平(超過了51.5%到88.2%的醫生)

圖片

整體評分的波動性很小(標準差約0.002),說明結果穩定

結論:精心選擇和調優後的模型評分員,其評分能力和一致性可以媲美人類專家,是可靠的

寫在最後

當然HealthBench也有局限,比如醫生間本身就存在觀點差異,評分細則無法做到對每個案例都100%完美覆蓋。

更多細節:

HealthBench的數據和代碼已經在GitHub上開源:

https://github.com/openai/simple-evals

主標籤:醫療AI

次標籤:OpenAI健康醫療語言模型AI評測


上一篇:利用全球閒置算力訓練模型,性能媲美R1,老黃天塌了!Karpathy曾投資它

下一篇:第四維:時間、空間,還是意識?

分享短網址