OpenAIが医療分野のオープンソースベンチマークHealthBenchを発表:医療ヘルスケア領域におけるAIシステムの能力をより良く測定することを目的とした新しいベンチマーク
HealthBenchは、60カ国で診療を行う262名の医師の協力により構築され、5,000件の実際の健康に関する対話を含んでいます。従来の狭いベンチマークとは異なり、HealthBenchは48,562個のユニークな医師が作成した採点基準を通じて、緊急時やグローバルヘルスなどの複数の健康コンテキストや、正確性、指示順守、コミュニケーションなどの行動側面を網羅した有意義な自由回答式の評価を実施します
ブログ:
https://openai.com/index/healthbench/
論文:
https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
コード:
https://github.com/openai/simple-evals
OpenAI自社モデルの評価結果は以下の通り:
o3が総合的に最高のパフォーマンスを示し、60%以上のスコアを獲得しました
今回の評価では、「最悪の場合のパフォーマンス」に特に焦点が当てられました。HealthBenchの16のサンプルテストで、o3モデルがこれらの「最悪のケース」に対応して獲得したスコアは、GPT-4oの2倍以上でした。これは、o3が極端または複雑な状況でのパフォーマンスがより堅牢で、最終的なセーフティネットとして機能できることを示しています
HealthBenchファミリーには、さらに2つの「難問」が導入されました:
HealthBench Hard:その名の通り、難易度は非常に高いです。現時点で最も優れたo3モデルでも、これに対しては32%のスコアしか獲得できませんでした
HealthBench Consensus:このベンチマークの特徴は、専門医による検証を受けていることです。モデルのスコアが高低が、実際の臨床医の判断レベルを反映していることを保証します
HealthBenchの評価は信頼できますか?データが語ります!
このHealthBenchの採点が、実際のレベルを表すことができるのでしょうか?
公式も答えを出しました。HealthBench Consensusで、モデルによる自動採点結果と実際の医師による採点結果を比較しました。合計7つの評価領域のうち、6つの領域で、モデルの採点結果が中央値レベルの医師の判断と高度に一致していることがわかりました
AI vs 医師:どちらが強い?
HealthBenchでは、もう一つ興味深い実験を行いました:人間の医師にこれらの質問に答えてもらうことです。
AI補助なし vs AI:
AIの参照なしの場合、専門医が書いた回答でさえHealthBenchでのスコアは比較的低く(スコア0.13)、AIモデルには遠く及びませんでした。もちろん、これは医師がこの評価形式に慣れていないことや、回答が簡潔すぎることに起因する可能性があります
AI補助あり:
医師に2024年9月レベルのモデル(GPT-40/o1-preview)の回答を参考として提供した場合、医師はその回答を修正・改善することができました(スコアは0.28から0.31に向上)、特に網羅性と正確性において
しかし、医師に2025年4月レベルのモデル(GPT-4.1/o3)の回答を提供した場合、医師はそれをほとんど改善できませんでした(スコアはどちらも約0.49で、医師が修正した後でも一部の側面でわずかに低下しました)
最先端のAIモデルは、これらのタスクを処理する能力が非常に高いレベルに達しており、補助なしの人間の専門家さえ凌駕しています。そして最新のモデルの場合、専門家でさえ「錦上添え」をすることは非常に困難です
以下はHealthBench論文の詳細な解説です:
ご存知の通り、AI、特に大規模言語モデル(LLM)は医療分野で巨大な可能性を秘めており、診断支援から健康相談まで、想像の余地は無限です。しかし、医療は人命にかかわる分野であり、モデルにわずかな誤りがあれば、取り返しのつかない結果を招く可能性があります
問題はこうです:どのモデルがより信頼できるか、どうすればわかるのでしょうか?
既存の評価方法は、多くの点で不足しており、主に3つの問題点があります:
「有意義」でない (Meaningful):多くの評価ではまだ選択問題や穴埋め問題が使われており、医師と患者の実際の対話のような自由回答式で動的なシナリオとはかけ離れています。スコアが高いからといって、実際の問題を解決できるわけではありません
「信頼性」が低い (Trustworthy):多くの評価には、専門医の判断による「ゴールドスタンダード」が欠けています。モデルが自身を良いと言っても、医師が認めますか?
「挑戦的」でない (Unsaturated):古いベンチマークの中には、最先端のモデルがすでに「満点」を取ってしまい、優劣を区別できず、モデルの継続的な進歩を促すことができません
HealthBench:より現実的、より専門的、より区別可能に
これらの問題点を解決するため、OpenAIは世界の60カ国、26の専門分野から262名の医師と協力し、11ヶ月をかけてHealthBenchを丹念に構築しました
何が違うのでしょうか?
実際のシナリオ対話: 5000件の実際の、複数ラウンドの医師-患者または医師-医師間の対話シナリオを含んでいます。単純な質疑応答ではなく、実際のインタラクションをシミュレートしています
医師がカスタマイズした「採点基準」: 各対話には、医師が特別に作成した、非常に詳細な「採点規則」(Rubric)があります。合計で48,562項目のユニークな採点基準を含んでいます!これらの基準は非常に具体的で、「特定の重要な副作用に言及したか」、「コミュニケーションは明確で理解しやすかったか」、「ユーザーの特別な状況に気づいたか」などがあり、加点項目と減点項目(-10点から+10点)があります
スマート+専門家検証済みの採点: 検証済みモデル(GPT-4.1)を「採点者」として使用し、医師が書いた採点規則と照らし合わせて、モデルの回答を採点します。これにより大規模評価の実行可能性が保証され、同時に医師の採点との比較検証を通じて信頼性も確認されています(詳細は後述)
広範かつ深くカバー:
7つのテーマ (Themes):救急トリアージ、グローバルヘルス、不確実性への対応、専門的なコミュニケーション、文脈理解、医療データタスク、回答の深さなど、主要な医療インタラクションシナリオをカバー
5つの行動側面 (Axes):正確性 (Accuracy)、網羅性 (Completeness)、コミュニケーション品質 (Communication quality)、文脈認識 (Context awareness)、指示順守 (Instruction following) の5つの観点からモデルの行動を包括的に評価
簡単に言うと、HealthBenchは、実際の医療ニーズにより近い「模擬試験」を用いて、AIモデルの「医術」と「医徳」を検証しようとしています
HealthBench上のモデルパフォーマンス:急速な進歩、しかし課題は残る
OpenAIはHealthBenchで自社および他社の一連のモデルを評価し、興味深い結果が得られました:
1.モデルの進歩が非常に速い:
GPT-3.5 Turboの16%のスコアから、GPT-40の32%、そして最新のo3モデルの60%まで!特に近年の進歩速度は非常に顕著です
パフォーマンスとコストのフロンティアを見ると、新しいモデル(o3、o4-mini、GPT-4.1など)は、性能が向上しているだけでなく、異なるコストレベルでも新しい基準を定義しています
特に目を引くのは小規模モデルの台頭です:GPT-4.1 nanoの性能は、2024年8月にリリースされたGPT-40を凌駕しており、しかも価格は25倍も安いです!これは、高性能なAI医療支援が将来より普及する可能性を意味します
2.長所と弱点が共存:
モデルは「救急トリアージ」や「専門的なコミュニケーション」といったテーマで一般的に高得点を得ています
しかし、「文脈情報の取得」(Context seeking)、「医療データタスク」の処理、および「グローバルヘルス」のシナリオでは、相対的にパフォーマンスが遅れています。これは、モデルが情報不足の場合に積極的に質問したり、構造化データを処理したり、異なる地域医療環境に適応したりする能力に大きな改善の余地があることを示しています
行動側面から見ると、「網羅性」(Completeness)と「文脈認識」は一般的な失点ポイントであり、正確性は比較的良好です。
3.信頼性は向上しているが、「万全」にはまだ遠い:
医療シナリオでは平均点だけを見ることはできません。一度の「転倒」が深刻な結果を招く可能性があります。HealthBenchでは、「最悪の場合のパフォーマンス」(worst-at-k)評価を導入しています
結果は、新しいモデル(o3など)の信頼性が古いモデル(GPT-40など)の2倍以上に向上していることを示しています
しかし、最高のo3モデルでさえ、16回の繰り返しテストの最悪の場合、スコアは60%から約40%に低下します。これは、一部の難問においてモデルのパフォーマンスが依然として不安定であり、継続的な改善が必要であることを示しています
4.モデルが強くなったのは、「おしゃべり」だからだけではない:
モデルのスコアが高いのは、単に回答が長く、網羅的に見えるからではないかと心配する人もいます。HealthBenchでは比較を行いました
結果は、新しいモデルのスコアが高いのは、確かに回答がより詳細で周到である部分もありますが、それ以上にモデル自身の能力向上によるものであることを示しています。回答の長さを近く制御しても、強力なモデルの優位性は明らかです。
2つの特別版:主要な問題と将来の課題に焦点を当てる
HealthBenchでは、さらに2つの特別版をリリースしました:
HealthBench Consensus (コンセンサス版): 複数の医師が極めて重要であると一致し、合意に達した34の主要な採点基準のみを含んでいます(例えば、緊急時に直ちに医療機関を受診することを明確に推奨しているかなど)。この部分のエラー率は非常に低く、モデルの「最低限の安全性」に焦点を当てています。データによると、この側面のエラー率はGPT-3.5時代から4倍以上に大幅に減少していますが、「文脈の取得」や「不確実性の処理」などの側面にはまだ改善の余地があります
HealthBench Hard (困難版): 現在最も強力なモデルにとっても非常に挑戦的な1000個の難問を厳選しています。現時点で最も強力なo3モデルのスコアはわずか32%であり、次世代モデルのブレークスルーのための余地を残しており、「攻撃目標」と言えます
採点モデルは信頼できますか?メタ評価が教えてくれます
モデルにモデルを採点させる場合、この「審判」自身は公正なのでしょうか?HealthBenchでは、これに対して「メタ評価」(Meta-evaluation)を実施し、特にHealthBench Consensusの基準に焦点を当てました
モデル採点者(GPT-4.1)の採点結果と複数の医師の採点結果の一致性(Macro F1スコアで測定)を比較しました
結果は次の通りです:
GPT-4.1採点者のパフォーマンスは、7つのテーマのうち5つで医師の平均レベルを上回りました
すべてのテーマにおいて、そのパフォーマンスは医師グループの中上位レベル(51.5%から88.2%の医師を上回る)でした
全体の採点の変動性は非常に小さく(標準偏差約0.002)、結果が安定していることを示しています
結論:慎重に選択および調整されたモデル採点者は、その採点能力と一致性が人間の専門家に匹敵し、信頼性があります
最後に
もちろんHealthBenchにも限界はあります。例えば、医師間で意見の相違が存在することや、採点規則がすべてのケースを100%完璧にカバーできるわけではないことです。
詳細については:
HealthBenchのデータとコードはGitHubでオープンソース化されています:
https://github.com/openai/simple-evals