ICML 2025 | 「人間テスト法」でAIバブルを突き破る:能力指向型適応的評価の新パラダイムを構築する

画像

大規模モデルの能力が継続的に向上するにつれて、各ベンチマークのスコアを観察するだけでモデルが本当に賢く信頼できるかどうかを判断することは、もはや十分ではないかもしれません。

ご存知でしたか:

  • 大規模モデルが標準テストセット(HELMなど)を完了するのに、4000 GPU時間以上かかり、費用は数万ドルに上る場合があります。

  • 産業界におけるモデル評価では、大量の人間専門家によるアノテーション/評価が必要となることさえあります。

  • 多くのベンチマークの質問品質は、私たちが想像するほど信頼できるものではないかもしれません。

  • モデルの正答率が99%に達しても、私たちは依然として、「それは実力で正解したのか?」「質問が簡単すぎたのか?」「それとも訓練中に元の質問を見たことがあるのか?」という問いに答えるのが難しいと感じます。

従来の「問題集を解く」ような大規模な評価方法は、今日の汎用人工知能、特に認知能力の評価ニーズを満たすことが困難になっています。

最近、ICML 2025会議で、中国科学技術大学認知知能全国重点実験室、カリフォルニア大学バークレー校、米国教育試験サービス(ETS)が共同で発表したポジションペーパーは、20世紀に登場した心理測定学の理論に基づき、AI評価の新しいアプローチを提案しました:人間を評価する方法で、AIモデルの能力を評価する。

画像

論文タイトル:Position: AI Evaluation Should Learn from How We Test Humans

論文リンク:https://arxiv.org/abs/2306.10512

画像

現在のAI評価方法が直面する課題

画像

包括的な評価を追求するため、現在AIモデルはますます巨大な「試験用紙」に直面しています。Google BIG-benchは200以上のタスクを含み、HuggingFace Open LLM Leaderboardは6つのシナリオで29kの質問を網羅しています。

現在の主流のAI評価スキームは、シンプルかつ直接的です:膨大で包括的なテストセットを用意し、モデルが回答した後、正答率などの各種指標で採点します。しかし、この評価パラダイムは実際には多くの問題を抱えています:

  • コスト:特に大規模モデルの場合、評価には大量の計算コスト、人件費、時間コストがかかります。

  • 信頼性:多くの質問に重複や冗長性があり、質問の品質もまちまちです。

  • 安全性:多くのテスト問題がモデルによって「見られた」り「記憶された」りしています。

  • 解釈性:「何問正解したか」は観察できるものの、「どの能力が強いのか」「どれくらい能力が強いのか」はわかりません。

画像

心理測定学からの示唆:適応的テストでAI能力を正確に測定する

人間のGREやTOEFLなどの試験では、以前から心理測定学(Psychometrics)に基づいた適応的テストが採用されています。これらのテストは、各問題の重要性と情報価値が異なると認識しており、各問題の難易度、識別度、推測確率などの統計的特徴を推定できます。また、システムは受験者のパフォーマンスに応じて問題を動的に配布し、より正確に能力を評価します。

言い換えれば、適応的テストが焦点を当てるのは、モデルが何問正解したかではなく、その真の能力境界です。このポジションペーパーは、20世紀に人間向けに登場した心理測定学という評価技術が、今日のAI評価の困難を解決し、能力評価メカニズムを再構築するのに役立つと提案しています。

画像

心理測定学を用いたAI評価の再構築

3.1 能力指向型:AIの真の「能力値」を測定する

画像

従来の評価パラダイムはスコア指向型(score-oriented)ですが、適応的テストは能力指向型(ability-oriented)です。これは、何問正解したかを数えるのではなく、AI能力分布モデルを構築し、統計的な意味での能力推定値を提供します。具体的な利点は以下の通りです:

  • 高効率性:情報量の多い問題を正確に選択することで、研究者はわずか3%未満の問題量で完全なベンチマークの成績を再現できることを発見しました(上図)。

  • 解釈可能性:モデル能力と問題特徴との関連性をモデリングします。例えば、同じ能力であれば難易度が低いほど正答確率が高くなることで、スコアの背景にある理由を説明できます。認知診断モデルはAIの多次元能力のモデリングもサポートします。

  • 不確実性の捕捉:モデルの行動は、温度パラメータやプロンプトのわずかな変化の影響を受ける可能性があります(例:人間の試験時も環境や気分の変動の影響を受けます)。

  • 比較可能性:統一された尺度でモデルの能力を統計的に比較し、ベンチマークを跨いだ統一評価も可能です(例:人間のGREは異なる受験回のスコアが比較可能です)。

したがって、心理測定学はAIモデルのパフォーマンスを「能力パラメータ」にマッピングし、モデルがどの点で得意/苦手なのか、安定しているか、不確実性が高いか低いかを分析することができます。

3.2 すべての質問が同じように重要であるとは限らない

画像

多くの人はベンチマークのテスト問題が「正確で、信頼でき、価値がある」とデフォルトで考えていますが、実際はそうでないことが多いです。すべての問題がテストセットに含まれる価値があるわけではありません。心理測定学は、難易度、識別度、推測係数などの各問題の特性を推定することができます。

  • ベンチマークにおける各問題の価値/重要性は異なります。上図(a)はSSTB感情分類データセットにおける2つの問題の推定された難易度の違いを示しており、簡単な問題には明らかな感情傾向の語彙が含まれています。

  • ベンチマークには低品質または誤って注釈付けされた問題が出現する可能性があります。上図(b)に示すように、SQuAD読解データセットでは、一部の質問の識別度が極めて低く、分析の結果、その参照回答に誤りが含まれていることさえ判明しました。

  • 一部の問題は「推測で正解」しやすく、真の能力を測ることができません。上図(c)のMedQA医療質問応答データセットの特定の質問のように、モデルが医学知識を欠いていても、常識だけで正解してしまう可能性があります。これらの問題の高い推測係数は、その評価価値を損ないます。

3.3 大規模モデルが問題を「盗み見た」?データ汚染の特定

画像

今日の大型言語モデルの訓練データは、全インターネットを網羅することが多く、そのソースは複雑です。これが深刻な問題を引き起こします:テストデータが、モデルの訓練段階で「見られた」可能性が高いことです。これはデータ汚染(Data Contamination)と呼ばれます:モデルが「試験」を受ける際、たまたま訓練中に「暗記した」元の問題に遭遇することです。これはどのような影響をもたらすでしょうか?モデルの挙動は異常に良いが、それは理解によるものではなく記憶によるものとなる。テストスコアが大幅に引き上げられ、モデルの真の能力が誤って判断される。ベンチマークの信頼性が低下し、モデルの汎化能力を反映できなくなる…。

これは、試験において受験者が事前に問題を入手していたようなもので、当然そのレベルを判断する根拠にはなりません。人間の教育システムと同様に、心理測定学では不正行為や問題漏洩を検出するための統計的方法が開発されており、異常なパターンを効果的に発見できることが証明されています。また、現在の多くのLLM向け汚染検出方法も、以下の考え方に基づいています(上図)。例えば:

  • 難しい問題は正解するが、簡単な問題は間違える、これは典型的な異常なパフォーマンスです。

  • モデルが「正解不可能な問題」を頻繁に正解する場合、それは「問題を見たことがある」可能性が高いです。

  • IRTにおける推測係数が異常に高い場合、モデルが理解なしに正解できることを示しており、これも問題漏洩を示唆している可能性があります。

さらに、適応的テストには固有の利点があります:各モデルが解く問題が異なるため、完全なテストセットが完全に露出せず、データ汚染のリスクをさらに低減します。これこそが、GREなどの人間向け試験が適応的テストメカニズムを採用している重要な理由の一つです。

画像

応用展望:AI時代の「心理評価フレームワーク」の確立

本研究は、人工知能、認知科学、標準化された評価という三つの領域を横断し、AI評価システムに構造的な最適化をもたらすことを試みています。能力評価から、傾向性、意思決定ロジック、安定性、公平性に至るまで、「網羅的で包括的なテストセット」を追求するのではなく、詳細に問題特性の差異をモデル化し、モデルのパフォーマンスと内部構造を洞察できるでしょうか。これはベンチマークの構築と維持に適用できるだけでなく、将来のAI展開前のリスク評価、サービス適合性、セキュリティ検証などの段階にもサポートを提供する可能性があります。

この「AIのテスト方法と人間のテスト方法が収束する」変化は、新しい学問分野——機械心理測定学(Machine Psychometrics)を構築できる可能性を示唆しています。

要するに、AIモデルが賢くなるにつれて、評価方法も賢くなる必要があります。私たちは人間を評価する方法を用いてAIを評価し、検証済みの科学理論で評価システムを再構築し、汎用人工知能時代のための正確かつ公正な能力測定パラダイムを確立します。

著者紹介

荘厳、博士課程3年、中国科学技術大学認知知能全国重点実験室所属、劉淇教授に師事。主な研究方向は適応的テストと認知診断理論、人工知能の信頼性評価。

連絡先:zykb@mail.ustc.edu.cn

さらに読む

画像画像画像画像

# 寄稿受付中 #

あなたの文章をより多くの人に届けよう

どのようにすれば、より質の高いコンテンツを短い経路で読者に届け、読者が質の高いコンテンツを探すコストを削減できるでしょうか?その答えは「あなたの知らない人々」です。

あなたが知らない人々の中には、あなたが知りたいことを知っている人が常にいます。PaperWeeklyは、異なる背景と方向性を持つ学者や学術的なひらめきが互いに衝突し、より多くの可能性を生み出す架け橋となるかもしれません。

PaperWeeklyは、大学の研究室や個人が、最新の論文解説、学術的なホットトピックの分析、研究のヒント、競技会経験の解説など、様々な質の高いコンテンツを当プラットフォームで共有することを奨励しています。私たちの目的はただ一つ、知識を真に流通させることです。

📝 寄稿の基本要件:

• 記事は個人のオリジナル作品であり、公開チャネルで発表されていないこと。他のプラットフォームで既に公開されている、または公開予定の記事の場合は、明確に記載してください。

• 原稿はmarkdown形式で記述することをお勧めします。記事中の画像は添付ファイルとして送付し、画像が鮮明であること、著作権の問題がないことを求めます。

• PaperWeeklyは原著作者の署名権を尊重し、採択されたオリジナル初出の各寄稿に対し、業界内で競争力のある原稿料を提供します。具体的な金額は記事の閲覧数と品質に基づいた段階的な報酬となります。

📬 寄稿窓口:

• 寄稿メールアドレス:hr@paperweekly.site

• 寄稿の際は、記事採用時に著者に速やかに連絡できるよう、即時連絡先(WeChat)を明記してください。

• また、直接編集者のWeChat(pwbot02)を追加して、素早く寄稿することも可能です。備考欄に「名前-寄稿」とご記入ください。

画像

△長押しでPaperWeekly編集者を追加

🔍

「知乎」でも私たちを見つけられるようになりました

知乎のホームページで「PaperWeekly」を検索してください

「フォロー」をクリックして、私たちのコラムを購読してください

·

画像

メインタグ:AI評価

サブタグ:心理測定学データ汚染大規模言語モデル適応的テスト


前の記事:Alibaba、Qwen新モデルをオープンソース化:端午の節句の贈り物!

次の記事:長い推論≠高精度!「即答」と「深考」の適応的切り替え:トークン削減と精度向上の二重の利益の哲学

短いURLをシェア