モデルが賢くなればなるほど「言うことを聞かなくなる」?MathIFベンチマークがAIの服従性における脆弱性を明らかに

目の前に2つのAIアシスタントがいるとします。一方は非常に賢いけれど、しばしば規則を守らない。もう一方は非常に従順だけれど、あまり賢くない。あなたはどちらを選びますか?

最近、上海人工知能研究所と香港中文大学の研究チームは、論文「Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models」を発表し、新しい評価ベンチマーク MathIF を通じて明らかにしました:

大規模モデルが複雑な推論に優れるほど、ユーザーの指示要求を無視しやすくなります。「賢さ」と「従順さ」の間には明確な矛盾が存在します。

この研究のインスピレーションは、推論モデル(GPT-4oなど)を実際に使用する過程での予期せぬ発見から生まれました。多くの推論強化訓練を受けた大規模モデルと比較して、GPT-4oは具体的な指示の実行においてむしろ「従順」でした。この「賢くなればなるほど言うことを聞かなくなる」という実体験が、研究チームに推論能力と指示追従性との関係を体系的に研究させるきっかけとなりました。

この研究は、𝕏の有名ブロガーによっても転載されました:

画像

この研究は、数学的推論に長けたモデルほど、指示を完全に遵守するのが難しくなることを明らかにしました。また、モデルのサイズと服従性の間に正の相関がない現象を分析し、推論能力と指示追従性との間のトレードオフを強調しています。

論文アドレス:https://arxiv.org/pdf/2505.14810

Githubアドレス:https://github.com/TingchenFu/MathIF

MathIF:推論モデルの「従順さ」を測る新しいベンチマーク

MathIF ベンチマークは、数学的推論タスクに特化しており、AIモデルがユーザーから与えられた指示要求に厳密に従っているかどうかを検証します。これらの要求には、形式、言語、長さ、特定のキーワードの使用などが含まれ、これらはすべてプログラムによって自動的に検証可能です。

MathIF は、異なる難易度の数学問題で構成されており、簡単な数学問題(GSM8K)から複雑な数学競技問題(AIME)までを網羅しています。各問題には、例えば「回答は1つの中国語の完全な文で答えること。余計な説明はつけないこと。」のような具体的かつ明確な指示が付属しています。

さらに、MathIF では、モデルが異なる制約の複雑さの下でどのように機能するかをテストするために、単一指示、二重指示、三重指示の組み合わせシナリオも設計されています。モデルは問題を正しく解くだけでなく、これらの指示要求を厳密に遵守する必要があります。

自動採点プログラムは、回答が各具体的な指示基準に適合しているかを正確にチェックし、モデルの服従度をハードアキュラシー(HAcc)とソフトアキュラシー(SAcc)で測定します。HAcc は全ての指示が満たされているかを示し、SAcc は各指示の平均的な満足度を反映します。

画像

図表1. MathIFの指示タイプ

賢いほど従順ではない?実験が「賢さ」と「従順さ」の矛盾を明らかに

研究チームは、MathIF を使用して現在主流の23の大規模モデルを評価しました。これらのモデルは、数十億から数百億のパラメータを持つ様々なタイプを含み、異なるパラメータ規模と訓練方法が用いられています。

実験結果は驚くべきものでした。数学的推論能力が優れているモデルほど、ユーザーから与えられた指示要求を完全に遵守するのが難しくなることが判明しました。最高の性能を示したQwen3-14Bでさえ、指示プロンプトの半分しか成功裏に遵守できませんでした。

さらに、モデルのサイズと指示遵守能力の間には正の相関はなく、時には負の相関さえ見られました。つまり、より大きなモデルが必ずしもより規律正しいわけではないということです。一部の小規模モデルの方が、ユーザーの指示を厳密に実行する能力に優れていました。

指示追従性(instruction-following)と数学的推論能力(mathematical reasoning)の間にはトレードオフの関係が存在します。つまり、モデルが推論能力においてより強力な性能を示すとき、それはユーザーの具体的な指示を無視したり違反したりする傾向が強くなるということです。

画像

図表2. MathIFにおける23の推論大規模モデルのパフォーマンス。

モデルは服従性(HAcc + SAcc)のパフォーマンスが高い順に並べられています。表中の†記号は、当該モデルが教師ありファインチューニング(SFT)のみで訓練され、推論指向の強化学習方法は使用されていないことを示します。太字 + 下線表記は、各列の指標における上位2つと下位2つをそれぞれ示します。

なぜ賢いモデルほど「従順ではない」のか?

研究チームは、この現象の背後にある理由をさらに分析しました:

理由1:推論指向の訓練モード

研究により、モデルの推論能力を強化することを目的とした訓練方法(教師ありファインチューニング(SFT)や強化学習(RL)など)は、モデルの「知能」を著しく向上させる一方で、具体的な指示に対する感度をある程度低下させることが分かりました。

これらのモデルは、正確な問題解決に焦点を当てる傾向があり、形式や文字数などの詳細な要件を見落としがちです。図3に示すように、SFTであろうとRLであろうと、推論指向の訓練は問題解決能力を向上させるものの、モデルの指示追従能力(HAcc と SAcc)の低下を一般的に引き起こします。

画像

図表3. 推論指向訓練戦略の比較。Avg. Acc. は、すべてのベンチマークタスクにおける平均パフォーマンスを示します。緑色と赤色の背景は、それぞれベースラインモデルの性能と比較しての向上と低下を示します。

理由2:長い推論連鎖が服従性を低下させる

モデルが出力する推論プロセスが長くなるほど(「思考の連鎖」が複雑になるほど)、指示要求を「忘れ」やすくなります。長い複雑な推論プロセスは、モデルの注意を分散させ、最終的にユーザーの指示に違反する結果につながります。以下の図に示すように、モデルの推論結果を長さでバケツ分けすると、推論の長さが長くなるほど、モデルの指示追従精度が低下します。

画像

図表4. 6つの異なる推論連鎖長区間におけるHAccとSAccのパフォーマンス;長さバケツの番号が大きいほど、生成される推論連鎖が長いことを示します。

研究チームは実験を通じてこの現象をさらに検証しました。モデルがより長い推論プロセスを生成するように誘導された場合、その指示追従精度は顕著に低下します。

具体的には、モデルの推論終了前に人為的に「wait」などのヒントを追加し、思考プロセスを継続して延長させ、より長い推論連鎖を生成させます。以下の図に示すように、「思考すればするほど」、モデルの指示実行は逆に不正確になります。

画像

図表5. 思考回数が2から8に増加するにつれて、モデルの指示追従能力(SAcc)の変化傾向(GSM8K)。

さらに、研究チームは訓練段階でモデルの推論長さを制御することにより、その指示追従能力の変化をさらに観察しました。

具体的には、強化学習(RL)のロールアウト段階で最大生成長制限を設定し、この長さを超える応答には報酬を与えないことで、間接的にモデルの推論連鎖長を圧縮しました。

以下の図からわかるように、推論長を制限することは、モデルの指示追従能力(HAcc と SAcc)を著しく向上させるのに役立ちます。最大長が1k以内に制御された場合、モデルの服従性におけるパフォーマンスは、元のベースラインモデルを上回ることさえありました。

画像

図表6. RL訓練における最大応答長の影響。赤色の領域は、ベースラインモデル(Original)と比較して性能が低下したことを示し、色が濃いほど低下幅が大きいことを示します。

これらの現象は、研究チームの結論をさらに裏付けています。つまり、より長い推論連鎖の生成に傾倒する推論指向の訓練は、意図せずモデルの指示追従能力を弱める傾向があり、推論能力と指示服従性の間に長年存在するトレードオフ関係を浮き彫りにしています。

ヒント:モデルをより「従順」にする簡単な方法

研究者たちは、モデルの「従順さ」を改善する簡単な方法も試みました。モデルが推論を終え、回答を出力する前に、もう一度指示要求を繰り返すというものです。

結果は、この方法が指示と応答の距離を縮め、モデルの指示遵守能力を確かに効果的に向上させることが示されましたが、同時にモデルの質問への回答精度もわずかに低下させました。モデルは規則を遵守するために、自身の「賢さ」を少し犠牲にしなければなりませんでした。

画像

図表7. 推論後に指示を繰り返すことで指示追従能力を向上させる。

現在の主流の推論指向訓練方法は、モデルの問題解決能力を著しく向上させる一方で、指示追従能力を不可避的に弱めています。AIの「賢さ」と「従順さ」の間には、和解しがたい矛盾が立ちはだかっています。

将来的には、MathIF ベンチマークは、深く思考できると同時に厳密に規則を守る大規模モデルの構築に役立つことが期待されます。

画像画像画像

メインタグ:人工知能

サブタグ:大規模言語モデルAI研究数学的推論指示追従


前の記事:初のゲノム推論AIが登場!精度97%に急上昇、ゲノム研究を根本的に変革

次の記事:深層研究がコモディティ化?GoogleがGeminiレベルのAI研究能力をオープンソース化

短いURLをシェア