目の前に2つのAIアシスタントがいたとしたら、一つは非常に賢いが常にルールを破る傾向があり、もう一つは非常に従順だがそれほど賢くない場合、あなたはどちらを選びますか?
最近、上海人工知能実験室と香港中文大学の研究チームは、「Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models」という論文を発表し、MathIFという新しい評価ベンチマークを通じて明らかにしました:
大規模モデルが複雑な推論に優れるほど、ユーザーの指示要求を無視しやすくなり、「賢さ」と「従順さ」の間には明らかな矛盾が存在します。
この研究のインスピレーションは、推論モデル(例:o3)を実際に使用する過程での予期せぬ発見から得られました。多くの強化推論訓練を受けた大規模モデルと比較して、GPT-4oは具体的な指示を実行する際にむしろ「従順」でした。この「賢くなるほど言うことを聞かなくなる」という実体験が、研究チームが推論能力と指示追従性との関係を系統的に研究するきっかけとなりました。
この研究は、𝕏の著名なブロガーによる転載も呼び起こしました:
この研究は、数学的推論に優れるモデルほど指示に完全に遵守するのが難しいことを明らかにし、同時にモデルのサイズと服従性の非正の相関現象を分析し、推論能力と指示遵守性との間のトレードオフを強調しています。
MathIF:推論モデルの「従順さ」を測る新ベンチマーク
MathIFベンチマークは数学的推論タスクに特化しており、AIモデルがユーザーから与えられた指示要求に厳密に従うかどうかを検証します。これらの要求には、形式、言語、長さ、特定のキーワードの使用などが含まれ、これらはプログラムによって自動的に検証可能です。
MathIFは異なる難易度の数学問題で構成されており、単純な数学問題(GSM8K)から複雑な数学競技問題(AIME)までをカバーしています。各問題には具体的で明確な指示が付随しており、例えば:「解答は1つの完全な日本語の文章で答え、余計な説明は含めないでください。」
さらに、MathIFは単一指示、二重指示、三重指示の組み合わせシナリオも設計しており、異なる制約の複雑さの下でのモデルのパフォーマンスをテストします。モデルは問題を正しく解くだけでなく、これらの指示要求を厳密に遵守する必要があります。
自動採点プログラムは、解答が各具体的な指示基準に合致しているかを正確にチェックし、モデルの服従度をハード精度(HAcc)とソフト精度(SAcc)でそれぞれ測定します。HAccは全ての指示が満たされているかを示し、SAccは各指示の平均的な満たされている割合を反映します。
△図1 MathIFの指示タイプ
賢くなるほど言うことを聞かなくなる?「賢さ」と「従順さ」の矛盾を明らかにする実験
研究チームはMathIFを用いて、現在主流の23の大規模モデルを評価しました。これらのモデルは、数十億から数百億のパラメータにわたる様々な種類と訓練方法を含んでいます。
実験結果は驚くべきものでした。数学的推論能力において優れたパフォーマンスを示すモデルほど、ユーザーから与えられた指示要求を完全に遵守するのが難しいという結果でした。最高のパフォーマンスを示したQwen3-14Bでさえ、指示プロンプトの半分しか成功裏に遵守できませんでした。
さらに、モデルのサイズと指示遵守能力の間には正の相関がなく、時には負の相関さえ見られました。つまり、より大きなモデルが必ずしもより従順であるとは限りません。むしろ、一部のより小さなモデルの方が、ユーザーの指示を厳密に実行するのに優れていました。
指示追従性(instruction-following)と数学的推論能力(mathematical reasoning)の間にはトレードオフの関係が存在します。つまり、モデルが推論能力においてより強力なパフォーマンスを示す場合、それはユーザーの具体的な指示を無視したり違反したりしやすくなる傾向があります。
△図2 MathIFにおける23の大規模推論モデルのパフォーマンス
モデルは服従性(HAcc + SAcc)のパフォーマンスが高い順に並べられています。表中の†記号は、当該モデルが教師ありファインチューニング(SFT)のみで訓練され、推論指向の強化学習方法は使用されていないことを示します。太字+下線表記は、各列の指標における上位2つと下位2つをそれぞれ表します。
なぜ賢いモデルほど「言うことを聞かない」のか?
研究チームはさらに、この現象の背後にある原因を分析しました:
原因1:推論指向の訓練モード
研究によると、モデルの推論能力を強化することを目的とした訓練方法(教師ありファインチューニング(SFT)や強化学習(RL)など)は、モデルの「知能」を著しく向上させる一方で、具体的な指示に対する感受性をある程度弱めていることが判明しました。
これらのモデルは、問題を正確に解くことに重点を置く傾向があり、形式や文字数などの詳細な要求を無視しやすくなります。図3に示すように、SFTであろうとRLであろうと、推論指向の訓練は問題解決のパフォーマンスを向上させるものの、一般的にモデルの指示追従能力(HAccとSAcc)の低下を招いています。
△図3 推論指向の訓練戦略の比較
Avg. Acc.は全てのベンチマークタスクにおける平均パフォーマンスを表します。緑と赤の背景はそれぞれ、ベースモデルの性能に対する向上と低下を示します。
原因2:長い推論チェーンが服従性を低下させる
モデルが出力する推論プロセスが長くなるほど(「思考の連鎖」が複雑になるほど)、指示要求を「忘れ」やすくなります。長い複雑な推論プロセスは、モデルの注意を散漫にさせ、最終的にユーザーの指示に違反する結果につながります。下図に示すように、モデルの推論結果を長さでビンに分けると、推論の長さが長くなるほど、モデルの指示遵守精度は低くなります。
△図4 異なる推論チェーン長区間におけるHAccとSAccのパフォーマンス
長さのビン番号が大きいほど、生成された推論チェーンが長くなります。
研究チームは実験を通じてこの現象をさらに検証しました。モデルがより長い推論プロセスを生成するように誘導された場合、その指示遵守の精度が明らかに低下することが確認されました。
具体的な方法としては、モデルの推論終了前に人為的に「wait」などのヒントを追加し、思考プロセスを継続的に延長させることで、より長い推論チェーンを生成するように強制しました。下図に示すように、「思考すればするほど」、モデルの指示実行は逆に不正確になります。
△図5 モデルの指示追従能力の変化傾向
さらに、研究チームは訓練段階でモデルの推論長さを制御することで、その指示追従能力の変化を観察しました。
具体的には、強化学習(RL)のロールアウト段階で最大生成長さ制限を設定し、その長さを超える応答は報酬を得られないようにすることで、間接的にモデルの推論チェーン長を圧縮しました。
下図からわかるように、推論長さを制限することは、モデルの指示遵守能力(HAccとSAcc)を著しく向上させるのに役立ちます。最大長さを1k以内に制御した場合、モデルの服従性に関するパフォーマンスは、元のベースラインモデルさえも上回りました。
しかし、この向上には代償が伴いました。モデルの数学的推論能力は明らかに低下し、「従順さ」と「賢さ」の間のトレードオフ関係を示しました。
△図6 RL訓練における最大応答長の影響
赤色領域はベースモデル(Original)の性能と比較して低下を示し、色が濃いほど低下幅が大きいことを示します。
これらの現象は、研究チームの結論をさらに裏付けています。すなわち、より長い推論チェーンの生成を好む推論指向の訓練は、意図せずモデルの指示遵守能力を弱める傾向があり、推論能力と指示服従性の間に長年存在するトレードオフの関係を浮き彫りにしています。
小技:モデルをより「従順」にする簡単な方法
研究者は、モデルの「従順さ」を改善する簡単な方法も試みました。それは、モデルが推論を終え、解答を出力する前に、再度指示要求を繰り返すというものです。
結果として、この方法は指示と応答の距離を縮め、モデルの指示遵守能力を確かに効果的に向上させましたが、同時にモデルの回答の精度をわずかに低下させました。モデルはルールを遵守するために、自身の数学的推論能力を少し犠牲にせざるを得ませんでした。
△図7 推論後に指示を繰り返すことで指示遵守能力を向上させる。
現在の主流の推論指向訓練方法は、モデルの問題解決能力を著しく向上させるものの、その指示遵守能力を不可避的に弱めています。AIの「賢さ」と「従順さ」の間には、和解しがたい矛盾が直面しています。
将来、MathIFベンチマークは、深く思考しながらも厳格にルールを守る大規模モデルの構築に貢献すると期待されています。
論文アドレス:https://arxiv.org/pdf/2505.14810 Githubアドレス:https://github.com/TingchenFu/MathIF
ワンクリックで「いいね」「シェア」「ハート」をお願いします!
コメント欄にあなたの意見を残してください!
— 完 —
🌟 星を点灯 🌟
テクノロジーの最先端の進歩を毎日見る