推論が増えるほど幻覚は深刻化するか?マルチモーダル推論モデルの「幻覚のパラドックス」

マルチモーダル大規模モデルの急速な発展の中で、R1系列のマルチモーダル推論モデルは、明示的な長鎖推論メカニズムによって、複雑なタスクにおいて従来の「速い思考」パラダイムの性能ボトルネックを次々と突破してきました。

しかし、研究により、推論チェーンが長くなるにつれて、これらのモデルの視覚認識能力が著しく低下し、次第に言語の事前知識に依存して「脳内で補完」するようになり、生成されるコンテンツが画像自体から乖離しやすくなり、さらには根拠のない幻覚現象が現れることが判明しました。

この「推論強化—知覚弱化」のパラドックスは、現在のマルチモーダル推論モデルが推論能力と知覚精度との間で直面するバランスの課題を浮き彫りにしています。

この現象をさらに検証するため、カリフォルニア大学サンタクルーズ校、サンタバーバラ校、スタンフォード大学の研究チームは体系的な分析を行いました。

推論長制御メカニズムと解釈可能なアテンション可視化手法を導入することで、研究者らは次のことを発見しました。推論チェーンの延長に伴い、モデルの画像コンテンツへの注意が顕著に低下し、言語プロンプトへの依存が継続的に強化され、言語主導の視覚的逸脱傾向が浮き彫りになっています。

画像

論文リンク:https://arxiv.org/pdf/2505.21523

プロジェクトリンク:https://mlrm-halu.github.io

コードリンク:https://github.com/MLRM-Halu/MLRM-Halu

この基礎の上に、チームは新しい評価指標RH-AUCを提案し、それに付随する診断ベンチマークデータセットRH-Benchを構築しました。これにより、マルチモーダル推論モデルの推論能力と視覚認識の安定性の間のバランスが初めて体系的に定量化されました。

このツールは、モデルの幻覚リスクの測定可能性を高めるだけでなく、将来のマルチモーダルシステムの堅牢性評価と改善にとって重要な参考情報を提供します。

画像

推論強化がもたらす視覚的幻覚の拡大効果

画像

現在のマルチモーダル大規模モデルの進化において、R1クラスの推論モデルは、明示的な長鎖言語推論プロセス(Reasoning Chain)を導入することで、複雑なタスクにおいて強力な表現能力を示してきました。

画像

画像

しかし、研究者たちは広く見過ごされてきた現象を体系的に観察しました。それは、推論チェーンの長さが深まるにつれて、モデルの知覚タスクにおける視覚アライメント能力が著しく低下し、幻覚のリスクがそれに伴って拡大するというものです。

この傾向は、複数の実証的な比較において明確に観察されました。

例えば、図(b)では、研究者たちは複数の7B規模のマルチモーダルモデルの推論タスクと知覚タスクにおける性能を比較しました。R1-OneVision-7Bなどのモデルは推論精度において一定の優位性を示しているにもかかわらず、知覚タスクにおける精度は最低レベルにまで低下し、同規模の非推論モデル(例:Qwen2.5-VL-7B)を大幅に下回りました。

これは、推論チェーンの深化が「代償なし」の強化ではなく、画像知覚能力を犠牲にすることで幻覚を拡大していることを示しています。

画像

具体的には、モデルが画像-テキストタスクで言語チェーンを段階的に展開する際、本来回答を裏付けるべき画像証拠シグナルがひっそりと疎外されてしまいます。

典型的な視覚質問応答タスクを例にとると、推論モデルで生成される冗長な出力は、実際の画像コンテンツをほとんど参照せず、言語的な常識に依存して、もっともらしく聞こえるが画像には存在しない「脳内補完」された回答を生成しがちです。この現象は、MMVPやMMHALなどの複数の知覚評価ベンチマークで繰り返し現れています。

図に示されているように、複数の視覚知覚タスクの総合評価において、R1クラスのモデルは同規模のBaseモデルを下回る傾向にあり、特に緻密な画像アライメント能力が求められるMMHALとMMVPでは、その差がより顕著でした。

これは、推論チェーンの強化が知覚の質を向上させるどころか、モデルが「画像から乖離して回答する」幻覚傾向を悪化させていることをさらに裏付けています。

要するに、推論チェーンの強化は代償なしではなく、「より賢い」推論モデルは知覚タスクにおいては逆説的に「より少なく見る」可能性があるということです。

「賢い」ほど間違いやすいのか?

画像

マルチモーダル推論モデルがなぜ幻覚を発生しやすいのかを深く理解するため、研究チームはモデル内部のアテンション分布を体系的に分析し、構造的なメカニズムを明らかにしました。それは、推論強化は無料のランチではなく、視覚への注意を犠牲にして言語推論能力の向上と引き換えにしているということです。

具体的には、非推論モデルと比較して、R1クラスの推論モデルは生成過程において視覚トークンへの注意を著しく減少させ、代わりに指示トークンや言語コンテキスト(図a)に大量のアテンションを割り当てています。

さらに重要なのは、この「アテンションの移行」は固定されたバイアスではなく、推論チェーンの展開に伴って段階的に悪化するということです。後層に進むほど、モデルは画像入力を無視する傾向が強まり、推論のために完全に言語シグナルに依存するようになります。

図(b)に示すように、視覚集中タスクにおいて、非推論モデル(Qwen2.5-VL)は多層にわたって図中の主要な領域(例:チーズ)に対して安定した注意を示しています。一方、R1モデル(R1-OneVision)は同じ問題に対して、そのアテンションヒートマップが明らかな視覚劣化を示し、深層ではほとんど完全に焦点が外れています。

この構造的なシフトにより、モデルは画像に明確に依存する問題に直面しても、「言語で推測」することが多く、最終的には画像と著しく乖離した幻覚的な回答を生成してしまいます。

画像

それだけでなく、研究では、この現象がモデルが「過剰思考」(Overthinking)段階に入ったときに特に顕著に現れることがわかりました。

推論チェーンが長くなるにつれて、モデルの視覚トークンへの注意は継続的に弱まり、指示などの言語トークンへの注意は顕著に増加し、その結果、生成プロセスが画像コンテンツよりも言語的手がかりにますます依存するようになります。

画像

推論チェーン「長さのパラドックス」:思考すればするほど幻覚が大きくなるのか?

画像

モデルの推論チェーンの長さは、本当に長ければ長いほど良いのでしょうか?研究チームは、複数のベンチマークテスト(Token Budget Forcing、Test-Time Scaling、Latent State Steering)で3つの異なる推論長制御戦略を比較し、ある重要な現象を初めて体系的に明らかにしました。それは、推論チェーンの長さとモデルの性能の間に、単調ではない「逆U字型」の関係が存在するということです。

画像

図に示すように、推論が主体のタスク(左側の2つの図)では、モデルの精度は推論チェーンが長くなるにつれてまず向上しますが、チェーンが長すぎると逆に低下します。これは、「過剰思考」が必ずしもより強力な推論能力をもたらすわけではないことを示しています。

一方、知覚が主体のタスク(右側の2つの図)では、推論の長さが増加するにつれて、幻覚率が継続的に上昇します。これは、冗長な言語生成が視覚アライメントを体系的に妨害することを示唆しています。

この傾向は、推論の長さを適切に制御することが、モデルの堅牢性と知覚・推論バランス能力を向上させる鍵であることを強調しています。

RH-AUCなどの指標の導入は、この非線形関係に対して、より説明力のある定量的な記述を提供します。

RH-AUC:推論と幻覚の動的なトレードオフ評価

マルチモーダルモデルにおける推論強化と幻覚拡大というジレンマに直面し、研究チームは新しい評価指標を提案しました。それがRH-AUC(Reasoning-Hallucination Area Under Curve)です。

従来の指標が単一の推論長で精度や幻覚率を評価するのとは異なり、RH-AUCは全体的な視点から、モデルが異なる推論深度で示す「思考力」と「明確な視覚力」の動的なバランスレベルを測定します

画像

具体的な方法としては、新しく構築されたRH-Benchデータセット(知覚と推論にわたる1000のサンプルを含む)で、異なる推論長におけるモデルの推論精度(reasoning accuracy)と幻覚リスク(hallucination risk)をそれぞれ統計し、その両者が形成する曲線の下の面積を計算します。

RH-AUCが高いほど、モデルは推論を強化しつつも、視覚アライメント能力がより良好に保たれている、つまり「深く考えられる」と同時に「明確に見える」ことを示します。

画像

実験結果は、3つの重要な傾向を明らかにしました。

1. より大規模なモデルはより堅牢である:図(a)に示すように、7Bモデルは異なる思考深度においてより滑らかなRH-AUC曲線を示し、ピーク時に高いスコアを獲得しました。これは、より強力な推論と知覚の統合能力を持つことを示しています。

2. RL-only訓練パラダイムはSFT+RLを上回る:図(b)に示すように、異なる訓練戦略の下で、純粋なRL訓練モデルは平均RH-AUCがハイブリッドパラダイムよりも高く、特に長い推論チェーンの条件下で顕著な差が見られました(0.57対0.50)。

これは、RL-onlyがより適応的に高品質な推論パスを生成する傾向があるのに対し、SFT+RLは冗長な模倣に陥りやすく、それによって知覚判断を妨害することを示唆しています。

3. データ「タイプ」は規模よりも重要である:実験の結果、訓練セットの規模を盲目的に拡張するよりも、ドメイン知覚的特徴を持つ少量のサンプル(数学的推論や画像知覚タスクなど)を導入する方が、モデルが「画像を見る」ことと「問題を理解する」ことの間のバランスを取るのに役立つことがわかりました。

RH-AUCは、評価次元の空白を埋めるだけでなく、将来のマルチモーダルモデルの訓練目標に対して、より明確な参照方向を提供します。それは、推論は多ければ多いほど良いわけではなく、「画像を見る」ことと「問題を理解する」ことの間の緊張状態を維持することが、より優れたパラダイムであるということです。

参考文献:

https://arxiv.org/pdf/2505.21523

メインタグ:マルチモーダルAI

サブタグ:AIの幻覚モデル評価コンピュータビジョン機械学習


前の記事:マイクロサービスはすべて間違っていた!Googleが新手法を提案、コストを直接9分の1に削減!

次の記事:GoogleがGemini CLIをリリース:Cursorに匹敵するオープンソースのAIプログラミングツール、個人利用は完全無料

短いURLをシェア