AIに深く考えさせると、かえって賢くなくなると思いますか?最新の研究によると、この直感に反する現象は確かに存在します!
アシスタントにタスクの完了を依頼し、すべての要件と制限を詳細に伝えたと想像してみてください。しかし、そのアシスタントに「行動する前によく考えるように」と奨励すると、彼らは逆にあなたの特定の指示を見落としやすくなります。これは信じがたいかもしれませんが、大規模言語モデル(LLM)の世界では、この現象は現実に存在します。
本日、常識を覆す最新の研究成果をお届けします。AIモデルに連鎖的思考(Chain-of-Thought)を行わせると、指示に従う能力が著しく低下する可能性があります。この研究では、Claude 3.7、GPTシリーズ、DeepSeek-R1など15のモデルをテストし、AIの思考プロセスにおける重要な欠陥を明らかにしました。
1.思考はAIを愚かにする?この研究は私たちの認識を覆す
現在、連鎖的思考(Chain-of-Thought、略称CoT)は、AIモデルの複雑な問題解決能力を向上させる「秘策」と考えられています。DeepSeek-R1、Claudeシリーズ、OpenAIのOシリーズなど、多くの最新モデルがCoTをコア機能として宣伝しています。
しかし、研究者はIFEvalとComplexBenchという2つのベンチマークデータセットを使用してモデルをテストした結果、以下のことを発見しました。モデルがCoTメソッドを使用して思考するよう求められたとき、指示に従う精度は全体的に低下しました。たとえば、Llama3-8B-Instructモデルの精度は75.2%から59.0%に急落し、16パーセントポイント以上減少しました。
この現象は、オープンソースモデルであろうとクローズドソースモデルであろうと、小さなモデルであろうと大きなモデルであろうと、テストされたほぼすべてのモデルに存在します。さらに驚くべきことに、推論能力に特化してトレーニングされたモデル(Claude 3.7-Sonnet-ThinkやDeepSeek-R1など)は、ベースバージョンよりも指示に従う面でのパフォーマンスが劣っていました。
2.思考はいかにして障害となるか?AIの注意の転換を解き明かす
なぜこのような直感に反する現象が起こるのでしょうか?研究者は2つの方法で詳細な分析を行いました。
(1) 大規模事例研究
研究者は1500以上のサンプルを手動で分析し、思考がモデルの指示追従に与える影響を4つの典型的な状況に分類できることを発見しました。
思考が役立つ状況:
1) フォーマットと構造の追従:思考は、有効なJSONの生成、引用符の正しい使用、markdown構文などの構造的要件の追従に役立ちます。
2) 語彙とキーワードの精度:思考は、珍しい文字の挿入、文末の句読点の省略など、特定の語彙要件の遵守を強化します。
思考が有害な状況:
1) 高レベルな内容に過度に集中し、単純な制約を見落とす:複数の要件に直面したとき、思考はモデルを内容計画に集中させがちですが、文字数制限や大文字・小文字の要件などの基本的な制約を見落とします。
2) 不必要な内容の導入による制約違反:思考は、モデルが余分または善意のコンテンツ(説明、翻訳、強調など)を追加させることがよくありますが、意図せず指示要件に違反します。
(2) 制約注意分析
研究者は、指示中の制約関連語に対するモデルの注意度を定量化するための「制約注意」という指標を提案しました。彼らは以下のことを発見しました。CoTを使用すると、モデルの制約語への注意が著しく低下します。
3. AIをより良く「思考」させるには?4つの解決策の効果大PK
この問題に対処するため、研究者は4つの緩和戦略を提案し、評価しました。
(1) Few-shot文脈学習 指示の前に厳選された例を追加することでモデルを誘導します。しかし、トークン長の制限と例のバイアスのため、この方法の効果は限定的です。
(2) 自己反省 モデルがまず初期回答と思考プロセスを生成し、次に2回目の推論を実行して回答を反省・改善させます。この方法は単純な指示(IFEvalなど)では良好なパフォーマンスを示しますが、複雑な指示では効果が低下します。さらに、この方法では2回の順伝播が必要であり、計算コストが高くなります。
(3) 自己選択思考 モデル自身に明示的な思考が必要かどうかを決定させます。この方法はComplexBenchで良好なパフォーマンスを示しますが、分析によると、モデルは不必要な場合でも思考を過度に使用しがちです。
(4) 分類器選択思考 外部の二項分類器を使用して、CoT思考を適用すべきかどうかを決定します。この方法は、両方のベンチマークテストで最高の全体パフォーマンスを達成しましたが、各ターゲットモデルに対して特定の分類器をトレーニングする必要があります。
研究結果は、分類器選択思考方法がほとんどの場合において、モデルの指示追従能力を著しく向上させ、CoTを使用しない場合のパフォーマンスレベルをほぼ回復させることを示しています。
4. AI「思考」の未来:選択的思考が鍵となる可能性
この研究は、AIに明示的な連鎖的思考を行わせることが、その指示追従能力を損なう可能性があるという意外な現象を初めて体系的に明らかにしました。この発見は、AI分野、特に信頼性の高い指示追従モデルを構築する上で重要な意味を持ちます。
研究者は意思決定プロセスを採用することを推奨しています。指示の複雑さに基づいて異なる戦略を選択するということです。単純なタスクでは、自己反省または分類器選択思考がより効果的です。複雑なタスクでは、自己選択思考または分類器選択思考がより有効です。
この研究は指示追従タスクにのみ焦点を当てており、思考が他の領域に与える影響はまだ探索の余地があることに注意が必要です。しかし、それはAI思考プロセスにおける重要な盲点を明らかにし、実用的な緩和戦略を提供しました。
この研究は私たちに以下のことを思い出させます。AIの分野では、より多くの思考が常に良い結果を意味するわけではありません。大規模言語モデルにとって、単純に思考量を増やすことよりも、いつどのように思考すべきかを知ることがより重要である可能性があります。
将来的には、より選択的な思考を行うAIシステムが見られるようになるでしょう。これらのシステムは、いつ深く思考すべきか、いつ直接回答すべきかをインテリジェントに決定でき、それによってさまざまなタスクで最適なパフォーマンスを達成するでしょう。
論文タイトル: When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs
論文リンク: https://arxiv.org/abs/2505.11423
おすすめ記事
AIエージェント vs エージェント型AI:ツール型アシスタントから自律協調システムへの進化
Google最新研究:大規模モデルはなぜ「学習できる」のに「うまく活用できない」のか?
初のAI思考百科事典が誕生、モデル推論はもはやブラックボックスではない