大変だ!Appleが証明:DeepSeek、o3、Claudeなどの「推論」モデルには推論能力が全くない

画像

最新の重要研究:Appleは推論モデルが標準LLMよりも大きな進歩を遂げたとは考えていない

最新研究『思考の幻想:問題の複雑性という視点から推論モデルの利点と限界を理解する』において、Appleは「大規模言語モデルがすでに真の論理的思考能力、すなわち真の『推論能力』を備えている」という広く信じられている仮説に疑問を投げかけています。Appleの研究者たちが目にしたのは認知領域のブレークスルーではなく、単なる幻想でした。これらのモデルは思考の印象を作り出しているだけで、実際には安定的で理解可能な思考プロセスを持っていません。

画像

この研究が批判する核心は、現在の最先端の推論モデルが、真に複雑な問題に直面した際、その推論能力が「崖っぷち」のように崩壊し、反直感的な「思考の退化」現象を露呈する点にあります。ひどい場合には、「アルゴリズムを丸写し」することすらできません。

既存の評価方法の「落とし穴」:なぜ新たな実験場が必要なのか?

現在、AIの推論能力の評価は主に数学(MATH、AIMEなど)やプログラミングなどのベンチマークテストに依存しています。しかし、研究者たちはこの方法には二つの大きな欠点があると指摘しています。

データ汚染(Data Contamination):これらのベンチマークテストの設問と解答は、モデルの訓練データにすでに大量に存在している可能性が高いです。モデルは単に答えを「記憶」しているだけで、真に「推論」してはいないかもしれません。論文のデータが示すように、モデルは更新されたAIME25データセットでのパフォーマンスが、より古いAIME24でのパフォーマンスよりも悪く、これは人間のパフォーマンスとは正反対であり、データ汚染が評価結果に干渉していることを強く示唆しています。

「思考プロセス」への洞察の欠如:最終的な答えの正否だけでは、モデルがどのように思考したか、その思考の連鎖が効率的で厳密だったか、あるいは冗長性や誤りに満ちていたかを教えてくれません。

これらの「落とし穴」から脱却するため、Appleの研究チームは、より「純粋な」実験場である制御可能なパズル解決環境に注目しました。

巧妙な実験設計:「パズル」でAIの思考能力を定量化する

研究チームは、論理構造は安定しているものの複雑度を制御できる、古典的な4つのパズルを選定しました。

ハノイの塔(Tower of Hanoi):再帰と計画能力をテストします。

チェッカージャンプ(Checker Jumping):シーケンス計画をテストします。

川渡り問題(River Crossing):制約充足と計画能力をテストします。

ブロックワールド(Blocks World):計画と状態管理をテストします。

パズルのパラメータ(例:ハノイの塔の円盤の数、川渡り問題の人数)を変更することで、研究者たちは問題の組み合わせの複雑さを正確に制御し、同時にシミュレーターを利用してモデルが生成した各操作ステップが規則に合致しているかを検証することで、その完全な「思考の軌跡」を深く分析することができました。

図が示すように、研究者たちは最終的な答えを評価するだけでなく、<think>タグ内でモデルが生成した中間ステップを抽出し分析することで、その思考プロセスを洞察しました。

画像

主要な発見

一連の最先端モデル(Claude 3.7 Sonnet、DeepSeek-R1、およびそれらに対応する非思考バージョンを含む)に対する綿密なテストを通じて、この研究はいくつかの画期的な発見をもたらしました。

発見一:性能の三つの「境地」——「思考」は常に優れているわけではない

「思考」モデル(LRM)とその標準LLMバージョンを比較した際、研究者たちは三つの明確に異なる性能区間を発見しました。

低複雑度領域:簡単な問題に対しては、標準モデルの方が正確かつ効率的でした。LRMの「思考」は余計で煩わしく見えました。

中複雑度領域:問題が難しくなるにつれて、LRMが長い思考連鎖を生成する利点が現れ始め、その性能は標準モデルを上回りました。

高複雑度領域:問題の複雑さが特定の閾値を超えると、両モデルは「崩壊」し、正答率はゼロに落ちました。これは、「思考」メカニズムが失敗の到来を遅らせただけで、根本的な能力のボトルネックを解決しなかったことを示しています。

図5に示すように、低、中、高の三つの複雑度において、思考モデルと非思考モデルの性能比較は、これら三つの異なる領域でのパフォーマンスを明確に示しています。

画像

発見二:「思考」の崩壊点と反直感的な「努力の退化」

これは論文全体で最も驚くべき発見の一つです。研究は以下を示しています。

正答率の急落:テストされた全てのLRMは、問題の複雑さが特定の閾値に達すると、正答率が急激にゼロにまで低下しました。

反直感的な「思考の退化」:さらに奇妙なことに、この「崩壊点」に近づくと、モデルが思考に費やす計算量(生成される思考トークンの数)は、問題が難しくなったからといって増加するどころか、むしろ顕著に減少し始めました。

図が示すように、複雑さが増すにつれて(横軸)、モデルの正答率(上段)は最終的にゼロになります。同時に、その思考長(下段、トークン数で計測)はピークに達した後、増加するどころか減少し、まるで難問を前に自ら「思考を放棄」したかのようです。

画像

これは、モデルが内在的な「スケーリング限界」を持っていることを示唆しています。問題が解決不能なほど困難だと「予感」すると、十分な計算予算(トークン制限)があっても、「諦める」ことを選び、思考の努力を減らすのです。

発見三:思考の軌跡が示す非効率性と苦闘

モデルが生成した「思考プロセス」を分析することで、研究者たちはその思考パターンにおける根深い問題を発見しました。

簡単な問題での「過剰思考」(Overthinking):簡単なパズルを解く際、モデルは非常に早い段階で正しい答えを見つけることが多いにもかかわらず、その後も大量の冗長な、あるいは誤った探索を続け、膨大な計算資源を浪費しました。

複雑な問題での「早期固着」(Early Fixation):難問に直面した際、モデルが早期に誤りを犯した場合、その誤った経路を頑固に探索し続け、自己修正が困難で、最終的に失敗につながることが多かった。

発見四:困惑すべき「実行」不能

研究者たちはさらに重要な実験を行い、その結果はモデルの推論能力の脆弱性を一層露呈させました。

「宿題を写す」ことすらできない:ハノイの塔のタスクで、研究者たちはプロンプトに完璧で一歩も誤りのない解答アルゴリズムを直接提供し、モデルにそのアルゴリズムを「実行」するだけを要求しました。結果、モデルのパフォーマンスは全く改善せず、依然として同じ複雑度の点で崩壊しました。これは、モデルのボトルネックが「計画」や「解決策を見つける」ことだけでなく、基本的な、記号的な論理ステップの実行と検証能力の欠如にあることを示しています。

能力の極度な不均衡:Claude 3.7 Sonnetモデルは何百ものステップを要するハノイの塔問題を正しく解決できたものの、わずか11ステップで済む川渡り問題では早期に失敗しました。これは、モデルの「推論能力」が訓練データ内の一般的なパターン(ハノイの塔は教科書的な古典的問題)に強く依存しており、汎用的な論理推論能力ではないことを強く示唆しています。

終わりに

Appleのこの研究は、明らかに冷水を浴びせるものです。

現在のLRMの「思考」メカニズムは、人間的な、汎用的な論理推論というよりも、複雑なヒューリスティック探索やパターンマッチングに近いものです。これらのモデルは、高い組み合わせ複雑度の問題を処理する際に、性能と「思考努力」の二重の崩壊に直面し、これはそのアーキテクチャの根本的な限界に起因する可能性があります。

最後に、Appleは強く提言しています。

現在のLLM評価パラダイムは早急な刷新が必要です。我々は、汚染されている可能性のあるベンチマークテストや最終的な答えの正答率に依存する評価方法を超越し、より制御可能で深いプロセス分析へと移行することで、AIの能力の限界を真に理解する必要があります。

この研究について、皆さんはどう思いますか?

参照:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

画像

いいねお願いします👇👇

メインタグ:人工知能

サブタグ:大規模言語モデル認知能力AI研究機械学習


前の記事:OpenAIが高度な音声機能をアップグレード:より人間らしく、パーソナル通訳に

次の記事:Googleの研究が示す:マルチエージェントシステムの核はプロンプト設計!

短いURLをシェア