机器之心报道
编辑:Panda
数日前、Appleの論文「思考の錯覚」は、多くの注目を集め、同時に多くの議論を巻き起こしました。この論文は、現在の「推論モデル」が本当に「推論」できるのかという問題を研究し、その結論は否定的でした。
論文には、「我々の研究は、最先端のLRM(例:o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)が、依然として汎化可能な問題解決能力を開発できていないことを示している――異なる環境で、ある程度の複雑さに達すると、精度は最終的にゼロに崩壊する」と書かれています。
しかし、この論文の研究方法は多くの疑問も呈しており、例えば、我々の読者の一人は、「数学問題のプロンプトに無関係な内容を追加すると、大規模モデルが間違えやすくなり、そのことで大規模モデルが推論できないと疑問を呈する」というやり方は、あまり合理的ではないと考えています。
著名なLLM懐疑論者であるGary Marcusも、この研究の欠点を指摘し、再びLLMを批判する記事を発表しました。まとめると、彼の意見は7点です:
https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple
人間は複雑な問題や記憶の要求において困難を抱えています。
大規模推論モデル (LRM) はこの問題を解決できません。出力にあまりにも多くのトークンが必要だからです。
この論文はインターンによって書かれました。
より大きなモデルはより良い性能を示すかもしれません。
これらのシステムは、コードを使ってこれらの難題を解決できます。
この論文には4つの例しかなく、そのうち少なくとも1つ(ハノイの塔)は完璧ではありません。
この論文は目新しいものではありません。私たちはこれらのモデルの汎化能力が低いことをすでに知っています。
詳細については、レポート「DeepSeek-R1、Claude Thinkingは全く推論しないと疑問視!Appleの物議を醸す論文は転覆したのか?」を参照してください。
そして今、私たちはこの研究に対するより強力な反論を迎えました:「思考の錯覚の錯覚」。そうです、間違いなく、これがAnthropicとOpen Philanthropyからのこのレビュー論文のタイトルです!その中で、Appleの論文の3つの主要な欠陥が指摘されています:
ハノイの塔の実験は、報告された失敗点において、モデルの出力トークンの制限を体系的に超えており、モデルは出力においてこれらの制限を明確に認めていました。
Apple論文の著者による自動評価フレームワークは、推論の失敗と実際の制約を区別できず、モデル能力の誤分類につながりました。
最も懸念されるのは、船の容量が不足しているため、N ≥ 6の場合、彼らの「川渡り(River Crossing)」ベンチマークには数学的に不可能なインスタンスが含まれていましたが、モデルはそもそも解決不可能なこれらの問題を解答できなかったために失敗と評価されたことです。
論文は短く、参考文献を含めてもたった4ページです。さらに興味深いのは、Anthropicの著者名がC. Opusで、実際にはClaude Opusであることです。また、もう一人の著者Alex Lawsenは「AIガバナンスおよび政策シニアプロジェクトスペシャリスト」であり、以前は英国のSixth Form College(シックス・フォーム・カレッジ)で数学と物理学の教師を務めていました。(シックス・フォーム・カレッジは、英国の教育システムにおいて16歳から19歳の学生向けに特化したカレッジで、中等教育の後に続く、高等教育の前の重要な段階です。)
https://x.com/lxrjl/status/1932499153596149875
つまり、これは実際にはAIと人間の共著論文であり、AIが第一著者なのです。
論文タイトル:The Illusion of the Illusion of Thinking
論文アドレス:https://arxiv.org/pdf/2506.09250v1
次に、このレビュー論文の具体的な内容を見ていきましょう。
1 はじめに
Shojaee et al. (2025) は、計画パズルの体系的な評価を通じて、大規模推論モデル(LRM)の根本的な限界を発見したと主張しています。彼らの核心的な発見は、AI推論研究にとって重要な意味を持ち、すなわち、ある複雑度の閾値を超えると、モデルの精度がゼロに「崩壊」するというものです。
しかし、我々の分析は、これらの明らかな失敗が、モデル本来の限界ではなく、実験設計の選択に起因することを示しています。
2 モデルは出力制約を認識できる
Appleの元の研究では、重要な観察結果が見過ごされていました。それは、モデルが出力限界に近づくと、自らそれを認識できるということです。𝕏ユーザー@scaling01が最近行った再現研究では、ハノイの塔の実験中に、モデルが明確に「このパターンは続きますが、内容が長くなりすぎるのを避けるため、ここで停止します」と述べていたことが示されました。これは、モデルが実際には問題の解決パターンを理解しているものの、実際の制限のために出力を途中で打ち切ることを選択したことを示唆しています。
https://x.com/scaling01/status/1931817022926839909
モデルの動作を「推論崩壊」と誤って特徴づけるこの行為は、モデルの認識と意思決定を考慮に入れない自動評価システムにおけるより広範な問題を反映しています。評価フレームワークが「解決不能」と「網羅的な列挙を選択しない」を区別できない場合、モデルの基本的な能力を誤って評価してしまう可能性があります。
2.1 硬直した評価の帰結
このような評価の限界は、他の分析エラーにつながる可能性があります。以下の統計的議論を考えてみましょう。もしハノイの塔の解を文字ごとに採点し、誤り訂正を許さない場合、完璧に実行される確率は次のようになります:
ここで、pは各トークンの精度、Tはトークンの総数を表します。もしT = 10,000トークンの場合:
p = 0.9999: P (成功) < 37%
p = 0.999: P (成功) < 0.005%
実際、既存の文献「Faith and fate: Limits of transformers on compositionality」は、このような「統計的必然性」がLLMのスケーリングにおける基本的な限界であると提唱していますが、これはモデルが自身の限界を認識し適応できないという仮定に基づいており、この仮定は上記の証拠と矛盾しています。
3 解答不可能な難問
「川渡り」実験では、評価問題が大幅に複雑化されました。Shojaee et al. はN ≥ 6人の参加者/主体がいるインスタンスをテストしましたが、使用された船の容量はわずかb = 3でした。しかし、研究コミュニティでは、宣教師と食人族のパズル(およびその変種)は、N > 5かつb = 3の場合には解けないことがすでに公認されており、これは論文「River Crossing Problems: Algebraic Approach」(arXiv:1802.09369)に詳しく述べられています。
Appleの研究者がこれらの不可能インスタンスを自動的に失敗とカウントしたことで、純粋にプログラム的な評価の弊害を意図せず露呈してしまいました。モデルがゼロ点を獲得したのは推論の失敗によるものではなく、解けない問題を正しく識別したためです。これは、SATソルバーが充足不能な公式に対して「充足不能」を返したために罰せられるのと同じことです。
4 物理的なトークン制限が明らかな崩壊を引き起こす
ハノイの塔の分析に戻り、問題の規模とトークン要求の関係を定量化できます。
ハノイの塔のゲームルール:すべての円盤を開始の杭から目標の杭へ、サイズの順に完全に移動させます。一度に1つの円盤しか移動できず、大きな円盤を小さな円盤の上に置くことはできません。
Appleの研究者の評価形式では、各ステップで完全な移動シーケンスを出力する必要があり、これによりトークン数が二次的に増加します。シーケンスの各ステップがおよそ5トークンを必要とする場合:
割り当てられたトークン予算(Claude-3.7-SonnetとDeepSeek-R1で64,000トークン、o3-miniで100,000トークン)を考慮すると、最大可解規模は次のようになります:
元の論文で報告された、これらの規模を超えたとされる「崩壊」は、これらの制約と一致しています。
5 別の表現形式を使用して性能を回復する
モデルの失敗が推論の限界を反映しているのか、それとも形式の限界を反映しているのかを検証するために、このAI著者とAlex Lawsenは異なる表現方法を使用し、N = 15のハノイの塔における同じモデルの性能を予備的にテストしました:
プロンプト:15個の円盤があるハノイの塔問題を解きなさい。呼び出されたときに答えを出力するLua関数を出力しなさい。
結果:テストされたすべてのモデル(Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5)は非常に高い精度を示し、使用したトークン数はすべて5000未満でした。
以下に、𝕏ユーザー@janekmが共有したテスト結果を示します。
https://x.com/janekm/status/1933481060416799047
6 元論文の複雑性主張の再評価
Appleの著者は「合成深度(compositional depth)」(最小ステップ数)を複雑性の指標として使用しましたが、これは実質的に機械的実行と問題解決の難易度を混同しています:
問題の複雑さは解答の長さだけでは決まらない
ハノイの塔は指数関数的なステップ数を必要としますが、各ステップの決定プロセスはO(1)と非常に単純です。川渡り問題はステップ数ははるかに少ないですが、複雑な制約を満たし、探索を行う必要があります。これが、モデルが100ステップ以上のハノイの塔を解決できるにもかかわらず、わずか5ステップの川渡り問題を解決できない理由を説明しています。
7 まとめ
Shojaee et al. の結果は、モデルの出力トークン数がそのコンテキスト制限を超えられないこと、プログラム的な評価がモデル能力の限界と難問の不可解性の両方を見落とす可能性があること、そして解答の長さが問題の難易度を正確に予測できないことを示すに過ぎません。これらは貴重な工学的洞察ですが、根本的な推論の限界に関する主張を支持するものではありません。
将来の研究は、次のことを行うべきです:
推論能力と出力制約を区別できる評価方法を設計すること。
モデルの性能を評価する前に、パズルの解決可能性を検証すること。
解答の長さだけでなく、計算上の難易度を反映する複雑性指標を使用すること。
アルゴリズムの理解と実行を区別するために、複数の解答表現を考慮すること。
問題は、大規模推論モデル(LRM)が推論できるかどうかではなく、我々の評価方法が推論とテキスト生成を区別できるかどうかにあります。
ネットユーザーの意見は?
同様に、この論文も多くの注目を集め、概ね好評でした。
https://x.com/janekm/status/1933481060416799047
読者の一人が、これら2人の著者のコラボレーションモデルについて尋ねましたが、実際には単なるチャットでした。
https://x.com/lxrjl/status/1932557168278188517
おそらく、私たちはこの論文を「vibe paper(雰囲気論文)」と呼べるでしょう。CMUのBehnam Mohammadi博士が冗談めかして言ったように :')
https://x.com/OrganicGPT/status/1932502854960366003
しかし、もちろん反対意見も依然として存在します。
これについてどう思いますか?
© THE END
転載については、本公式アカウントにお問い合わせください
投稿または取材の依頼:liyazhou@jiqizhixin.com