蘋果《思考的錯覺》再遭批評，Claude與人類合著論文點出三大關鍵缺陷

機器之心報導

編輯：Panda

幾天前，蘋果一篇《思考的錯覺》論文吸引了無數目光，同時也爭議不斷，其中研究了當今「推論模型」究竟能否真正「推論」的問題，而這裡的結論是否定的。

論文中寫道：「我們的研究表明，最先進的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能發展出可泛化的解決問題能力 —— 在不同環境中，當達到一定複雜度時，準確度最終會崩潰至零。」

不過，這篇論文的研究方法也受到了不少質疑，例如我們的一位讀者就認為「給數學題題幹加無關內容，發現大型模型更容易答錯，而質疑大型模型不會推論」的做法並不十分合理。

著名大型語言模型唱衰者 Gary Marcus 也發文指出這項研究的缺點，並再次批評大型語言模型。總結起來，他的意見有 7 點：

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

人類在處理複雜問題和記憶需求方面存在困難。
大型推論模型 (LRM) 不可能解決這個問題，因為輸出需要太多的輸出標記（token）。
這篇論文是由一名實習生撰寫的。
更大的模型可能表現更好。
這些系統可以用程式碼解決這些難題。
這篇論文只有四個例子，其中至少有一個（河內塔）並不完美。
這篇論文並不新鮮；我們已經知道這些模型的泛化能力很差。

更多詳情可參閱報導《質疑 DeepSeek-R1、Claude Thinking 根本不會推論！蘋果爭議論文翻車了？》

而現在，我們迎來了對這項研究更強而有力的質疑：《思考的錯覺的錯覺》。是的，你沒有看錯，這就是這篇來自 Anthropic 和 Open Philanthropy 的評論性論文的標題！其中點出了那篇蘋果論文的 3 個關鍵缺陷：

河內塔實驗在報告的失敗點系統性地超出了模型輸出標記（token）的限制，而模型在其輸出中明確承認了這些限制；
蘋果論文作者的自動評估框架未能區分推論失敗和實際限制，導致對模型能力分類錯誤；
最令人擔憂的是，由於船容量不足，當 N ≥ 6 時，他們的「過河（River Crossing）」基準測試包含在數學上不可能出現的實例，但模型卻因未能解答這些本就無法解決的問題而被評為失敗。

論文很短，加上參考文獻也只有短短 4 頁內容。而更有趣的是，來自 Anthropic 的作者名為 C. Opus，實際上就是 Claude Opus。另需指出，另一位作者 Alex Lawsen 是一位「AI 治理與政策高級專案專員」，曾經也擔任過英國 Sixth Form College（第六學級學院）的數學和物理學教師。（第六學級學院是英國教育體系中的一種專門為 16 至 19 歲學生開設的學院，是英國中學教育（Secondary Education）之後、大學教育（Higher Education）之前的一個關鍵階段。）

https://x.com/lxrjl/status/1932499153596149875

所以，這其實是一篇 AI 與人類合著的論文，並且 AI 還是第一作者。

論文標題：The Illusion of the Illusion of Thinking
論文地址：https://arxiv.org/pdf/2506.09250v1

下面我們就來看看這篇評論性論文的具體內容。

1 引言

Shojaee et al. (2025) 聲稱透過對規劃難題的系統評估，發現了大型推論模型（LRM）的根本局限性。他們的核心發現對 AI 推論研究具有重要意義，即：在超過某些複雜度閾值後，模型準確度會「崩潰」為零。

然而，我們的分析表明，這些明顯的失敗源於實驗設計的選擇，而非模型固有的局限性。

2 模型能識別輸出限制

蘋果的原始研究中忽略了一個關鍵觀察結果：模型在接近輸出極限時能夠主動識別。𝕏 用戶 @scaling01 最近進行了一項復現研究，表明在進行河內塔實驗時，模型會顯式地陳述「這種模式仍在繼續，但為了避免內容過長，我將在此停止」。這表明模型其實已經理解了該問題的求解模式，但會由於實際限制而選擇截斷輸出。

https://x.com/scaling01/status/1931817022926839909

這種將模型行為錯誤地描述為「推論崩潰」的行為反映了自動化評估系統的一個更廣泛的問題，即未能考慮模型的感知和決策。當評估框架無法區分「無法解決」和「選擇不進行詳盡列舉」時，它們可能會錯誤評估模型的基本能力。

2.1 僵化評估的後果

這種評估限制可能導致其他分析錯誤。考慮以下統計論證：如果我們逐個字元地對河內塔的解進行評分，而不允許糾錯，那麼完美執行的機率將變為：

其中 p 表示每個標記（token）的準確度，T 表示標記總數。如果 T = 10,000 個標記，則有：

p = 0.9999: P (success) < 37%
p = 0.999: P (success) < 0.005%

實際上，已有文獻《Faith and fate: Limits of transformers on compositionality》提出，這類「統計必然性」是大型語言模型擴展的一個基本限制，但它假設模型無法識別並適應自身的局限性，而這一假設與上述證據相悖。

3 不可能解答的難題

在「過河」實驗中，評估問題大幅複雜化。Shojaee et al. 測試了有 N ≥ 6 個參與者 / 主體的實例，但使用的船的容量只有 b = 3。然而，研究界已經公認：傳教士 - 食人族謎題（及其變體）在 N > 5 且 b = 3 時無解，詳見論文《River Crossing Problems: Algebraic Approach》，arXiv:1802.09369。

由於蘋果研究者自動將這些不可能的實例計為失敗，就無意中暴露了純程式化評估的弊端。模型獲得零分並非因為推論失敗，而是因為正確識別了不可解的問題 —— 這相當於懲罰 SAT 求解器，因為該程式對不可滿足的公式返回了「不可滿足」。

4 物理標記（token）限制導致明顯崩潰

回到河內塔分析，我們可以量化問題規模與標記需求之間的關係。