機器之心報導
編輯:Panda
幾天前,蘋果一篇《思考的錯覺》論文吸引了無數目光,同時也爭議不斷,其中研究了當今「推論模型」究竟能否真正「推論」的問題,而這裡的結論是否定的。
論文中寫道:「我們的研究表明,最先進的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能發展出可泛化的解決問題能力 —— 在不同環境中,當達到一定複雜度時,準確度最終會崩潰至零。」
不過,這篇論文的研究方法也受到了不少質疑,例如我們的一位讀者就認為「給數學題題幹加無關內容,發現大型模型更容易答錯,而質疑大型模型不會推論」的做法並不十分合理。
著名大型語言模型唱衰者 Gary Marcus 也發文指出這項研究的缺點,並再次批評大型語言模型。總結起來,他的意見有 7 點:
https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple
人類在處理複雜問題和記憶需求方面存在困難。
大型推論模型 (LRM) 不可能解決這個問題,因為輸出需要太多的輸出標記(token)。
這篇論文是由一名實習生撰寫的。
更大的模型可能表現更好。
這些系統可以用程式碼解決這些難題。
這篇論文只有四個例子,其中至少有一個(河內塔)並不完美。
這篇論文並不新鮮;我們已經知道這些模型的泛化能力很差。
更多詳情可參閱報導《質疑 DeepSeek-R1、Claude Thinking 根本不會推論!蘋果爭議論文翻車了?》
而現在,我們迎來了對這項研究更強而有力的質疑:《思考的錯覺的錯覺》。是的,你沒有看錯,這就是這篇來自 Anthropic 和 Open Philanthropy 的評論性論文的標題!其中點出了那篇蘋果論文的 3 個關鍵缺陷:
河內塔實驗在報告的失敗點系統性地超出了模型輸出標記(token)的限制,而模型在其輸出中明確承認了這些限制;
蘋果論文作者的自動評估框架未能區分推論失敗和實際限制,導致對模型能力分類錯誤;
最令人擔憂的是,由於船容量不足,當 N ≥ 6 時,他們的「過河(River Crossing)」基準測試包含在數學上不可能出現的實例,但模型卻因未能解答這些本就無法解決的問題而被評為失敗。
論文很短,加上參考文獻也只有短短 4 頁內容。而更有趣的是,來自 Anthropic 的作者名為 C. Opus,實際上就是 Claude Opus。另需指出,另一位作者 Alex Lawsen 是一位「AI 治理與政策高級專案專員」,曾經也擔任過英國 Sixth Form College(第六學級學院)的數學和物理學教師。(第六學級學院是英國教育體系中的一種專門為 16 至 19 歲學生開設的學院,是英國中學教育(Secondary Education)之後、大學教育(Higher Education)之前的一個關鍵階段。)
https://x.com/lxrjl/status/1932499153596149875
所以,這其實是一篇 AI 與人類合著的論文,並且 AI 還是第一作者。
論文標題:The Illusion of the Illusion of Thinking
論文地址:https://arxiv.org/pdf/2506.09250v1
下面我們就來看看這篇評論性論文的具體內容。
1 引言
Shojaee et al. (2025) 聲稱透過對規劃難題的系統評估,發現了大型推論模型(LRM)的根本局限性。他們的核心發現對 AI 推論研究具有重要意義,即:在超過某些複雜度閾值後,模型準確度會「崩潰」為零。
然而,我們的分析表明,這些明顯的失敗源於實驗設計的選擇,而非模型固有的局限性。
2 模型能識別輸出限制
蘋果的原始研究中忽略了一個關鍵觀察結果:模型在接近輸出極限時能夠主動識別。𝕏 用戶 @scaling01 最近進行了一項復現研究,表明在進行河內塔實驗時,模型會顯式地陳述「這種模式仍在繼續,但為了避免內容過長,我將在此停止」。這表明模型其實已經理解了該問題的求解模式,但會由於實際限制而選擇截斷輸出。
https://x.com/scaling01/status/1931817022926839909
這種將模型行為錯誤地描述為「推論崩潰」的行為反映了自動化評估系統的一個更廣泛的問題,即未能考慮模型的感知和決策。當評估框架無法區分「無法解決」和「選擇不進行詳盡列舉」時,它們可能會錯誤評估模型的基本能力。
2.1 僵化評估的後果
這種評估限制可能導致其他分析錯誤。考慮以下統計論證:如果我們逐個字元地對河內塔的解進行評分,而不允許糾錯,那麼完美執行的機率將變為:
其中 p 表示每個標記(token)的準確度,T 表示標記總數。如果 T = 10,000 個標記,則有:
p = 0.9999: P (success) < 37%
p = 0.999: P (success) < 0.005%
實際上,已有文獻《Faith and fate: Limits of transformers on compositionality》提出,這類「統計必然性」是大型語言模型擴展的一個基本限制,但它假設模型無法識別並適應自身的局限性,而這一假設與上述證據相悖。
3 不可能解答的難題
在「過河」實驗中,評估問題大幅複雜化。Shojaee et al. 測試了有 N ≥ 6 個參與者 / 主體的實例,但使用的船的容量只有 b = 3。然而,研究界已經公認:傳教士 - 食人族謎題(及其變體)在 N > 5 且 b = 3 時無解,詳見論文《River Crossing Problems: Algebraic Approach》,arXiv:1802.09369。
由於蘋果研究者自動將這些不可能的實例計為失敗,就無意中暴露了純程式化評估的弊端。模型獲得零分並非因為推論失敗,而是因為正確識別了不可解的問題 —— 這相當於懲罰 SAT 求解器,因為該程式對不可滿足的公式返回了「不可滿足」。
4 物理標記(token)限制導致明顯崩潰
回到河內塔分析,我們可以量化問題規模與標記需求之間的關係。
河內塔遊戲規則:將所有圓盤從起始柱按大小順序完整移動到目標柱,且每次只能移動一個圓盤,且大圓盤不能疊在小圓盤上。
蘋果研究者的評估格式要求在每一步輸出完整的移動序列,從而導致標記數量呈二次方增長。如果序列中每一步大約需要 5 個標記:
考慮到分配的標記預算(Claude-3.7-Sonnet 和 DeepSeek-R1 為 64,000 個,o3-mini 為 100,000 個),則最大可解規模為:
原始論文報告的超出這些規模的所謂「崩潰」與這些限制一致。
5 使用另一種表示來恢復性能
為了檢驗模型失敗能否反映推論限制或格式限制,這位 AI 作者與 Alex Lawsen 使用了不同的表示方法,初步測試了相同的模型在 N = 15 的河內塔上的表現:
提示詞:求解有 15 個圓盤的河內塔問題。輸出一個被呼叫時會印出答案的 Lua 函數。
結果:所有被測模型(Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5)的準確度都非常高,且使用的標記數都不到 5000。
下面展示了 𝕏 用戶 @janekm 分享的一次測試結果
https://x.com/janekm/status/1933481060416799047
6 重新評估原始論文的複雜性主張
蘋果的作者使用了「組合深度(compositional depth)」(最小步數)作為複雜度指標,但這其實將機械執行與問題求解難度混為一談了:
問題的複雜度不僅僅由解答的長度決定
河內塔雖然需要指數級數量的步數,但每步的決策過程都很簡單,為 O (1)。過河問題步數少得多,但需要滿足複雜的限制條件並進行搜尋。這解釋了為什麼模型可能有能力完成 100 步以上的河內塔,卻無法解決 5 步的過河問題。
7 總結
Shojaee et al. 的結果只能表明,模型輸出的標記數量無法超過其上下文限制,程式化評估可能會同時遺漏模型能力極限和難題的不可解性,並且解答長度無法準確預測問題的難度。這些都是寶貴的工程見解,但它們並不支持關於基本推論局限性的論斷。
未來的研究應該:
設計能夠區分推論能力和輸出限制的評估方法;
在評估模型性能之前驗證難題的可解性;
使用能夠反映計算難度而非僅僅反映解答長度的複雜度指標;
考慮多種解答表示,以區分演算法理解和執行。
問題不在於大型推論模型(LRM)能否推論,而在於我們的評估方法能否區分推論和文本生成。
網友怎麼看?
同樣,這篇論文也吸引了不少眼球,並且基本都是好評。
https://x.com/janekm/status/1933481060416799047
有讀者打聽了這兩位作者的合作模式 —— 其實就是聊天。
https://x.com/lxrjl/status/1932557168278188517
也許,我們可以將這篇論文稱為氛圍論文(vibe paper),正如 CMU 博士 Behnam Mohammadi 調侃的那樣 :')
https://x.com/OrganicGPT/status/1932502854960366003
不過,反對意見當然也還是存在的。
對此,你怎麼看?
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com