晴天霹靂!蘋果最新研究證實:DeepSeek、o3、Claude 等「推論」模型根本不具推論能力

圖片

最新重大研究:蘋果不認為推論模型比標準大型語言模型(LLM)有重大突破

在最新研究《思考的幻覺:透過問題複雜性視角理解推論模型的優勢與局限》中,蘋果對「大型語言模型已具備真正邏輯思維能力——即真正的『推論能力』」這一普遍假設提出質疑。蘋果公司的研究人員所見並非認知領域的突破,而是一種幻覺:這些模型僅僅創造了思考的印象,實際上卻沒有穩定、可理解的思維過程。

圖片

這篇研究批評的核心是:目前最前沿的推論模型,在面對真正複雜的問題時,其推論能力會「斷崖式」崩潰,並暴露出反直覺的「思考退化」現象,甚至連「按照演算法抄作業」都辦不到。

現有評估方法的「陷阱」:為何需要新的實驗場域?

目前,評估AI推論能力主要依賴於數學(如MATH、AIME)和程式設計等基準測試。然而,研究人員指出,這種方法存在兩大弊端:

資料污染(Data Contamination):這些基準測試的題目和答案很可能已大量存在於模型的訓練資料中。模型可能只是「記住」了答案,而非真正「推論」出答案。論文中的資料顯示,模型在更新的AIME25資料集上的表現反而不如更早的AIME24,這與人類表現恰恰相反,強烈暗示了資料污染對評估結果的干擾。

缺乏對「思考過程」的洞察:最終答案的正確與否,無法告訴我們模型是如何思考的,其思維鏈是高效、嚴謹還是充滿了冗餘和錯誤。

為了擺脫這些「陷阱」,蘋果的研究團隊轉向一個更「純淨」的實驗場域——可控的解謎環境。

精巧的實驗設計:在「謎題」中量化AI的思考能力

研究團隊選取了四個經典、邏輯結構穩定但複雜度可控的謎題:

河內塔(Tower of Hanoi):測試遞迴與規劃能力

跳棋(Checker Jumping):測試序列規劃能力

過河問題(River Crossing):測試約束滿足與規劃能力

積木世界(Blocks World):測試規劃與狀態管理能力

透過改變謎題參數(例如河內塔的盤子數量、過河問題的人數),研究人員能精確控制問題的組合複雜度,同時利用模擬器驗證模型產生的每一步操作是否合規,進而深入剖析其完整的「思考軌跡」。

如圖所示:研究人員不僅評估最終答案,還提取並分析模型在<think>標籤內的中間步驟,以洞察其思維過程。

圖片

核心發現

透過對一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對應的非思考版本)進行詳盡測試,研究獲得了幾個顛覆性的發現:

發現一:效能的三種「境界」——「思考」並非總能帶來最佳表現

當比較「思考」模型(LRM)及其標準大型語言模型(LLM)版本時,研究人員發現了三個截然不同的效能區間:

低複雜度區:對於簡單問題,標準模型反而更精確、更有效率。LRM的「思考」顯得多餘且累贅。

中等複雜度區:隨著問題難度增加,LRM生成長思維鏈的優勢開始顯現,其效能超越標準模型。

高複雜度區:當問題複雜度超過某個臨界點時,兩種模型會雙雙「崩潰」,準確率降至零。這表明,「思考」機制僅僅延緩了失敗的發生,並未解決根本性的能力瓶頸。

如圖5所示:在低、中、高三種複雜度下,思考模型與非思考模型的效能對比,清晰地展示了三個不同區間的表現。

圖片

發現二:「思考」的崩潰點與反直覺的「努力退化」

這是整篇論文最令人震驚的發現之一。研究顯示:

準確率斷崖式下跌:所有受測的LRM,在問題複雜度達到某個閾值後,準確率都會急劇下降至零。

反直覺的「思考退化」:更奇怪的是,在接近這個「崩潰點」時,模型用於思考的計算量(即產生的思考token數量)非但沒有因為問題變難而增加,反而開始顯著減少。

如圖所示:隨著複雜度增加(橫軸),模型準確率(上排)最終歸零。與此同時,其思考長度(下排,以token計)在達到峰值後不增反降,彷彿在難題面前主動「放棄思考」。

圖片

這表明,模型似乎存在一個內在的「縮放限制」。當它「預感到」問題過於困難無法解決時,即便有充足的計算預算(token 限制),它也會選擇「躺平」,減少思考的努力。

發現三:思維軌跡揭示的低效與掙扎

透過分析模型產生的「思考過程」,研究人員發現了其思維模式的深層問題:

簡單問題「過度思考」(Overthinking):在解決簡單謎題時,模型常常在很早的步驟就找到了正確答案,但之後仍會繼續產生大量冗餘甚至錯誤的探索,浪費了大量計算資源。

複雜問題「早期固執」(Early Fixation):在面對難題時,如果模型在早期犯了一個錯誤,它往往會固執地沿著錯誤的路徑繼續探索,很難自我糾正,最終導致失敗。

發現四:令人困惑的「執行」無能

研究人員還進行了一項關鍵實驗,其結果進一步暴露了模型推論能力的脆弱性。

「抄作業」都辦不到:在河內塔任務中,研究人員直接在提示(prompt)中提供了完整、一步不錯的解題演算法,要求模型僅僅是「執行」這個演算法。結果顯示,模型的表現沒有任何改善,依然在相同的複雜度點上崩潰。這表明,模型的瓶頸不僅在於「規劃」和「尋找」解決方案,更在於基礎的、符號化的邏輯步驟執行與驗證能力的缺失。

能力極度不均衡:Claude 3.7 Sonnet 模型能正確解決需要上百步的河內塔問題,但在一個僅需11步的過河問題上卻早早失敗。這強烈暗示,模型的「推論能力」可能嚴重依賴於訓練資料中的常見模式(河內塔是教科書級的經典問題),而非通用、可泛化的邏輯推論能力。

結語

蘋果這項研究明顯是潑了一盆冷水。

當前LRM的「思考」機制,更像是一種複雜的啟發式搜尋或模式匹配,而非人類意義上的、可泛化的邏輯推論;這些模型在處理高組合複雜度問題時,會遭遇效能和「思考努力」的雙重崩潰,這可能源於其架構的根本限制。

最後蘋果強烈建議:

目前大型模型的評估範式亟待革新:我們必須超越依賴於可能被污染的基準測試和最終答案準確率的評估方法,轉向更可控、更深入的過程分析,才能真正理解AI的能力邊界。

大家對這篇研究有什麼看法?

參考來源:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

圖片

請點讚👇👇

主標籤:人工智慧

次標籤:大型語言模型蘋果研究推論能力機器學習


上一篇:OpenAI升級高階語音功能:更像真人還能當隨身翻譯官

下一篇:Google 研究發現:多代理人系統的核心在於提示詞設計!

分享短網址