蘋果重磅論文出包!被指測試方法大有問題……網友:庫克該裁員了!

蘋果的AI研究團隊這次真的出包了!

圖片

他們最近發表的一篇論文引發了AI圈的集體吐槽,原因竟然是測試方法出了大問題。

圖片

見前文:蘋果宣判推論模型死刑!Google執行長:忘了AGI吧,先用好AJI

研究者Lisan al Gaib在重現蘋果論文中的漢諾塔(Tower of Hanoi)測試後發現了一個驚人的事實:模型根本不是因為推論能力不足而失敗,而是因為輸出token限制!

圖片

要知道,漢諾塔問題需要至少2^N - 1步才能解決,而輸出格式需要每步10個token外加一些固定內容。

這意味著什麼?

對於Sonnet 3.7(128k輸出限制)、DeepSeek R1(64K)和o3-mini(100k),當盤子數超過13個時,所有模型的準確率都會變成0——不是因為它們不會解,而是物理上就輸出不了那麼多內容!

圖片

更諷刺的是,當問題規模變大時,模型們的反應非常人性化。它們會直接說:「由於移動次數太多,我將解釋解決方法而不是列出所有32,767步」。

這就像讓一個數學家在一張A4紙上寫下一百萬個數字,然後說他數學不行一樣荒謬!

圖片

Lisan al Gaib還嘗試將問題分解成更小的區塊,每次只讓模型執行5步。

結果呢?

使用Gemini 2.0 Flash測試後發現,分解反而讓效能變得更差。

圖片

模型在處理過程中會迷失在演算法裡,重複執行某些步驟。

雖然漢諾塔理論上是無狀態的(每一步的最優移動只依賴當前狀態),但模型需要歷史記錄才能知道自己執行到哪裡了。

研究還發現了一個有趣的現象:在9-11個盤子時,token使用量會達到峰值。

為什麼?

因為這正是模型們開始說「我才不要寫下2^n_disks - 1步」的臨界點。

在此之前,模型們也不是在逐步推論。

對於5-6個盤子的小問題,還能看到一些推論過程。但超過這個規模後,它們基本上就是:複述問題→複述演算法→列印步驟。到了10-11個盤子,就開始拒絕輸出所有步驟了。

最離譜的是蘋果論文的結論。

圖片

他們聲稱漢諾塔比其他測試更難,是因為訓練資料的問題。但Lisan al Gaib指出:

這完全是胡說八道!

模型在思維鏈中明明白白地背誦了演算法,有的甚至用程式碼形式展示出來。漢諾塔需要指數級的步驟(2^n),而其他遊戲只需要二次方或線性的步驟,這並不意味著漢諾塔在推論上更困難。

不同遊戲的單步難度是不一樣的,不能簡單地用步驟數來判斷難度!

圖片

其他研究者也加入了吐槽大軍。

Shin Megami Boson直言這篇論文「sucks ass」,他透過讓模型使用工具,在蘋果評為0%準確率的複雜度上達到了100%的準確率——

而且用的還是更弱的模型!

圖片

他的實驗結果圖「看起來像什麼都沒有」,因為就是一條100%準確率的直線。

圖片

他總結道:「他們試圖用鎚子擰螺絲,然後寫了篇論文說鎚子在固定東西方面其實很有限。」

而最讓我氣憤加失望的是,蘋果似乎在努力證明AI有問題,而不是去用AI 改進使用者體驗。

Pliny the Liberator(@elder_plinius)的吐槽一針見血:

在Siri能做到不只是第四次嘗試才成功建立行事曆事件之前,我不會讀任何來自庫比蒂諾那個巨大陳腐甜甜圈的AI研究論文。

圖片

他接著說:

如果我是蘋果執行長,看到我的團隊發表一篇只專注於記錄當前方法局限性的論文,我會當場解僱所有參與者。誰他媽在乎這個。去想辦法突破它們!

Luci Dreams(@Luci_Drea)調侃道:

「我們沒有好的AI,所以看看你們AI的缺陷,別玩得太開心了」

Chris Fry(@Chrispyfryz)質疑:

說真的,他們在那邊到底在幹什麼

R(@rvm0n_)表示:

我無法理解他們怎麼搞砸得這麼厲害

圖片

Freedom_Aint_Free(@baianoise)的比喻更是精準:

這就像起亞的工程師寫論文說豐田車無法在沒有大修的情況下跑200萬英里

Ben Childs(@Ben_Childs)幽默地說:

看,蘋果確實有AI,而且很棒。他們只是在另一所高中上學。你不會認識她的。

SPUDNIK(@tuber_terminal)模仿Siri的語音識別錯誤:

「好的,所以你想讓我在勺子日的六點火腿建立一個應用軟膏?我應該建立它嗎?」

蘋果正在被Tim Cook「Cook」了——這些研究人員花時間證明AI有問題,而不是去改進使用者體驗。

圖片

你說,庫克是不是該裁了這幫人?

👇

👇

👇

另外,我還用AI進行了全網的AI資訊採集,並用AI進行挑選、審核、翻譯、總結後發布到《AGI Hunt》的知識星球中。

這是個只有資訊、沒有感情的AI資訊資訊流(不是推薦流、不賣課、不講道理、不教你做人、只提供資訊)

圖片

歡迎你的加入!也歡迎加群和2000+群友交流

圖片圖片

主標籤:人工智慧

次標籤:蘋果漢諾塔問題論文爭議AI研究


上一篇:LeCun 有新證據!大模型與人類思考存在本質差異

下一篇:不需SFT也不用RL,樣本級推論優化神器SLOT登場,準確率輕鬆提升10%

分享短網址