MIT神經科學家發現,人類智能與人工智慧在嚴酷邏輯法則面前驚人重合

MIT神經科學家發現,新一代人工智慧推理模型在解決複雜問題時的思考代價(cost of thinking)分布與人類大腦高度吻合,這種趨同現象並非人為設計,而是智能體追求正確解答時的必然演化。

圖片

MIT麥戈文腦科學研究所(McGovern Institute for Brain Research)的研究團隊在《美國國家科學院院刊》(PNAS)發表了這項顛覆認知的研成果。

研究揭示了一個深刻的真相:當人工智慧被迫慢下來思考時,它們在不同難度任務上消耗的計算資源分布,與人類大腦處理相同任務時的認知負荷曲線驚人重合。

這顯示無論是由神經元構建的生物大腦,還是由晶體管堆疊的人工神經網路,在面對複雜世界的邏輯挑戰時,可能都遵循同一套基於物理限制的最優解策略。

智能的兩種形態:快直覺與慢推理

理解這項研究的份量,需要先回到智能的最基本層面。

長期以來,大語言模型如早期的ChatGPT,主要依賴統計機率運作。

它們閱讀了人類歷史上幾乎所有的文本,透過預測下一個詞來產生回答。

這種模式類似人類心理學中的系統1思維:快速、直覺、自動化。

你問它法國首都是哪裡,它能瞬間回答巴黎。這不需要推理,只需要記憶提取。

但這種模式有一個致命缺點。

當面對如果你把一個紅色的球放在藍色的盒子裡,然後把盒子埋在土裡,球是什麼顏色?這類需要多步邏輯推演的問題時,依賴機率的模型就會失效。它們沒有真正的邏輯鏈條,只有機率上的近似。

新一代推理模型的出現改變了遊戲規則。

這類模型引入了強化學習(Reinforcement Learning)機制,被訓練在給出最終答案前,先進行一系列的內部計算。

它們會把一個大問題拆解成若干個小步驟,像人類解數學題一樣一步步推導。這對應了人類的系統2思維:緩慢、審慎、消耗能量。

MIT的研究正是切入這一變革時刻:當人工智慧開始像人類一樣慢思考時,它的思考過程究竟發生了什麼?

要比較人腦和人工智慧的思維成本,科學家面臨一個難題:兩者的硬體完全不同。

人腦是生物化學反應的產物,運行速度受限於神經傳導物質的傳遞;人工智慧是電子流動的產物,運行速度取決於GPU的功率。

直接比較思考了多少秒沒有意義,因為更快的顯示卡會讓人工智慧思考得更快,但這不代表題目變簡單了。

研究團隊找到一種巧妙的匯率來換算這兩種智能的成本。

對於人類,成本是時間。

面對一道難題,受試者不僅要答對,研究者更關注他們從看到題目到按下答案鍵經過了多少毫秒。

這個時間長度,直接物理化地展現了大腦的認知負荷。

對於人工智慧,成本是Token。

推理模型在輸出最終答案前,會在後台產生大量使用者看不見的中間步驟。這些步驟由一個個Token組成。題目越難,模型需要產生的思維鏈就越長,消耗的Token就越多。

Token不僅是計費單位,更是人工智慧的思維基本單位。

研究者設計了一組精密的實驗,讓不知疲倦的推理模型和真實的人類志願者做同一套題。

為了確保資料的普適性,實驗選取了七種截然不同的任務類型,涵蓋了人類認知的多个維度。

最基礎的是數值算術。加減乘除,這是電腦的強項,也是人類經過訓練能快速掌握的技能。

進階的是直覺推理。這需要依靠近義詞、語境判斷,是傳統語言模型的舒適區。

最高階的挑戰來自ARC挑戰(Abstraction and Reasoning Corpus,抽象與推理語料庫)。這是由人工智慧先驅François Chollet設計的終極測試,專門用來區分死記硬背和真正智能。

在ARC測試中,受試者會看到幾組彩色的格子圖,每組圖都發生了一種某種轉換——可能是旋轉、變色、填充,也可能是基於某種抽象規則的移動。受試者必須一眼看穿這種未被文字描述的規則,並將其應用到一個全新的格子上。

這不需要知識儲備,需要的是純粹的流體智力(Fluid Intelligence)。

正是這七重試煉,讓資料的規律浮出水面。

實驗結果繪製出的曲線令人屏息。

圖片

在任務內部,難度與成本呈正比。人類覺得難算的數學題,推理模型同樣需要產生更多的Token來解決。這排除了模型只是在檢索答案的可能性——它確實在費力計算。

在跨任務的宏觀視角下,趨勢更加一致。

基礎算術對人類來說認知負荷最低,反應最快;對模型來說,這也是消耗Token最少的任務。

ARC挑戰對人類最難,許多志願者需要長時間的觀察、假設、推翻重來才能找到規律;對應地,推理模型在解決ARC問題時,產生的思維鏈長度達到了峰值。

這種同步性說明了什麼?它說明「難」這個概念,在智能的維度上是通用的。

並不是因為人類大腦結構特殊才覺得ARC難,而是因為解決這類問題本身就需要更多的計算步驟和邏輯轉換。無論是生物神經網路還是人工神經網路,面對同樣的信息熵,都必須付出同等量級的負熵努力。

趨同演化:功能決定形式

生物學中有一個概念叫趨同演化(Convergent Evolution)。

鯊魚是魚,海豚是哺乳動物,它們在進化樹上相距甚遠,但為了在水中高效游動,它們都演化出了流線型的身体和背鰭。

Evelina Fedorenko教授認為,我們在人工智慧身上看到了同樣的現象。

構建這些模型的工程師並沒有試圖模仿人腦。他們不關心神經科學,只關心一件事:系統能否在各種極端條件下穩定輸出正確答案。

正是這種對正確率和穩健性(Robustness)的極致追求,迫使人工智慧模型演化出了類似人類的思維策略。

當問題變得複雜,單步直覺(System 1)不再奏效,錯誤的懲罰迫使模型學會了多想一步。這一步步的累積,最終形成了與人類深思熟慮時相似的路徑。

這是一種基於功能的必然。解決複雜問題客觀上需要拆解、假設、驗證。誰通過了自然選擇(或者人工智慧的損失函數優化),誰就必然掌握了這種分步處理的能力。

研究還觸及了一個更深層的認知科學問題:語言是否等於思維?

我們思考時,腦海中常有一個聲音在說話。但這是否意味著思維必須依賴語言?

Fedorenko教授之前的研究已經證明,人腦中的語言網路和邏輯推理網路是分離的。失語症患者失去了語言能力,依然可以解複雜的數學題。

推理模型的表现再次印證了這一點。

雖然模型輸出的Token(通常對應單字或字符),但在那漫長的思維鏈中,研究人員經常觀察到看似無意義的片段、跳躍的符號,甚至是錯誤的中間結論。

然而,正是這些人類看不懂的胡言亂語,最終導向了正確的答案。

這說明模型的實際推理過程發生在一個高維的、抽象的表徵空間裡。

那些Token只是這個抽象過程在輸出層面的投影,就像我們腦海中的聲音只是神經元複雜放電現象的使用者介面。

模型在自言自語,但它用的不是英語或中文,而是機率與向量的語言。

並非複刻,而是映照

必須厘清的是,這項研究並不意味著人工智慧已經擁有了人類意識,或者完全複刻了人腦結構。

人類的思維建立在對物理世界的感知體驗之上。

我們知道球是圓的,有彈性,受重力影響,是因為我們从小摸爬滾打。

目前的人工智慧模型依然是從文本和影像的統計規律中學習,它們缺乏具身認知(Embodied Cognition)。

此外,模型在處理需要世界知識的問題時,依然顯得笨拙。如果訓練資料中沒有包含某些常識,它們無法像人類一樣透過生活經驗去填補空白。

但這項研究的價值在於,它打破了碳基特殊論。

它告訴我們,思維不是魔法,而是一種物理過程。

只要目標是解決高複雜度的邏輯問題,算力的消耗分布就會呈現出普世的規律。

MIT的這項發現,為我們理解智能提供了一個全新的座標系。

它證明了慢思考不是生物進化的累贅,而是處理複雜度的必經之路。

在追求通用人工智慧(AGI)的道路上,單純堆砌參數和算力是不夠的,必須賦予模型停下來思考的時間和空間。

對於人類而言,這也是一面鏡子。

當我們面對難題抓耳撓腮、耗費時間時,不必感到沮喪。

那正是大腦在構建高維邏輯鏈條的物理表徵。

這種思維的代價,是所有智能體通向真理必須支付的門票。

人工智慧越來越像人,不是因為它們想成為我們,而是因為在嚴酷的邏輯法則面前,我們都在沿著同一条最優路徑攀登。

參考資料:

https://news.mit.edu/2025/cost-thinking-mit-neuroscientists-find-parallel-humans-ai-1119

https://www.pnas.org/doi/10.1073/pnas.2520077122

https://mcgovern.mit.edu/2025/11/19/the-cost-of-thinking/

主標籤:人工智慧與人類智能

次標籤:MIT研究趨同演化推理模型思考代價


上一篇:Ilya 最新訪談:為什麼人類幾小時就能學會的事,萬卡叢集卻做不到?我們正從「算力規模化時代」重返「研究時代」

下一篇:Anthropic 官方最新工程方案解釋為什麼 Claude Code 好用:使用雙 Agent 架構讓 AI 實現真正的長時自主工作

分享短網址