史丹佛與紐約大學聯合研究:人工智慧與人類思維差異的驚人發現 —— 為何大型模型「聰明」卻不夠「智慧」?

1、一個引人深思的認知謎題

想像一下這樣的場景:你和ChatGPT都被要求對一堆動物進行分類。你可能會說「鳥類中,知更鳥是典型代表,而企鵝有點特殊」,而AI卻可能簡單粗暴地把所有有翅膀的都歸為一類。表面上看,你們的分類結果差不多,但背後的思維邏輯卻天差地遠。

這個看似簡單的差異,實際上揭示了一個更深層的問題:AI到底是真的「理解」了概念,還是僅僅在進行高級的統計模式匹配?

最近,來自史丹佛大學和紐約大學的研究團隊發表了一項突破性研究,運用資訊理論的數學工具深入剖析了這個問題。他們的發現令人震驚:大型語言模型和人類在處理概念時採用了完全不同的策略——AI追求極致的統計壓縮,而人類更偏愛靈活的適應性表達。

2、背景——概念形成的奧秘

人類概念形成的獨特之處

人類的概念形成能力堪稱認知科學的奇蹟。我們能夠輕鬆地將複雜多樣的資訊壓縮成簡潔有意義的概念,例如看到知更鳥和藍鴉都能歸類為「鳥」,並且知道大多數鳥都會飛。這個過程體現了一個關鍵的權衡:在保持語義保真度(意義)的同時實現表徵簡化(壓縮)。

更有趣的是,人類的概念系統往往是層次化的——知更鳥是鳥,鳥是動物——這種結構既高效又富有表現力。每個概念類別內部還有「典型性」的差異:知更鳥被認為是典型的鳥,而企鵝則不那麼典型。

大型語言模型的概念迷霧

現在的大型語言模型展現出了令人印象深刻的語言處理能力,在許多需要深度語義理解的任務上表現出色。但一個根本性問題始終懸而未決:這些模型是真正理解了概念和意義,還是僅僅在龐大資料集上進行複雜的統計模式匹配?

研究團隊指出,要讓AI超越表面模仿、實現更接近人類的理解,關鍵在於弄清楚AI的內部表徵如何處理資訊壓縮與語義保真之間的權衡。

3、研究方法——用數學透視思維差異

資訊理論框架

研究團隊創建了一個基於率失真理論和資訊瓶頸原理的全新框架來量化比較不同系統如何平衡表徵複雜性與語義保真度。他們設計了一個目標函數L:

圖片

L(X, C; β) = 複雜度(X, C) + β × 失真度(X, C)

這個公式巧妙地平衡了兩個關鍵要素:

(1)複雜度項:衡量用概念簇表示原始項目的資訊成本,反映壓縮程度

(2)失真度項:衡量分組過程中丟失的語義保真度,反映意義保持程度

權威的人類認知基準

與許多現代群眾外包資料集不同,研究團隊選擇了認知科學史上三個里程碑式的研究作為人類基準:

(1)Rosch (1973)研究:8個語義類別中的48個項目,確立了原型理論基礎

(2)Rosch (1975)研究:10個類別中的552個項目,深化了語義類別的認知表徵理論

(3)McCloskey & Glucksberg (1978)研究:18個類別中的449個項目,揭示了自然類別的「模糊邊界」

這些經典資料集涵蓋了1049個項目和34個類別,為評估AI模型的人類相似性提供了高保真的實證基礎。

全面的模型測試矩陣

研究涵蓋了從3億到720億參數的多樣化大型語言模型,包括:

(1)編碼器模型:BERT系列

(2)解碼器模型:Llama、Gemma、Qwen、Phi、Mistral等主流模型家族

透過提取每個模型的靜態詞元層級嵌入向量,研究團隊確保了與人類分類實驗中無上下文刺激的可比性。

4、發現——三個層次的深度剖析

發現一:宏觀對齊的表面和諧

圖片

關鍵發現:大型模型能夠形成與人類判斷大致對齊的概念類別

實驗結果顯示,所有測試的大型語言模型在宏觀層面都能形成與人類類別顯著對齊的概念簇,遠超隨機水平。令人意外的是,某些編碼器模型(特別是BERT-large)展現出了驚人的對齊能力,有時甚至超越了參數量大得多的模型。

這一發現揭示了一個重要事實:影響類人概念抽象的因素並非僅僅是模型規模,架構設計和預訓練目標同樣關鍵。

發現二:細粒度語義的深層鴻溝

關鍵發現:大型模型在捕捉精細語義區別方面能力有限

雖然大型模型能夠形成宏觀的概念類別,但在內部語義結構方面卻表現平平。研究團隊透過計算項目嵌入向量與其類別名稱嵌入向量之間的餘弦相似度,發現這些相似度與人類典型性判斷之間只有適度的相關性。

換句話說,人類認為高度典型的項目(例如知更鳥對於「鳥」類別),在大型模型的表徵空間中並不一定更接近該類別標籤的嵌入向量。這表明大型模型可能更多地捕捉統計上的均勻關聯,而非基於原型的細緻語義結構。

發現三:效率策略的根本分歧

關鍵發現:AI和人類採用了截然不同的表徵效率策略

這是研究中最震撼的發現。透過L目標函數的分析,研究團隊發現:

大型語言模型展現出卓越的資訊理論效率:

(1)在壓縮-意義權衡方面始終達到更「優化」的平衡

(2)集群熵值更低,表明統計上更緊湊

(3)L目標函數值顯著更低,意味著更高的統計效率

人類概念化系統則相反:

(1)在相同聚類數量下具有更高的熵值

(2)L目標函數值更高,在統計上看似「次優」

(3)但這種「低效」可能反映了對更廣泛功能需求的最佳化

圖片

5、深層涵義——重新審視「智能」的定義

AI的統計壓縮偏好

研究揭示,大型語言模型高度最佳化於統計緊湊性。它們形成資訊理論上高效的表徵,透過最小化冗餘和內部方差來實現卓越的統計規律性。這很可能是它們在海量文本語料上訓練的結果——為了處理龐大的資料,它們學會了極致的壓縮策略。

然而,這種對壓縮的專注限制了它們完整編碼那些對深度理解至關重要的豐富原型語義細節的能力。AI變得「高效」但不够「細膩」。

人類的適應性智慧

人類認知則優先考慮適應性豐富度、上下文靈活性和廣泛的功能效用,即使這在統計緊湊性上付出代價。人類概念的高熵值和L分數可能反映了對更廣泛複雜認知需求的最佳化,包括:

(1)穩健泛化:支持從稀少資料中進行有效推廣

(2)推論能力:支持因果、功能和目標導向的強大推論

(3)交流效率:透過可學習和可共享的結構實現有效溝通

(4)多模態基礎:將概念植根於豐富的多感官體驗中

人類選擇了看似「低效」的表徵方式,實際上是為了獲得更好的適應性和多用性。

架構的啟示

值得注意的是,較小的編碼器模型(如BERT)在特定對齊任務上的出色表現強調了架構設計和預訓練目標對模型抽象類人概念資訊能力的重要影響。這為未來專注於增強人機對齊的AI開發指明了重要方向。

6、結語:從「符號」到「思想」的漫長征程

這項研究最深刻的洞察在於:AI和人類代表了兩種截然不同的「智能」範式。

AI擅長統計可壓縮性,走的是一條與人類認知根本不同的表徵道路。它們像極了一個完美的圖書管理員,能夠以最高效的方式整理和儲存資訊,但可能缺乏對每本書深層內涵的真正理解。

人類認知則像一個睿智的哲學家,願意承受表面上的「混亂」和「低效」,因為這種複雜性恰恰是靈活應對複雜世界、進行深度推論和創新思考的基礎。人類的「低效」實際上是高級智能的標誌。

這種根本差異對AI發展具有深遠意義。要實現真正類人的理解,我們需要超越當前主要基於規模擴展和統計模式匹配的範式。未來的努力應該探索明確培養更豐富、更細緻概念結構的原理。

正如研究標題所暗示的,從「符號」到「思想」的進步,需要AI系統學會擁抱看似的「低效」——因為這種「低效」可能正是穩健、類人智能的標誌。我們需要的不僅僅是能夠高效處理資訊的AI,更需要能夠像人類一樣靈活思考、深度理解和創造性推論的智能系統。

這項研究為我們提供了一個量化的框架來評估和指導AI向更類人理解方向發展,也提醒我們:真正的智能可能不在於完美的效率,而在于適應性的智慧。在AI快速發展的今天,理解這種差異對於建構既強大又可信賴的人工智慧系統具有至關重要的意義。

論文標題:From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

論文連結:https://arxiv.org/abs/2505.17117

推薦閱讀

apple出品的大型語言模型推論的幻象

OpenThinker3-7B重磅發布:開源推論模型新標竿

知識vs推論:如何正確評估大型模型的思維能力?

主標籤:人工智慧

次標籤:大型語言模型概念形成資訊理論人類認知


上一篇:24《洞見》從科學到哲學,打開人類的認知真相

下一篇:面壁MiniCPM4推論速度快3倍,碾壓同尺寸Qwen3,讓阿里巴巴也感到壓力了~

分享短網址