【深度】Ilya Sutskever 精選論文:柏拉圖表徵假說

作者 | 費斌杰 熵簡科技 CEO

ChatGPT 之父 Ilya Sutskever 正式宣布從 OpenAI 離職後,第一時間點讚了一篇 AI 論文,引起廣泛關注。

圖片

這篇論文的標題是《The Platonic Representation Hypothesis》(柏拉圖表徵假說),由 MIT 團隊於上週發表。

週末我花時間仔細讀完了這篇論文,有著難以言喻的震撼。身為 Gen AI 的開創者,Ilya 精選的論文果然不同凡響。

這篇論文對未來 AI 發展路徑和方向有著指導意義。無論你是科技投資人、AI 從業者,還是對 AI 有興趣的朋友,都值得一讀。

我來為大家解讀這篇論文的精華內容。

相信看完這篇文章,你對深度學習模型的未來,會有個全新的哲學認知。

(1)柏拉圖的洞穴寓言

一切得從柏拉圖的洞穴寓言說起。

洞穴寓言是柏拉圖在其著作《理想國》中提出的一個思想模型,探討了何為「現實」。

在洞穴寓言中,有一群囚犯,他們一生都被鎖鏈拴在洞穴中,對洞穴外的世界一無所知。

他們一直面對著一面牆壁,只能看到身後各種事物在牆壁上的影子。

圖片

長此以往,這些影子便成為了他們眼中的「現實」,但這卻不是真實世界的準確表達。

在洞穴寓言中,「影子」代表我們透過各種感官感知到的現實片段,無論是透過眼睛看到的影像、耳朵聽到的聲音、雙手觸摸的形狀,都只是「現實」的種種投影罷了。

柏拉圖的師父蘇格拉底曾說過,哲學家就像是從洞穴中獲釋的囚犯,他們走出洞穴來到陽光下,逐漸明白牆上的影子並不是「現實」,而是「現實」的投影。

哲學家的目標是透過邏輯、數學、自然科學等手段,去理解和感知更高層次的「現實」,去格物致知,探索「道」。

現在,這個宏偉的目標從哲學家傳遞到了 AI 科學家的手中。

(2)什麼是柏拉圖表徵假說?

理解了柏拉圖洞穴寓言後,柏拉圖表徵假說就比較容易理解了。

柏拉圖表徵假說(Platonic Representation Hypothesis)指的是,不同的 AI 模型正在趨向於一個統一的現實表徵。

圖片

這麼說可能有點抽象,我來具體解釋一下。

如上圖所示,假設我們把現實 Z 具象成一個圓錐 + 一個圓球。那麼 X 是現實 Z 的圖片模態的投影,而 Y 是現實 Z 的文字模態的投影。

這時我們訓練兩個 AI 模型,一個是 CV 模型 f_img,一個是文字模型 f_text,它們各自學到了對於 X 和 Y 的表徵方式。

但是隨著模型參數規模、訓練資料的擴大,這兩個模型最終會學到 X、Y 這兩個投影背後,現實 Z 的表徵方式。

你可以理解為,當一個 AI 模型變得足夠聰明時,它就不再是那個被鐵鏈拴住的囚犯,而是成為了一名走出洞穴的哲學家。

它看到的不再是牆壁上的投影,而是逐漸理解了事物的本來面貌,感知到了更高維度的現實。

這就是柏拉圖表徵假說的含義。現在再看一下作者的定義,就容易理解了。

圖片

柏拉圖表徵假說有一個非常重要的推論,即不同模態、不同演算法架構的 AI 模型都會匯聚到同一個終點目標,那就是形成對於高維現實的準確表徵。

具體而言,這種對現實的表徵可以理解為一個機率模型,它是現實事件的聯合分佈。

這些離散事件取樣自未知分佈,並且能夠透過多種方式被觀察感知,無論是一張圖片、一段聲音、一段文字,還是質量、力、力矩等等。

圖片

(3)驗證柏拉圖表徵假說的有效性

既然這是一個假說,我們自然得尋找方法來驗證其有效性。

幸運的是科學家有趁手的數學工具來進行定量分析。

Phillip 將「表徵對齊」(Representation Alignment)定義為兩個表徵的 kernel 上的相似性度量。

圖片

在此基礎上,我們需要用到一項叫做模型拼接(Model Stitching)的技術來評估兩種表徵之間的相似度。

圖片

模型拼接的原理比較直觀:將兩個模型的中間表示層透過一個拼接層(Stitching Layer)連接起來,形成一個新的「縫合」模型。

如果這個「縫合」模型的性能良好,那麼表明兩個原始模型在該層的表示是相容的,即使它們此前可能是基於完全不同的資料集進行訓練的。

(4)實驗結果:強者往往相似,弱者各有各的弱法

透過「模型拼接」技術,以及「表徵對齊」的評估手段,我們便可以驗證柏拉圖假說是否真的存在。

Phillip 選取了 78 個 CV 模型進行表徵相似度分析,這些模型在訓練資料集、任務目標、演算法架構上各不相同。

實驗結果非常有趣,如下圖所示,我來為大家解讀一下這張圖。

圖片

首先看左邊的柱狀圖,橫軸是模型透過 VTAB 任務的比例,這個比例越高說明模型性能越強。這裡 Phillip 將 78 個 CV 模型按性能強弱分為 5 個 bucket,越往右越強。

縱軸是每個 bucket 中所有模型間的表徵相似度,柱子越高說明表徵相似度越高。

不難看出,模型的性能越強,它們之間的表徵相似度就越高。反之,模型的性能越差,它們之間的表徵相似度就越低。

右邊的散點圖把這個結論更加明確地呈現了出來。每個點都代表一個 CV 模型,顏色越紅說明模型越弱,顏色越藍說明模型越強。

可以看到,強大的模型(藍色的點)聚集在了一塊兒,說明它們之間有著較高的表徵相似度,而弱小的模型(紅色的點)卻比較分散,說明它們之間表徵相似度較低。

列夫·托爾斯泰在《安娜·卡列尼娜》中曾寫道:幸福的人都是相似的,不幸的人各有各的不幸。

Phillip 則調皮地模仿托爾斯泰的口吻說道:強大的模型往往都是相似的,弱小的模型各有各的弱法。

圖片

(5)AI 模型表徵收斂背後的三大原因

透過實驗結果,我們發現柏拉圖表徵假說確實存在。

那麼 AI 模型為什麼會呈現出如此明顯的表徵收斂性質呢?Phillip 認為主要有三大原因。

第一個原因:Task Generality

當一個 AI 模型只需要完成一種特定任務(比如影像分類)時,實現的方法有很多種。

但如果需要這個 AI 模型同時勝任一系列不同的任務時,實現的方式就會少得多。

如下圖所示,每個任務目標都會對模型施加額外的約束。當我們需要一個模型同時能夠做翻譯、做問答、寫程式、解數學題的時候,它的表徵空間會收斂到一個很小的範圍。

圖片

事實上,大語言模型可以看做是一個多任務目標訓練的過程。根據上文預測下一個 token 看似簡單,但實則是一個包羅萬象的任務集合。

多任務目標的訓練向模型施加了更多約束,從而導向更緊緻、更高质量的解決方案空間。

這是 LLM 能夠湧現出智能的一種有力解釋。

圖片

第二個原因:Model Capacity

模型越大,便越容易逼近全局最優表徵,從而推動表徵收斂。

如下圖所示,黃色區域和綠色區域是兩個 AI 模型的表徵空間,層層同心圓可以看做是模型 loss 的等高線,位於圓心處是 loss 最低的全局最優解。

圖片

在左圖中,由於兩個模型的參數規模都比較小,沿著降低 loss 的方向進行梯度下降,只能求解出兩個局部最優解,用 ☆ 表示。

隨著模型參數規模的增加,黃色和綠色的色塊範圍在擴大,意味著兩個 AI 模型的表徵空間變大。在右圖中兩個模型能夠找到一個共享的全局最優解(用 ★ 表示),實現表徵收斂。

第三個原因:Simplicity Bias

深度神經網路天然遵循著奧卡姆剃刀原則,有著「簡單性偏好」,傾向於選擇所有可行解中的最簡單的解決方案。

圖片

也許正是這種獨特的性質,讓深度神經網路模型從一眾模型架構中脫穎而出,成為現代 AI 的奠基演算法。

圖片

(6)Scaling 有用,但未必高效

柏拉圖表徵假說有著幾個重要推論,每個推論都對未來 AI 的發展有著方向性的指導意義。

根據柏拉圖表徵假說,隨著模型參數、任務多樣性、算力 FLOP 的增加,模型的表徵會逐漸收斂趨同。

這是不是意味著只要 Scaling up 就可以實現 AGI 呢?

是也不是。雖然 Scaling up 能夠實現表徵收斂,但是不同方法的收斂效率可能天差地別。

圖片

舉個例子,AlphaFold 3 能夠有效預測包括蛋白質在內的生物大分子結構,FSD 能夠透過影像辨識實現無人駕駛。

蛋白質結構預測與無人駕駛可能是兩類相對獨立的任務。雖然說用一個統一的 AI 模型來同時實現 AlphaFold 3 和 FSD 的能力,應該能讓模型的能力進一步增強,但訓練過程可能會非常低效,性價比較低。

圖片

因此,對於某些獨立任務而言,基於效率考量,可以單獨訓練一個 shortcut 模型,而不一定要依靠對於現實的統一表徵。

在某些場景中,相比費盡力氣取得全局最優解而言,高效地取得局部最優解更具經濟價值。

圖片

(7)重新理解多模態資料之間的關係

柏拉圖表徵假說讓我們能夠從一個新的視角審視多模態資料之間的關係。

假設你手上有 M 張圖片和 N 段文字,為了訓練出最強的 CV 模型,你不只應該訓練全部 M 張圖片,還應該把 N 段文字也納入訓練集中。

這其實已經成為 AI 業界的常見做法,有不少優秀的 CV 模型都是從預訓練大語言模型上微調而來的。

這個道理反之亦然。如果你想要訓練出最強的文字模型,你不只該把全部 N 段文字拿來訓練,還應該把 M 張圖片也納入訓練集。

這是因為不同模態的資料背後,隱含著某種與模態無關的通用現實表徵。

這意味著即使訓練集中不存在跨模態配對資料(如文字-圖片配對資料),純粹的文字語料也對 CV 模型訓練有直接幫助。跨模態配對資料的主要價值在於提升表徵收斂的效率。

圖片

(8)結語:尋找表徵世界的全局最優解

兩千年前,柏拉圖提出洞穴寓言,哲學家們開始運用邏輯工具、幾何工具懵懂地探索現實的本質。

兩千年後,人類的工具箱中多了一件超級武器,那就是 AI。

「格物致知」的接力棒已經遞給了 AI 科學家。

期待人類能夠在這個時代,借助 AI 的力量尋找到表徵世界的全局最優解,走出洞穴,探尋並理解高維現實,造福人類社會。

All of machine learning is footnotes to Plato.

圖片

(文畢)

主標籤:柏拉圖表徵假說

次標籤:AI 發展柏拉圖洞穴寓言表徵學習深度學習


上一篇:英偉達擬砸 10 億美元給這家 AI 編碼新創!Copilot 技術大佬領軍、成立兩年估值近千億

下一篇:程式設計測試碾壓人類!Claude Opus 4.5 深夜突襲,AI 程式設計進入「超人時代」

分享短網址