GPT-5 等於擴展法則失靈?畢樹超:永遠有效,因為它反映的是資料結構,是客觀規律

圖片

GPT-5 的發布讓大家感到比較失望,甚至業內大老如 Fast AI 創辦人 Jeremy Howard 認為:擴展法則 (Scaling Law) 的時代快結束了,每家實驗室都會經歷一個類似小扎 (Mark Zuckerberg)「Llama 4 時刻」的節點——Grok 已經經歷了,OpenAI 也剛經歷。

那麼擴展法則真的已經走到盡頭了嗎?畢樹超 (Shuchao Bi,前 OpenAI 多模態後訓練負責人兼 YouTube Shorts 聯合創辦人,已被小扎高價挖到超級智慧實驗室) 給出了否定回答。畢樹超認為擴展法則會永遠有效,因為它反映的是資料結構,是客觀規律,失靈的只會是資料本身。

最近畢樹超大神在哥倫比亞大學做了一個演講《推進矽基智慧的前沿:過去、開放性問題與未來》,系統性地闡述了他對人工智慧發展的深邃思想。他首先回顧了過去十五年 AI 領域的兩條核心發展路徑——自我監督學習 (Self-Supervised Learning) 與強化學習 (Reinforcement Learning),並強調了「苦澀的教訓」(The Bitter Lesson) 這一核心思想:即大規模的運算 (Compute) 和資料 (Data) 最終會勝過人類精心設計的歸納偏差 (Inductive Bias)。

圖片

演講的核心論點是,當前 AI 的進步主要源於運算規模的擴展,但正逐漸面臨高品質資料的瓶頸。為此,未來的突破將依賴於能夠將運算轉化為新知識和新資料的高階強化學習典範。擴展法則本身是資料內在結構的一種反映,它是一種客觀規律,不會失靈。真正的問題是,我們已經耗盡了網路上大部分高品質、智慧化的文本資料。

圖片

以下是詳細內容:

1. 發展軌跡:自我監督與強化學習的「雙城記」

畢樹超將過去十幾年人工智慧的發展歷程,比作一個關於兩座城市的故事。這兩座城市分別是自我監督學習 (Self-Supervised Learning) 和強化學習 (Reinforcement Learning)。它們各自獨立發展,最終在近年匯合,共同推動了當前生成式 AI 的革命。

圖片

第一座城市:自我監督學習與規模化的力量

自我監督學習的浪潮,始於大約 2012 年。當時,一個名為 AlexNet 的大規模深度學習模型,利用 GPU 和海量資料,在 ImageNet 圖像識別挑戰中取得了驚人的成果,其錯誤率遠低於以往任何方法。這件事的標誌性意義在於,它證明了只要有足夠的資料和運算能力,類神經網路就能夠超越人類數十年來手工設計的視覺演算法。這對當時的電腦視覺領域來說是一場噩夢,因為研究者們過去幾十年精心調整的特徵工程一夜之間變得幾乎毫無價值。這一事件重新點燃了學術界和工業界對類神經網路的興趣,被廣泛視為深度學習革命的開端。

a. 從 Word2Vec 到 Everything2Vec (2013):

Google 推出的 Word2Vec 模型展示了如何用向量來表示單詞,並在這些向量上進行有意義的數學運算,例如 vector('king') - vector('man') + vector('woman') 約等於 vector('queen')。這證明了語言的語義可以被嵌入到代數結構中。更重要的是,這些嵌入向量在下游任務中表現出色,由此引發了萬物皆可向量化 (Everything2Vec) 的趨勢。無論是推薦系統中的應用、影片,還是使用者,都可以被表示為向量,極大地推動了各類應用的發展。

b. 架構與最佳化的演進:

ResNet (殘差網路, 2015, 何凱明大師神作): 深度學習面臨的一個核心挑戰是,訓練非常深層的網路極其困難,因為梯度在反向傳播過程中容易消失或爆炸。ResNet 透過引入跳躍連接巧妙地解決了這個問題。每一層的輸入可以直接跳到下一層,作為其原始輸入的一部分。這可以被理解為一種整合方法,將從淺層到深層的所有網路進行了整合。這使得損失曲面變得異常平滑,極大地簡化了最佳化過程。如今,幾乎所有現代類神經網路都採用了類似的結構。

Adam 最佳化器 (2014): Adam 提供了一種標準化的學習演算法,研究者不再需要手動調整大量的學習參數。它對於大規模、高雜訊的資料集尤其有效,簡化了訓練流程,至今仍然是主流的最佳化方法。

c. Transformer (2017) - 革命的集大成者

早期處理序列資料的模型 (如 RNN、LSTM) 存在兩大瓶頸:一是其遞迴結構難以平行化,限制了模型和資料的規模;二是它們在處理長序列時仍然會面臨梯度消失的問題。2017 年的論文《Attention Is All You Need》提出的 Transformer 架構,徹底摒棄了遞迴結構,完全依賴於自我注意力機制 (self-attention)。它透過堆疊多頭注意力層和前饋網路,實現了卓越的資料效率和平行化能力。這使得訓練前所未有的大模型成為可能,並成為了幾乎所有前沿語言模型和多模態模型的骨幹架構。

從 AlexNet 到 Transformer,自我監督學習的發展軌跡清晰地印證了 Rich Sutton 提出的「苦澀的教訓」(The Bitter Lesson):

那些充分利用運算規模擴展的通用方法,最終會勝過那些依賴人類精巧設計和歸納偏差的方法。

我們不應該試圖將人類的先驗知識硬塞進模型,而是應該創建一個結構盡可能簡潔、只想要學習的模型,然後用海量的資料和運算去訓練它。

第二座城市:強化學習與智慧的探索

強化學習的發展則呈現出另一番景象,它更多地關注決策、探索和與環境的互動。

從遊戲到超越人類:

Deep Q-Network (DQN, 2015): DeepMind 展示了 DQN 能夠在數百種雅達利 (Atari) 遊戲中達到遠超人類的水平。這些 AI 甚至發現了人類玩家從未想過的外星智慧策略。

AlphaGo (2016) & AlphaGo Zero (2017): AlphaGo 的成功是 AI 發展史上的里程碑。它最初從人類棋譜中學習,結合了深度類神經網路、自我對弈 (self-play) 和蒙特卡洛樹搜索 (Monte Carlo Tree Search),擊敗了世界圍棋冠軍。而其繼任者 AlphaGo Zero 則更進一步,完全不使用任何人類資料,僅僅透過自我對弈就達到了超越所有前代版本的水平。這就像一位武林高手,在找不到對手後,開始左右互搏,從而達到更高的境界。

AlphaZero (2018): 該模型將這種能力推廣到其他棋類遊戲 (如國際象棋),證明了其方法的通用性。

然而,儘管這些在遊戲領域的成就令人印象深刻,並產生了巨大的社會影響力,但它們卻未能直接創造顯著的經濟價值。畢樹超指出,其根本原因在於,這些成就高度依賴於專門的、不具備廣泛通用性的環境。換句話說,它們是特定任務的超級智慧,而非通用智慧。

雙城匯合:預訓練模型與強化學習的聯姻

真正的變革發生在這兩條路徑交匯之時。當強化學習不再是從零開始,而是與經過大規模資料預訓練、擁有廣泛世界知識的語言模型相結合時,奇蹟發生了。

InstructGPT (2022) & ChatGPT (2022): 透過使用來自人類回饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF),研究者們將一個只會進行文本補全的預訓練模型,轉變為一個能夠理解並遵循人類指令、樂於助人的對話式 AI。ChatGPT 的發布引爆了全球的熱情,每週活躍使用者超過 5 億,其應用場景從日常答疑、內容創作到拯救生命的醫療診斷,展示了前所未有的實用價值。

這場變革的關鍵在於,強化學習現在被應用在一個具有極高經濟價值的通用環境中,並且其起點是一個已經具備了海量知識的通用「先驗」——即預訓練語言模型。絕大部分的通用性仍然來自於預訓練階段,而強化學習則扮演了對齊的角色,讓模型的行為更符合人類的期望。正如 Yann LeCun 的蛋糕比喻:自我監督學習是蛋糕的主體,監督學習是糖霜,而強化學習只是蛋糕頂上那顆畫龍點睛的櫻桃。儘管目前 RL 的運算佔比很小,但畢樹超相信,要實現更高級的 AGI 和 ASI,需要投入更多運算資源到強化學習中,使其能夠適應全新的、甚至人類從未見過的環境。

2. 當前的挑戰:通往 AGI 之路上的開放性問題

在回顧了輝煌的過去之後,畢樹超指出,通往通用人工智慧 (AGI) 的道路並非一帆風順,當前我們正面臨一系列核心的開放性問題。這些問題主要圍繞著資料、效率、探索和安全展開。

核心瓶頸:資料,而非演算法

許多人觀察到,近期模型的效能提升似乎放緩,並宣稱擴展法則失靈了。但畢樹超提出了截然不同的看法:失靈的不是擴展法則,而是資料。他認為,擴展法則本身是資料內在結構的一種反映,它是一種客觀規律,不會失靈。真正的問題是,我們已經耗盡了網路上大部分高品質、智慧化的文本資料。

a. 擴展法則本質:

畢樹超傾向於認為,擴展法則源於資料分佈的冪律特性 (power-law distribution)。在現實世界中,簡單、常見的知識 (如算術) 非常多,而複雜、稀有的知識 (如代數幾何) 則要少得多。模型需要消耗指數級增長的運算資源,才能從資料中學習到那些更稀有、更深奧的模式。這也解釋了湧現能力 (emergent abilities) 現象:模型的能力並非平滑增長,而是在運算量跨越某個閾值後,突然掌握了某項新技能 (如微積分),這正是因為它終於有足夠的運算能力去理解資料中那些極其稀有的相關模式。

b. 資料的困境:

學習從根本上是受資料約束的 (data-bonded)。如果沒有更多、更好、更智慧的資料,單純增加模型參數和運算量,其收益將會遞減。因此,根本性的挑戰變成了如何獲取新的、高品質的資料。

如何創造新資料?高運算強化學習的希望與挑戰

既然人類資料已近枯竭,一個自然的發想是:我們能否將運算資源轉化為資料?畢竟,人類的知識本身就是人類大腦透過與環境互動 (即消耗生物運算) 產生的。理論上,矽基電腦也可以做到這一點。DeepMind 的 AlphaGo 和 AlphaDev 已經在特定領域證明了這一點的可行性。然而,將這一模式推廣到通用領域,還面臨幾個重大挑戰:

a. 可驗證性的限制 (Verifiability): 目前,透過強化學習生成新資料的方法,主要局限於那些結果可以被輕易驗證的領域,例如數學問題 (有標準答案) 或程式碼生成 (可以透過單元測試)。但在更多開放性、創造性的領域,如何定義一個可靠的獎勵訊號 (reward signal) 來判斷生成內容的好壞,是一個懸而未決的難題。

b. 探索的困境 (Exploration): 在圍棋這樣的封閉環境中,可以透過隨機探索 (如蒙特卡洛樹搜索) 來發現新策略。但在語言模型這樣一個組合空間大到難以想像的領域,隨機生成詞元幾乎不可能產生任何有意義的內容。這意味著我們需要更高效的探索策略。畢樹超認為,一種可能的方向是,模型可以基於已有的龐大知識庫進行內插 (interpolation) 和外推 (extrapolation),這種有引導的探索本身可能就足以推動智慧的邊界。AlphaDev 的成功——在 50 年未有突破的演算法排序問題上發現了更優解——為這一方向提供了鼓舞人心的證據。

c. RL 能否創造新思想? 最近有研究指出,當前的強化學習 (如 RLHF) 更多的是在激發而非創造基礎模型中已有的能力。也就是說,它能讓模型更可靠地輸出正確答案,但答案的種子在預訓練階段就已經存在了。畢樹超對此持保留態度,他相信更先進的 RL 典範將能夠真正生成全新的知識。

學習效率的鴻溝:人腦 vs. 機器

另一個核心問題是資料效率。與人類相比,當前 AI 的學習效率極低。一個人類學習新棋盤遊戲,可能只需要幾分鐘的講解和幾局練習 (相當於數千個詞元)。但要讓一個 AI 模型達到同等水平,可能需要數百萬甚至更多的樣本。

畢樹超推測,這種效率差異的根源可能在於學習目標的不同。

AI 的學習方式:

當前的語言模型透過預測下一個詞元來學習。這意味著模型不僅要學習語義和邏輯,還被迫浪費大量的運算資源去擬合語言中隨機的、表面的結構 (例如,同一個意思有一百種不同的說法,模型卻試圖去預測具體的遣詞造句)。

人類的學習方式:人類學習時,並不是在預測下一個詞。我們是在一個更高的、更抽象的層次上進行預測和理解。我們關注的是思想的本質,而非其表面的語言形式。

如何設計一種新的模型架構或損失函數,使其能夠像人一樣在更抽象的層次上學習,是通往更高資料效率的關鍵。解決這個問題的人,可能會開啟下一個 AI 典範,其意義不亞於 Transformer。

安全與對齊:不可忽視的基石

隨著模型能力越來越強,安全問題也變得日益突出。畢樹超將其分為三類:

內容安全:模型可能生成有害、不安全的內容,這類似於傳統的信任與安全問題。

惡意使用:壞人可能利用強大的 AI 從事犯罪活動。

失控與對齊風險 (Misalignment): 這是最嚴峻的挑戰,即模型自身目標與人類的價值觀不一致,可能導致災難性後果。

確保 AI 的發展是安全、可控且符合人類利益的,是所有前沿 AI 研究機構都必須嚴肅對待的核心問題。

3. AI 將如何重塑我們的世界

在演講的最後一部分,畢樹超分享了他對 AI 未來的暢想。他引用了 Sam Altman 的一句話:日子很長,但十年很短 (The days are long, but the decades are short)。這句話提醒我們,人們往往會高估 AI 的短期影響,卻嚴重低估其在中長期的顛覆性力量。畢樹超預見,當我們擁有了一個具備通用知識的先驗模型,並將其與無限制的強化學習運算和良好的互動環境相結合時,其結果將是超級智慧的誕生。

圖片

AI for Science:科學發現的新典範

畢樹超對於 AI 在科學領域的應用感到極為興奮。他認為,科學發現本質上是一個在巨大空間中的搜索問題 (a massive search space)。歷史上,科學家們透過直覺、實驗和理論,在這個空間中艱難地尋找真理的鵝卵石。AI 的力量在於,它可以極大地壓縮這個搜索空間,讓原本需要靈光一現的偶然發現變成可以系統性達成的目標。

AI 將成為科學的新數學:

他引用 DeepMind Isomorphic Labs 首席科學家的話說:不用 AI 做藥物設計,就像不用數學做科學研究一樣。AI 將成為未來十年所有科學領域的基礎工具。

正向飛輪的形成:

模型引導搜索:AI 模型 (如 AlphaFold) 分析問題,提出高可能性的假說 (例如,哪些蛋白質結構可能有效)。

自動化實驗驗證:實驗室中的機器人和自動化設備根據 AI 的提議進行高通量實驗。

資料回饋與模型迭代:實驗結果被迅速回饋給 AI,AI 在這些新資料上持續學習和進化,從而提出更精準的假說。

這個「假說 -> 實驗 -> 回饋」的閉環將以驚人的速度運轉,遠超人類科學家的效率,從而加速在材料科學、藥物研發、物理學等領域的突破。畢樹超甚至夢想,未來我們可以建造一個通用的科學模型,而不是為每個學科都建立一個專門的模型,來解決像黎曼猜想這樣的世紀難題。

AI for Education:實現真正的個人化與菁英化學習

教育是 AI 最能帶來公平和效率的領域之一。當前的教育體系,最大的不公之一在於優質教育資源的稀缺和分配不均。AI 有潛力從兩個方面徹底改變這一現狀。

降低學習門檻:AI 可以將複雜的知識點,用最適合個體學習者理解的方式重新組織和呈現。它可以生成無數的、個人化的例子和解釋,將原本令人生畏的學科變得平易近人。

提升學習上限 (Raise the Ceiling):AI 可以充當一個全天候、全知全能的個人導師 (personal tutor)。研究表明,一對一輔導可以將學習效率提升數倍。對於求知慾強的學習者,AI 可以成為 10 倍學習者的加速器。畢樹超以自己為例,他可以利用 AI 在一個週末內對一個全新領域建立起入門級的認知。他大膽假設,在未來,一個人用五年時間,或許不再是攻讀一個博士學位,而是可以獲得五個甚至十個不同領域的博士級知識。

其他領域的顛覆

AI 代理 (AI Agents): 在未來一兩年內,我們將看到更加可靠和能幹的 AI 代理成為現實,它們能夠代表人類執行複雜的數位任務,這更多的是一個工程執行問題,而非基礎研究問題。

AI for Healthcare:AI 已經在診斷方面展現出超越大多數普通醫療提供者的能力。未來,如果 AI 能夠獲取一個人的完整健康史和生命體徵資料,它將不僅能治療疾病,更能進行精準的預防性健康管理。

具身智慧 (Embodied AI): 儘管這是一個更長遠的挑戰,因為我們缺乏像網路文本那樣海量的機器人互動資料,並且如何高效地對動作進行標記仍是個難題。但一旦實現,具身智慧將對實體經濟產生巨大影響,甚至可以代替人類去探索危險的深海和遙遠的宇宙。

畢樹超認為,從某種意義上說,人類數百年來的文明進程——從發明印刷術記錄知識,到發明電腦和網際網路匯集資料——似乎都是在為 AGI 的誕生做準備。現在,這個時刻正在以前所未有的速度向我們走來。

總結

從畢樹超的演講中,我們可以提煉出兩個核心的框架和心智模型來理解 AI 未來發展,至少我覺得畢樹超能夠為我帶來一種較為可信的視角和思想,希望對大家能有幫助,這樣也會減少一些人云亦云的噪音。

心智模型一:「苦澀的教訓」——擁抱規模,摒棄偏差

這是貫穿整個演講的基石思想,源自強化學習之父 Rich Sutton 的經典文章《The Bitter Lesson》。它要求我們在思考 AI 發展路徑時,徹底轉變思維模式。

核心原則:通用方法 + 海量運算 = 最終勝利

歷史反覆證明,那些試圖將人類的知識、規則和啟發式方法硬編碼進系統的努力,雖然在短期內可能看似有效,但最終都會被那些更通用、更簡潔且能夠從大規模運算中獲益的方法所超越。

應該做什麼:專注於可擴展的兩件事——搜索 (Search) 和學習 (Learning)

學習:指的是模型從資料中自動發現模式和結構的能力,其代表是基於類神經網路的自我監督學習。我們應該設計出能夠吸收海量資料的通用架構 (如 Transformer),而不是為特定任務設計複雜的模組。

搜索:指的是在一個巨大的可能性空間中進行探索以找到最佳解的能力,其代表是強化學習中的蒙特卡洛樹搜索等方法。

應該避免什麼:過度依賴人類的歸納偏差 (Inductive Bias)

當我們設計一個演算法時,很容易將自己的直覺和對問題的理解 (即偏差) 加入其中。例如,在傳統的電腦視覺中,研究者們手工設計了邊緣偵測器、角點偵測器等特徵。然而,深度學習的成功表明,讓模型自己從原始像素中學習這些特徵,效果要好得多。圖靈 (Turing) 在 70 年前就提出,我們不應試圖模擬一個成人大腦 (包含各種偏差和知識),而應模擬一個嬰兒大腦,並給予它適當的教育 (即資料和訓練)。

實踐應用:

在選擇研究方向或技術方案時,優先考慮那些可擴展性強的方法。問自己一個問題:如果我的運算資源增加 100 倍,這個方法的效能會線性甚至超線性地提升嗎?

在建構模型時,保持架構的簡潔和通用性。相信資料和運算的力量,而不是試圖用巧妙的技巧去教模型太多東西。讓模型 just want to learn (只想學習)。

這個心智模型解釋了為什麼深度學習能夠在視覺、語言等多個領域取得突破,並預示著未來的進步將繼續依賴於運算和資料規模的指數級增長。

心智模型二:運算-資料飛輪——通往超級智慧的自我增強迴路

面對高品質人類資料枯竭的瓶頸,畢樹超描繪了一個透過 AI 自身來創造新知識、從而驅動智慧增長的正向飛輪框架。這個框架是「苦澀教訓」的自然延伸,核心是將運算資源轉化為資料資產。

飛輪的引擎:規模法則 (Scaling Laws)。這是底層物理規律,確保了投入更多高品質的資料和運算,就能換來更強的模型能力。

飛輪的啟動燃料:人類的全部知識。我們首先利用現有的人類資料 (文本、程式碼、圖像等) 來預訓練一個強大的基礎模型 (如 GPT-4)。這個模型是飛輪的起點,它擁有一個對世界廣泛而通用的先驗知識。

飛輪的運轉機制:一個「生成-驗證-學習」的閉環。

第一步:AI 提出假說 (Hypothesis Generation)。利用基礎模型的強大推理和知識能力,在一個特定問題域 (如數學、材料科學) 中進行有引導的探索和搜索,生成新的想法、解決方案或設計。這一步是將模型的潛在能力顯性化。

第二步:環境提供回饋 (Verification & Feedback)。將 AI 生成的假說放入一個可驗證的環境中進行檢驗。這個環境可以是一個數學證明器、一個物理模擬器、一個程式碼編譯器,或者是一個自動化的濕實驗室 (wet lab)。環境會返回一個明確的訊號:這個假說是否正確、有效或更優。

第三步:成功的探索轉化為新資料 (New Data Creation)。所有被驗證為成功的探索結果 (例如,一個新的數學定理、一種更高效的演算法、一個效能更優的分子結構),都被視為全新的、高品質的、由 AI 生成的資料。

第四步:模型在學習中進化 (Model Evolution)。將這些新生成的高品質資料,用於對基礎模型進行持續的訓練或微調。這會讓模型在該領域的能力變得更強,從而在下一輪的循環中能夠提出更深刻、更有效的假說。

飛輪的最終目標:實現智慧的自我驅動增長。透過這個不斷加速的飛輪,AI 系統將能夠擺脫對人類資料的依賴,進入一個自我完善、自我進化的軌道。運算資源被高效地轉化為新知識,而新知識又反過來提升了轉化效率。這條路徑,被認為是通往 ASI (人工超級智慧) 的最可能途徑。

這個框架不僅為解決資料瓶頸提供了清晰的路線圖,也為我們理解未來 AI 如何可能在科學等前沿領域產生顛覆性影響提供了深刻的洞察。它要求我們不僅將 AI 視為一個工具,更要將其視為一個能夠與我們共同探索未知、創造新知的合作夥伴。

參考:

https://www.youtube.com/watch?v=E22AOHAEtu4

主標籤:人工智慧

次標籤:擴展法則AI倫理資料科學機器學習


上一篇:思維鏈推理的「海市蜃樓」:大型語言模型泛化能力的深入探討

下一篇:強化學習框架的演進與發展趨勢

分享短網址