「AI已達頂峰」是最大的錯覺,Anthropic 頂級研究員:AI仍在指數級加速,即將實現「8 小時自主工作」

上個月底,前 DeepMind 傳奇專案(AlphaGo Zero、MuZero)的核心貢獻者、現任 Anthropic 頂級研究員 Julian Schrittwieser 發表了一篇題為《[Failing to Understand the Exponential, Again]》(《我們又一次低估了指數成長的力量》)的部落格文章,迅速在 AI 圈爆紅。

原因很簡單,這篇文章點出了一個關鍵問題:我們對 AI 的成長速度,可能一直都在誤判。

圖片

在近期的深度訪談中,Julian 再次系統性地闡述了前瞻 AI 發展的真實軌跡、對未來一兩年的具體預測,以及從 AlphaGo 到 AGI 的關鍵演進路徑。

跟隨這位頂級研究員的視角,我們會發現令人震驚的真相。

傳送門:https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

一、大眾為何會反覆誤判 AI?

Julian 指出,人類在面對「指數成長」時一貫遲鈍。這種認知錯覺,在新冠疫情早期就出現過——明明數據已經在爆炸成長,社會卻仍覺得離我們很遠。AI 如今也一樣。

Julian 總結了大眾的兩大認知偏差:

1. 忽視指數曲線。

大多數人仍以線性視角看待 AI 的進步,誤以為它正在「放緩」,或將止步不前。但在前瞻實驗室的數據中,AI 能力的成長極其穩定且指數級,與「泡沫論」的主流敘事完全不同。

2. 以當下的錯誤做永久性判斷。

看到 AI 現在偶爾犯錯(如寫程式、設計網站),就認為它永遠無法達到人類水準。於是就跳到結論:AI 永遠無法在人類水準上完成這些任務,或者只會產生很小的影響。

可幾年前,讓 AI 做到這些事情還完全是科幻。有人看到連續兩代模型的對話差異不大,就斷言 AI 已達頂峰、Scaling 時代結束了。

雖然社群媒體上關於人工智慧泡沫 的討論隨處可見,但 Julian 在前瞻實驗室看到的,卻是另一番景象:

「我們沒有看到進展的放緩,反而看到的是一個非常穩定的進步,已經持續多年。」

這種進步,用數據可以精確描繪出來。

二、AI 長任務能力每 7 個月翻一番

根據獨立機構 METR(Model Evaluation and Testbed for Robustness) 的研究報告《Measuring AI Ability to Complete Long Tasks》(《衡量 AI 完成長任務的能力》),

前瞻模型在任務持續時間上的表現呈現出穩定的翻倍曲線。

圖片

• 2024 年中期,Claude Sonnet 3.5 僅能獨立完成約 30 分鐘任務;

• 到 2025 年,Sonnet 3.7 已能連續自主工作約 1 小時。

圖片

按照這種趨勢外推,AI 長任務能力每 7 個月翻一番。最新一代 GPT-5、Grok 4、Opus 4.1 等模型的表現已經超出了趨勢預測線,能夠勝任超過 2 小時長度的任務。

Julian 指出:

「這意味著模型已經能在中等規模專案上獨立運行,不需要人類即時干預。」

這類能力的提升,不是「線性疊加」,而是指數倍增

若繼續沿著 METR 的趨勢線外推,僅需一年多時間,AI 就能連續工作一個完整工作日。

有人可能會反對:從軟體工程任務上推廣到更廣泛的經濟領域是否合適?

三、AI 已逼近人類專家,可委託性逐漸擴大

幸運的是,我們還有另一個研究可以參考:OpenAI 的 GDPval 評估——它在 9 個行業中涵蓋了 44 個職業來測量模型表現。

在這項評估中:

• 每個任務都由平均 14 年經驗的行業專家設計,

• 模型與人類解答進行盲評比較。

結果顯示:GPT-5、Claude Opus 4.1 已接近人類專家的平均水準。

圖片

這些跨行業數據說明:

AI 的「可委託性」正在迅速擴大。

如果模型每 10 分鐘就需要人類回饋互動,其效率會受到極大限制;但當模型能持續工作數小時,並在專業水準上與專家持平,它就不再是單純的工具副本,而成為可以批量委託任務、進行團隊化管理的「虛擬協作夥伴」。

Julian 認為,即使是保守的趨勢外推,也足以推斷 2026 年將是 AI 廣泛融入經濟的關鍵一年。

「基於對數據和過去趨勢的簡單線性擬合外推,可以預測 AI 在未來一兩年內將實現全天候自主工作,並在專業領域達到甚至超越專家水準。」

對此,他給出了三個時間節點的關鍵預測:

• 到 2026 年中期,模型將能夠 自主工作一整天(8 個工作小時)。

• 在 2026 年底之前,至少有一個模型將在多個行業 匹配人類專家 的表現。

• 到 2027 年底,模型將頻繁地在許多任務上超越專家

這些不是空想,是數據外推的結果。Julian 說,這或許比許多「專家判斷」更可靠。

四、AI 生產力革命之後,是一場 AI 創造力革命

不止如此,AI 的價值,早已不只是「高效幹活」。它的創造力,也在改寫科學探索的節奏。

Julian 對 AI 創造力的理解,源自他在 DeepMind 時期的親歷。2016 年,AlphaGo 對戰世界頂尖圍棋選手,走出震驚業界的「37 步」。那一步棋非常反常,連職業棋手都感到意外。

這一步的意義重大——它證明 AI 不只是機械計算最優路徑,還能做出真正新穎、有創意的決策

現在的語言模型,同樣有這種創造力。它們能生成無限量的新穎內容,比如新程式碼、新論文片段。

真正的難點,不在於「新穎」,而在于「有用的新穎」。

要做到這一點,任務得夠難、夠有趣,AI 還得能判斷創意的品質。既走新路徑,又保證這條路徑有實際價值。

如今,這種創造力已經用到了科學發現上。

AlphaCode 能找到新程式,AlphaTensor 能發掘新演算法。Google DeepMind 和 Yell,也在生物醫學領域用 AI 做出了新發現。

Julian 判斷:

「或許明年,我們就會看到由 AI 獨立完成、足以震動科學界的發現。」

而對於當前存在的爭議,他保持十分樂觀的態度:

現在有些成果還有爭議,但這個過程一直在推進,等證據足夠清晰,爭議自然會消失。

更讓人期待的是諾貝爾獎級別的突破。

Julian 甚至預測,到 2027 年或 2028 年,AI 模型會足夠聰明,能單獨完成足以贏得諾貝爾獎的科學突破。

未來,AI 甚至可能衝擊數學菲爾茲獎。它會幫我們解鎖宇宙的奧秘,提升人類的生活水準。

換言之,AI 的生產力革命之後,正醞釀一場「創造力革命」。

五、AGI 的路徑與挑戰:預訓練與強化學習的結合

聊到 AGI,Julian 的判斷極為清晰:

「不需要新的神秘技術,『預訓練 + Transformer + 強化學習』的範式,足以實現人類水準的智能系統。」

這個範式的有效性,在 AlphaGo 系列演進中體現得淋漓盡致:

• AlphaGo 靠深度網路與自我對弈擊敗頂級棋手

• AlphaGo Zero 將這一過程提升到了另一個層次,完全去除了對人類知識的依賴,從零開始自我對弈,幾天就超越初代

• AlphaZero 把邏輯推廣到國際象棋、將棋,實現跨遊戲通用

• Mu0 則將框架擴展到現實世界的強化學習問題

在他看來,AGI 不會是突發奇點,而是一條平滑曲線。

技術難度的上升是真實的,但只要生產力的提升能抵消研究成本的增加,進步就不會停滯。

至於未來是否會放棄預訓練、只用強化學習,Julian 的答案是「大概率不會」。

「預訓練帶來了一些有趣的安全性視角。創造一個擁有與我們相似價值觀的代理」—— 預訓練不僅高效,還能幫 AI 對齊人類價值觀。

或許有人會為科學興趣訓練「從零開始的 AI」,但實用層面,「預訓練 + 強化學習」仍是主流。

最終,AI 的目標不是「超智能」,而是解決氣候變化、醫療、教育等全球性問題。

「我們需要確保人工智慧是為人類服務,而不是對抗人類」—— 這才是技術演進中最核心的原則。

六、結語

Julian 的分享,其實在幫我們糾正一個認知:別用「現在的 AI」去判斷「未來的 AI」。

因為它在指數成長。

今天覺得「不可能」的事,可能明年就成了「常規操作」。

從自主工作一整天,到追上甚至超越專家,再到幫人類拿諾貝爾獎——AI 的演進速度,比我們想像中快。

正如 Julian 所說:

「人工智慧是一種工具——一種強大的工具,可以幫助我們解決問題,實現曾經認為不可能的事情。」

但它終究是個工具。是否能夠負責地使用它,並確保它造福全人類,這掌握在我們手中。

未來有多好,取決於我們能不能用好這個工具,能不能讓它跟人類站在一邊。我們面前有一個巨大的機會,而如何充分利用它,取決於我們自己。

接下來的兩三年,會是 AI 改變世界的關鍵期。我們不妨保持關注,也保持理性——既不低估它的潛力,也不忽視它的挑戰。

主標籤:人工智慧發展

次標籤:指數成長AI能力預測AGI自主工作


上一篇:Meta 這兩篇最新的智能體學習 (Agent Learning) 論文,有些意思!

下一篇:上海交大博士最新思辨:僅用兩個問題闡明強化學習

分享短網址