兩位著名的 AI 科學家 David Silver 和 Richard Sutton 在一篇新論文中指出,人工智慧即將進入一個新階段,即「經驗時代」。在這個時代,AI 系統將越來越少依賴人類提供的數據,而是透過從世界收集數據並與之互動來提升自身。
雖然這篇論文是概念性的且具有前瞻性,但它對於旨在運用未來 AI 代理和系統進行構建的企業具有直接影響。
Silver 和 Sutton 都是經驗豐富的科學家,對 AI 的未來做出過準確預測。他們的預測的有效性可以直接從當今最先進的 AI 系統中看出。2019 年,強化學習的先驅 Sutton 撰寫了著名的文章《苦澀的教訓》(The Bitter Lesson),其中他主張,AI 長期進步的最大動力持續來自於利用大規模計算與通用搜索和學習方法,而不是主要依賴於納入複雜的、人類衍生的領域知識。
DeepMind 的資深科學家 David Silver 是 AlphaGo、AlphaZero 和 AlphaStar 的主要貢獻者,這些都是深度強化學習的重要成就。他也是 2021 年一篇論文的共同作者,該論文聲稱強化學習和一個設計良好的獎勵信號足以創造非常先進的 AI 系統。
最先進的大型語言模型(LLMs)運用了這兩個概念。自 GPT-3 以來征服 AI 領域的新一波 LLMs 主要依靠擴展計算和數據來內化大量知識。最近一波推理模型,例如 DeepSeek-R1,已經證明強化學習和一個簡單的獎勵信號足以學習複雜的推理技能。
什麼是經驗時代?
「經驗時代」建立在 Sutton 和 Silver 近年來討論的相同概念之上,並將其應用於 AI 的最新進展。作者認為,「單純依靠從人類數據進行監督學習所驅動的進步速度明顯放緩,這表明需要一種新的方法。」
這種方法需要新的數據來源,這些數據必須以一種隨著代理變得更強而持續改進的方式生成。「這可以透過讓代理不斷從自身的經驗中學習來實現,即由代理與其環境互動產生的數據,」Sutton 和 Silver 寫道。他們主張,最終,「經驗將成為改進的主要媒介,並最終遠超當今系統中使用的人類數據規模。」
根據作者的說法,除了從自身的經驗數據中學習外,未來的 AI 系統將在以下四個維度上「突破以人類為中心的 AI 系統的限制」:
串流:AI 代理將「擁有自己的經驗串流,像人類一樣,隨著長時間尺度的發展而進步」,而不是跨越不連貫的事件。這將使代理能夠規劃長期目標並隨著時間的推移適應新的行為模式。我們可以在具有非常長上下文窗口和根據用戶互動不斷更新的記憶架構的 AI 系統中看到這一點的雛形。
動作和觀察:經驗時代的代理將在現實世界中自主行動,而不是專注於人類特權的動作和觀察。這方面的例子是代理系統,它們可以透過電腦使用和模型上下文協定(MCP)等工具與外部應用程式和資源互動。
獎勵:目前的強化學習系統主要依賴於人類設計的獎勵函數。未來,AI 代理應該能夠設計自己的動態獎勵函數,這些函數會隨時間調整,並透過從代理在世界中的行動和觀察中收集的現實世界信號與用戶偏好相匹配。我們正在看到 Nvidia 的 DrEureka 等系統中自我設計獎勵的早期版本。
規劃和推理:目前的推理模型旨在模仿人類的思維過程。作者認為,「肯定存在更有效的思維機制,使用非人類語言,例如可能利用符號、分佈式、連續或可微分的計算。」AI 代理應該與世界互動,觀察並使用數據來驗證和更新其推理過程並發展一個世界模型。
透過強化學習使 AI 代理適應其環境的想法並不新鮮。但以前,這些代理僅限於非常受限的環境,例如棋盤遊戲。如今,可以與複雜環境互動的代理(例如,AI 電腦使用)和強化學習的進步將克服這些限制,帶來向經驗時代的過渡。
這對企業意味著什麼?
在 Sutton 和 Silver 的論文中埋藏著一個對實際應用具有重要意義的觀察:「代理可以使用『人類友善的』動作和觀察,例如使用者介面,這自然地促進了與使用者的溝通和協作。代理也可以執行程式碼和呼叫 API 的『機器友善的』動作,使代理能夠自主地為其目標服務。」
經驗時代意味著開發人員不僅要為人類構建應用程式,還要考慮到 AI 代理。機器友善的動作需要構建安全且易於直接或透過 MCP 等介面訪問的 API。這也意味著創建可以透過 Google 的 Agent2Agent 等協定發現的代理。您還需要設計您的 API 和代理介面以提供對動作和觀察的訪問。這將使代理能夠逐步推理並從與您的應用程式的互動中學習。
如果 Sutton 和 Silver 提出的願景成為現實,很快就會有數十億個代理在網路上(不久也將在物理世界中)漫遊以完成任務。它們的行為和需求將與人類用戶和開發人員非常不同,而擁有一個對代理友善的方式與您的應用程式互動將提高您利用未來 AI 系統的能力(同時也防止它們可能造成的傷害)。
「透過建立在 RL 的基礎之上並將其核心原則應用於這個新時代的挑戰,我們可以釋放自主學習的全部潛力,並為真正超越人類的智慧鋪平道路,」Sutton 和 Silver 寫道。
DeepMind 拒絕對此故事提供進一步評論。