Meta 這兩篇最新的智能體學習 (Agent Learning) 論文,有些意思!

大家好,我是PaperAgent,不是Agent!

今天分享 Meta SuperLabs 最新發表的 2 篇關於智能體學習 (Agent Learning) 的論文:

• 2025.11 《Scaling Agent Learning via Experience Synthesis》

• 2025.10 《Agent Learning via Early Experience》

圖片圖片

這兩篇文章從「如何低成本獲得高品質經驗」出發,形成一條完整技術鏈:離線專家資料 → 早期經驗增廣 → 合成環境狂飆 → 模擬到現實 (Sim-to-Real) 微調,為語言智能體進入「規模化強化學習 (RL) 時代」提供可復現的路線圖。

1. 智能體強化學習 (Agent RL) 的三大挑戰

1. Rollout 成本過高:在 WebArena 中,一次完整互動約需 30 秒,執行 812 個任務約需 6.8 小時;訓練 GRPO 輕易就產生 80k 轉換。

2. 獎勵稀疏甚至缺失:網頁情境缺乏真實獎勵;表單成功提交不代表所有欄位都正確。

3. 任務多樣性不足:手動編寫 800 條指令已是極限,難以支持課程化訓練。

圖片

2. 早期經驗 (Early Experience):將「專家演示」轉化為「經驗海洋」

2.1 核心思想

與其等待環境提供獎勵,不如讓智能體自己「嘗試」——利用產生的未來狀態作為監督訊號。

2.2 兩大技術路線

路線、輸入、輸出、目標

隱式世界模型 (Implicit World Modeling, IWM)

輸入: (s, a’)

輸出: s’

目標: 學習「預測下一步世界」

自我反思 (Self-Reflection, SR)

輸入: (s, a_expert, a’, s’)

輸出: 自然語言反思 c

目標: 學習「為何專家表現更好」

圖 1:從人類資料時代 → 早期經驗時代 → 完全經驗時代

圖 1:從人類資料時代 → 早期經驗時代 → 完全經驗時代

2.3 資料飛輪

圖片

1. 從專家軌跡 Dexpert 中採樣狀態 si

2. 用初始策略 πθ 生成 K 個替代動作 aji

3. 在真實環境執行,收集 (si, aji, sji) 構成 Drollout

4. 用 Drollout 進行 IWM 或 SR 的增廣訓練

5. 微調後的 πθ 繼續產生更多 Drollout → 形成正向循環

圖片

2.4 結果速覽

表 2:8 個基準測試結果

表 2:8 個基準測試結果

OOD 結果

OOD 結果

結論:僅需 1/8 的專家資料即可達到模仿學習 (IL) 的完整效果,且在分佈外 (OOD) 泛化增益更大。

圖片

3. DreamGym:更進一步,直接省去「真實互動」

3.1 核心洞察

智能體訓練不需要完美模擬,只需要「足夠多樣、因果一致、可解釋」的經驗。

於是作者利用一個大型語言模型 (LLM) 扮演經驗模型 (Experience Model),直接「推理」出下一狀態與獎勵,形成「零真實 rollout」的強化學習 (RL) 訓練場。

圖 2:DreamGym 框架

圖 2:經驗模型與智能體交替互動,重放緩衝區持續更新,任務生成器動態產生高熵任務

3.2 三大組件

DreamGym 包含三大組件,各司其職:

推理經驗模型 (Reasoning Experience Model):作用為給定 (狀態 s, 動作 a, 任務 τ, 歷史紀錄, 相似軌跡) 後,輸出 (下一狀態 s’, 獎勵 r) 並提供思維鏈 (CoT) 解釋。其關鍵技巧在於抽象文本狀態空間並過濾 HTML 雜訊。

經驗重放緩衝區 (Experience Replay Buffer):整合離線種子資料與線上新生成資料,透過 top-k 相似檢索來防止幻覺。它會與策略持續共同演化。

課程任務生成器 (Curriculum Task Generator):選擇「成功率約 50%」的高熵任務,並產生其變體,以確保資訊增益最大化。

3.3 實驗亮點

DreamGym 不同智能體訓練演算法結果

DreamGym 不同智能體訓練演算法結果

DreamGym 零真實互動即可達到甚至超越傳統強化學習 (RL) 的表現;若再疊加 5k 真實 rollout (DreamGym-S2R),則直接獲得 +8% 至 +10% 的絕對增益。

案例分析

案例分析

4. 技術對比:Early Experience 與 DreamGym

以下對 Early Experience 與 DreamGym 進行多維度比較:

是否觸碰真實環境: Early Experience ✅ 需要執行替代動作;DreamGym ❌ 完全合成

獎勵訊號: Early Experience 無需獎勵,用下一狀態 s’ 監督;DreamGym 自產獎勵 r∈{0,1}。

資料效率: Early Experience 可將專家資料壓縮 10 倍;DreamGym 僅需 2k-10k 過渡即可訓練。

與強化學習 (RL) 銜接: Early Experience 提供熱啟動,後續接 GRPO;DreamGym 直接內建 PPO/GRPO。

最大瓶頸: Early Experience 仍需真實 rollout 採集;DreamGym 依賴大型語言模型 (LLM) 推理能力,存在幻覺風險。

「體驗即資料,推理即環境」

從 Early Experience 到 DreamGym,兩項研究共同指向一個核心趨勢——

「經驗」不再是昂貴採集的稀缺品,而是可以靠大型模型按需合成的資料原材料。

當「體驗」可以被無限生成、「獎勵」可以被即時推理,語言智能體才真正邁入「可擴展強化學習 (scalable RL)」的飛輪時代。對於工業界而言,這意味著「小樣本專家軌跡 + 大型模型合成」將成為新的標準範式,而「真實環境」只用於最後 5% 的關頭做校準——輕量、低成本、可擴展,下一輪智能體 (Agent) 爆發或許就此開啟。

https://arxiv.org/pdf/2510.08558

https://arxiv.org/pdf/2511.03773

主標籤:智能體學習

次標籤:強化學習模擬訓練大型語言模型經驗合成


上一篇:AI科研革命:牛津團隊用「世界模型」一夜完成半年科學研究!

下一篇:「AI已達頂峰」是最大的錯覺,Anthropic 頂級研究員:AI仍在指數級加速,即將實現「8 小時自主工作」

分享短網址