大家好,我是PaperAgent,不是Agent!
今天分享 Meta SuperLabs 最新發表的 2 篇關於智能體學習 (Agent Learning) 的論文:
• 2025.11 《Scaling Agent Learning via Experience Synthesis》
• 2025.10 《Agent Learning via Early Experience》
這兩篇文章從「如何低成本獲得高品質經驗」出發,形成一條完整技術鏈:離線專家資料 → 早期經驗增廣 → 合成環境狂飆 → 模擬到現實 (Sim-to-Real) 微調,為語言智能體進入「規模化強化學習 (RL) 時代」提供可復現的路線圖。
1. 智能體強化學習 (Agent RL) 的三大挑戰
1. Rollout 成本過高:在 WebArena 中,一次完整互動約需 30 秒,執行 812 個任務約需 6.8 小時;訓練 GRPO 輕易就產生 80k 轉換。
2. 獎勵稀疏甚至缺失:網頁情境缺乏真實獎勵;表單成功提交不代表所有欄位都正確。
3. 任務多樣性不足:手動編寫 800 條指令已是極限,難以支持課程化訓練。
2. 早期經驗 (Early Experience):將「專家演示」轉化為「經驗海洋」
2.1 核心思想
與其等待環境提供獎勵,不如讓智能體自己「嘗試」——利用產生的未來狀態作為監督訊號。
2.2 兩大技術路線
路線、輸入、輸出、目標
隱式世界模型 (Implicit World Modeling, IWM)
輸入: (s, a’)
輸出: s’
目標: 學習「預測下一步世界」
自我反思 (Self-Reflection, SR)
輸入: (s, a_expert, a’, s’)
輸出: 自然語言反思 c
目標: 學習「為何專家表現更好」
圖 1:從人類資料時代 → 早期經驗時代 → 完全經驗時代
2.3 資料飛輪
1. 從專家軌跡 Dexpert 中採樣狀態 si
2. 用初始策略 πθ 生成 K 個替代動作 aji
3. 在真實環境執行,收集 (si, aji, sji) 構成 Drollout
4. 用 Drollout 進行 IWM 或 SR 的增廣訓練
5. 微調後的 πθ 繼續產生更多 Drollout → 形成正向循環
2.4 結果速覽
表 2:8 個基準測試結果
OOD 結果
結論:僅需 1/8 的專家資料即可達到模仿學習 (IL) 的完整效果,且在分佈外 (OOD) 泛化增益更大。
3. DreamGym:更進一步,直接省去「真實互動」
3.1 核心洞察
智能體訓練不需要完美模擬,只需要「足夠多樣、因果一致、可解釋」的經驗。
於是作者利用一個大型語言模型 (LLM) 扮演經驗模型 (Experience Model),直接「推理」出下一狀態與獎勵,形成「零真實 rollout」的強化學習 (RL) 訓練場。
圖 2:經驗模型與智能體交替互動,重放緩衝區持續更新,任務生成器動態產生高熵任務
3.2 三大組件
DreamGym 包含三大組件,各司其職:
• 推理經驗模型 (Reasoning Experience Model):作用為給定 (狀態 s, 動作 a, 任務 τ, 歷史紀錄, 相似軌跡) 後,輸出 (下一狀態 s’, 獎勵 r) 並提供思維鏈 (CoT) 解釋。其關鍵技巧在於抽象文本狀態空間並過濾 HTML 雜訊。
• 經驗重放緩衝區 (Experience Replay Buffer):整合離線種子資料與線上新生成資料,透過 top-k 相似檢索來防止幻覺。它會與策略持續共同演化。
• 課程任務生成器 (Curriculum Task Generator):選擇「成功率約 50%」的高熵任務,並產生其變體,以確保資訊增益最大化。
3.3 實驗亮點
DreamGym 不同智能體訓練演算法結果
DreamGym 零真實互動即可達到甚至超越傳統強化學習 (RL) 的表現;若再疊加 5k 真實 rollout (DreamGym-S2R),則直接獲得 +8% 至 +10% 的絕對增益。
案例分析
4. 技術對比:Early Experience 與 DreamGym
以下對 Early Experience 與 DreamGym 進行多維度比較:
• 是否觸碰真實環境: Early Experience ✅ 需要執行替代動作;DreamGym ❌ 完全合成。
• 獎勵訊號: Early Experience 無需獎勵,用下一狀態 s’ 監督;DreamGym 自產獎勵 r∈{0,1}。
• 資料效率: Early Experience 可將專家資料壓縮 10 倍;DreamGym 僅需 2k-10k 過渡即可訓練。
• 與強化學習 (RL) 銜接: Early Experience 提供熱啟動,後續接 GRPO;DreamGym 直接內建 PPO/GRPO。
• 最大瓶頸: Early Experience 仍需真實 rollout 採集;DreamGym 依賴大型語言模型 (LLM) 推理能力,存在幻覺風險。
「體驗即資料,推理即環境」
從 Early Experience 到 DreamGym,兩項研究共同指向一個核心趨勢——
「經驗」不再是昂貴採集的稀缺品,而是可以靠大型模型按需合成的資料原材料。
當「體驗」可以被無限生成、「獎勵」可以被即時推理,語言智能體才真正邁入「可擴展強化學習 (scalable RL)」的飛輪時代。對於工業界而言,這意味著「小樣本專家軌跡 + 大型模型合成」將成為新的標準範式,而「真實環境」只用於最後 5% 的關頭做校準——輕量、低成本、可擴展,下一輪智能體 (Agent) 爆發或許就此開啟。