Meta 這兩篇最新的智能體學習 (Agent Learning) 論文，有些意思！

大家好，我是PaperAgent，不是Agent！

今天分享 Meta SuperLabs 最新發表的 2 篇關於智能體學習 (Agent Learning) 的論文：

• 2025.11 《Scaling Agent Learning via Experience Synthesis》

• 2025.10 《Agent Learning via Early Experience》

這兩篇文章從「如何低成本獲得高品質經驗」出發，形成一條完整技術鏈：離線專家資料 → 早期經驗增廣 → 合成環境狂飆 → 模擬到現實 (Sim-to-Real) 微調，為語言智能體進入「規模化強化學習 (RL) 時代」提供可復現的路線圖。

1. 智能體強化學習 (Agent RL) 的三大挑戰

1. Rollout 成本過高：在 WebArena 中，一次完整互動約需 30 秒，執行 812 個任務約需 6.8 小時；訓練 GRPO 輕易就產生 80k 轉換。

2. 獎勵稀疏甚至缺失：網頁情境缺乏真實獎勵；表單成功提交不代表所有欄位都正確。

3. 任務多樣性不足：手動編寫 800 條指令已是極限，難以支持課程化訓練。

2. 早期經驗 (Early Experience)：將「專家演示」轉化為「經驗海洋」

2.1 核心思想

與其等待環境提供獎勵，不如讓智能體自己「嘗試」——利用產生的未來狀態作為監督訊號。

2.2 兩大技術路線

路線、輸入、輸出、目標

隱式世界模型 (Implicit World Modeling, IWM)

輸入： (s, a’)

輸出： s’

目標： 學習「預測下一步世界」

自我反思 (Self-Reflection, SR)

輸入： (s, a_expert, a’, s’)

輸出： 自然語言反思 c

目標： 學習「為何專家表現更好」

圖 1：從人類資料時代 → 早期經驗時代 → 完全經驗時代

圖 1：從人類資料時代 → 早期經驗時代 → 完全經驗時代

2.3 資料飛輪

1. 從專家軌跡 Dexpert 中採樣狀態 si

2. 用初始策略 πθ 生成 K 個替代動作 aji

3. 在真實環境執行，收集 (si, aji, sji) 構成 Drollout

4. 用 Drollout 進行 IWM 或 SR 的增廣訓練

5. 微調後的 πθ 繼續產生更多 Drollout → 形成正向循環

2.4 結果速覽

表 2：8 個基準測試結果

表 2：8 個基準測試結果

OOD 結果

OOD 結果

結論：僅需 1/8 的專家資料即可達到模仿學習 (IL) 的完整效果，且在分佈外 (OOD) 泛化增益更大。

3. DreamGym：更進一步，直接省去「真實互動」

3.1 核心洞察

智能體訓練不需要完美模擬，只需要「足夠多樣、因果一致、可解釋」的經驗。

於是作者利用一個大型語言模型 (LLM) 扮演經驗模型 (Experience Model)，直接「推理」出下一狀態與獎勵，形成「零真實 rollout」的強化學習 (RL) 訓練場。

圖 2：DreamGym 框架

圖 2：經驗模型與智能體交替互動，重放緩衝區持續更新，任務生成器動態產生高熵任務

3.2 三大組件

DreamGym 包含三大組件，各司其職：

• 推理經驗模型 (Reasoning Experience Model)：作用為給定 (狀態 s, 動作 a, 任務 τ, 歷史紀錄, 相似軌跡) 後，輸出 (下一狀態 s’, 獎勵 r) 並提供思維鏈 (CoT) 解釋。其關鍵技巧在於抽象文本狀態空間並過濾 HTML 雜訊。

• 經驗重放緩衝區 (Experience Replay Buffer)：整合離線種子資料與線上新生成資料，透過 top-k 相似檢索來防止幻覺。它會與策略持續共同演化。

• 課程任務生成器 (Curriculum Task Generator)：選擇「成功率約 50%」的高熵任務，並產生其變體，以確保資訊增益最大化。

3.3 實驗亮點

DreamGym 不同智能體訓練演算法結果

DreamGym 不同智能體訓練演算法結果

DreamGym 零真實互動即可達到甚至超越傳統強化學習 (RL) 的表現；若再疊加 5k 真實 rollout (DreamGym-S2R)，則直接獲得 +8% 至 +10% 的絕對增益。

案例分析

案例分析

4. 技術對比：Early Experience 與 DreamGym

以下對 Early Experience 與 DreamGym 進行多維度比較：

• 是否觸碰真實環境： Early Experience ✅ 需要執行替代動作；DreamGym ❌ 完全合成。

• 獎勵訊號： Early Experience 無需獎勵，用下一狀態 s’ 監督；DreamGym 自產獎勵 r∈{0,1}。

• 資料效率： Early Experience 可將專家資料壓縮 10 倍；DreamGym 僅需 2k-10k 過渡即可訓練。

• 與強化學習 (RL) 銜接： Early Experience 提供熱啟動，後續接 GRPO；DreamGym 直接內建 PPO/GRPO。

• 最大瓶頸： Early Experience 仍需真實 rollout 採集；DreamGym 依賴大型語言模型 (LLM) 推理能力，存在幻覺風險。

「體驗即資料，推理即環境」

從 Early Experience 到 DreamGym，兩項研究共同指向一個核心趨勢——

「經驗」不再是昂貴採集的稀缺品，而是可以靠大型模型按需合成的資料原材料。

當「體驗」可以被無限生成、「獎勵」可以被即時推理，語言智能體才真正邁入「可擴展強化學習 (scalable RL)」的飛輪時代。對於工業界而言，這意味著「小樣本專家軌跡 + 大型模型合成」將成為新的標準範式，而「真實環境」只用於最後 5% 的關頭做校準——輕量、低成本、可擴展，下一輪智能體 (Agent) 爆發或許就此開啟。

https://arxiv.org/pdf/2510.08558

https://arxiv.org/pdf/2511.03773

Meta 這兩篇最新的智能體學習 (Agent Learning) 論文，有些意思！

分享短網址