Metaの最新エージェント学習論文2編が興味深い！

皆さん、こんにちは。PaperAgentです、Agentではありません！

今日は、Meta SuperLabsが最近発表したエージェント学習に関する2つの論文を紹介します。

2025.11「Scaling Agent Learning via Experience Synthesis」

2025.10「Agent Learning via Early Experience」

この2つの論文は、「いかに低コストで高品質な経験を得るか」を出発点とし、オフライン専門家データ → 早期経験の増強 → 合成環境での急加速 → Sim-to-Real 微調整という完全な技術チェーンを形成し、言語エージェントが「規模化されたRL時代」に入るための再現可能なロードマップを提供します。

1. エージェントRLの3つの大きな課題

1. ロールアウトが高価すぎる WebArenaでは、1回の完全なインタラクションに約30秒かかり、812のタスクをすべて実行すると約6.8時間かかります。GRPOのトレーニングでは、8万トランジションが容易に発生します。

2. 報酬が希薄であるか、または不足している ウェブページシナリオでは、グラウンドトゥルース報酬がありません。フォームの提出が成功しても、すべてのフィールドが正しいとは限りません。

3. タスクの多様性が不足している 手動で800の指示を作成するのが限界であり、カリキュラムベースのトレーニングをサポートすることは困難です。

2. Early Experience：「専門家のデモンストレーション」を「経験の海」に変える

2.1 アイデアを一言で

「エージェントが環境からの報酬を待つよりも、自ら「試行」し、生成された未来の状態を教師信号として使う方が良い。」

2.2 2つの主要な技術ルート

早期経験の2つの主要な技術ルートは以下の通りです。

Implicit World Modeling (IWM): 入力は (s, a’)、出力は s’、目標は「次の世界を予測する」ことを学習します。

Self-Reflection (SR): 入力は (s, a_expert, a’, s’)、出力は自然言語による反思 c、目標は「なぜエキスパートが優れているのか」を学習します。

Fig-1 三种范式对比

図 1：人間データ時代 → 早期経験時代 → 完全経験時代への移行

2.3 データフライホイール

1. 専門家軌跡 Dexpert から状態 si をサンプリングします。

2. 初期戦略 πθ を用いて K 個の代替アクション aji を生成します。

3. 実環境で実行し、(si, aji, sji) を収集して Drollout を構成します。

4. Drollout を用いて IWM または SR の増強トレーニングを行います。

5. 微調整された πθ はさらに多くの Drollout を生成し、ポジティブなループを形成します。

2.4 結果の速報

Table2 8個benchmarks結果

Table2 8個のベンチマーク結果

OOD結果

「結論：専門家データの1/8のみでILの全量効果に匹敵し、OOD汎化のメリットがより大きくなります。」

3. DreamGym：さらに一歩進んで、「実際のインタラクション」を直接省略する

3.1 核となる洞察

「エージェントのトレーニングには完璧なシミュレーションは必要なく、「十分に多様で、因果的に一貫性があり、説明可能」な経験があれば十分である。」

そこで著者は1つのLLMをExperience Modelとして使用し、直接次の状態と報酬を「推論」することで、「実際のロールアウトなし」のRLトレーニング環境を構築しました。

Fig-2 DreamGym 框架

図 2：Experience Model が Agent と交互にやり取りし、Replay Buffer が継続的に更新され、Task Generator が動的にエントロピーの高いタスクを生成

3.2 3つの主要コンポーネント

DreamGymの3つの主要コンポーネントは以下の通りです。

Reasoning Experience Model: (s, a, τ, 履歴, 類似軌跡) が与えられたとき、(s’, r) とCoT説明を出力します。重要なテクニックは、抽象的なテキスト状態空間の利用とHTMLノイズのフィルタリングです。

Experience Replay Buffer: オフラインシードとオンラインで新しく生成されたものを組み合わせて使用し、幻覚防止のためにtop-k類似検索を行います。重要なテクニックは、戦略との継続的な共進化です。

Curriculum Task Generator: 「成功率≈50%」の高エントロピーなタスクを選択し、バリアントを生成します。重要なテクニックは、情報ゲインの最大化を保証することです。

3.3 実験のハイライト

DreamGym不同agnet訓練算法結果

DreamGymの様々なエージェント訓練アルゴリズムの結果

「DreamGymは実際のインタラクションなしで従来のRLに匹敵するか、それを上回ります。さらに5kの実際のロールアウト（DreamGym-S2R）を重ねると、直接+8〜10%の絶対的な改善が見られます。」

case分析

ケース分析

4. 技術比較：Early Experience vs DreamGym

Early ExperienceとDreamGymの技術比較は以下の通りです。

実環境に触れるか: Early Experienceは代替アクションの実行が必要ですが、DreamGymは完全に合成です。

報酬信号: Early Experienceは報酬を必要とせず、s’ で監督しますが、DreamGymは自己生成報酬 r∈{0,1}を使用します。

データ効率: Early Experienceはエキスパートデータを10倍圧縮しますが、DreamGymは2k-10kの移行で訓練可能です。

RLとの接続: Early Experienceはウォームスタートを提供し、その後GRPOに接続しますが、DreamGymはPPO/GRPOを直接内蔵しています。

最大のボトルネック: Early Experienceは実際のロールアウト収集が必要ですが、DreamGymはLLMの推論能力に依存し、幻覚のリスクがあります。

経験即データ、推論即環境

Early ExperienceからDreamGymまで、2つの研究は共通して核心的なトレンドを示しています。

「「経験」は高価な収集を要する希少なものではなく、大規模モデルによってオンデマンドで合成可能なデータ原材料となる。」

「経験」が無限に生成され、「報酬」が即座に推論できるようになれば、言語エージェントは真に「スケーラブルなRL」のフライトホイール時代へと突入します。産業界にとって、これは「少量のサンプルエキスパート軌跡 + 大規模モデル合成」が新しい標準パラダイムとなり、「実環境」は最後の5%の校正にのみ使用されることを意味します。軽量、低コスト、スケーラブルであり、次なるエージェントの爆発的進化がここから始まるかもしれません。

https://arxiv.org/pdf/2510.08558

https://arxiv.org/pdf/2511.03773

Metaの最新エージェント学習論文2編が興味深い！

短いURLをシェア