皆さん、こんにちは。PaperAgentです、Agentではありません!
今日は、Meta SuperLabsが最近発表したエージェント学習に関する2つの論文を紹介します。
2025.11「Scaling Agent Learning via Experience Synthesis」
2025.10「Agent Learning via Early Experience」
この2つの論文は、「いかに低コストで高品質な経験を得るか」を出発点とし、オフライン専門家データ → 早期経験の増強 → 合成環境での急加速 → Sim-to-Real 微調整という完全な技術チェーンを形成し、言語エージェントが「規模化されたRL時代」に入るための再現可能なロードマップを提供します。
1. エージェントRLの3つの大きな課題
1. ロールアウトが高価すぎる WebArenaでは、1回の完全なインタラクションに約30秒かかり、812のタスクをすべて実行すると約6.8時間かかります。GRPOのトレーニングでは、8万トランジションが容易に発生します。
2. 報酬が希薄であるか、または不足している ウェブページシナリオでは、グラウンドトゥルース報酬がありません。フォームの提出が成功しても、すべてのフィールドが正しいとは限りません。
3. タスクの多様性が不足している 手動で800の指示を作成するのが限界であり、カリキュラムベースのトレーニングをサポートすることは困難です。
2. Early Experience:「専門家のデモンストレーション」を「経験の海」に変える
2.1 アイデアを一言で
「エージェントが環境からの報酬を待つよりも、自ら「試行」し、生成された未来の状態を教師信号として使う方が良い。」
2.2 2つの主要な技術ルート
早期経験の2つの主要な技術ルートは以下の通りです。
Implicit World Modeling (IWM): 入力は (s, a’)、出力は s’、目標は「次の世界を予測する」ことを学習します。
Self-Reflection (SR): 入力は (s, a_expert, a’, s’)、出力は自然言語による反思 c、目標は「なぜエキスパートが優れているのか」を学習します。
図 1:人間データ時代 → 早期経験時代 → 完全経験時代への移行
2.3 データフライホイール
1. 専門家軌跡 Dexpert から状態 si をサンプリングします。
2. 初期戦略 πθ を用いて K 個の代替アクション aji を生成します。
3. 実環境で実行し、(si, aji, sji) を収集して Drollout を構成します。
4. Drollout を用いて IWM または SR の増強トレーニングを行います。
5. 微調整された πθ はさらに多くの Drollout を生成し、ポジティブなループを形成します。
2.4 結果の速報
Table2 8個のベンチマーク結果
OOD結果
「結論:専門家データの1/8のみでILの全量効果に匹敵し、OOD汎化のメリットがより大きくなります。」
3. DreamGym:さらに一歩進んで、「実際のインタラクション」を直接省略する
3.1 核となる洞察
「エージェントのトレーニングには完璧なシミュレーションは必要なく、「十分に多様で、因果的に一貫性があり、説明可能」な経験があれば十分である。」
そこで著者は1つのLLMをExperience Modelとして使用し、直接次の状態と報酬を「推論」することで、「実際のロールアウトなし」のRLトレーニング環境を構築しました。
図 2:Experience Model が Agent と交互にやり取りし、Replay Buffer が継続的に更新され、Task Generator が動的にエントロピーの高いタスクを生成
3.2 3つの主要コンポーネント
DreamGymの3つの主要コンポーネントは以下の通りです。
Reasoning Experience Model: (s, a, τ, 履歴, 類似軌跡) が与えられたとき、(s’, r) とCoT説明を出力します。重要なテクニックは、抽象的なテキスト状態空間の利用とHTMLノイズのフィルタリングです。
Experience Replay Buffer: オフラインシードとオンラインで新しく生成されたものを組み合わせて使用し、幻覚防止のためにtop-k類似検索を行います。重要なテクニックは、戦略との継続的な共進化です。
Curriculum Task Generator: 「成功率≈50%」の高エントロピーなタスクを選択し、バリアントを生成します。重要なテクニックは、情報ゲインの最大化を保証することです。
3.3 実験のハイライト
DreamGymの様々なエージェント訓練アルゴリズムの結果
「DreamGymは実際のインタラクションなしで従来のRLに匹敵するか、それを上回ります。さらに5kの実際のロールアウト(DreamGym-S2R)を重ねると、直接+8〜10%の絶対的な改善が見られます。」
ケース分析
4. 技術比較:Early Experience vs DreamGym
Early ExperienceとDreamGymの技術比較は以下の通りです。
実環境に触れるか: Early Experienceは代替アクションの実行が必要ですが、DreamGymは完全に合成です。
報酬信号: Early Experienceは報酬を必要とせず、s’ で監督しますが、DreamGymは自己生成報酬 r∈{0,1}を使用します。
データ効率: Early Experienceはエキスパートデータを10倍圧縮しますが、DreamGymは2k-10kの移行で訓練可能です。
RLとの接続: Early Experienceはウォームスタートを提供し、その後GRPOに接続しますが、DreamGymはPPO/GRPOを直接内蔵しています。
最大のボトルネック: Early Experienceは実際のロールアウト収集が必要ですが、DreamGymはLLMの推論能力に依存し、幻覚のリスクがあります。
経験即データ、推論即環境
Early ExperienceからDreamGymまで、2つの研究は共通して核心的なトレンドを示しています。
「「経験」は高価な収集を要する希少なものではなく、大規模モデルによってオンデマンドで合成可能なデータ原材料となる。」
「経験」が無限に生成され、「報酬」が即座に推論できるようになれば、言語エージェントは真に「スケーラブルなRL」のフライトホイール時代へと突入します。産業界にとって、これは「少量のサンプルエキスパート軌跡 + 大規模モデル合成」が新しい標準パラダイムとなり、「実環境」は最後の5%の校正にのみ使用されることを意味します。軽量、低コスト、スケーラブルであり、次なるエージェントの爆発的進化がここから始まるかもしれません。