RLスケーリングの切り札！DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開

今朝早く、著名な大規模モデル学習プラットフォームTogether.aiがAgenticaと共同で、革新的なAIエージェントフレームワークDeepSWEをオープンソース化しました。

DeepSWEは、アリババが最近オープンソース化したQwen3-32Bモデルを基盤とし、完全に強化学習によって訓練されています。

重みに加え、学習方法、ログ、データセットなどすべての内容がオープンソース化され、開発者がエージェントを深く学習し改善するのを支援します。

オープンソースアドレス：https://huggingface.co/agentica-org/DeepSWE-Preview

SWE-Bench-Verifiedのテストデータによると、DeepSWEは64kの最大コンテキスト長と100の最大環境ステップで評価され、16回の実行の平均Pass@1精度で42.2%を達成しました。混合テスト時のスケーリング（TTS）を使用すると、性能はさらに59%に向上し、すべてのオープンソースエージェントフレームワークの中でトップに立ちました。

DeepSWEは、強化学習のみで学習する有効性と計り知れない可能性を証明しています。他のオープンソースモデルと比較して、DeepSWE-Previewは、より強力なプロプライエタリな教師モデルからの蒸留やSFTに依存することなく、最高の性能を達成しました。

DeepSWEの学習は、言語エージェントの後期学習のためのシステムであるrLLMフレームワークに基づいています。このモデルは、R2E-Gym学習環境からの4500の実世界のSWEタスクに対し、64台のH100 GPUで6日間学習されました。これらのタスクは、GitHub問題の解決から新しいコード機能の実装、デバッグまで、複雑なシナリオをカバーしており、実世界のソフトウェアエンジニアリングの多様性と複雑さを反映しています。

学習プロセス中、DeepSWE-Previewは環境との相互作用を通じて、広範なコードベースをナビゲートし、的を絞ったコード編集を適用し、シェルコマンドを実行してビルドとテストを行い、実際のプルリクエストを解決する際にソリューションを繰り返し最適化および検証する方法を学習します。

学習方法に関しては、データセット管理ではR2E-Gymサブセットの4500問の問題が採用され、SWE-Bench-Verifiedと同じリポジトリからの問題を除外することで、学習データの純粋性が確保されました。すべての問題は単一のDockerイメージにマッピングされ、管理と実行が容易になりました。学習環境はR2E-Gymを中心に構築されており、この環境は高品質な実行可能なSWE環境をスケーラブルに管理できます。状態とアクションの定義には、Bashコマンドの実行、ファイルの検索、ファイルの編集、タスク完了の提出などの操作が含まれます。

報酬メカニズムにはスパース結果報酬モデルが採用されており、LLMが生成したパッチがすべてのテストに合格した場合にのみ正の報酬が与えられ、それ以外の場合は報酬はゼロとなります。学習中に発生するスケーリングの課題に対処するため、研究者はKubernetesサポートをR2E-Gymに統合し、コンテナの弾力的なスケジューリングと自動スケーリングを実現しました。これにより、数百万の軌跡を確実に収集しながら、計算コストを負荷に比例して維持することができます。

強化学習アルゴリズムに関して、DeepSWE-Previewの学習にはGRPO++アルゴリズムが採用されました。これはオリジナルのGRPOアルゴリズムの改良版です。GRPO++は、DAPO、Dr.GRPO、LOOP/RLOOなどの研究からの洞察と革新を統合し、高クリッピング、KL損失なし、報酬標準偏差なし、長さ正規化、留一法、コンパクトフィルタリング、エントロピー損失なしなどの戦略を通じて、より安定した高性能な学習プロセスを実現しました。

中でも、コンパクトフィルタリング戦略は、マルチターンエージェントのシナリオに特化しており、最大コンテキスト、最大ステップ、またはタイムアウトに達した軌跡をマスクすることで、学習中の報酬の崩壊を防ぎ、エージェントがステップをまたぐ長形式の推論を行うことを奨励します。

TTSは、DeepSWE-Previewが性能向上を達成するための主要な戦略の1つです。テスト段階では、複数の軌跡を生成し、その中で問題を正しく解決した軌跡を選択することで、DeepSWE-PreviewはPass@1性能を大幅に向上させることができます。

研究者は、実行ベースのバリデーターと実行なしのバリデーターを含む様々なTTS戦略を試行し、最終的に両方のパラダイムの利点を組み合わせた混合スケーリング戦略を採用しました。これにより59.0%の性能を達成し、現在の最先端のオープンソース重みモデルよりも12%高くなりました。

さらに、研究者は、SWE関連タスクの場合、出力トークンの数を拡張することは効果的ではないようであり、一方、ローリングカウント拡張はより顕著な性能向上をもたらすことを発見しました。

RLスケーリングの切り札！DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開

短いURLをシェア