強化學習(RL)規模化王牌!DeepSWE 開源 AI 代理登上榜首,訓練方法與權重全面公開

今天清晨,著名大型模型訓練平台 Together.ai 聯手 Agentica 開源了創新的 AI 代理(AI Agent)框架 DeepSWE。

DeepSWE 是以阿里巴巴最新開源的 Qwen3-32B 模型為基礎,完全透過強化學習訓練而成。

除了權重之外,訓練方法、日誌、資料集等所有內容也全部開源,以協助開發人員深入學習和改進代理。

圖片

開源位址:https://huggingface.co/agentica-org/DeepSWE-Preview

根據 SWE-Bench-Verified 的測試數據顯示,DeepSWE 在 64k 最大上下文長度和 100 最大環境步驟下進行評估,最終在 16 次運行平均的 Pass@1 準確率上達到 42.2%,使用混合測試時擴展(TTS)後效能進一步提升至 59%,超越所有開源代理框架,位居榜首。

DeepSWE 證明了僅使用強化學習進行訓練的有效性與巨大潛力。相較於其他開源模型,DeepSWE-Preview 在不依賴更強專有教師模型的蒸餾或 SFT 情況下,依然能取得最佳效能。

圖片

DeepSWE 的訓練是基於 rLLM 框架,這是一個用於語言智能體後期訓練的系統。該模型在 64 個 H100 GPU 上,針對來自 R2E-Gym 訓練環境的 4500 個真實世界軟體工程(SWE)任務,進行了為期 6 天的訓練。這些任務涵蓋了從解決 GitHub 問題到實現新程式碼功能和偵錯等複雜情境,展現了現實世界軟體工程的多樣性與複雜性。

在訓練過程中,DeepSWE-Preview 透過與環境的互動,學習如何瀏覽廣泛的程式碼庫、應用有針對性的程式碼編輯、運行 shell 命令進行建置和測試,並在解決實際拉取請求時疊代最佳化和驗證解決方案。

在訓練方法方面,資料集管理採用了 R2E-Gym 子集的 4500 個問題,透過篩選與 SWE-Bench-Verified 來自相同儲存庫的問題,確保訓練資料的純淨性。所有問題都被映射到單個 Docker 映像檔中,以便於管理和執行。訓練環境圍繞 R2E-Gym 建構,該環境能夠可擴展地管理高品質的可執行 SWE 環境。狀態與動作的定義涵蓋了執行 Bash 命令、搜尋檔案、檔案編輯以及完成任務提交等操作。

圖片

獎勵機制採用稀疏結果獎勵模型,意即只有當 LLM 生成的補丁通過所有測試時才給予正獎勵,否則獎勵為零。為了應對訓練過程中出現的擴展挑戰,研究人員將 Kubernetes 支援整合到 R2E-Gym 中,實現了容器的彈性排程和自動縮放,從而能夠可靠地收集數百萬個軌跡,同時保持計算成本與負載成比例。

在強化學習演算法方面,DeepSWE-Preview 的訓練採用了 GRPO++ 演算法,這是對原始 GRPO 演算法的改進版本。GRPO++ 整合了來自 DAPO、Dr.GRPO、LOOP/RLOO 等工作的見解與創新,透過高剪輯、無 KL 損失、無獎勵標準差、長度正規化、留一法、緊湊過濾和無熵損失等策略,實現了更穩定且效能更高的訓練過程。

圖片

其中,緊湊過濾策略特別針對多輪代理情境,透過屏蔽達到最大上下文、最大步驟或超時的軌跡,防止訓練期間的獎勵崩潰,並鼓勵代理進行跨步驟的長形式推理。

TTS 則是 DeepSWE-Preview 實現效能提升的關鍵策略之一。在測試階段,透過生成多個軌跡並選擇其中正確解決問題的軌跡,DeepSWE-Preview 能夠顯著提高其 Pass@1 效能。

研究人員嘗試了多種 TTS 策略,包括基於執行的驗證器和無執行的驗證器,並最終採用了混合擴展策略,結合了兩種範式的優勢,從而實現了 59.0% 的效能,比當前最先進的開源權重模型高出 12%。

圖片

此外,研究人員還發現,對於 SWE 相關任務,擴展輸出 token 的數量似乎並不有效,而滾動數量擴展則能帶來更顯著的效能提升。

主標籤:AI 代理

次標籤:強化學習軟體工程 (SWE)大型語言模型 (LLMs)DeepSWE


上一篇:清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!

下一篇:OpenAI 播客再談 AI 程式設計大戰!開發者是最有福的人:特定需求的程式碼模型將湧現!主持人說漏嘴:我最喜歡 Claude!

分享短網址