圖片
本文的第一作者為董冠霆,目前就讀於中國人民大學高瓴人工智能學院博士一年級,指導教授為竇志成教授與文繼榮教授。他的研究方向主要涵蓋大型語言模型推理、多智能體強化學習、深度搜尋智能體等。董冠霆於 ICLR、ACL、AAAI 等國際頂級會議發表多篇論文,並在快手大型模型應用組、阿里通義千問組等大型模型團隊實習。其代表性著作包含 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通訊作者為中國人民大學的竇志成教授與快手科技的周國睿。
在可驗證強化學習(RLVR)的推動下,大型語言模型在單輪推理任務中已展現出不俗表現。然而在真實推理場景中,大型語言模型往往需要結合外部工具進行多輪互動,現有強化學習演算法在平衡模型的長程推理與多輪工具互動能力方面仍有不足。
為此,我們提出了全新的智能體強化策略優化(ARPO)方法,專為多輪互動型大型語言模型智能體設計。
ARPO 首次發現模型在呼叫外部工具後會推理不確定性(高熵)顯著增加的現象,並基於此引入了熵驅動的自適應展開策略,增強對高熵工具呼叫步驟的探索。同時,透過引入優勢歸因估計,模型能夠更有效地理解工具互動中各步驟的價值差異。在 13 個計算推理、知識推理與深度搜尋等高難基準上,ARPO 在僅使用一半工具呼叫預算的情況下,其效能仍顯著優於現有的樣本級強化學習方法,為多輪推理智能體的高效訓練提供了可擴展的新方案。
圖片
論文標題:Agentic Reinforced Policy Optimization
論文連結:https://arxiv.org/abs/2507.19849
程式碼庫:https://github.com/dongguanting/ARPO
開源資料 & 模型:https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae
此研究目前在 X(前 Twitter)獲得高度關注,並榮登 Huggingface Paper 每日與每週排行榜首位。
圖片
研究動機:掌握工具呼叫後的高熵時刻
近年來,可驗證獎勵的大規模強化學習在單輪推理任務中充分釋放了前瞻性大型語言模型的潛力,表現亮眼。然而,在開放式推理場景下,大型語言模型不僅需要具備長程規劃與自適應決策能力,還需與外部工具進行動態的多輪互動。這催生了智能體強化學習(Agentic RL)這一新範式,將訓練從靜態求解轉向動態的智能體與環境推理。現有智能體強化學習方法多採用樣本級演算法(如 GRPO、DAPO),在固定特殊詞元下獨立取樣完整的工具呼叫軌跡,並基於最終輸出獎勵模型。但這種方式常因獎勵稀疏、工具過度使用等問題導致多輪互動價值被低估,忽視了工具呼叫過程中每一步的細粒度行為探索。
透過對大型語言模型在深度搜尋任務中的詞元熵分佈進行分析,研究發現模型在每次工具呼叫後的初始生成階段熵值顯著升高,說明外部工具回饋會引入高不確定性,而這正是現有方法未充分利用的探索契機。
圖片
圖 1:左圖顯示大型模型在呼叫工具後的高熵現象,右圖比較 ARPO 與基準效能
ARPO 框架:訓練模型自主實現推理時的多工具呼叫
針對上述發現,我們提出智能體強化策略優化(ARPO),核心思想是在高熵工具呼叫步驟中,自適應地分支取樣,探索更多樣化的推理路徑。具體來說,我們的貢獻如下:
我們量化了大型語言模型在智能體推理過程中的詞元熵變化,揭示了樣本級強化學習演算法在對齊大型語言模型智能體方面的固有限制。
我們提出了 ARPO 演算法,引入基於熵的自適應展開機制,在保持全域取樣的同時,鼓勵在高熵工具呼叫步驟中進行分支取樣。此外,ARPO 結合優勢歸因估計,幫助大型語言模型更好地內化步驟級工具使用行為中的優勢差異。
除了啟發式動機,我們還從理論上論證了在大型語言模型智能體訓練中引入 ARPO 演算法的合理性。
在 13 個高難基準上的實驗表明,ARPO 在僅使用一半工具呼叫訓練預算的情況下,效能穩定優於主流強化學習演算法,為探索智能體強化學習提供了可行性參考與實踐啟示。
工具呼叫的熵變現象:高熵時刻與探索困境
圖片
圖 2:跨資料集分析基於大型語言模型的工具使用智能體的詞元熵變化與詞元頻率分佈
透過分析大型模型在結合工具執行複雜搜尋與推理任務時的詞元熵值,我們發現以下幾點:
1. 在每次工具呼叫後的前 10–50 個詞元內,熵值顯著上升。
2. 在推理的初始階段,熵值通常會增加,但仍低於大型模型接收到工具呼叫回饋後的水平。
3. 搜尋引擎的回饋引入的熵波動比程式碼編譯器的執行回饋更大。
這些現象可歸因於外部回饋與模型內部推理之間的詞元分佈轉移,這甚至導致引入的推理不確定性超過原始輸入的問題。此外,搜尋引擎通常提供豐富的文本內容,而程式碼編譯器輸出則由確定性的數字組成,這導致前者的熵波動更大。
工具設計:多樣化工具支援智能體推理
本研究聚焦於最佳化基於大型語言模型的工具使用智能體的訓練演算法。在梳理現有智能體強化學習研究後,我們選取三類具有代表性的工具,用於實證評估 ARPO 的有效性:
搜尋引擎:透過執行網路搜尋查詢檢索相關資訊,支援本地及線上模式。
網頁瀏覽智能體:存取並解析搜尋引擎返回的網頁連結,提取並總結關鍵資訊以回應查詢。
程式碼解釋器:自動執行大型語言模型生成的程式碼,若執行成功則返回結果,否則返回編譯錯誤資訊。
這些工具涵蓋資訊檢索、內容解析與程式執行等多類功能,為多輪互動與複雜推理場景提供了強而有力的支援。
ARPO 演算法:利用熵訊號指導大型語言模型逐步最佳化工具呼叫
基於熵的自適應展開機制
ARPO 的核心思想在於結合全域取樣與熵驅動的局部取樣,在模型工具呼叫後不確定性升高的階段加大探索力度,從而提升推理效果。其基於熵的自適應展開機制包含四個關鍵步驟:
圖片
圖 3:ARPO 的基於熵驅動的自適應展開機制,結合全域探索與局部高熵節點分支
1. 展開初始化
設定全域展開規模 M,首先進行樣本級全域取樣:大型語言模型針對輸入問題 q 生成 N 條初始軌跡,並計算每條軌跡首個詞元的熵值,形成初始熵矩陣。剩餘 M-N 條軌跡的取樣預算保留給局部取樣。
2. 熵變監控
在每次工具呼叫步驟 t 後,模型會在拼接工具返回結果後繼續生成 k 個詞元,並計算步驟級熵矩陣。透過
量化相對於初始狀態的歸一化熵變化,從而判斷當前推理不確定性的變化趨勢。
3. 基於熵的自適應分支
為引導模型在熵值顯著升高的節點進行更深探索,定義工具呼叫步驟 t 的局部取樣機率:
模型的分支決策如下:
圖片
該機制將探索資源自適應分配到熵上升區域,這些區域往往蘊含更高的資訊增益。
4. 終止條件
展開過程持續進行,直到分叉路徑數達到預算上限 M-N(停止分支並完成取樣)或所有路徑提前終止。若預算仍有剩餘,則補充全域取樣以覆蓋更全面的推理空間。
ARPO 透過上述機制在保證計算複雜度維持在範圍內的同時,實現了不確定性感知的高效探索,使大型模型能夠精準識別並充分利用工具呼叫後的高資訊增益階段。
優勢歸因估計
ARPO 的熵驅動自適應展開會產生包含共享推理片段與分支路徑的軌跡,這啟發我們最佳化策略更新方式,更好地利用步驟級工具呼叫資訊。
兩種優勢估計方式
1. 硬優勢估計(Hard)
明確區分共享與分支詞元,對共享部分計算平均優勢,對分支部分單獨計算:
對分支詞元的優勢估計:
圖片
對共享詞元的優勢估計:
圖片
2. 軟優勢估計(Soft)
在策略最佳化過程中隱式區分共享與分支推理鏈的詞元,透過 GRPO(Group Relative Policy Optimization)在分組更新中動態調整重要性取樣比率自然地處理了兩類詞元:
圖片
其中重要性取樣比率:
圖片
當兩個軌跡在 t 步之前共享相同詞元前綴時,它們的共享詞元具有相同的重要性權重,因此這一更新過程近似等價於硬優勢估計,並且更優雅。
實驗結果證明軟優勢估計在 ARPO 訓練中能穩定獲得更高獎勵,故將其設為預設優勢估計方法。
分層獎勵設計
ARPO 的獎勵函數綜合考慮答案正確性、工具呼叫格式及多工具協作。如果模型在推理中使用了搜尋(<search>)和程式碼(<python>)等多種工具,並保證答案正確且格式合規,將會獲得額外獎勵,公式如下:
圖片
其中:
圖片
透過軟優勢估計與分層獎勵機制,ARPO 在訓練中能更平穩、更高效地最佳化多輪工具使用策略。
實驗結果:10 + 綜合推理任務評估
為了充分評估 ARPO 的泛化性與高效性,我們考慮以下三種測試集:
計算型推理任務:評估模型的計算推理能力,包含 AIME24、AIME25、MATH500、GSM8K、MATH。
知識密集型推理任務:評估模型結合外部知識推理的能力,包含 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
深度搜尋任務:評估模型的深度搜尋能力,包含 HLE、GAIA、SimpleQA、XBench。
圖片
圖片
從實驗結果可以發現:
ARPO 整體表現優於主流方法:ARPO 在大部分任務上準確率高於 GRPO、DAPO 等樣本級強化學習方法,在工具呼叫密集任務(如 GAIA、HLE)中提升幅度更為明顯。
多任務保持穩定效能:ARPO 在計算、知識與搜尋任務中均保持較好的表現,沒有明顯的效能短板,驗證其跨任務的適配能力。
實驗:取樣分析與工具呼叫效率評估
多輪取樣能力提升模型表現
由於深度搜尋任務具有動態、多輪互動的特點,單純使用 Pass@1 指標難以全面反映模型的工具呼叫潛力。我們進一步分析了 Pass@3 和 Pass@5 指標,發現無論是 8B 還是 14B 規模模型,在經過 ARPO 對齊訓練後,均表現出持續提升與良好的規模效應。其中,14B 模型在 Pass@5 指標上表現尤為出色:
GAIA 達到 61.2%
HLE 達到 24.0%
XBench-DR 達到 59%
工具呼叫效率顯著提升
在智能體強化學習訓練中,工具呼叫次數直接影響成本。我們以 Qwen2.5-7B 模型為例,將 ARPO 與 GRPO 方法進行對比:
ARPO 在整體準確率上優於 GRPO
同時僅使用了約一半的工具呼叫次數
圖片
這得益於 ARPO 獨特的基於熵的自適應取樣機制,僅在高熵工具呼叫步驟進行分支取樣,極大地擴展了工具行為的探索空間,同時降低了不必要的呼叫。
總結與未來展望
ARPO 演算法有效提升了多輪工具推理代理的效能,解決了現有樣本級強化學習方法在多輪互動中探索不足、泛化能力欠缺的問題。透過熵驅動自適應取樣和優勢歸因機制,ARPO 能夠在工具呼叫頻繁、推理路徑複雜的任務中實現更高效、更穩定的輸出。未來,為持續提升智能體強化學習模型的能力,仍有多個方向值得探索:
多模態智能體強化學習:ARPO 目前主要針對文本推理任務,在處理影像、視訊等多模態資訊方面仍有局限。未來可擴展至多模態任務中,探索模型在多模態場景下的工具呼叫與策略最佳化。
工具生態擴展:ARPO 已驗證在多工具協作任務上的潛能。未來可引入更多類型的外部工具(如程式碼除錯器、資料分析工具、即時 API 呼叫等),並透過工具使用策略最佳化進一步提升複雜任務表現。
大規模與即時部署:ARPO 展示了較高的訓練效率與推理泛化性,未來可探索在更大規模模型與即時動態環境中的部署與適配,降低成本同時提升實用價值。
圖片