目前,大型語言模型(LLM)在複雜推理任務上取得了長足進步,一個重要趨勢是「測試時縮放」(Test-time scaling),即讓模型生成更長的思維鏈(Chain-of-Thought, CoT),本質上是在鼓勵模型「思考更長時間」。諸如OpenAI的o3、DeepSeek-R1等前沿模型都證明了這種方法的有效性。
然而,「更長」並不總是意味著「更聰明」。對於極其複雜、容易在中間步驟出錯或需要創造性轉換思路的問題,冗長的思維鏈也常常無能為力。模型依賴的內部自我反思機制,往往難以發現自身的根本性錯誤。
那麼,能否讓模型像人類一樣,學會利用外部工具來輔助思考、驗證想法、並從工具回饋中學習,從而「更聰明地思考」呢?這就是智能體強化學習(Agentic Reinforcement Learning)的核心思想。讓模型成為一個主動的智能體,與外部環境(如Python解釋器)互動,根據環境的回饋來調整自己的推理策略。
- 論文:rStar2-Agent: Agentic Reasoning Technical Report
- 連結:https://arxiv.org/pdf/2508.20722
微軟研究院的這篇論文正是這一領域的重磅成果。他們成功地將一個僅有140億(14B)參數的預訓練模型,透過其創新的智能體強化學習框架,訓練成了數學推理領域的「頂尖高手」,其性能媲美甚至超越了擁有6710億(671B)參數的DeepSeek-R1模型。更令人驚嘆的是,如此強大的能力,僅需64塊GPU訓練一週、510個RL步數便煉成,堪稱「四兩撥千斤」的典範。
接下來,我們將深入解讀這項研究是如何實現的,它究竟有何過人之處。
核心創新點一:GRPO-RoC演算法——在嘈雜環境中高效學習
讓模型使用程式碼工具進行推理,聽起來很美好,但實踐起來第一個攔路虎就是環境雜訊。想像一下,一個學生剛開始學用計算器解題,他很可能按錯鍵,計算器則會報錯。他的注意力就從「解題」本身,被分散到了「弄清計算器怎麼用」上。對於模型也是如此,它生成的程式碼可能有語法錯誤、邏輯錯誤(如死循環),導致Python環境返回的是錯誤訊息(Traceback)而非有用的結果。這些錯誤回饋與解題推理無關,構成了強烈的環境雜訊。
在傳統的強化學習(RL)中,通常只根據最終答案的對錯(outcome-only reward)來給予獎勵。這會產生一個嚴重問題:一條推理軌跡,即使中間工具調用全錯了,但只要最終答案蒙對了,它就能獲得滿分獎勵。這無異於告訴模型:「中間出錯沒關係,只要結果對就行」。這會導致模型產生大量冗長、低質、充滿錯誤的推理過程,學習效率低下。
如何在不修改獎勵函數、避免獎勵駭客(reward hacking)的前提下,解決雜訊問題?
rStar2-Agent給出了一個簡潔而高效的答案:GRPO-RoC(Group Relative Policy Optimization with Resample-on-Correct)演算法。它的核心是一個叫做「正確重取樣」(Resample-on-Correct, RoC)的策略。
RoC策略的工作流程如下:
超量取樣(Oversample):對於每個問題,先用當前模型生成2G條推理軌跡(Rollout),而不是標準的G條。
分類與不對稱降取樣(Asymmetric Downsampling):
工具錯誤率(p_err):軌跡中出錯工具調用所佔的比例。錯誤越多,分數越高,品質越差。
格式違規率(p_format):例如,在最終答案(
<answer>)之後又出現了推理(<reason>)這種不符合規定的格式。違規越嚴重,分數越高。將這些軌跡按最終答案正確與否分為正樣本(答案正確)和負樣本(答案錯誤)。
對於負樣本:我們隨機均勻地降取樣至一半數量。目的是保留各種各樣失敗的方式,讓模型知道「什麼是錯的」,從而避免再犯。
對於正樣本:這是關鍵!我們不是隨機選擇,而是優先選擇那些「品質更高」的成功軌跡。如何衡量品質?論文定義了兩種penalties(懲罰分數):
計算總懲罰分數
p_total = p_err + p_format,然後按懲罰分數從低到高(即品質從高到低)的機率進行降取樣。這意味著,那些工具用得又準、格式又規範的成功軌跡,有更大概率被選中用來指導模型更新。策略更新:最終,我們用降取樣後的G條軌跡(包含高品質正樣本和多樣負樣本)來計算優勢函數(Advantage)並更新模型。
這個演算法的精妙之處在於:它沒有改變「最終答案正確才給獎勵」這個簡單可靠的獎勵原則,而是透過在資料篩選層面動手腳,巧妙地「餵」給模型更多高品質的正面榜樣和多樣化的反面教材。這相當於老師批改作文,不僅看最後得分,還會把高分作文裡字跡工整、文筆流暢的範文拿出來重點表揚,同時也會收集各種典型的錯例進行講解。這樣,學生(模型)就能更有效率地學習到如何寫出(推理出)高品質的內容。
如圖所示,在原始GRPO演算法下,成功軌跡中的工具錯誤率會穩定在一個較高的水平(10%-15%),這意味著模型始終在產生大量雜訊。而採用了GRPO-RoC後,工具錯誤率被持續地、顯著地壓低了,證明了該策略的有效性。
核心創新點二:大規模智能體RL基礎設施——支撐高效訓練
有了好的演算法,還需要強大的基礎設施來支撐。智能體RL的訓練成本極高,因為它涉及模型與環境的頻繁互動。論文揭示了兩大工程挑戰:
- 海量併發工具調用:一次訓練迭代(step)可能產生數萬個Python程式碼執行請求。如果直接在本地用Python解釋器運行,會瞬間壓垮CPU,並且讓GPU空等,造成巨大的資源浪費和效率瓶頸。更危險的是,模型生成的程式碼不可控,可能包含死循環、惡意程式碼或難以殺死的進程,威脅訓練主機的穩定性。
- 高度不平衡的多輪Rollout:在智能體RL中,一次完整的推理由多輪對話組成(模型輸出->工具執行->模型再輸出...)。每個問題的難度不同,每輪生成的token數量、工具調用次數都極不均衡。如果像傳統RL那樣靜態地將任務平均分配給所有GPU,必然會導致某些GPU提前完工後長時間空閒,等待那些「慢吞吞」的GPU,造成嚴重的負載不均和同步延遲。
針對挑戰一,rStar2-Agent建構了一個高吞吐、隔離的程式碼環境服務。
這個服務的設計非常精巧。它與主訓練進程隔離,獨立部署在計算集群的CPU上。有一個中央任務佇列接收所有程式碼執行請求,由多個「發送 worker」將它們打包成批,分發給眾多「執行 worker」去實際運行。運行結果再回傳給發送worker,最終傳回RL進程。這套架構就像一個高效的「程式碼執行雲服務」,專門處理海量、不可信的程式碼任務,保證了主訓練流程的穩定和高吞吐。
性能數據顯示,該環境服務每秒可處理超過4.5萬次工具調用,且平均延遲低至0.3秒,完美滿足了大規模訓練的需求。
針對挑戰二,rStar2-Agent設計了一個動態負載均衡的Rollout排程器。
傳統的靜態分配(上圖)問題百出。rStar2-Agent的排程器(下圖)則非常智能:它不再給每個GPU靜態分配固定數量的任務,而是即時監測每個GPU上KV緩存(KV Cache)的剩餘容量。KV緩存可以理解為GPU為正在生成的文本預留的記憶體。排程器會估算每個GPU目前還能安全地承擔多少新的生成任務,然後動態地將等待佇列中的任務分配給它。這樣,總能保證所有GPU都「忙而不崩」,最大限度地利用了計算資源,避免了因KV緩存溢出而導致的計算浪費和等待。
核心創新點三:高效訓練——低成本煉就最強大腦
有了演算法和基礎設施,最後一步是如何設計訓練流程,用最小的代價獲得最好的性能。rStar2-Agent的訓練配方同樣別具匠心,與主流方法迥然不同。
第一步:「非推理」監督式微調(Non-Reasoning SFT)
通常,在做RL之前,大家會用包含詳細推理鏈的數據對模型進行SFT,這叫「推理SFT」,相當於給學生一本帶詳細解法的習題集讓他模仿。但rStar2-Agent反其道而行之,它只進行「非推理SFT」。目的:不是教模型如何推理,而是教模型如何遵守指令、如何使用工具介面(JSON格式)、如何規範地輸出答案(<reason>,<answer>,\boxed{})。用於SFT的數據主要是工具調用、指令遵循和對話數據,幾乎不包含數學推理數據。好處:
- 避免了模型在SFT階段對某種固定的推理模式產生「過度擬合」,為後續RL探索更優解保留了空間。
- 經過這種SFT後,模型初始的回應長度很短(~1K token),為後續RL在更短的上下文長度內進行高效訓練奠定了基礎。
如表所示,經過「非推理SFT」後,模型在工具使用(BFCL)、指令遵循(IFEval)和對話(Arena-Hard)能力上大幅提升,而數學推理能力(MATH-500, AIME)與基礎模型相比變化不大,這印證了該階段的目標已達成。
第二步:多階段智能體RL訓練
接下來,使用前文介紹的GRPO-RoC演算法和基礎設施進行強化學習。整個過程分為三個階段,如同遊戲闖關:
- 階段1(concise RL, 8K長度):在全部42K個數學題上訓練,但將模型最大回應長度限制在8K token。雖然早期會有超過10%的軌跡因超長而被截斷,但這迫使模型在有限的「篇幅」內更有效率、更精準地使用工具進行推理,而不是漫無目的地「瞎試」。模型很快適應,回應長度穩定在4K左右,性能大幅提升。
- 階段2(12K長度):當模型在8K限制下性能趨於平穩時,將長度上限提升至12K,給予模型更多空間處理更複雜的問題。平均回應長度增至6K,性能進一步上漲。
- 階段3(困難樣本聚焦, 12K長度):此時,模型對很多簡單題已經能100%做對了。為了持續提升,主動篩選出那些模型仍然會出錯的「難題」(約17.3K道),只在這些難題上進行訓練。平均回應長度增至8K,最終將模型推向了性能的頂峰。
表格對比了rStar2-Agent與其他主流模型的訓練配方。其最突出特點是:無推理SFT、總RL步數極少(510步)、訓練長度極短(8K->12K)。這與動輒數萬步、16K+訓練長度的其他方法形成鮮明對比,其效率優勢一目了然。
實驗結果與性能表現——全面領先,泛化能力強
經過上述高效訓練,rStar2-Agent-14B模型展現出了極其強悍的性能。
數學推理,超越巨頭
在最具挑戰性的數學競賽基準AIME2024和2025上,rStar2-Agent-14B取得了80.6%和69.8%的平均通過率(pass@1),一舉超越了OpenAI o3-mini (medium)、DeepSeek-R1 (671B)、Claude Opus 4.0等眾多龐然大物。這不僅證明了智能體RL的有效性,更開創了「小模型超越大模型」的先河。
高效推理,更短更強
更令人稱奇的是,性能的提升並非靠「暴力堆料」(生成長文本)。如表4所示,rStar2-Agent-14B的平均回應長度(~9K-10K tokens)遠低於對比模型(~14K-17K tokens)。這意味著它學會了更智能、更精準地使用工具,用更少的「話」辦成了更難的「事」。
強大泛化,一通百通
最有力的證據莫過於其強大的泛化能力。rStar2-Agent僅在數學資料上進行了RL訓練,但在其他領域的測試中表現驚人。
- 科學推理(GPQA-Diamond):準確率從SFT後的42.1%**躍升至60.9%**,甚至超過了專門訓練的DeepSeek-V3 (59.1%)。這表明從數學中學習到的推理模式可以遷移到一般的科學推理中。
- 工具使用(BFCL v3)與對齊(IFEval, Arena-Hard):在這些非推理任務上,性能與SFT後水平基本持平,說明數學RL訓練沒有損害模型原有的其他能力。
深度分析:智能體如何「更聰明」地思考?
為了探究模型變得「聰明」的內在機理,論文從token熵的角度進行了分析。熵越高,代表模型在生成該token時越不確定、選擇的餘地越多,這通常發生在決策和反思的關鍵時刻。
研究者們發現了兩種關鍵的高熵模式:
- 分岔Token(Forking Tokens):這類高熵token通常出現在模型自我反思、提出疑問、計劃驗證的時候,例如:「但是...」(
But before)、「讓我再檢查一遍」(double-check)、「重新運行」(rerun)。這種模式在傳統的CoT RL中也常見,它驅動模型進行探索,避免一條路走到黑。 - 反思Token(Reflection Tokens):這是智能體RL所獨有的!當模型收到程式碼環境的回饋(無論是成功輸出還是錯誤訊息)後,會產生一連串高熵token來分析、解讀、應對這個回饋。
一個成功執行的例子:模型看到工具返回的結果後,生成高熵token來策劃如何進行驗證(「
To verify」),體現出謹慎的思考。一個更精彩的錯誤處理例子:模型執行程式碼出錯後,它沒有放棄或瞎猜,而是產生大量高熵token來分析錯誤原因(「
The error occurred because...」)、構思解決方案(「an easier workaround is to...」、「Alternatively」)、並最終生成修正後的程式碼。這像極了一個程式設計師在除錯,展現了高級的認知能力。
結論是:智能體RL不僅保留了傳統CoT中的自我反思能力,更重要的是,它新增了針對環境回饋進行深度反思並調整行為的能力。這正是它比單純「長思維鏈」更「聰明」的本質原因。
一些討論
論文也坦誠地分享了一些失敗的嘗試,這些經驗同樣寶貴:
- 過度長度過濾(Overlong Filtering):直接丟棄因超長而被截斷的軌跡(而不給予負面獎勵),本意是避免懲罰那些只是寫得長但推理正確的軌跡。結果卻發現,這反而導致模型更頻繁地產生冗長重複的文本,因為缺少了負回饋訊號。最終,保留截斷並給予負面獎勵的效果更好。
- N-gram重複檢測:試圖用規則過濾掉含有重複n-gram的成功軌跡以提升品質,卻發現這常常會誤傷那些出於驗證目的而進行的合理、相似的工具調用。這表明,過於複雜精細的規則式獎勵或過濾機制在LLM RL中可能弊大於利。
這些教訓再次印證了其簡約獎勵設計(只依賴最終答案正確性)和RoC資料層面篩選策略的優越性:減少偏見,保持探索,實現穩健學習。
此外,實驗發現RL提升存在天花板。在訓練後期,性能達到峰值後繼續訓練會導致崩潰,各種調參方法均無效。這表明,RL主要是在激發模型在預訓練階段已獲得的內在潛力,而無法賦予其超越本身容量(capability)的新能力。因此,如何用最少的RL計算成本高效地觸及這個天花板,就顯得至關重要。rStar2-Agent成功地做到了這一點。
結論
rStar2-Agent的工作是一項融合了演算法創新、系統工程和訓練技巧的傑出成果。它的核心貢獻在於:
- GRPO-RoC演算法:巧妙地透過「正確重取樣」策略,在保持簡約獎勵的前提下,有效克服了程式碼環境中的雜訊問題,引導模型產生高品質推理。
- 高性能基礎設施:建構了能支撐海量併發工具調用和動態負載均衡的訓練系統,讓大規模智能體RL變得可行且高效。
- 高效訓練配方:「非推理SFT」與「多階段RL」的結合,以極小的計算成本(510步,64 GPUs一週),將一個小模型推向了數學推理的頂尖水平。
這項研究有力地證明了,讓模型「更聰明地思考」的智能體之路,遠比單純地「更長時間地思考」更有效、更有效率。它開創了小模型超越巨模型的先例,為AI社群提供了寶貴的演算法、系統和洞察。其程式碼和配方已開源,必將推動整個領域在高效、智能推理模型方面的探索。未來,將這一範式擴展到數學之外更廣泛的推理領域和工具使用場景,前景令人無比期待。