微軟提出rStar2-Agent：「更聰明地思考」遠比單純地「更長時間地思考」更有效率、更高效

目前，大型語言模型（LLM）在複雜推理任務上取得了長足進步，一個重要趨勢是「測試時縮放」（Test-time scaling），即讓模型生成更長的思維鏈（Chain-of-Thought, CoT），本質上是在鼓勵模型「思考更長時間」。諸如OpenAI的o3、DeepSeek-R1等前沿模型都證明了這種方法的有效性。

然而，「更長」並不總是意味著「更聰明」。對於極其複雜、容易在中間步驟出錯或需要創造性轉換思路的問題，冗長的思維鏈也常常無能為力。模型依賴的內部自我反思機制，往往難以發現自身的根本性錯誤。

那麼，能否讓模型像人類一樣，學會利用外部工具來輔助思考、驗證想法、並從工具回饋中學習，從而「更聰明地思考」呢？這就是智能體強化學習（Agentic Reinforcement Learning）的核心思想。讓模型成為一個主動的智能體，與外部環境（如Python解釋器）互動，根據環境的回饋來調整自己的推理策略。

論文：rStar2-Agent: Agentic Reasoning Technical Report
連結：https://arxiv.org/pdf/2508.20722

微軟研究院的這篇論文正是這一領域的重磅成果。他們成功地將一個僅有140億（14B）參數的預訓練模型，透過其創新的智能體強化學習框架，訓練成了數學推理領域的「頂尖高手」，其性能媲美甚至超越了擁有6710億（671B）參數的DeepSeek-R1模型。更令人驚嘆的是，如此強大的能力，僅需64塊GPU訓練一週、510個RL步數便煉成，堪稱「四兩撥千斤」的典範。

接下來，我們將深入解讀這項研究是如何實現的，它究竟有何過人之處。

核心創新點一：GRPO-RoC演算法——在嘈雜環境中高效學習

讓模型使用程式碼工具進行推理，聽起來很美好，但實踐起來第一個攔路虎就是環境雜訊。想像一下，一個學生剛開始學用計算器解題，他很可能按錯鍵，計算器則會報錯。他的注意力就從「解題」本身，被分散到了「弄清計算器怎麼用」上。對於模型也是如此，它生成的程式碼可能有語法錯誤、邏輯錯誤（如死循環），導致Python環境返回的是錯誤訊息（Traceback）而非有用的結果。這些錯誤回饋與解題推理無關，構成了強烈的環境雜訊。

在傳統的強化學習（RL）中，通常只根據最終答案的對錯（outcome-only reward）來給予獎勵。這會產生一個嚴重問題：一條推理軌跡，即使中間工具調用全錯了，但只要最終答案蒙對了，它就能獲得滿分獎勵。這無異於告訴模型：「中間出錯沒關係，只要結果對就行」。這會導致模型產生大量冗長、低質、充滿錯誤的推理過程，學習效率低下。

如何在不修改獎勵函數、避免獎勵駭客（reward hacking）的前提下，解決雜訊問題？

rStar2-Agent給出了一個簡潔而高效的答案：GRPO-RoC（Group Relative Policy Optimization with Resample-on-Correct）演算法。它的核心是一個叫做「正確重取樣」（Resample-on-Correct, RoC）的策略。

RoC策略的工作流程如下：

超量取樣（Oversample）：對於每個問題，先用當前模型生成2G條推理軌跡（Rollout），而不是標準的G條。
分類與不對稱降取樣（Asymmetric Downsampling）：

工具錯誤率（p_err）：軌跡中出錯工具調用所佔的比例。錯誤越多，分數越高，品質越差。
格式違規率（p_format）：例如，在最終答案（<answer>）之後又出現了推理（<reason>）這種不符合規定的格式。違規越嚴重，分數越高。

將這些軌跡按最終答案正確與否分為正樣本（答案正確）和負樣本（答案錯誤）。
對於負樣本：我們隨機均勻地降取樣至一半數量。目的是保留各種各樣失敗的方式，讓模型知道「什麼是錯的」，從而避免再犯。
對於正樣本：這是關鍵！我們不是隨機選擇，而是優先選擇那些「品質更高」的成功軌跡。如何衡量品質？論文定義了兩種penalties（懲罰分數）：
計算總懲罰分數p_total = p_err + p_format，然後按懲罰分數從低到高（即品質從高到低）的機率進行降取樣。這意味著，那些工具用得又準、格式又規範的成功軌跡，有更大概率被選中用來指導模型更新。

策略更新：最終，我們用降取樣後的G條軌跡（包含高品質正樣本和多樣負樣本）來計算優勢函數（Advantage）並更新模型。

這個演算法的精妙之處在於：它沒有改變「最終答案正確才給獎勵」這個簡單可靠的獎勵原則，而是透過在資料篩選層面動手腳，巧妙地「餵」給模型更多高品質的正面榜樣和多樣化的反面教材。這相當於老師批改作文，不僅看最後得分，還會把高分作文裡字跡工整、文筆流暢的範文拿出來重點表揚，同時也會收集各種典型的錯例進行講解。這樣，學生（模型）就能更有效率地學習到如何寫出（推理出）高品質的內容。

如圖所示，在原始GRPO演算法下，成功軌跡中的工具錯誤率會穩定在一個較高的水平（10%-15%），這意味著模型始終在產生大量雜訊。而採用了GRPO-RoC後，工具錯誤率被持續地、顯著地壓低了，證明了該策略的有效性。

核心創新點二：大規模智能體RL基礎設施——支撐高效訓練

有了好的演算法，還需要強大的基礎設施來支撐。智能體RL的訓練成本極高，因為它涉及模型與環境的頻繁互動。論文揭示了兩大工程挑戰：

海量併發工具調用：一次訓練迭代（step）可能產生數萬個Python程式碼執行請求。如果直接在本地用Python解釋器運行，會瞬間壓垮CPU，並且讓GPU空等，造成巨大的資源浪費和效率瓶頸。更危險的是，模型生成的程式碼不可控，可能包含死循環、惡意程式碼或難以殺死的進程，威脅訓練主機的穩定性。
高度不平衡的多輪Rollout：在智能體RL中，一次完整的推理由多輪對話組成（模型輸出->工具執行->模型再輸出...）。每個問題的難度不同，每輪生成的token數量、工具調用次數都極不均衡。如果像傳統RL那樣靜態地將任務平均分配給所有GPU，必然會導致某些GPU提前完工後長時間空閒，等待那些「慢吞吞」的GPU，造成嚴重的負載不均和同步延遲。

針對挑戰一，rStar2-Agent建構了一個高吞吐、隔離的程式碼環境服務。

這個服務的設計非常精巧。它與主訓練進程隔離，獨立部署在計算集群的CPU上。有一個中央任務佇列接收所有程式碼執行請求，由多個「發送 worker」將它們打包成批，分發給眾多「執行 worker」去實際運行。運行結果再回傳給發送worker，最終傳回RL進程。這套架構就像一個高效的「程式碼執行雲服務」，專門處理海量、不可信的程式碼任務，保證了主訓練流程的穩定和高吞吐。

性能數據顯示，該環境服務每秒可處理超過4.5萬次工具調用，且平均延遲低至0.3秒，完美滿足了大規模訓練的需求。

針對挑戰二，rStar2-Agent設計了一個動態負載均衡的Rollout排程器。

傳統的靜態分配（上圖）問題百出。rStar2-Agent的排程器（下圖）則非常智能：它不再給每個GPU靜態分配固定數量的任務，而是即時監測每個GPU上KV緩存（KV Cache）的剩餘容量。KV緩存可以理解為GPU為正在生成的文本預留的記憶體。排程器會估算每個GPU目前還能安全地承擔多少新的生成任務，然後動態地將等待佇列中的任務分配給它。這樣，總能保證所有GPU都「忙而不崩」，最大限度地利用了計算資源，避免了因KV緩存溢出而導致的計算浪費和等待。

核心創新點三：高效訓練——低成本煉就最強大腦

有了演算法和基礎設施，最後一步是如何設計訓練流程，用最小的代價獲得最好的性能。rStar2-Agent的訓練配方同樣別具匠心，與主流方法迥然不同。

第一步：「非推理」監督式微調（Non-Reasoning SFT）

通常，在做RL之前，大家會用包含詳細推理鏈的數據對模型進行SFT，這叫「推理SFT」，相當於給學生一本帶詳細解法的習題集讓他模仿。但rStar2-Agent反其道而行之，它只進行「非推理SFT」。目的：不是教模型如何推理，而是教模型如何遵守指令、如何使用工具介面（JSON格式）、如何規範地輸出答案（<reason>,<answer>,\boxed{}）。用於SFT的數據主要是工具調用、指令遵循和對話數據，幾乎不包含數學推理數據。好處：

避免了模型在SFT階段對某種固定的推理模式產生「過度擬合」，為後續RL探索更優解保留了空間。
經過這種SFT後，模型初始的回應長度很短（~1K token），為後續RL在更短的上下文長度內進行高效訓練奠定了基礎。

如表所示，經過「非推理SFT」後，模型在工具使用（BFCL）、指令遵循（IFEval）和對話（Arena-Hard）能力上大幅提升，而數學推理能力（MATH-500, AIME）與基礎模型相比變化不大，這印證了該階段的目標已達成。

第二步：多階段智能體RL訓練

接下來，使用前文介紹的GRPO-RoC演算法和基礎設施進行強化學習。整個過程分為三個階段，如同遊戲闖關：

階段1（concise RL, 8K長度）：在全部42K個數學題上訓練，但將模型最大回應長度限制在8K token。雖然早期會有超過10%的軌跡因超長而被截斷，但這迫使模型在有限的「篇幅」內更有效率、更精準地使用工具進行推理，而不是漫無目的地「瞎試」。模型很快適應，回應長度穩定在4K左右，性能大幅提升。
階段2（12K長度）：當模型在8K限制下性能趨於平穩時，將長度上限提升至12K，給予模型更多空間處理更複雜的問題。平均回應長度增至6K，性能進一步上漲。
階段3（困難樣本聚焦, 12K長度）：此時，模型對很多簡單題已經能100%做對了。為了持續提升，主動篩選出那些模型仍然會出錯的「難題」（約17.3K道），只在這些難題上進行訓練。平均回應長度增至8K，最終將模型推向了性能的頂峰。

表格對比了rStar2-Agent與其他主流模型的訓練配方。其最突出特點是：無推理SFT、總RL步數極少（510步）、訓練長度極短（8K->12K）。這與動輒數萬步、16K+訓練長度的其他方法形成鮮明對比，其效率優勢一目了然。

實驗結果與性能表現——全面領先，泛化能力強

經過上述高效訓練，rStar2-Agent-14B模型展現出了極其強悍的性能。

數學推理，超越巨頭

在最具挑戰性的數學競賽基準AIME2024和2025上，rStar2-Agent-14B取得了80.6%和69.8%的平均通過率（pass@1），一舉超越了OpenAI o3-mini (medium)、DeepSeek-R1 (671B)、Claude Opus 4.0等眾多龐然大物。這不僅證明了智能體RL的有效性，更開創了「小模型超越大模型」的先河。

高效推理，更短更強

更令人稱奇的是，性能的提升並非靠「暴力堆料」（生成長文本）。如表4所示，rStar2-Agent-14B的平均回應長度（~9K-10K tokens）遠低於對比模型（~14K-17K tokens）。這意味著它學會了更智能、更精準地使用工具，用更少的「話」辦成了更難的「事」。

強大泛化，一通百通

最有力的證據莫過於其強大的泛化能力。rStar2-Agent僅在數學資料上進行了RL訓練，但在其他領域的測試中表現驚人。

科學推理（GPQA-Diamond）：準確率從SFT後的42.1%**躍升至60.9%**，甚至超過了專門訓練的DeepSeek-V3 (59.1%)。這表明從數學中學習到的推理模式可以遷移到一般的科學推理中。
工具使用（BFCL v3）與對齊（IFEval, Arena-Hard）：在這些非推理任務上，性能與SFT後水平基本持平，說明數學RL訓練沒有損害模型原有的其他能力。

深度分析：智能體如何「更聰明」地思考？

為了探究模型變得「聰明」的內在機理，論文從token熵的角度進行了分析。熵越高，代表模型在生成該token時越不確定、選擇的餘地越多，這通常發生在決策和反思的關鍵時刻。

研究者們發現了兩種關鍵的高熵模式：

分岔Token（Forking Tokens）：這類高熵token通常出現在模型自我反思、提出疑問、計劃驗證的時候，例如：「但是...」（But before）、「讓我再檢查一遍」（double-check）、「重新運行」（rerun）。這種模式在傳統的CoT RL中也常見，它驅動模型進行探索，避免一條路走到黑。
反思Token（Reflection Tokens）：這是智能體RL所獨有的！當模型收到程式碼環境的回饋（無論是成功輸出還是錯誤訊息）後，會產生一連串高熵token來分析、解讀、應對這個回饋。

一個成功執行的例子：模型看到工具返回的結果後，生成高熵token來策劃如何進行驗證（「To verify」），體現出謹慎的思考。
一個更精彩的錯誤處理例子：模型執行程式碼出錯後，它沒有放棄或瞎猜，而是產生大量高熵token來分析錯誤原因（「The error occurred because...」）、構思解決方案（「an easier workaround is to...」、「Alternatively」）、並最終生成修正後的程式碼。這像極了一個程式設計師在除錯，展現了高級的認知能力。

結論是：智能體RL不僅保留了傳統CoT中的自我反思能力，更重要的是，它新增了針對環境回饋進行深度反思並調整行為的能力。這正是它比單純「長思維鏈」更「聰明」的本質原因。

一些討論

論文也坦誠地分享了一些失敗的嘗試，這些經驗同樣寶貴：

過度長度過濾（Overlong Filtering）：直接丟棄因超長而被截斷的軌跡（而不給予負面獎勵），本意是避免懲罰那些只是寫得長但推理正確的軌跡。結果卻發現，這反而導致模型更頻繁地產生冗長重複的文本，因為缺少了負回饋訊號。最終，保留截斷並給予負面獎勵的效果更好。
N-gram重複檢測：試圖用規則過濾掉含有重複n-gram的成功軌跡以提升品質，卻發現這常常會誤傷那些出於驗證目的而進行的合理、相似的工具調用。這表明，過於複雜精細的規則式獎勵或過濾機制在LLM RL中可能弊大於利。

這些教訓再次印證了其簡約獎勵設計（只依賴最終答案正確性）和RoC資料層面篩選策略的優越性：減少偏見，保持探索，實現穩健學習。

此外，實驗發現RL提升存在天花板。在訓練後期，性能達到峰值後繼續訓練會導致崩潰，各種調參方法均無效。這表明，RL主要是在激發模型在預訓練階段已獲得的內在潛力，而無法賦予其超越本身容量（capability）的新能力。因此，如何用最少的RL計算成本高效地觸及這個天花板，就顯得至關重要。rStar2-Agent成功地做到了這一點。

結論

rStar2-Agent的工作是一項融合了演算法創新、系統工程和訓練技巧的傑出成果。它的核心貢獻在於：

GRPO-RoC演算法：巧妙地透過「正確重取樣」策略，在保持簡約獎勵的前提下，有效克服了程式碼環境中的雜訊問題，引導模型產生高品質推理。
高性能基礎設施：建構了能支撐海量併發工具調用和動態負載均衡的訓練系統，讓大規模智能體RL變得可行且高效。
高效訓練配方：「非推理SFT」與「多階段RL」的結合，以極小的計算成本（510步，64 GPUs一週），將一個小模型推向了數學推理的頂尖水平。

這項研究有力地證明了，讓模型「更聰明地思考」的智能體之路，遠比單純地「更長時間地思考」更有效、更有效率。它開創了小模型超越巨模型的先例，為AI社群提供了寶貴的演算法、系統和洞察。其程式碼和配方已開源，必將推動整個領域在高效、智能推理模型方面的探索。未來，將這一範式擴展到數學之外更廣泛的推理領域和工具使用場景，前景令人無比期待。