微軟提出rStar2-Agent:「更聰明地思考」遠比單純地「更長時間地思考」更有效率、更高效

目前,大型語言模型(LLM)在複雜推理任務上取得了長足進步,一個重要趨勢是「測試時縮放」(Test-time scaling),即讓模型生成更長的思維鏈(Chain-of-Thought, CoT),本質上是在鼓勵模型「思考更長時間」。諸如OpenAI的o3、DeepSeek-R1等前沿模型都證明了這種方法的有效性。

然而,「更長」並不總是意味著「更聰明」。對於極其複雜、容易在中間步驟出錯或需要創造性轉換思路的問題,冗長的思維鏈也常常無能為力。模型依賴的內部自我反思機制,往往難以發現自身的根本性錯誤。

那麼,能否讓模型像人類一樣,學會利用外部工具來輔助思考、驗證想法、並從工具回饋中學習,從而「更聰明地思考」呢?這就是智能體強化學習(Agentic Reinforcement Learning)的核心思想。讓模型成為一個主動的智能體,與外部環境(如Python解釋器)互動,根據環境的回饋來調整自己的推理策略。

圖片

微軟研究院的這篇論文正是這一領域的重磅成果。他們成功地將一個僅有140億(14B)參數的預訓練模型,透過其創新的智能體強化學習框架,訓練成了數學推理領域的「頂尖高手」,其性能媲美甚至超越了擁有6710億(671B)參數的DeepSeek-R1模型。更令人驚嘆的是,如此強大的能力,僅需64塊GPU訓練一週、510個RL步數便煉成,堪稱「四兩撥千斤」的典範。

圖片

接下來,我們將深入解讀這項研究是如何實現的,它究竟有何過人之處。

核心創新點一:GRPO-RoC演算法——在嘈雜環境中高效學習

讓模型使用程式碼工具進行推理,聽起來很美好,但實踐起來第一個攔路虎就是環境雜訊。想像一下,一個學生剛開始學用計算器解題,他很可能按錯鍵,計算器則會報錯。他的注意力就從「解題」本身,被分散到了「弄清計算器怎麼用」上。對於模型也是如此,它生成的程式碼可能有語法錯誤、邏輯錯誤(如死循環),導致Python環境返回的是錯誤訊息(Traceback)而非有用的結果。這些錯誤回饋與解題推理無關,構成了強烈的環境雜訊

在傳統的強化學習(RL)中,通常只根據最終答案的對錯(outcome-only reward)來給予獎勵。這會產生一個嚴重問題:一條推理軌跡,即使中間工具調用全錯了,但只要最終答案蒙對了,它就能獲得滿分獎勵。這無異於告訴模型:「中間出錯沒關係,只要結果對就行」。這會導致模型產生大量冗長、低質、充滿錯誤的推理過程,學習效率低下。

如何在不修改獎勵函數、避免獎勵駭客(reward hacking)的前提下,解決雜訊問題?

rStar2-Agent給出了一個簡潔而高效的答案:GRPO-RoC(Group Relative Policy Optimization with Resample-on-Correct)演算法。它的核心是一個叫做「正確重取樣」(Resample-on-Correct, RoC)的策略。

圖片

RoC策略的工作流程如下:

  1. 超量取樣(Oversample):對於每個問題,先用當前模型生成2G條推理軌跡(Rollout),而不是標準的G條。

  2. 分類與不對稱降取樣(Asymmetric Downsampling)

    • 工具錯誤率(p_err):軌跡中出錯工具調用所佔的比例。錯誤越多,分數越高,品質越差。

    • 格式違規率(p_format):例如,在最終答案(<answer>)之後又出現了推理(<reason>)這種不符合規定的格式。違規越嚴重,分數越高。

    • 將這些軌跡按最終答案正確與否分為正樣本(答案正確)和負樣本(答案錯誤)。

    • 對於負樣本:我們隨機均勻地降取樣至一半數量。目的是保留各種各樣失敗的方式,讓模型知道「什麼是錯的」,從而避免再犯。

    • 對於正樣本:這是關鍵!我們不是隨機選擇,而是優先選擇那些「品質更高」的成功軌跡。如何衡量品質?論文定義了兩種penalties(懲罰分數):

    • 計算總懲罰分數p_total = p_err + p_format,然後按懲罰分數從低到高(即品質從高到低)的機率進行降取樣。這意味著,那些工具用得又準、格式又規範的成功軌跡,有更大概率被選中用來指導模型更新。

  3. 策略更新:最終,我們用降取樣後的G條軌跡(包含高品質正樣本和多樣負樣本)來計算優勢函數(Advantage)並更新模型。

圖片

這個演算法的精妙之處在於:它沒有改變「最終答案正確才給獎勵」這個簡單可靠的獎勵原則,而是透過在資料篩選層面動手腳,巧妙地「餵」給模型更多高品質的正面榜樣和多樣化的反面教材。這相當於老師批改作文,不僅看最後得分,還會把高分作文裡字跡工整、文筆流暢的範文拿出來重點表揚,同時也會收集各種典型的錯例進行講解。這樣,學生(模型)就能更有效率地學習到如何寫出(推理出)高品質的內容。

圖片

如圖所示,在原始GRPO演算法下,成功軌跡中的工具錯誤率會穩定在一個較高的水平(10%-15%),這意味著模型始終在產生大量雜訊。而採用了GRPO-RoC後,工具錯誤率被持續地、顯著地壓低了,證明了該策略的有效性。

核心創新點二:大規模智能體RL基礎設施——支撐高效訓練

有了好的演算法,還需要強大的基礎設施來支撐。智能體RL的訓練成本極高,因為它涉及模型與環境的頻繁互動。論文揭示了兩大工程挑戰:

  1. 海量併發工具調用:一次訓練迭代(step)可能產生數萬個Python程式碼執行請求。如果直接在本地用Python解釋器運行,會瞬間壓垮CPU,並且讓GPU空等,造成巨大的資源浪費和效率瓶頸。更危險的是,模型生成的程式碼不可控,可能包含死循環、惡意程式碼或難以殺死的進程,威脅訓練主機的穩定性。
  2. 高度不平衡的多輪Rollout:在智能體RL中,一次完整的推理由多輪對話組成(模型輸出->工具執行->模型再輸出...)。每個問題的難度不同,每輪生成的token數量、工具調用次數都極不均衡。如果像傳統RL那樣靜態地將任務平均分配給所有GPU,必然會導致某些GPU提前完工後長時間空閒,等待那些「慢吞吞」的GPU,造成嚴重的負載不均同步延遲

針對挑戰一,rStar2-Agent建構了一個高吞吐、隔離的程式碼環境服務

圖片

這個服務的設計非常精巧。它與主訓練進程隔離,獨立部署在計算集群的CPU上。有一個中央任務佇列接收所有程式碼執行請求,由多個「發送 worker」將它們打包成批,分發給眾多「執行 worker」去實際運行。運行結果再回傳給發送worker,最終傳回RL進程。這套架構就像一個高效的「程式碼執行雲服務」,專門處理海量、不可信的程式碼任務,保證了主訓練流程的穩定和高吞吐。

圖片

性能數據顯示,該環境服務每秒可處理超過4.5萬次工具調用,且平均延遲低至0.3秒,完美滿足了大規模訓練的需求。

針對挑戰二,rStar2-Agent設計了一個動態負載均衡的Rollout排程器

圖片

傳統的靜態分配(上圖)問題百出。rStar2-Agent的排程器(下圖)則非常智能:它不再給每個GPU靜態分配固定數量的任務,而是即時監測每個GPU上KV緩存(KV Cache)的剩餘容量。KV緩存可以理解為GPU為正在生成的文本預留的記憶體。排程器會估算每個GPU目前還能安全地承擔多少新的生成任務,然後動態地將等待佇列中的任務分配給它。這樣,總能保證所有GPU都「忙而不崩」,最大限度地利用了計算資源,避免了因KV緩存溢出而導致的計算浪費和等待。

核心創新點三:高效訓練——低成本煉就最強大腦

有了演算法和基礎設施,最後一步是如何設計訓練流程,用最小的代價獲得最好的性能。rStar2-Agent的訓練配方同樣別具匠心,與主流方法迥然不同。

第一步:「非推理」監督式微調(Non-Reasoning SFT)

通常,在做RL之前,大家會用包含詳細推理鏈的數據對模型進行SFT,這叫「推理SFT」,相當於給學生一本帶詳細解法的習題集讓他模仿。但rStar2-Agent反其道而行之,它只進行「非推理SFT」目的:不是教模型如何推理,而是教模型如何遵守指令、如何使用工具介面(JSON格式)、如何規範地輸出答案(<reason>,<answer>,\boxed{}。用於SFT的數據主要是工具調用、指令遵循和對話數據,幾乎不包含數學推理數據好處

  1. 避免了模型在SFT階段對某種固定的推理模式產生「過度擬合」,為後續RL探索更優解保留了空間。
  2. 經過這種SFT後,模型初始的回應長度很短(~1K token),為後續RL在更短的上下文長度內進行高效訓練奠定了基礎。

圖片

如表所示,經過「非推理SFT」後,模型在工具使用(BFCL)、指令遵循(IFEval)和對話(Arena-Hard)能力上大幅提升,而數學推理能力(MATH-500, AIME)與基礎模型相比變化不大,這印證了該階段的目標已達成。

第二步:多階段智能體RL訓練

接下來,使用前文介紹的GRPO-RoC演算法和基礎設施進行強化學習。整個過程分為三個階段,如同遊戲闖關:

  • 階段1(concise RL, 8K長度):在全部42K個數學題上訓練,但將模型最大回應長度限制在8K token。雖然早期會有超過10%的軌跡因超長而被截斷,但這迫使模型在有限的「篇幅」內更有效率、更精準地使用工具進行推理,而不是漫無目的地「瞎試」。模型很快適應,回應長度穩定在4K左右,性能大幅提升。
  • 階段2(12K長度):當模型在8K限制下性能趨於平穩時,將長度上限提升至12K,給予模型更多空間處理更複雜的問題。平均回應長度增至6K,性能進一步上漲。
  • 階段3(困難樣本聚焦, 12K長度):此時,模型對很多簡單題已經能100%做對了。為了持續提升,主動篩選出那些模型仍然會出錯的「難題」(約17.3K道),只在這些難題上進行訓練。平均回應長度增至8K,最終將模型推向了性能的頂峰。

圖片

表格對比了rStar2-Agent與其他主流模型的訓練配方。其最突出特點是:無推理SFT、總RL步數極少(510步)、訓練長度極短(8K->12K)。這與動輒數萬步、16K+訓練長度的其他方法形成鮮明對比,其效率優勢一目了然。

實驗結果與性能表現——全面領先,泛化能力強

經過上述高效訓練,rStar2-Agent-14B模型展現出了極其強悍的性能。

數學推理,超越巨頭

圖片

在最具挑戰性的數學競賽基準AIME2024和2025上,rStar2-Agent-14B取得了80.6%69.8%的平均通過率(pass@1),一舉超越了OpenAI o3-mini (medium)、DeepSeek-R1 (671B)、Claude Opus 4.0等眾多龐然大物。這不僅證明了智能體RL的有效性,更開創了「小模型超越大模型」的先河。

高效推理,更短更強

圖片

更令人稱奇的是,性能的提升並非靠「暴力堆料」(生成長文本)。如表4所示,rStar2-Agent-14B的平均回應長度(~9K-10K tokens)遠低於對比模型(~14K-17K tokens)。這意味著它學會了更智能、更精準地使用工具,用更少的「話」辦成了更難的「事」。

強大泛化,一通百通

最有力的證據莫過於其強大的泛化能力。rStar2-Agent僅在數學資料上進行了RL訓練,但在其他領域的測試中表現驚人。

圖片

  • 科學推理(GPQA-Diamond):準確率從SFT後的42.1%**躍升至60.9%**,甚至超過了專門訓練的DeepSeek-V3 (59.1%)。這表明從數學中學習到的推理模式可以遷移到一般的科學推理中。
  • 工具使用(BFCL v3)與對齊(IFEval, Arena-Hard):在這些非推理任務上,性能與SFT後水平基本持平,說明數學RL訓練沒有損害模型原有的其他能力

深度分析:智能體如何「更聰明」地思考?

為了探究模型變得「聰明」的內在機理,論文從token熵的角度進行了分析。熵越高,代表模型在生成該token時越不確定、選擇的餘地越多,這通常發生在決策和反思的關鍵時刻。

研究者們發現了兩種關鍵的高熵模式:

  1. 分岔Token(Forking Tokens):這類高熵token通常出現在模型自我反思、提出疑問、計劃驗證的時候,例如:「但是...」(But before)、「讓我再檢查一遍」(double-check)、「重新運行」(rerun)。這種模式在傳統的CoT RL中也常見,它驅動模型進行探索,避免一條路走到黑。
  2. 反思Token(Reflection Tokens):這是智能體RL所獨有的!當模型收到程式碼環境的回饋(無論是成功輸出還是錯誤訊息)後,會產生一連串高熵token來分析、解讀、應對這個回饋
    • 一個成功執行的例子:模型看到工具返回的結果後,生成高熵token來策劃如何進行驗證(「To verify」),體現出謹慎的思考。

      圖片

    • 一個更精彩的錯誤處理例子:模型執行程式碼出錯後,它沒有放棄或瞎猜,而是產生大量高熵token來分析錯誤原因(「The error occurred because...」)、構思解決方案(「an easier workaround is to...」、「Alternatively」)、並最終生成修正後的程式碼。這像極了一個程式設計師在除錯,展現了高級的認知能力。

      圖片

結論是:智能體RL不僅保留了傳統CoT中的自我反思能力,更重要的是,它新增了針對環境回饋進行深度反思並調整行為的能力。這正是它比單純「長思維鏈」更「聰明」的本質原因。

一些討論

論文也坦誠地分享了一些失敗的嘗試,這些經驗同樣寶貴:

  • 過度長度過濾(Overlong Filtering):直接丟棄因超長而被截斷的軌跡(而不給予負面獎勵),本意是避免懲罰那些只是寫得長但推理正確的軌跡。結果卻發現,這反而導致模型更頻繁地產生冗長重複的文本,因為缺少了負回饋訊號。最終,保留截斷並給予負面獎勵的效果更好。
  • N-gram重複檢測:試圖用規則過濾掉含有重複n-gram的成功軌跡以提升品質,卻發現這常常會誤傷那些出於驗證目的而進行的合理、相似的工具調用。這表明,過於複雜精細的規則式獎勵或過濾機制在LLM RL中可能弊大於利

這些教訓再次印證了其簡約獎勵設計(只依賴最終答案正確性)和RoC資料層面篩選策略的優越性:減少偏見,保持探索,實現穩健學習

此外,實驗發現RL提升存在天花板。在訓練後期,性能達到峰值後繼續訓練會導致崩潰,各種調參方法均無效。這表明,RL主要是在激發模型在預訓練階段已獲得的內在潛力,而無法賦予其超越本身容量(capability)的新能力。因此,如何用最少的RL計算成本高效地觸及這個天花板,就顯得至關重要。rStar2-Agent成功地做到了這一點。

結論

rStar2-Agent的工作是一項融合了演算法創新、系統工程和訓練技巧的傑出成果。它的核心貢獻在於:

  1. GRPO-RoC演算法:巧妙地透過「正確重取樣」策略,在保持簡約獎勵的前提下,有效克服了程式碼環境中的雜訊問題,引導模型產生高品質推理。
  2. 高性能基礎設施:建構了能支撐海量併發工具調用和動態負載均衡的訓練系統,讓大規模智能體RL變得可行且高效。
  3. 高效訓練配方:「非推理SFT」與「多階段RL」的結合,以極小的計算成本(510步,64 GPUs一週),將一個小模型推向了數學推理的頂尖水平。

這項研究有力地證明了,讓模型「更聰明地思考」的智能體之路,遠比單純地「更長時間地思考」更有效、更有效率。它開創了小模型超越巨模型的先例,為AI社群提供了寶貴的演算法、系統和洞察。其程式碼和配方已開源,必將推動整個領域在高效、智能推理模型方面的探索。未來,將這一範式擴展到數學之外更廣泛的推理領域和工具使用場景,前景令人無比期待。

主標籤:人工智慧

次標籤:大型語言模型數學推理代理式AI強化學習


上一篇:史丹佛教授:AI並非減薪,而是減職位,年輕人首當其衝

下一篇:史丹佛最新研究:最強LLM也搞不定前瞻程式碼!Gemini 2.5 Pro成功率不足40%

分享短網址