微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵

作者:YiFan-Zhang https://zhuanlan.zhihu.com/p/1947981998569260594

圖片

主頁:http://qingkeai.online/


圖片

這篇演算法文章提出兩個主要論點:工具會引入雜訊。當模型不可避免地產生語法或邏輯錯誤時,隨之而來的環境回饋(例如錯誤訊息)可能導致它浪費寶貴的標記用於修正錯誤,而非推進推理。結果獎勵(Outcome reward)加劇了這一現象,因為即使在中間工具呼叫失敗的情況下,最終答案正確時仍能獲得正獎勵。因此,模型會將錯誤視為可以接受的,並生成冗長且低品質的推理軌跡。

圖片

技術演算法:GRPO+clip higher+wo kl 的改進版本:GRPO-RoC。其核心是先進行過採樣,然後均勻採樣錯誤樣本以提供負向訊號,而正確樣本只保留那些工具呼叫錯誤少且格式問題小的樣本。最終用於策略更新的批次由篩選過的高品質成功軌跡和多樣化的失敗軌跡組成。

透過這種不對稱採樣策略,GRPO-RoC 能夠有效過濾掉因環境雜訊導致的低品質成功軌跡,並優先從高品質的成功案例中學習。

實驗結果顯示,採用 GRPO-RoC 後,成功軌跡中的工具呼叫錯誤率顯著下降,且模型在推理性能上有了顯著提升,同時生成的響應也更加簡潔。

圖片

訓練方案:第一階段使用 8K 資料,當性能飽和時提升到 12K,再次飽和時使用更難的資料進行訓練。

也有一些失敗的研究發現:

1.「過長過濾」的無效性: 研究人員嘗試了「過長過濾」(overlong filtering)策略,即丟棄那些超出最大長度的軌跡而不給予負獎勵。然而,這不僅沒有帶來好處,反而增加了過長軌跡的比例。這可能是因為過長的軌跡通常包含重複模式,如果沒有負回饋,模型就無法得到糾正訊號。因此,研究人員保留了對截斷軌跡的負獎勵,並發現這有助於模型減少重複並提高效率。

2.N-gram 重複偵測的風險: 研究人員嘗試透過 N-gram 重複偵測來過濾那些重複性強的成功軌跡。但這種方法會損害模型的平均響應長度和推理分數。他們發現,簡單地將重複模式作為懲罰訊號是危險的,因為一些「重複」行為(如對不同輸入進行兩次類似工具呼叫)實際上是深思熟慮的有效推理步驟。

總體而言,過於複雜、基於規則的獎勵或評分機制容易引入偏差,懲罰有用的行為,且難以推廣到不同的推理模式。因此作者對於環境雜訊和格式問題這類中間行為,都透過 RoC 策略進行處理,而不是直接施加獎勵層面的懲罰。

主標籤:強化學習

次標籤:機器學習軌跡過濾語言模型GRPO-RoC


上一篇:破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!

下一篇:15年資深開發者深夜痛哭半小時!氛圍式編程巨大陷阱曝光,95%程式設計師淪為「AI保姆」

分享短網址