原始來源: https://zhuanlan.zhihu.com/p/1932829167801574272
1. 引言
在更大的語言模型上使用 GRPO 時,會出現訓練不穩定的情況[1][2]。在這篇論文,作者認為這種現象源於 GRPO 的重要性權重設計錯誤,GRPO 對於 next-token 的重要性權重,容易引入高變異數的雜訊,在響應長度增加和裁剪機制的共同作用下,最終導致訓練崩潰。
為了解決這一問題,論文提出 GSPO (Group Sequence Policy Optimization),將針對 token 分佈的權重轉換為針對 sequence 的重要性權重,並且從 sequence 的維度來計算梯度,而不是 token 的維度,與獎勵本身的定義保持一致。
最終,GSPO 在 MoE 模型的強化學習訓練上解決了穩定性問題,從而無需單獨設計複雜的技巧來維持穩定,簡化了強化學習架構。
2. 動機
強化學習階段,我們首先會取樣一個大型的 rollout batch,為了提高取樣效率,通常會將其切分成幾個 mini-batches 來進行梯度更新,這一過程無可避免地會導致 off-policy 情境的出現,同時這也在一定程度上說明了 PPO 和 GRPO 的裁剪機制可以防止那些過度 off-policy 的樣本參與梯度計算。
儘管類似裁剪的機制有助於緩解 off-policy 帶來的問題,然而 GRPO 錯誤地應用了重要性權重。
重要性取樣. 藉助對於從行為分佈 取樣的權重進行權重分配,從而用來估計函數 在目標分佈 下的期望:
[數學公式]
這需要從行為分佈取樣多個樣本,而不是一個。
然而 GRPO 中重要性權重設計為 ,這一權重主要考慮 ,顯然這個分佈在當前的 setting 下只有一個取樣樣本,即 ,而這違背了取樣性權重的期望形式的定義。
而如果重要性權重是應用在 上,即從 sequence-level 上去考慮整個最佳化問題,在 GRPO 演算法裡至少我們擁有一組針對同一分佈的重要性權重值,而且 sequence-level 更能匹配獎勵函數的設計 (獎勵一般是針對整個響應打分)。
3. 演算法
當我們從 sequence-level 上考慮問題,按照重要性取樣定義,強化學習的目標為:
[數學公式]
這很自然地和 sequence-level 獎勵定義一致,也讓裁剪的機制意義更明確 (篩去過度 off-policy 的 sequence 的梯度)。
基於以上觀察,論文提出 GSPO 演算法,它使用以下目標:
[數學公式]
獎勵使用 group-based 來估計:
[數學公式]
重要性權重使用平均後的序列似然來定義:
[數學公式]
4. 分析
我們將 GSPO 和 GRPO 目標的梯度進行對比:
[數學公式]
GRPO 的梯度為:
[數學公式]
二者的區別主要在於,如何給 tokens 的似然的梯度賦予權重。可以看到 GRPO,針對每個 token 賦予分佈 的重要性取樣權重。然而,這樣的 所修正的分佈對於每個 token 來說是不一致的,將它們都用一個標準 來裁剪也顯得不合適。相比之下,GSPO 為 tokens 賦予 sequence 級別重要性取樣權重。
4.1 token level 上的變體
某些場景下 (multi-turn RL),我們可能還是想在 token 級別上針對優勢進行細粒度調整,為此,論文提出了 GSPO 的變體 GSPO-token,它擁有和 GSPO 一致的梯度。
[數學公式]
其中
[數學公式]
這裡 表示 stop gradient,作為常數參與梯度計算。當 時,GSPO-token 在最佳化目標、裁剪條件以及理論梯度方面在數值上與 GSPO 是一致的。
5. 實驗
5.1 實驗結果
使用基於 Qwen3-30B-A3B-Base 的 SFT 微調後的冷啟動模型,採用 GSPO (不使用路由重放策略)和 GRPO + Routing Replay training strategy 兩者設置。下圖給出了訓練時獎勵的變化曲線以及在 AIME24、LiveCodeBench、CodeForces (Elo Rating)上的表現。
相比 GRPO,GSPO 訓練效率在 Qwen3 上更高。
5.2 裁剪比例上的觀察
GSPO 會裁剪整個響應的 tokens,而 GRPO 則裁剪一些過度 off-policy 的 tokens。統計訓練中兩種實驗的裁剪比例,得到下圖:
GSPO 裁剪掉更多的 tokens,但是卻擁有更高的訓練效率,這說明 GSPO 可能提供比 GRPO 更可靠且高效的學習訊號。
5.3 MoE 訓練中效果
背景. MoE 模型的訓練中,使用 GRPO 演算法,專家激活的不穩定性可能會導致強化學習訓練無法正常收斂,進行一次梯度更新後,即使對於相同的響應,所激活的專家也可能發生顯著變化。這一不穩定要素,導致 token 級別的重要性權重波動更大,從而如之前討論的,最後導致模型崩潰。
先前的方法. 使用 Routing Replay 策略,訓練時,儲存 被激活的專家有哪些,當計算重要性權重 時,在 重新 replay 之前儲存的路由的策略。這種情況下,則能確保對於每個 ,重要性權重的分子分母使用同樣的激活網路進行計算。下圖展示這一策略帶來的好處:
GSPO 的效果. 但是上述啟發式策略,存在額外的記憶體和通訊開銷,也會限制 MoE 模型的實際知識容量。實驗上,可以看到 GSPO 比 GRPO + routing replay 策略效率更高,且訓練穩定;從理論上來說,MoE 模型仍然保留語言模型的能力,sequence 的似然比起單個 token 的似然在 MoE 模型的輸出中更加穩定。
參考
1. Team Qwen. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a.
2. MiniMax. Minimax-m1: Scaling test-time compute efficiently with lightning attention. arXiv preprint arXiv:2506.13585, 2025.