DeepSeek-GRPO重要性權重設計錯誤？詳解Qwen3新強化學習演算法GSPO

原始來源: https://zhuanlan.zhihu.com/p/1932829167801574272

1. 引言

在更大的語言模型上使用 GRPO 時，會出現訓練不穩定的情況[1][2]。在這篇論文，作者認為這種現象源於 GRPO 的重要性權重設計錯誤，GRPO 對於 next-token 的重要性權重，容易引入高變異數的雜訊，在響應長度增加和裁剪機制的共同作用下，最終導致訓練崩潰。

為了解決這一問題，論文提出 GSPO (Group Sequence Policy Optimization)，將針對 token 分佈的權重轉換為針對 sequence 的重要性權重，並且從 sequence 的維度來計算梯度，而不是 token 的維度，與獎勵本身的定義保持一致。

最終，GSPO 在 MoE 模型的強化學習訓練上解決了穩定性問題，從而無需單獨設計複雜的技巧來維持穩定，簡化了強化學習架構。

2. 動機

強化學習階段，我們首先會取樣一個大型的 rollout batch，為了提高取樣效率，通常會將其切分成幾個 mini-batches 來進行梯度更新，這一過程無可避免地會導致 off-policy 情境的出現，同時這也在一定程度上說明了 PPO 和 GRPO 的裁剪機制可以防止那些過度 off-policy 的樣本參與梯度計算。

儘管類似裁剪的機制有助於緩解 off-policy 帶來的問題，然而 GRPO 錯誤地應用了重要性權重。

重要性取樣. 藉助對於從行為分佈取樣的權重進行權重分配，從而用來估計函數在目標分佈下的期望：

[數學公式]

這需要從行為分佈取樣多個樣本，而不是一個。

然而 GRPO 中重要性權重設計為，這一權重主要考慮，顯然這個分佈在當前的 setting 下只有一個取樣樣本，即，而這違背了取樣性權重的期望形式的定義。

而如果重要性權重是應用在上，即從 sequence-level 上去考慮整個最佳化問題，在 GRPO 演算法裡至少我們擁有一組針對同一分佈的重要性權重值，而且 sequence-level 更能匹配獎勵函數的設計 (獎勵一般是針對整個響應打分)。

3. 演算法

當我們從 sequence-level 上考慮問題，按照重要性取樣定義，強化學習的目標為：

[數學公式]

這很自然地和 sequence-level 獎勵定義一致，也讓裁剪的機制意義更明確 (篩去過度 off-policy 的 sequence 的梯度)。

基於以上觀察，論文提出 GSPO 演算法，它使用以下目標：

[數學公式]

獎勵使用 group-based 來估計：

[數學公式]

重要性權重使用平均後的序列似然來定義：

[數學公式]

4. 分析

我們將 GSPO 和 GRPO 目標的梯度進行對比：

[數學公式]

GRPO 的梯度為：

[數學公式]

二者的區別主要在於，如何給 tokens 的似然的梯度賦予權重。可以看到 GRPO，針對每個 token 賦予分佈的重要性取樣權重。然而，這樣的所修正的分佈對於每個 token 來說是不一致的，將它們都用一個標準來裁剪也顯得不合適。相比之下，GSPO 為 tokens 賦予 sequence 級別重要性取樣權重。

4.1 token level 上的變體

某些場景下 (multi-turn RL)，我們可能還是想在 token 級別上針對優勢進行細粒度調整，為此，論文提出了 GSPO 的變體 GSPO-token，它擁有和 GSPO 一致的梯度。

[數學公式]

其中

[數學公式]

這裡表示 stop gradient，作為常數參與梯度計算。當時，GSPO-token 在最佳化目標、裁剪條件以及理論梯度方面在數值上與 GSPO 是一致的。

5. 實驗

5.1 實驗結果

使用基於 Qwen3-30B-A3B-Base 的 SFT 微調後的冷啟動模型，採用 GSPO (不使用路由重放策略)和 GRPO + Routing Replay training strategy 兩者設置。下圖給出了訓練時獎勵的變化曲線以及在 AIME24、LiveCodeBench、CodeForces (Elo Rating)上的表現。

相比 GRPO，GSPO 訓練效率在 Qwen3 上更高。

5.2 裁剪比例上的觀察

GSPO 會裁剪整個響應的 tokens，而 GRPO 則裁剪一些過度 off-policy 的 tokens。統計訓練中兩種實驗的裁剪比例，得到下圖：

GSPO 裁剪掉更多的 tokens，但是卻擁有更高的訓練效率，這說明 GSPO 可能提供比 GRPO 更可靠且高效的學習訊號。

5.3 MoE 訓練中效果

背景. MoE 模型的訓練中，使用 GRPO 演算法，專家激活的不穩定性可能會導致強化學習訓練無法正常收斂，進行一次梯度更新後，即使對於相同的響應，所激活的專家也可能發生顯著變化。這一不穩定要素，導致 token 級別的重要性權重波動更大，從而如之前討論的，最後導致模型崩潰。

先前的方法. 使用 Routing Replay 策略，訓練時，儲存被激活的專家有哪些，當計算重要性權重時，在重新 replay 之前儲存的路由的策略。這種情況下，則能確保對於每個，重要性權重的分子分母使用同樣的激活網路進行計算。下圖展示這一策略帶來的好處：

GSPO 的效果. 但是上述啟發式策略，存在額外的記憶體和通訊開銷，也會限制 MoE 模型的實際知識容量。實驗上，可以看到 GSPO 比 GRPO + routing replay 策略效率更高，且訓練穩定；從理論上來說，MoE 模型仍然保留語言模型的能力，sequence 的似然比起單個 token 的似然在 MoE 模型的輸出中更加穩定。

參考

1. Team Qwen. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a.

2. MiniMax. Minimax-m1: Scaling test-time compute efficiently with lightning attention. arXiv preprint arXiv:2506.13585, 2025.

DeepSeek-GRPO重要性權重設計錯誤？詳解Qwen3新強化學習演算法GSPO

分享短網址