オリジナルソース: https://zhuanlan.zhihu.com/p/1932829167801574272
1. はじめに
大規模言語モデルでGRPOを使用すると、学習が不安定になることがあります[1][2]。本論文では、この現象はGRPOの重要度重みの設計ミスに起因すると著者らは指摘しています。GRPOの次トークンに対する重要度重みは、高分散のノイズを導入しやすく、応答長の増加とクリッピング機構の作用により、最終的に学習の崩壊を引き起こします。
この問題を解決するため、本論文ではGSPO (Group Sequence Policy Optimization) を提案します。これは、トークン分布に対する重みをシーケンスに対する重要度重みに変更し、勾配をトークン次元ではなくシーケンス次元から計算することで、報酬自体の定義と整合させます。
最終的に、GSPOはMoEモデルの強化学習において安定性の問題を解決し、安定性を維持するための複雑な技巧を別途設計する必要がなくなり、強化学習アーキテクチャを簡素化しました。
2. 動機
強化学習フェーズでは、まず大規模なロールアウトバッチをサンプリングします。サンプリング効率を高めるため、通常はこれをいくつかのミニバッチに分割して勾配更新を行います。このプロセスは必然的にオフポリシーシナリオを引き起こし、PPOとGRPOのクリッピング機構が過度にオフポリシーなサンプルが勾配計算に参加するのを防ぐという点もある程度説明しています。
クリッピングのようなメカニズムはオフポリシーに起因する問題の緩和に役立ちますが、GRPOは重要度重みを誤って適用しています。
重要度サンプリング. 行動分布からサンプリングされた重みを割り当てることで、目標分布における関数 の期待値を推定します。
[数式]
これは、行動分布から複数のサンプルをサンプリングする必要があり、一つだけではありません。
しかし、GRPOの重要度重みは として設計されており、主に を考慮しています。現在の設定では、この分布からのサンプルは一つ (つまり ) しかないため、これはサンプリング重みの期待値形式の定義に反しています。
もし重要度重みが に適用される、つまりシーケンスレベルで最適化問題全体を考慮するならば、GRPOアルゴリズムでは少なくとも同一分布に対する重要度重みのセットを持つことになります。さらに、シーケンスレベルは報酬関数の設計 (報酬は通常、応答全体に対して評価されます) とより整合します。
3. アルゴリズム
シーケンスレベルで問題を考慮する場合、重要度サンプリングの定義に従って、強化学習の目的は次のようになります。
[数式]
これはシーケンスレベルの報酬定義と自然に一致し、クリッピングメカニズムの意味をより明確にします(過度にオフポリシーなシーケンスの勾配を除外する)。
これらの観察に基づき、本論文ではGSPOアルゴリズムを提案します。これは以下の目的を使用します。
[数式]
報酬はグループベースで推定されます。
[数式]
重要度重みは平均化されたシーケンス尤度を使用して定義されます。
[数式]
4. 分析
GSPOとGRPOの目的の勾配を比較します。
[数式]
GRPOの勾配は次のとおりです。
[数式]
両者の主な違いは、トークンの尤度の勾配にどのように重みを割り当てるかです。GRPOは、各トークンに分布 の重要度サンプリング重みを付与します。しかし、このような修正された分布は各トークンに対して一貫性がなく、それらすべてを単一の標準 でクリッピングするのは不適切に見えます。対照的に、GSPOはトークンにシーケンスレベルの重要度サンプリング重みを付与します。
4.1 トークンレベルの派生
特定のシナリオ (マルチターンRL) では、トークンレベルでアドバンテージをきめ細かく調整したい場合があります。この目的のため、本論文ではGSPOの派生形であるGSPO-tokenを提案します。これはGSPOと一貫した勾配を持ちます。
[数式]
ここで、
[数式]
ここで はstop gradientを示し、定数として勾配計算に参加します。 の場合、GSPO-tokenは最適化目標、クリッピング条件、および理論的勾配に関して数値的にGSPOと一致します。
5. 実験
5.1 実験結果
Qwen3-30B-A3B-BaseをベースとしたSFTファインチューニング後のコールドスタートモデルを使用し、GSPO(ルーティングリプレイ戦略なし)とGRPO + Routing Replay training strategyの両方を設定しました。以下の図は、学習中の報酬変化曲線とAIME24、LiveCodeBench、CodeForces (Elo Rating)でのパフォーマンスを示しています。
GRPOと比較して、GSPOはQwen3での学習効率が高いです。
5.2 クリッピング比率に関する考察
GSPOは応答全体のトークンをクリッピングしますが、GRPOは一部の過度にオフポリシーなトークンをクリッピングします。学習中の両方の実験のクリッピング比率を以下の図に示します。
GSPOはより多くのトークンをクリッピングしますが、より高い学習効率を示しており、GSPOがGRPOよりも信頼性が高く効率的な学習シグナルを提供できる可能性を示唆しています。
5.3 MoE学習における効果
背景. MoEモデルの学習においてGRPOアルゴリズムを使用すると、エキスパート活性化の不安定性により強化学習が適切に収束しないことがあります。一度の勾配更新後、同じ応答であっても活性化されるエキスパートが大幅に変化する可能性があります。この不安定要素がトークンレベルの重要度重みの変動を大きくし、以前議論したように最終的にモデルの崩壊を引き起こします。
従来の方法. ルーティングリプレイ戦略を使用し、学習中に活性化されたエキスパートを保存します。重要度重みを計算する際、以前保存されたルーティング戦略をリプレイします。この場合、各 に対し、重要度重みの分子と分母が同じ活性化ネットワークを使用して計算されることを保証できます。以下の図はこの戦略がもたらす利点を示します。
GSPOの効果. しかし、上記のようなヒューリスティックな戦略には、追加のメモリと通信オーバーヘッドがあり、MoEモデルの実際の知識容量を制限する可能性もあります。実験的には、GSPOはGRPO + ルーティングリプレイ戦略よりも効率が高く、学習が安定していることがわかります。理論的には、MoEモデルは依然として言語モデルの能力を保持しており、シーケンスの尤度は個々のトークンの尤度よりもMoEモデルの出力において安定しています。
参考文献
1. Team Qwen. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a.
2. MiniMax. Minimax-m1: Scaling test-time compute efficiently with lightning attention. arXiv preprint arXiv:2506.13585, 2025.