MLNLPコミュニティは、国内外で知られる機械学習および自然言語処理のコミュニティであり、国内外のNLP修士・博士課程の学生、大学教員、企業の研究者などを対象としています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして幅広い愛好家の間の交流と進歩を促進することであり、特に初心者の学生の進歩に貢献することです。

出典 | 知乎

著者｜还可以

この数ヶ月のRL推論の進捗をまとめ、いくつかの重要な論文の発表時期に関する余談も加えます。

以下のまとめには不足や漏れがあるかもしれませんので、皆様からの補足やご指摘をいただければ幸いです。

この期間を、RL推論の台頭 - 沈静 - 逆境、と大まかに分けます。私たちは「沈静」と「逆境」の描写に焦点を当てるかもしれません！

台頭

1.GRPOによるMake-RL-Great-Again

結果報酬をフィードバックの判断条件とし、ルールベースを使用し、prm（中間過程報酬）を放棄することで、GRPOは目覚ましい成果を上げました。（reinforce++の再現、Remax、Primeなどの先行研究を総合的に見ると）

その後の関連研究は、GRPO関数の修正です：

2.DAPOのシンプルかつ効果的なトリックの重ね合わせ

DAPOはGRPOをベースに、さらに4つの小さな工夫を追加しました。

Clip-Higher：

著者はより高いクリップを推奨しており、上下のクリッピング範囲を切り離すことで、低確率トークンの探索空間を広げています。

Dynamic Sample：

既存のRLアルゴリズムは、精度が1のプロンプトに直面すると、勾配消失の問題が発生しがちです。DAPOは動的サンプリング戦略により、精度が1と0のプロンプトを除外し、各バッチのプロンプトが有効な勾配信号を持つようにします。

Token-Level：

GRPOはサンプルレベルの損失を使用しているため、長い応答中のトークンが全体の損失に寄与する割合が低くなります。DAPOはトークンレベルのポリシー勾配損失を導入しました。

しかし、この技術は基本的に皆がすでに使用していました。

Overlong Reward Shaping：

DAPOは、ソフトな過長ペナルティメカニズムを提案し、長さ認識のペナルティ区間を通じて、過長応答に対するペナルティを段階的に増加させることで、報酬ノイズを減らし、訓練を安定させます。

3.DR.GRPOの関数修正

DR.GRPOの著者は、ポリシー勾配からGRPOを導出する際に、stdやその他の要素を含めるべきではないと推論しています。

ここで私見を述べると、著者はいくつかの証明を行っていますが、個人的な再現では、特にStdを削除した場合に、効果が低下しました。

4. GPGの簡略化された操作

GPGは完全にポリシーベースの手法を使用し、他のPPOの小さなトリックをすべて削除しました。

ご覧の通り、非常に簡略化されています。もちろん、GRPOのアドバンテージが全て0になったり、stdの扱いが難しいといった細かい操作は依然として必要です。

最終的な効果は下図の通りです。同時に、著者はDr.GRPOの操作には効果がないと斜体で示唆しています。

その他

より効率的な推論の研究（競争は非常に激しく、かつては2日間でArixvに10本以上の論文が公開された）：推論長さの最適化、思考するかしないか（think or nothink）。

高品質なサンプルの選別。

沈静：RL推論の限界と、一部の改善策がもたらす課題

（限界）RL推論はモデルに新たな能力をもたらさない

まず、清華大学の論文「Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?」に注目しましょう。

著者らは、RLVRで訓練されたモデルによって生成された推論経路が、ベースモデルの出力分布にかなりの確率密度で存在することを発見しました。RLモデルが解決できる問題は、ベースモデルでも複数回サンプリングするだけで解決できるのです。

さらに、Pass@k（直感的には、モデルに複数回チャンスを与え、少なくとも1回成功する確率を計算する指標）の指標では、RL訓練されたモデルの能力上限は、ベースのオリジナルモデルの能力上限を下回っていました。これは、RLが単にサンプリング効率を向上させたに過ぎないと理解できます。

私自身、RL推論を始めたばかりで、この現象には驚きと落胆を覚えました。しかし、皆に指摘されて、実はDeepseekmathがすでにこの状況を報告していたことに気づきました（下図参照）。

いずれにせよ、RLをサンプリング効率向上の手段として捉えるならば、依然として非常に価値があります。しかし、その後の進展は少々…。

（ラベルフリー学習）外部ラベルは不要

時系列順に説明します。

EMPO

EMPOは真のグラウンドトゥルースに依存せず、モデルの応答をクラスタリングして分類し、すべての応答が同じクラスになるように報酬を与えます。

モデルの効果は下図の通りですが、個人的にはベースラインが十分に訓練されていないと感じます。しかし、手法の有効性という目的は達成されています。ただ、この論文は本質的にエントロピー最小化の形式に似ており、直接エントロピー最小化に転換しなかったのは残念です。そうすれば、今頃いくつかの論文は発表できなかったでしょう。

TTRL：

ライブ予告！TTSからTTRLへ：ラベルなしデータ強化学習の探求と展望

major@kは固定された答えがない場合に実施が難しいため、EMPOが分類形式を採用しているのに対し、その限界があります。しかし、ほぼ同様の効果は得られます。

私は彼のテスト時の強調があまり好きではありません。なぜなら、効果を見ると、その計算量は直接major@kを使用するよりも少ないからです。むしろ、彼が訓練データセットで訓練した場合どうなるのか、もっと興味があります。

同時に、DPOのより早い段階のアイデアでは、major@kを擬似正ラベルとして使用する手法がありましたが、テスト時の言及はありませんでした。

興味深いことに、「Can Large Reasoning Models Self-Train？」という論文はTTRLと基本的には同じですが、訓練データセットで訓練し、テストデータセットでテストしています。査読者が李逵（本物）と李鬼（偽物）をどう扱うかは分かりませんが…。

しかし、ここまで来ると、ある程度の傾向が見えてきました。私たちのモデルは外部の答えを必要とせず、自身のコンテンツだけで完結できるのでしょうか？しかし、この時点ではまだ状況は不明瞭です。

エントロピー最小化:

この論文は、エントロピーを目的として訓練することを探求しており、3つのモデルに分かれています：

• EM-FT：トークンレベルのエントロピーを最小化しますが、モデルから抽出されたラベルなし出力に基づいています（SFTに偏向）。

• EM-RL：負のエントロピーを唯一の報酬として最大化する強化学習。

• EM-INF：訓練データやパラメータ更新なしでエントロピーを削減するための推論時ロジット調整。

奇妙なことに、著者がなぜサンプリング数を4にしたのか分かりません。少ないですね…。

まとめ：

これらの論文が立て続けに発表されたことで、筆者のRL推論に対する情熱は大きな打撃を受けましたが、それでもかなりのものを維持していました。しかし、続く数本の論文の出現は、確かに厳しいものでした。

打撃：私たちのRLは何を学んだのか？

単一サンプル

One-shot-RL:

これも非常に有名な論文で、著者は単一のサンプルのみを複数回訓練することで良い結果を達成しました。サンプルの選択は分散を基準としています。つまり、モデルのエントロピーが大きいデータを選択して、モデルのエントロピーを減らすと理解できます。

論文を読み始めたとき、私も同様に驚きましたが、すぐにフォーマットの問題ではないかと考えました。その後、著者は1週間後に対応する実験を行い、最新版のarxivに追加しました。

同時に、エントロピー損失が大きな役割を果たしていることもわかります。しかし残念ながら、著者はエントロピーのみの場合がどうなるかを検証しなかったため、後続の研究にその機会を与えてしまいました。

ワンショットエントロピー最小化、わずか10ステップで:

前の論文のアイデアと非常によく似ており、ワンショットサンプルを10ステップ訓練しますが、直接エントロピーを報酬として使用します。モデルの効果比較図は以下の通りで、効果は依然として非常に良好です（小さな声で言うと、少し不安定に感じます。平均値の向上はAMCに大きく依存していますが、AMCはあまりにもランダムです）。

一つ小さな注意点として、生成された長さが短すぎませんか？

同時に、著者はロジットの分布を調査し、エントロピーがモデル全体の信頼度を高め、確率質量をトークンのサブセットに集中させることを発見しました。したがって、元のロジットにおける以前の高い確率領域は、ロングテールで高い確率区間に拡張されました。

誤った報酬がモデル性能を向上させる：

この論文は比較的包括的で、異なる報酬、すなわちランダム報酬、誤った報酬、フォーマット報酬、多数派報酬、正しい報酬の異なる効果を研究しています。この論文は驚くべきことに、ランダム報酬と誤った報酬の効果を示しました。

ランダム報酬や誤った報酬といった偽りの報酬でも、私たちのモデルの効果を高めることができます。これで、それはすでに明らかです。結局のところ、モデルの出力自体が、モデルが自信を持っている部分なのですから、単純にモデル自身の信頼度を高めているに過ぎません。

この論文の最も良い点は、ベースモデルの選択が広範囲にわたっていることです。一見するとRL推論の有効性を損なうように見えますが、偽りの報酬はQwenやLlamaを向上させることができても、クリーンなモデルであるOlmoには効果がありません。しかし、私たちのRLは依然として有効です。

また、この論文ではすべての報酬が同じ著者によって設定された環境で実験されており、異なる論文間の比較の必要がありません。Qwenモデルであっても、正しいRL推論を使用することで、信頼度を高めることと比較して4〜5ポイントの性能向上が得られることがわかります。

まとめ

全体的な研究トレンドは以下の通りです：外部の答えを利用した探索学習 - 代替の外部の答えを利用した探索学習 - 外部の答えを必要としない探索学習 - 知識学習を行わずにモデルを変更すること。

もちろん、いずれにせよ、主要なモデル自身の反復プロセスは必要であり、自らサンプリングを行う必要があります。

私たちのロールアウトには確かに問題があります（マジで）。すべてのロールアウトのサンプリングは、モデル自身の比較的自信のある生成出力と見なすことができ、その上で修正が行われます。したがって、いくつかの強力な信頼度向上策を講じることで、ある程度の効果が得られます。

しかし、皆さん、落胆しないでください。上記の問題の多くは、MATHのシナリオとモデル内部の能力という単純な状況下での探求にすぎません。

技術交流グループへのご招待

△長押しでアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加してください

備考欄に：氏名-学校/会社-研究分野をご記入ください

（例：張さん-ハルビン工業大学-対話システム）

自然言語処理/Pytorchなどの技術交流グループに参加申請できます

私たちについて

MLNLPコミュニティは、国内外の機械学習と自然言語処理の研究者によって共同で設立された民間学術コミュニティであり、現在では国内外で有名な機械学習と自然言語処理のコミュニティに発展しています。その目的は、機械学習、自然言語処理の学術界、産業界、そして幅広い愛好家の間の進歩を促進することです。

コミュニティは、関連分野の専門家に対し、さらなる学習、就職、研究などの側面で開かれた交流プラットフォームを提供しています。皆様の関心とご参加を歓迎いたします。

RL推論の進捗整理

台頭