LLMとRLの組み合わせに疑問符：意図的な誤った報酬でも数学ベンチマークが大幅向上、AI界に衝撃

提供元：Synced

編集：澤南、+0

これほど長く訓練してきたが、何を訓練していたのだろうか？

これは今年最も『ばかばかしい』論文だ。

この論文が発表されたことで、大規模言語モデル（LLM）と強化学習（RL）の組み合わせの意義が問われることになった。

今週火曜日、ワシントン大学、アレン人工知能研究所、カリフォルニア大学バークレー校の論文がAI界を揺るがした。

論文：https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

プロジェクトリンク：https://github.com/ruixin31/Rethink_RLVR/tree/main

著者らは、最近の大規模モデル分野で盛んな強化学習の手法を否定し、次のような発見をした。

Qwen2.5-Math-7B モデルを虚偽の報酬で訓練しても、MATH-500 の成績が向上することが示された。ランダムな報酬であれば21%、誤った報酬であれば25%の向上が見られた（実際の報酬では28.8%向上）。

一体どういうことだろうか？大規模モデルの訓練技術は本当に有効なのだろうか？この研究の著者らはブログでその内容を紹介している。

RLVRの伝統的な見解への疑問

最近、検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデル（LLM）の推論能力を向上させる標準的な手法となっている。従来の考えでは、高品質な教師信号が効果的なRLVR訓練に不可欠だとされている。しかし、最近の研究はこの仮説に異議を唱え、RLVRを用いて単一のサンプルや非教師ありサンプルで訓練しても、Qwen-Mathモデルで顕著な進歩が得られることを示した。

しかし、我々は問わざるを得ない：単一サンプルまたは非教師ありRLVRにおける訓練信号はどこから来るのか？意味のあるRLVR訓練信号を提供するために、報酬の最低限の要件は何だろうか？

我々の発見は衝撃的だ。

虚偽の報酬、たとえランダムまたは誤っていても、Qwen-Mathの性能を著しく向上させる

我々は、RLVRがいわゆる「虚偽の報酬」――ほとんど、あるいは全く誤った指導を提供する信号――を用いることで、数学的推論能力を大幅に向上させることができることを発見した。

以下は、我々が試した興味深い報酬のいくつかだ。

フォーマット報酬：解答が \boxed { } を含む場合にのみ与えられる報酬――解答が \boxed {} 式を含むことで報酬を与える。このフォーマットは、システムがモデルに提供するプロンプトでも指定されており、「プロンプト追従」の概念を提供する。
ランダム報酬：完全に恣意的なフィードバック――文字通り：1 if (random.random () < rate) else 0
誤った報酬：意図的に誤った教師信号を設定――誤っているが信用できるラベルを取得する手順：

モデルのロールアウトを頻度でソートする
最も一般的な解答を取る
解答が正しければ、サンプルを破棄する
モデルの最も一般的な解答が誤っているサブセットで訓練し、その特定の解答を訓練ラベルとして使用する。

我々はまた、文献で研究されてきた他のいくつかの弱い報酬と比較した。

多数決報酬：多数決で選ばれた解答をラベルとして採用する。
単一サンプル強化学習：単一のサンプルで標準的な強化学習検証学習（RLVR）を行う。

RLVRを異なる訓練信号で150ステップ訓練した後のMATH-500の精度。我々は、「虚偽の報酬」であってもQwenモデルにおいてMATH-500の大幅な向上をもたらすことを示した。これらの報酬信号は、Llama3やOLMo2などの他のモデルには適用できない点に注意が必要である。それらの推論事前分布が異なるためだ。

AIコミュニティで強化学習に広く利用されているQwen2.5-Math-7Bモデルから始め、我々は複数の数学的推論ベンチマークにおいて、真値に基づいて教師されたモデルと同等の性能向上を達成した。

この発見は、AIの推論能力向上における強化学習の役割に関する現在の理解に直接異議を唱えるものだ。

どんでん返し：虚偽の報酬はすべてのモデルに有効ではない

我々が実験を、数学的推論に特化して最適化されていない他のモデルファミリー（Qwen2.5-Base、Olmo2、Llama3のバリアントを含む）に拡張した際、いくつかの興味深い現象が観察された。

Qwen-Mathとは異なり、他のモデルは「虚偽の報酬」に対して非常に限定的な性能しか示さなかった。

（主にMATH-500での性能について議論する。AMC、AIME 2024、特に訓練データの締切日以降のAIME 2025テストセットに関する詳細な結果については、完全な論文を参照のこと。）

まず、真のラベルでの健全性チェックを行った。これはすべてのモデルの性能を向上させた。真のラベルを用いて単純なGRPOを行った場合、すべてのモデルファミリーで改善が見られ、QwenとQwen-Mathの改善はLlamaとOLMoモデルよりも大きかった。
多数決の結果はどうだったか？先行研究ではモデルの一貫性を高める方法が提案されている。我々は、これがほとんどのモデルに利益をもたらすが、OLMoには利益をもたらさないことを発見した。
応答が \boxed {} を含む場合にのみ報酬を与えたらどうなるか？実験の結果、モデルに解析可能な結果を生成するように訓練するだけで、Qwenモデルで大幅な性能向上（Qwen2.5-1.5Bで絶対値49.9%向上）が得られることが判明した。しかし、この報酬はLlama3.2-3B-InstructとOLMo2-SFT-7Bの性能をそれぞれ7.3%と5.3%低下させた。興味深いことに、性能はピークに達した後、徐々に低下し始めた。これは、モデルがすでにフォーマットを「学習」しており、それ以上の訓練が追加情報を提供しないためだと我々は仮説を立てている。
誤った報酬――ここからが面白い。誤った報酬はQwenモデルの性能を依然として著しく向上させたが、Llamaモデルには影響がなく、OLMo-BaseおよびOLMo-SFTモデルには損害を与えた。
最後に、モデル自体を観察せず、単純に報酬を0または1にランダムに割り当てたらどうなるか？それでも有効なのか？その通り、Qwenモデルには有効だが、他のモデルには有効ではない。

ランダム報酬はQwen2.5-1.5Bでは機能せず、Qwen2.5-7Bでは約120ステップ後にようやく機能し始めたことに注意してほしい。この観察に基づき、我々はそれをより長く（300ステップ）訓練し、他の信号を伴う報酬と比較して、これらのモデルの収束レベルが低いことを発見した。

このようなアーキテクチャ依存の振る舞いは、RLVRの有効性が教師信号の品質よりも、既存のモデル能力に依存していることを示唆している。

将来の研究への実践的な警告

Qwenモデルは、そのオープンソースの重みと推論タスクにおける高性能により、オープンソースコミュニティにおけるRLVR研究の事実上の選択肢となっている――最近の一連のRLVR研究は、Qwenを中心とした実験に基づいて結論を出している（リストについては原論文を参照のこと）。

しかし、最近の2つの研究では、Qwenモデルで弱教師付きRLVRが良好に機能することを示しているが、これらの結論は他のモデルファミリーには一般化できないことを我々は発見した。

テスト時強化学習：この論文は、テストサンプルでRLVRを行い、オンポリシー下での多数決（majority-voted）解答を報酬の計算に用いることを提案している。
単一サンプル強化学習：この論文は、たった一つのサンプルでRLVRを行うだけで、標準的な訓練セットでのRLVRに匹敵する性能を達成できることを示した。

我々は、最近提案された2つの弱教師付きRL手法――TTRLと単一サンプルRL――を複数の基礎モデルで評価した。これらの提案された訓練報酬がQwenモデルで持続的に機能することを発見した。しかし、少数の例外を除いて、これらの同じ信号は他のモデルファミリーでは通常利益をもたらさず、虚偽の報酬で訓練した際に観察された限定的な汎化能力と一致している。

したがって、将来のRLVR研究は、他のモデルで検証されるべきだと我々は提案する。

なぜ虚偽の報酬を用いたRLVRが有効なのか？

さて、あなたは不思議に思うかもしれない――なぜこのようなことが起こるのか？なぜこれらすべての虚偽の報酬がQwen-Mathモデルで有効なのか？一体どこに魔法があるのか？

総じて、RLVRの訓練結果の差異は、各モデルが事前訓練プロセスで学習した特定の推論戦略の違いに起因すると我々は仮説を立てている。特に、特定の戦略はRLVRによって容易に引き出されるかもしれないが、他の戦略は現れにくいか、あるいは全く存在しない可能性もある。

我々は、そのような既存の戦略の一つとして、数学的推論を補助するコード生成を特定した。Qwen-Mathはこの戦略を効果的に活用できるが、他のモデルファミリーではその活用が少ない。我々はコード推論を啓発的なケーススタディとして調査するが、これが完全な説明ではない。他にも、「繰り返しなし」のように容易に引き出され、しばしば性能と相関するいくつかの行動を観察した。詳細については論文を参照のこと。

啓発的なケーススタディ：コード推論

詳細な分析を通じて、我々は重要な洞察を発見した。RLVR訓練を行う前でさえ、Qwen-Mathは65.0%の時間でPythonコードを生成して数学問題を解決していた。さらに驚くべきことに、コード実行器なしで、しばしば正しいコード出力と問題の正解を生成できた。

しかし、このような頻繁かつ高品質なコード推論能力は、他のモデルには存在しない。

以下は、Qwen-Math-7BがiPhoneの電卓より1桁多く、小数点以下15桁まで正確に予測できる例である。

Qwen2.5-Math-7Bのコード推論応答例。この問題はMATH-500テストセットからランダムに選択された。コードとその実行結果は両方ともQwen2.5-Math-7Bによって自己回帰的に生成されたことに注意。外部のコードインタプリタはモデルに提供されていない。

RLVR適用後、報酬の品質に関わらず、このコード推論の頻度は平均で90%以上に増加した。

この推論戦略の転換――新しい推論スキルの獲得ではなく――が性能向上を駆動しているように見える。QwenモデルはRLVR訓練を通じてより多くのコード推論を使用することを学んだ。言語推論からコード推論への移行が効果的に性能を向上させた。

Qwen-MathおよびQwenモデルにとって、コードの頻度は性能と高い相関がある。コードが多いほど→正解が多くなり、その逆もまた然り。しかし、コードを生成できるものの高品質なコードを生成できないモデル（例：OLMo2-7B-SFT）では、この相関は逆になる。

きめ細かな精度追跡 — 正しい推論戦略を選択するだけでどれだけ利益を得られるのか？

さらに興味深いことに、RLVR前後で推論戦略が変化した問題を追跡し、性能向上がどこから来るのかを分析した。その結果、以下のことがわかった。

虚偽の報酬は、モデルの振る舞いをコード推論に変換する点でより積極的であり、元々コード推論だった振る舞いを自然言語推論に変換することはほとんどなかった。印象的なのは、虚偽の報酬に基づくRLVRが正しい選択をしたように見えることだ――自然言語推論からコード推論に切り替わった問題では、性能が約55%急増した。一方、真のラベル報酬は自然言語推論の性能を60.2%向上させた！以下のフローチャートに詳細な説明がある。

我々は、各戦略変換行動が各モデルの性能向上に寄与する度合いをさらに定量化した。これは非常に興味深い点だ。あるモデルがコード推論に優れている場合（コード精度 > 言語精度）、RLVRによる向上は主に言語からコード推論への変換からもたらされる。逆に、コード推論に優れていないモデルの場合（コード精度 < 言語精度）、RLVRによる向上は主にコードから言語推論への変換からもたらされる。

モデルの推論戦略を正常に誘導した報酬に対して平均的に計算された、全体的な性能向上への部分的貢献。

我々が最初に観察したこれらの強い相関性に基づいて、コード推論がQwenモデルにおいて良好な数学的性能をもたらす推論行動の一つであると仮説を立てる。

我々の仮説を検証するために、プロンプトと強化学習を通じて、モデルがコード推論を生成するように明確に制約を設けた。我々は、テストされたすべてのモデルにおいて、コード推論の頻度とベンチマーク性能の間に強い相関関係があることを観察した。（相関の方向性は、特定のモデルのコード品質に依存する）。

プロンプトによるコード推論の誘導

我々は単にモデルに「Pythonを使ってこの問題を解決しよう。」（Let's solve this using Python）という言葉で応答を開始するように促した。この簡単なアプローチは、Qwen-mathモデルの性能を著しく向上させたが、LlamaおよびOLMoモデルの性能は低下させた。

強化学習（RL）によるコード推論の誘導

プロンプト実験の成功を鑑み、我々は追加の虚偽の報酬を設計した。モデルの応答に文字列「python」が含まれていれば報酬を与えるというものだ。これは、すべてのモデルがコード推論を使用することを強く促した（50ステップの訓練後、応答の99%以上がコードを含んでいた）。

下のグラフでは同様の傾向を示しているが、強化学習を用いてPythonコードをより多く使用するようにモデルを訓練した場合、その効果はさらに顕著になる。Qwen-MathとQwen2.5-7Bモデルの性能は向上したが、他のモデルの性能は低下した。

だが、なぜランダムなのか？

random.random() < 0.5で生成された報酬によって訓練曲線が上昇するのを見たとき、我々は困惑した。完全に無意味で情報のない報酬が、どうしてモデルの学習を本当に促進できるというのか？

このパラドックスは、我々にAI分野における「ロンドン分散力」を探求させた――まるで電気的に中性の原子同士が神秘的に引き合うように。GRPOを深く研究した後、我々はクリッピング項が鍵である可能性を発見した。我々はクリッピング因子について3つの方法でアブレーション研究を行った。

(a) 損失計算におけるクリッピングを直接無効化する。
(b) 訓練と推論のバッチサイズを調整し、推論モデルとポリシーを一致させる。
(c) 推論バッチサイズを削減し、同等の条件を維持する。

方法 (b) と (c) は、各推論ステップで勾配更新が1回だけであることを保証し、それによりクリッピング制約を自然に回避する。

Qwen2.5-Math-7Bモデルにおいて、GRPOのクリッピング項に対するアブレーション研究時の性能とコード推論頻度。クリッピングを伴うランダム報酬で訓練すると、コード推論モードが増加し、性能が向上する。

標準的なGRPOクリッピングを使用した場合、ランダム報酬はQwen2.5-Math-7Bに約21%の性能向上をもたらし、コード推論モードを増加させた。しかし、上記の3つの方法のいずれかを用いてクリッピング効果を排除した場合、ランダム報酬は何の改善ももたらさなかった。

これはGRPOの定式化自体に存在するバイアスによるものだと我々は推測しており、以下で詳しく説明する。クリッピングの作用下では、ランダム報酬はモデルにタスクの質を教えるのではなく、既存の推論パターン分布にモデルを集中させるような「集中効果」を誘発する。クリッピングが無効になると、この集中メカニズムは完全に消失する。

示唆と将来の研究

虚偽の報酬は既存の能力を増幅させることで機能する：虚偽の報酬を伴うRLVRは、事前訓練プロセスで学習された有用な推論表現を増幅し、強調するメカニズムとして機能し得る。新しいRLVR手法が提案される際には、その恩恵がこれらの表面的なパターンを明らかにすることを超え、真の学習がどの程度発生しているかを調査すべきである。
より多くのモデルファミリーでRL手法の主張を検証する：異なるモデルファミリーは異なる既存能力を持つことを考慮し、将来のRLVR研究は、単一の「事実上の標準」選択肢にのみ依存するのではなく、多様なモデルで検証されるべきだと我々は提案する。完全に虚偽の報酬信号を用いたとしても、Qwenモデルで顕著な性能向上を容易に達成できることを我々はすでに示しているからだ。
まずあなたのモデルを理解する：事前訓練中に学習された推論パターンが、下流のRLVR訓練行動に大きく影響を与えることを、我々はより意識すべきである――事前訓練方法を設計する際も、事前訓練済みモデルをRLVRに使用する際も、同様である。

参考文献：

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

LLMとRLの組み合わせに疑問符：意図的な誤った報酬でも数学ベンチマークが大幅向上、AI界に衝撃

短いURLをシェア