清華大学の研究:まさかの逆転か?RLが基盤モデルの推論能力を真に向上させていないことを確認!

画像

まるで博士研究員を雇って科学技術革新を起こすかと思いきや、実際には受験の達人を雇ってひたすら問題を解かせ、元々知っていた知識をさらに磨き上げさせただけだった。(2025年5月16日、清華大学LEAPラボ、上海交通大学より発表)

フェーズ1:核心概念の特定

論文のモチベーション分析

現在、AIコミュニティでは、検証可能な報酬を伴う強化学習(RLVR)が大規模言語モデル(LLM)の数学やプログラミングなどの複雑な推論タスクにおける性能向上に効果的な切り札技術であると広く信じられています。多くの人々は、従来の強化学習(例えばAlphaGo)がエージェントに探索を通じて新しい、人間を超える戦略を発見させるように、RLVRもLLMを「自己進化」させ、元の(ベース)モデルには存在しなかった全く新しい推論能力を学習させると信じています。

しかし、本論文の著者らはこれに対し鋭い疑問を投げかけます。強化学習は本当にLLMにその基盤モデルを超える新しい推論能力を発展させているのか? それとも、単に基盤モデルにすでに「隠されている」能力をより効率的に「利用」させているだけなのか?言い換えれば、RLVRは「新しい知識を創造している」のか、それとも「既存知識の検索効率を最適化している」のか?この問題は、LLMの能力の限界と将来の発展経路に対する私たちの判断に直接関わるため、極めて重要です。著者らの動機は、厳密な実験を通じてRLVRの成功の裏側にある真の作用メカニズムを探求することにあります。

論文の主な貢献点分析

論文が主張する主なイノベーションのリストアップ

現在のRLVRの根本的な限界を明らかにした:本論文は大量の実験を通じて、現在の主流のRLVR手法がLLMに根本的な新しい推論パターンをもたらしていないことを証明しています。RLで訓練されたモデルの推論能力の境界(上限)は、実際には対応する基盤モデル(Base Model)に制限されており、訓練後にはこの境界が収縮することさえあります。

より正確な評価パラダイムを提案し、体系的に適用した:本論文は、従来の評価指標(pass@1、すなわち単一試行の成功率)がモデルの「平均パフォーマンス」しか反映せず、「能力の上限」を測定できないことを指摘しています。著者らは、pass@k(k回の試行で少なくとも1回成功する確率)を核心的な評価指標として体系的に使用し、特にkが非常に大きい場合に、モデルの推論能力の「天井」をより正確に探ることができます。

RLVRの核心的な役割がサンプリング効率の向上であることを証明した:本論文は、RL訓練後のモデルが通常のテストでより良いパフォーマンスを示すのは、新しい問題を解決することを学んだからではなく、基盤モデルが元々生成できた正しい答えを、より高い確率で、より迅速に(より少ない試行回数で)生成できるようになったためであることを発見しました。これは本質的に、能力の「拡張」ではなく、分布の「純化」または「集中化」です。

RLVRと蒸留(Distillation)の本質的な違いを区別した:比較実験を通じて、本論文は知識蒸留(より強力な教師モデルからの学習)が、学生モデルに新しい推論パターンを真に導入し、それによってその能力境界を拡張できることを発見しました。これは、現在のRLVR手法の限界を浮き彫りにしています。

これらのイノベーションを支える主要な技術または方法を特定する

核心評価方法pass@k(k値が大きい場合):これは論文全体の「顕微鏡」です。BaseモデルとRLモデルの異なるk値におけるpass@k曲線を比較することで、著者らは「RLモデルが小さなk値で先行し、大きなk値でBaseモデルに逆転される」という重要な現象を観察することができました。

パープレキシティ(Perplexity)分析:「なぜ推論経路がすでに存在しているのか」を説明するために、著者らはRLモデルが生成した正しい答えに対するBaseモデルのパープレキシティを計算しました。結果としてパープレキシティが非常に低いことが判明し、これらの「新しい」答えがBaseモデルにとって全く「意外」ではなく、その生成分布内に完全に収まっていることを示しました。

可解問題セットの網羅度分析:これは直接的な集合論証です。著者らはBaseモデルが解決できる問題の集合とRLモデルが解決できる問題の集合を直接比較し、後者がほぼ前者の部分集合であることを発見し、RLモデルが新しい問題を解決していないことを直感的に証明しました。

包括的な実験設計:複数のモデルファミリー(Qwen, LLaMA)、多様なタスク(数学、コード、視覚推論)、および複数のRLアルゴリズム(PPO, GRPOなど)にわたる実験は、結論の普遍性と説得力を大幅に高めました。

論文の顕著な結果 最も顕著な結果は間違いなくpass@k曲線の交差現象です(論文の図2を参照)。RL訓練後のモデルの曲線はグラフの左側(kが小さい)で上に位置し、より優れたパフォーマンスを示しますが、kが増加するにつれてBaseモデルの曲線はより急な傾斜で追いつき、最終的にグラフの右側(kが大きい)でRLモデルを逆転します。この「交差」は、RLモデルが「スタートは速いが持久力がない」、Baseモデルが「大きな潜在能力を持つが、より多くの試行が必要」であることを明確に、視覚的に示しています。この結果は、「RL訓練は常に有益である」という直感に挑戦するため、極めて画期的です。

理解の難所の特定

論文を理解する上で重要な概念/方法の分析

pass@k指標の深い意味pass@1が「平均性能」を、大きなk値のpass@kが「能力境界」を意味する理由を理解することが重要です。

RLVRと従来のRLの類似点と相違点:Atariゲームで新しい戦略を継続的に探索できるRLが、LLMではなぜ「機能しない」ように見えるのかを理解する必要があります。これはLLMの事前学習における事前知識(Priors)と膨大な行動空間の理解に関わります。

「能力境界の収縮」現象:直感的に、訓練はモデルを強くするはずなのに、なぜ能力境界が狭まるのか?これはRLアルゴリズムの目的関数(報酬サンプルの尤度を最大化する)と関連付けて理解する必要があります。

これらの概念の中で最も難しい部分の特定 最も難しい部分は、pass@k曲線の交差から「RLVRがモデルの能力上限を制限する」という結論を導き出すことです。これは、読者がpass@kを単なる性能スコアとしてではなく、モデルの「潜在的な知識ベース」への「プローブ」として理解するよう思考を転換する必要があります。kが十分に大きい場合、pass@kの値はモデルが解決できる問題の割合、すなわちその「能力カバー範囲」に近似します。

重点的に説明すべき核心概念の確定 最も深く説明する必要がある核心概念は、能力境界検出器としてのpass@kの機能原理、およびそれがRLVRの「サンプリング効率向上 vs. 能力境界収縮」という矛盾する効果をどのように明らかにしているかです。

概念の依存関係

出発点:pass@k指標。これはすべての分析の基礎であり、測定基準です。

核心的な議論pass@kに基づき、BaseモデルとRLモデルの曲線を比較し、「交差」現象を導き出します。

現象の解釈:なぜ交差するのかを説明します。kが小さいときにRLモデルが勝つのは、サンプリング効率の向上を示します。kが大きいときにBaseモデルが勝つのは、能力境界が広いことを示します(RLモデルでは境界の収縮さえ発生しています)。

原因の探求:なぜこのように起こるのか?パープレキシティ分析可解問題セット分析を導入し、RLモデルが生成する解法がすべてBaseモデルに由来することを証明します。

理解の深化蒸留との比較、および異なるRLアルゴリズムの分析を通じて、この結論を強化し、一般化します。

フェーズ2:核心概念の深掘り

身近な比喩の考案:図書館での奇妙な本探し

非常に博識な学者(私たちのBaseモデル)を想像してみてください。彼の生涯にわたる学問は、広大な私設図書館にすべて収められています。この図書館は、主流の教科書から珍しい古文書の手稿まで、あらゆる種類の書籍が豊富にあり、ほとんどすべての問題の解決策が網羅されています。

しかし、この学者には少し困った癖があります。彼は少し大雑把で、図書館の本がかなり乱雑に置かれています。あなたが彼に複雑な質問(例えば、数学オリンピックの問題)を尋ねると、彼は図書館に入り、ランダムに棚から一冊の本を取り出してあなたに渡します。

彼が初回で正しい解決策の本を引き当てる確率は高くはないかもしれません(これはモデルのpass@1に対応します)。

しかし、あなたが彼に十分な試行機会(例えば、1000回試させる、すなわちpass@1024)を与えれば、図書館に本当に解決策が存在する限り、彼は必ずその正しい本を見つけ出すことができます。この図書館の蔵書量が、この学者の知識境界または能力上限を表しています。

さて、ここに受験指導の専門家がやってきて、この学者に「強化学習特別訓練」(すなわちRLVR訓練)を施し、目標は彼がより迅速に質問に答えられるようにすることです。専門家は次のようにします。

大量の標準的な試験問題を用意し、学者に練習させます。

学者は毎回図書館から本を探して解答します。

もし解答が正しければ(報酬を得る)、専門家はその本に大きな「重要ポイント」というラベルを貼り、最も目立つ棚に置かせます。

もし解答が間違っていれば、専門家はその本を隅に押し込ませます。

一連の特別訓練を経て、学者(現在はRL訓練後のモデル)は変化しました。あなたが再び彼に質問すると、彼は「重要ポイント」のラベルが貼られた棚から優先的に本を探すようになります。

比喩と実際の技術の対応関係を確立する

比喩中の要素:博識な学者

実際の技術概念:Base Model(基盤モデル)

説明:事前学習後のLLMであり、膨大だが整理されていない知識を持っています。

比喩中の要素:広大な私設図書館

実際の技術概念:Baseモデルの知識/能力空間

説明:モデルのパラメータに内在するすべての可能な推論経路の集合。

比喩中の要素:図書館の蔵書量

実際の技術概念:Baseモデルの能力境界/上限

説明:モデルが理論的に解決できるすべての問題の集合。

比喩中の要素:学者への質問

実際の技術概念:推論タスクの入力(プロンプト)

説明:モデルに数学の問題やプログラミングの問題などを与える。

比喩中の要素:学者の初回本選び

実際の技術概念:モデルが一度サンプリング生成を行う(pass@1)

説明:モデルが答えを生成し、それが正しいかを確認する。

比喩中の要素:学者にk回の本選びの機会を与える

実際の技術概念:k回のサンプリングを行う(pass@k)

説明:k回の試行で、モデルが問題を解決できるかを測定する。

比喩中の要素:正しい本を見つける

実際の技術概念:正しい推論経路と答えを生成した

説明:モデルが出力した思考連鎖(CoT)が有効である。

比喩中の要素:受験特訓(RLVR)

実際の技術概念:Reinforcement Learning from Verifiable Rewards

説明:ラベル付きデータ(正/誤)を用いてモデルを微調整する。

比喩中の要素:「重要ポイント」ラベルと目立つ棚

実際の技術概念:RLアルゴリズムによる確率分布の調整

説明:RLは正しい推論経路の生成確率を高め、誤った経路の確率を低下させる。

比喩中の要素:特訓後の学者

実際の技術概念:RL訓練済みモデル(RL-trained Model)

説明:RLVRで微調整されたLLM。

技術的詳細の深掘り

ここで、比喩と論文の主要な技術概念を関連付けましょう。

核心評価指標:pass@k

pass@kは、「k回の独立した試行のうち、少なくとも1回成功する確率」を意味します。

k=1のとき、それは単一試行の成功率です。私たちの比喩では、特訓後の学者が「重要ポイント」の棚から初回で正しい答えを手に取る確率に相当します。特訓により、この確率は高いです。

kが非常に大きい場合(例えば1024)、それは「十分な機会が与えられれば、問題を解決できるかどうか」を測定します。これは、学者が図書館全体をひっくり返して答えを探すことを許可するようなものです。このとき、競争の焦点は「見つけるのが速いか遅いか」ではなく、「図書館にその本がそもそも存在するかどうか」に移ります。

これが論文におけるpass@k曲線の交差現象の本質です。

左側(kが小さい場合):特訓後の学者(RLモデル)は「重要ポイント」の棚があるため、答えを見つけるのが速く正確で、したがってpass@k値が高くなります。

右側(kが大きい場合):無限回の試行が許される場合、未特訓の学者(Baseモデル)は探すのが遅いかもしれませんが、彼の整理されていない、より広範な図書館には、特訓学者が「受験教育」で見落としたかもしれない、よりマイナーだが同様に正しい解決策が隠されている可能性があります。したがって、彼の能力上限(総蔵書量)はむしろ大きく、pass@k曲線は最終的に逆転します。

重要な分析:サンプリング効率ギャップ(Sampling Efficiency Gap)

論文では、この差異を定量化するため、興味深い指標を定義しています。

元の数式:

(論文では、著者らは通常kを256としています)

サンプリング効率ギャップ = RLモデルの単一試行の成功率 - 基盤モデルのk回の試行内での最高成功率

比喩へのマッピング:この式は、「特訓後の学者の初回正答能力が、未特訓の学者が図書館全体を徹底的に探した後に解決できる問題の総量と比べて、どれだけ劣っているか?」を測定しています。

著者らは、この値が常に大きく、かつ負であること(pass@1(RL)pass@k(Base)よりはるかに小さいため)を発見しました。これは、RL訓練が基盤モデルの既存の潜在能力を十分に引き出せていないことを示しています。それはモデルを「知識は豊富だが反応が遅い学者」から、「効率的だが知識の幅が狭まった受験の達人」に変えたに過ぎません。

RLモデルの単一試行の成功率:特訓学者の「受験高得点能力」。

基盤モデルのk回の試行内での最高成功率:未特訓学者の「知識の豊富さ」(図書館の蔵書量)。

技術的詳細と比喩の相互マッピング

技術:RLアルゴリズムは報酬サンプルの対数尤度を最大化する。

比喩での表現:これはまさに「正しい本に重要ポイントのラベルを貼り、目立つ場所に置く」プロセスです。アルゴリズムの目標は、モデルが「良い」と検証された経路を生成する傾向を強めることです。

技術:pass@k曲線はkが増大すると、BaseモデルがRLモデルを逆転する。

比喩での表現:特訓後の学者(RLモデル)は「重要ポイント」の棚に過度に依存し、重要ポイント以外の領域からマイナーな解決策を探す必要がある問題には対応できない可能性があります。一方、Baseモデルは遅いかもしれませんが、その図書館は完全であり、十分な時間を与えれば必ず見つけられます。

技術:RLモデルが生成した解法のパープレキシティは、Baseモデル下で非常に低い。

比喩での表現:特訓学者が見つけた「重要ポイント」の書籍は、実は未特訓の学者の図書館に元々存在していたものです。未特訓の学者にとって、これらの本を見ても全く「困惑」したり「驚き」たりしません。なぜなら、「私はここに元々持っているから」です。これはRLが新しい知識を創造していないことを証明しています。

比喩の限界 この比喩は非常に適切ですが、微妙な違いがあります。比喩では、特訓プロセスは本の「移動とマーク付け」だけで、「破棄」はしていないように見えます。しかし、実際のRL訓練では、モデルの確率分布の調整により、特定の推論経路の生成確率がゼロに近くまで抑圧され、限られたサンプリング回数(たとえkが大きくても)では生成できなくなることがあります。これは、特訓専門家が重要ポイントをマークするだけでなく、「試験範囲外」の書籍をまとめて地下室に捨ててしまった、と理解できます。これにより、特訓学者の知識ベースが本当に小さくなったのです。これが論文で言及されている「能力境界の収縮」です。

まとめ

「図書館での本探し」という比喩を通して、論文の核心的な主張を明確に理解できます。

基盤モデル(Base Model)は、知識は豊富だが散漫な図書館のようなもので、巨大な潜在能力を持つものの効率は低い。

強化学習(RLVR)は、受験特訓のようなものです。それは「試験の重要ポイント」となる書籍に「重要」というラベルを貼り、優先的に配置することで、答えを見つける効率(pass@1の向上)を大幅に高めました。

しかし、この特訓の代償として、モデルはこれらの「重要ポイント」に過度に依存し、図書館の他の隅にある同様に価値のある書籍を見落とす可能性があり、結果として知識の広さ(大きなkにおけるpass@k)が制限され、あるいは収縮することになります。

最終的に、RLVRは学者に図書館に元々存在しなかった新しい知識を教えたのではなく、単に彼をより効率的な「図書館員」に変えただけであり、より博識な思想家にはしなかったのです。

フェーズ3:詳細な手順

はじめに

このフェーズでは、論文の著者らがどのように実験手順を設計し、核心的な仮説を段階的に検証したかを詳細に分解します。この手順自体が論文の重要な貢献であり、今後の研究に厳密な分析パラダイムを提供します。この一連のプロセスを「LLM推論能力境界検出器」と見なすことができます。

入力

評価対象のLLMファミリー(例:Qwen-2.5シリーズ)。

このファミリーの2つの主要なモデル:

基盤モデル(Base Model):例:Qwen-2.5-7B-Base

RLVR訓練済みモデル(RL-trained Model):例:GSM8KデータセットでGRPOアルゴリズムを使用して訓練されたQwen-2.5-7B

検証可能な答えを持つ評価データセット(例:AIME24数学競技問題集)。

固定されたプロンプトテンプレート(Prompt)で、両モデルへの質問方法が完全に一致するようにします。

処理フロー

ステップ1:大規模サンプリング生成(Data Generation)

基盤モデルからのサンプリング

評価データセット内の各問題を繰り返し処理します。

各問題について、統一されたプロンプトを基盤モデルに入力します。

多様な答えの生成を促すため、高めの温度(temperature、例:0.6)とtop-p(例:0.95)を設定し、モデルに独立してn個の候補解答を生成させます(nは1024または2048のような大きな数値)。

これらn個の生成された解答(完全な推論プロセスと最終結果を含む)を、対応する問題IDと関連付けて保存します。

RLモデルからのサンプリング

上記の手順を繰り返しますが、今回はRL訓練済みモデルを使用します。

評価データセット内の同じ問題に対して、全く同じプロンプトとサンプリングパラメータを使用し、同様にn個の候補解答を生成し、保存します。

ステップ2:自動検証と結果統計(Verification & Statistics)

検証器(Verifier)の構築

タスクタイプに応じて、答えの正誤を自動的に判断できるプログラムを設計します。

数学問題の場合、検証器はモデルの生成テキストから最終解答(例:oxed{73}内の「73」)を抽出し、標準解答と比較します。

プログラミング問題の場合、検証器は生成されたコードを実行し、事前に設定されたユニットテスト(Unit Tests)を用いてその正確性をチェックします。

一括検証

前のステップで生成された各解答グループ(例:Baseモデルからのある問題に対する1024個の解答)について、検証器に一つずつチェックさせます。

その中の正しい解答の数を数え、cとして記録します。

ステップ3:pass@k曲線の計算とプロット(Calculation & Plotting)

pass@kの計算

1からnまでの各整数kについて、不偏推定式を使用してpass@kの値を計算します。論文で使われている式は:1 - ((N-C)/N)^kです。ここでNは総サンプル数、Cは正しいサンプル数です。この式の直感的な意味は「k回の試行がすべて失敗する確率を1から引いたもの」です。

平均化とプロット

評価データセット全体のすべての問題について、pass@kの平均値を計算します。

これにより、2本の曲線が得られます。1本はBaseモデルの平均pass@k曲線、もう1本はRLモデルの平均pass@k曲線です。

これら2本の曲線を同じグラフにプロットします。横軸はk(通常は対数スケールを使用)、縦軸はpass@kです。

ステップ4:詳細分析と原因究明(In-depth Analysis)

可解問題のカバー範囲分析(Solvable Problem Coverage)

Baseモデルについて、pass@n > 0のすべての問題を見つけ、集合Aを形成します。

RLモデルについて、pass@n > 0のすべての問題を見つけ、集合Bを形成します。

これら2つの集合を比較し、BがAの部分集合であるか(B ⊆ A)を確認します。論文では、それらが驚くほど部分集合関係に近いこと(表4と表5を参照)を発見しています。これは、RLモデルが解決できる問題は、Baseモデルもほとんどすべて解決できることを意味します。

パープレキシティ分析(Perplexity Analysis、図6)

RLモデルが生成した正しい答えの中から、ランダムにいくつかのサンプルを抽出します(R_correctとします)。

次に、これらのR_correctをBaseモデルに入力し、Baseモデルがこれらの答えを生成する際のパープレキシティ(P_Base(R_correct))を計算します。

著者らは、このパープレキシティ値が非常に低いこと(図6を参照)を発見しました。これは、BaseモデルがRLモデルからのこれらの正しい答えを「予想通り」とみなし、自身の生成分布に完全に合致していることを示しています。これはRLが新しい知識を創造していないことを証明します。

ケーススタディ(Case Study、図19および図20)

Baseモデルのみが解決できる(または解決に多くの試行を要する)難問の中から、成功した推論サンプルを人為的に選び出します。

これは、Baseモデルが確かに複雑な問題を解決する内在的な潜在能力を持っていること、単なる偶然の推測ではないことを読者に直感的に示すことができます。

最終出力

pass@k比較グラフ、カバー範囲表、パープレキシティグラフ、具体的な事例を含む完全な分析レポートが、強力な証拠連鎖を構成し、最終的に次の結論を導き出します。現在のRLVR手法の主な役割はサンプリング効率を向上させることであり、推論能力の境界を拡張することではなく、その能力上限は基盤モデルに制約される。 この詳細なプロセスを通じて、論文を読んだことのない研究者でも、著者らがどのように体系的に、段階的に彼らの核心的な主張を検証したかを理解でき、この研究パラダイムを再現する能力を持つでしょう。

フェーズ4:実験設計と検証分析

主実験設計の解読:核心的な論点の検証

核心的な主張

論文の核心的な主張は、検証可能な報酬を伴う強化学習(RLVR)が、新しい推論能力を創造したのではなく、基盤モデル(Base Model)にすでに存在する推論経路のサンプリング効率を最適化したに過ぎず、このプロセスがモデルの推論能力の「天井」を低下させる可能性があるということです。

主実験設計

主実験の設計は非常に直接的かつ巧妙で、その核心はBaseモデルRL訓練済みモデルが異なるサンプリング回数kにおいて示すpass@kのパフォーマンスを比較することです。

主張の検証方法:もしRLVRが新しい能力を創造するならば、RLモデルのpass@k曲線はすべてのk値でBaseモデル以上であるべきであり、特にkが非常に大きい場合にはその能力境界がより広くなることを示します。逆に、もし論文の主張が正しければ、我々は以下を観察することになります。

kが小さい場合(例:k=1)には、RLモデルの曲線が上方に位置し(サンプリング効率が高い)。

kが増大するにつれて、Baseモデルの曲線が追いつき、さらには逆転する(能力境界が広い)。この「交差点」の出現こそが、その核心的な論点を裏付ける最も重要な証拠となります。

実験選択の合理性分析

データセット(Datasets):著者らは複数の領域にわたる標準的なベンチマークを選択しました。例えば、

数学的推論GSM8KMATH500AIME24Olympiadなど。これらのデータセットは難易度が段階的に上昇し、小学校の応用問題から競技レベルの難問までをカバーしています。

コード生成LiveCodeBenchHumanEval+

視覚的推論MathVistaMathVision

合理性:これらの選択は非常に合理的です。まず、これらはすべて検証可能であり、明確な正解またはテストケースが存在するため、報酬計算とpass@kにとって不可欠です。次に、多様性が強く、数学、コード、マルチモーダルなど、複雑な推論を必要とする複数の領域にまたがっているため、特定のタスクでの偶然ではなく、結論の普遍性を証明しています。

評価指標(Evaluation Metrics)

核心指標はpass@kです。

合理性:これが論文全体の魂です。もしpass@1(平均精度)のみを使用すれば、著者らは「RLVRはモデルの性能を効果的に向上させた」という表面的な結論しか得られず、深い問題を明らかにすることはできません。pass@k(特に大きなk値の場合)はモデルの潜在能力と能力境界を探ることができるため、「モデルが本当に理解しているか」ではなく「モデルが初回で正答したか」を測るのに理想的なツールです。この指標の選択は、論文が探求しようとしている核心的な問題と完全に一致しています。

ベースライン手法(Baselines)

最も核心的なベースラインは、モデル自身の基盤バージョン(Base Model)です。

合理性:これは最も公平で直接的な「自己比較」を構成します。いかなる改善も、この基盤の上で達成されるべきです。さらに、異なるRLアルゴリズムを分析する際、著者らはPPO、GRPOなど複数の主流RL手法も相互に比較し、これが特定のアルゴリズムの問題ではなく、RLVRというパラダイム自体の問題であることを証明しました。

主実験の結論

論文の図2、図4などの主実験結果は、pass@k曲線の交差現象を明確に示しています。テストされたすべてのモデル、データセット、タスクにおいて、RLモデルは小さなk値で優れたパフォーマンスを示しますが、kが増加するにつれてその性能曲線は平坦になり、最終的には持続的に上昇するBaseモデル曲線に追い越されます。これは雄弁に証明しています。RLVRはモデルの「平均パフォーマンス」を向上させるものの、その「潜在的な上限」を犠牲にしているという結論です。

アブレーション実験分析:内部コンポーネントの貢献

アブレーションポイント1:異なるRLアルゴリズム(図8)

目的:「能力境界の収縮」現象が特定のRLアルゴリズム(例えばGRPO)の問題ではなく、RLVRパラダイムの一般的な問題であることを証明するため。

設計:著者らは同じBaseモデルを使用し、PPO、GRPO、Reinforce++、RLOOなど様々な主流RLアルゴリズムで訓練を行い、それらのpass@k曲線を比較しました。

結論:すべてのRLアルゴリズムで訓練されたモデルは、類似したpass@k交差現象を示し、それらのBaseモデルとの能力上限の差(サンプリング効率ギャップなどの指標で測定)も非常に大きいものでした。これは問題がパラダイム自体にあることを証明しており、具体的な実装の問題ではありません。

アブレーションポイント2:RL訓練の進行(図1右側)

目的:RL訓練の進行に伴い、能力境界がどのように変化するかを探究するため。

設計:著者らはRL訓練プロセス中の異なる時点(チェックポイント、例えばステップ150, 300, 450)のモデルを取得し、pass@k評価を実施しました。

結論:実験結果は驚くべきことに、訓練ステップの増加に伴い、モデルのpass@1(平均性能)は着実に向上する一方で、そのpass@256(能力境界)は継続的に低下していることを発見しました。これは「RL訓練プロセスが能力境界の収縮を伴う」ことを定量的に証明し、核心的な論点に対する動的な進化上の証拠を提供しています。

アブレーションポイント3:主要なハイパーパラメータ(KLダイバージェンス制約、ロールアウト数)(図15)

目的:いくつかの一般的なRL訓練手法がこの問題を緩和できるかどうかを検証するため。

設計

KLダイバージェンス罰則項を追加し、RLモデルがBaseモデルから大きく逸脱するのを防ぐ。

各プロンプトのロールアウト数(8から32へ)を増やし、より広範な探索を行う。

結論:KL制約を追加した後、pass@1は類似していましたが、能力境界(pass@128)はさらに大きく低下しました。これは、モデルの探索を強制的に制限しても問題を解決できないことを示唆しています。ロールアウト数を増やしても、高いk値でのpass@kがわずかに向上する程度で、Baseモデルには遠く及びませんでした。これは、単純なパラメータ調整や探索の増加では、根本的な状況を覆せないことを証明しています。

深層/革新的な実験分析:手法の内在特性の洞察

探索的実験1:パープレキシティ分析(Perplexity Analysis、図6)

実験目的:「RLモデルが生成した正しい推論経路が、すでにBaseモデルの知識ベースに存在していたかどうか」を検証するため。

巧妙な設計:この実験の設計思想は非常に斬新です。直接検索するのではなく、逆説的に問いかけます。RLモデルが生成した正しい解答R_correctを見て、Baseモデルはどれほど「驚く」か?「驚きの度合い」はパープレキシティで測られます。もしBaseモデルがその解答を非常に「当然のこと」(低いパープレキシティ)だと感じれば、その解答は元々自身の生成分布内にあることを示します。

実験結論:結果は、パープレキシティの値が非常に低いことを示しており、Baseモデル自身が高頻度で生成する解答のパープレキシティとほぼ同じでした。この結論は極めて説得力があり、RLモデルが新しい解法を「発明」したのではなく、Baseモデルが元々知っており、かつ生成する傾向があった解法を、より頻繁に「復唱」するようになったに過ぎないことを証明しました。

探索的実験2:可解問題のカバー範囲分析(表4および表5)

実験目的:集合論の観点から、RLモデルの問題解決能力の範囲がBaseモデルに「含まれている」かどうかを直接検証するため。

巧妙な設計:設計は非常に直接的です。大規模なサンプリングを通じて、両モデルが解決できる問題の集合(pass@k>0であれば可解とみなす)をそれぞれ特定し、これら2つの集合の関係を比較します。

実験結論:RLモデルが解決できる問題の集合は、Baseモデルが解決できる問題の集合の真部分集合とほぼ同じでした。これは、RLモデルがBaseモデルが全く解決できなかった新しい問題を学習していないという、最も直感的な証拠を提供します。

探索的実験3:知識蒸留との比較(Distillation、図7)

実験目的:「Baseモデルに対する全ての後訓練(post-training)が能力境界の収縮を引き起こすのか?」という潜在的な疑問に答えるため。

巧妙な設計:著者らは重要な対照群として知識蒸留を導入しました。彼らは、より強力なモデル(Teacher)の出力(長いCoT推論)をより弱いモデル(Student)に精製(distill)し、この「蒸留された」学生モデルのpass@k曲線を評価しました。

実験結論:蒸留されたモデルのpass@k曲線は、そのBaseモデルよりも常に高かったです。これは、その能力境界が真に拡張されたことを意味します。この比較実験は非常に重要であり、問題が一般的な「後訓練」プロセスではなく、RLVRという特定のパラダイムに起因することを成功裏に示し、論文の主張の厳密性を大幅に強化しました。

探索的実験4:ケーススタディ(Case Study、図19および図20)

実験目的:Baseモデルが実際に複雑な問題を解決する能力を持っていること、そしてそれが「ランダムな推測」による偶然の正解ではないことを、具体的で認識可能な証拠によって示すため。

巧妙な設計:著者らは最も難しいAIME24の競技問題から、Baseモデルが複数回のサンプリング後に生成した、論理的に明確で正しい完全な推論プロセスを提示しました。

実験結論:これらの事例は説得力があり、Baseモデルの内部には確かに強力で一貫した推論能力が内在していることを示しています。これにより、pass@k曲線の上昇が抽象的な統計数値ではなく、具体的な複雑な推論能力によって裏付けられていることが理解できます。

本論文のタイトル:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

メインタグ:人工知能

サブタグ:大規模言語モデルAI推論機械学習研究強化学習


前の記事:清華大学などがAbsolute Zero自己対戦型大規模モデルを提案、データなし学習で多数のタスクで最高性能を達成

次の記事:RLスケーリングの切り札!DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開

短いURLをシェア