AIの数学能力が100%急増、自己進化が強化学習の限界に迫る！CMUの新作が認識を覆す

知りたいAIの実用情報が、すぐに届きます。

著作権表示新智元より転載。著作権は原著作者に属し、学術共有のために使用されています。侵害があれば削除します。編集：桃子、犀牛【導入】データ枯渇がAI開発の新たなボトルネックとなっています！CMUチームは革命的な解決策SRTを提案しました。これはLLMが人間によるアノテーションなしで自己進化することを可能にします！SRTは初期段階で数学と推論能力を繰り返し向上させ、その性能は従来の強化学習の効果にさえ近づき、その破壊的な可能性を明らかにしました。AGIへの最大の障壁は、インターネットのデータが不足していることです！DeepSeek-R1やOpenAIのo系推論モデルが登場し、もはや人間がアノテーションした「正解」に単純に依存するのではなく、RLを通じて打開策を実現しています。しかし問題があります——現在、LLMは訓練をガイドするために人間が「正しい信号」を設計する必要があります。もし問題が複雑すぎて人間ですら答えを知らない場合、これらのAIは途方に暮れるしかありません。そのため、CMUは独立研究者と共同で、「自己報酬訓練」（SRT）という全く新しい手法を発表しました。これはまさにAIの「自己修練」の秘訣と言えます！

論文のURL：https://arxiv.org/pdf/2505.21444その核心的な考え方は、LLMが自身の「自己無矛盾性」を内在的な教師信号として利用し、報酬を生成して自身を最適化することです。簡単に言えば、AIは哲学者のように、自身の回答をじっと見て自問自答します。「この導出ロジックは自己無矛盾か？」「何か抜け穴はないか？」そして、回答の「自己無矛盾性の度合い」に基づいて自身に採点し、その点数を使って絶えず改善していきます。重要なのは、SRTは人間がアノテーションしたデータを全く必要とせず、「テスト時訓練」に自然に適用できる点です。実験結果は目を見張るものがあります。訓練の初期段階では、SRTの性能は正解データで訓練された標準的なRL方法と匹敵します。現在、研究チームのコードは公開されています。

URL：https://github.com/tajwarfahim/srt

自己報酬訓練：AI自己修練の秘訣外部からの教師なしで、モデルは自身で教師信号を生成する必要があります。直感的に言えば、モデルが自身が生成した複数の回答の中から、より高品質な回答を識別できるのであれば、その識別された改善を訓練信号として利用できます。この状況は、「生成-検証ギャップ」が正である問題、例えば数学、論理推論、コード生成タスクにおいて自然に発生します。簡単でありながら効果的な方法の一つは、多数決を利用してこのギャップを掘り起こすことです。実験により、これは単一モデルが生成する回答よりも高い精度を持つことが示されています。本論文のセッティングでは、多数決のステップは以下の通りです。1. 各プロンプトに対して複数の回答をサンプリング生成します。2. 解析された最終解に基づいて回答をグループ化します。3. 最も一般的な解（最頻値）を用いて真の回答を推定します。

自己進化手法SRT研究チームは、モデルの自己改善プロセスを強化学習タスクとして設計する新しい手法を提案しました。このプロセスでは、ラベルは固定ではなく、モデルの進化し続ける多数決の結果によって動的に生成されます。簡単に言えば、モデル自身が最良の回答を「投票」で選び出し、それらの回答を指針として、段階的に自身のパフォーマンスを向上させていくということです。強化学習の各ラウンドの操作は、以下のステップとして簡単に理解できます。1. 少量のプロンプトをサンプリングし、現在のモデルを使って各プロンプトに対してn個の可能な回答を生成します。2. 「多数決」の方法で、各プロンプトにおける最も一般的な回答を見つけ出し、一時的な「正解」（疑似ラベル）とします。3. 各生成された回答が多数決の回答と一致するかどうかを確認し、一致すれば報酬を与えます（式で表すと：r(y) = 1[answer(y) = y_majority]）。4. このバッチのデータと計算された報酬に基づいて、モデルを一度更新し、より賢くします。具体的に、研究チームは、モデルの自己無矛盾性を巧みに利用して報酬を定義する報酬メカニズムを設計しました。これにより、彼らの手法はPPO、RLOO、REINFORCE、REINFORCE+++といった一般的な強化学習アルゴリズムに容易に適合します。また、各問題プロンプトは通常16〜64個の回答を生成するため、SRTは他のラベルベースのアルゴリズムと比較して追加の計算負担を増やしません。強化学習の各イテレーションで、多数決がモデルの生成結果を検証結果よりも少しでも良くすることができれば、この繰り返しの自己報酬は有用なガイド信号を提供し続け、モデルが継続的に進歩するのを助けます。モデルの自己改善の見通しは期待が持てるものですが、依然として限界があります。モデルが自己生成する報酬は、潜在的な正確性を測る代理指標にすぎません。この代理報酬は、「報酬ハッキング」（reward hacking）を引き起こす可能性があります。つまり、モデルは自身が与える報酬を最大化するために、ますます自己無矛盾でありながら、必ずしも正しくない回答を生み出す可能性があります。総じて、本研究の貢献は以下の4点です。1. シンプルで効果的な自己訓練強化学習手法である自己報酬訓練（SRT）を提案しました。この手法は、複数のモデルが生成する解間の一致性を利用して、強化学習訓練における正確性を推定し、ラベル付きデータなしで自己教師信号を提供します。2. 実験を通じて、訓練の初期段階においてSRTの性能が、正解データで訓練された標準的な強化学習手法に匹敵することを証明しました。3. 自己生成報酬の限界を分析し、モデルの報酬関数が当初は正確性に関連していたものの、真の精度ではなく単に確信度を反映するように退化し、報酬ハッキング問題を引き起こす可能性があることを明らかにしました。4. 報酬ハッキングを緩和するための戦略を提案し、将来的なモデルの継続的な改善手法の基礎を築きました。

実験結果新たに提案されたSRTアルゴリズムの利点と限界は何でしょうか？このため、研究者たちはQwen2.5-Math-7Bモデルに基づいて一連の研究を展開し、以下の4つの主要な質問に具体的に答えました。1. 真のラベルに基づいた標準的な強化学習手法と比較して、SRTアルゴリズムの有効性はどうですか？未見の問題に汎化できますか？2. 自己改善は継続的に反復され、性能を向上させることができますか？それとも、この改善には本質的な上限がありますか？3. 自己改善の有効性に影響を与える根本的な要因は何ですか？4. SRTをテスト段階の性能向上に用いた場合、実際の効果はどうですか？

多数決に基づく自己訓練図2に示すように、MATHおよびAIME訓練データセットにおいて、自己教師ありSRT手法は真のラベル信号なしで、真のラベルに基づく強化学習と同等の結果を達成できます。特筆すべきは、図2のpass@1スコアはすべて保持テストセットで評価されており、自己訓練プロセスが訓練分布外にも堅牢に汎化できることを示しています。

しかし、DAPOデータセットでの結果はより複雑です。具体的には、DAPOでの訓練において、SRTアルゴリズムのテストセットでの性能は、当初、真の回答に基づく標準的なRLと同等の速度で向上しました。しかし、約400〜600訓練ステップでSRTがピーク性能に達した後、下降し始め、一方で真のラベルに基づいた標準的なRL訓練は継続的に向上しました。全体として、研究は注目すべき、そして予想外の傾向を発見しました。アノテーションされたサンプルが全くない場合でも、SRTの性能曲線は訓練初期段階において標準的な回答に基づくRLと高度に一致しました。統計誤差の範囲内で、MATHおよびAIME'83-AIME'23データセットにおけるSRTのピークテストpass@1スコアは、教師ありRL手法とほぼ同等でした。より困難なDAPOデータセットでも、SRTはRLの最終性能の75%に達しています。さらに、3つの訓練セットすべてにおいて、SRTのピーク性能はベースモデルと比較して約100%の相対的な向上が見られました。

SRT性能ピーク後の異常現象分析SRTがDAPO訓練セットで性能ピークに達した後（図2参照）、研究者たちはそのテスト精度が著しく悪化し始めるのを観察しました。実際、MATH-12kデータセットで2エポック以上訓練すると、同様に明確な性能崩壊現象が発生します。この挙動について、著者たちはシンプルで正確な理論的説明を与えています。SRT目標によって定義される強化学習最適化問題は、出力間の整合性を明確に奨励しており、正確性とは無関係です。したがって、この目標の下での最適戦略は、入力に関わらず完全に同一の応答を生成し、それによって人為的に最大可能な報酬を獲得することです。したがって、このような代理目標の下での継続的な訓練は、特にこの目標の最適化が実際のタスクを解決するよりも容易な場合、このような退化した解を導き出す可能性があると自然に予想できます。

テスト時の自己改善自己訓練の魅力的な応用の一つは、テスト時訓練（test-time training）を通じてモデルの精度を向上させることです。SRTをテスト時訓練技術として適用することは非常に簡単です。アノテーションなしのテストセットを完全に訓練データセットとして扱い、直接SRTを適用するだけです。次に、研究者たちはSRTテスト時訓練後の多数決性能と、テスト時訓練を行っていない場合の性能を比較しました。図4に示すように、maj@32指標の下では、ベースモデルが生成する出力に直接一般的な多数決ベースラインを適用した場合と比較して、SRRを通じて実現されたテスト時訓練は、比較的限定的ではあるものの、それでも認識できる性能向上をもたらしました。さらに、より大規模なテストデータセットでは、ベースモデルの多数決と比較して、その性能向上はさらに顕著でした。

テスト時訓練が性能崩壊を引き起こさない理由興味深いことに、テスト時訓練完了後、モデルの出力を目視で確認すると、ほとんどすべてのテストプロンプトに対するモデルの予測が単一の応答に退化しているにもかかわらず（これはSRT目標の最適解の挙動そのものです）、テスト精度は依然として高い水準を維持していることが分かりました。研究者たちは、テスト時自己訓練の安定性が、データセット規模の重要な違いに起因していると推測しています。例えば、AIME24テストデータセットには、自己改善サンプルがわずか30個しか含まれていません。この限られたサンプル量の下では、モデルは特定のCoT推論を強化することで、これらのサンプルにおける安定した多数決回答に迅速に収束します。一度収束が達成されると、SRTはパラメータをさらに更新するための意味のある勾配信号を得られなくなり、それによってテスト時性能が自然に安定します。

対照的に、大規模データセットでの通常の訓練では、継続的に入力される新しいサンプルが、モデルを一貫性のために過度に最適化させ続けます。この条件下では、モデルは過度に単純化された汎化戦略（同じ回答を生成する）を採用する傾向があり、最終的にはプロンプトとは無関係な単一予測を出力することで崩壊します。

大規模モデルの崩壊は避けられるのか？では、LLMの崩壊は避けられるのでしょうか？前述の通り、自己報酬訓練（SRT）の最適化目標は、初期性能を著しく向上させる可能性があるものの、最終的にモデル崩壊を引き起こす可能性があります。そのため、研究者たちは、モデル崩壊問題に対処し、自己訓練性能の上限をさらに引き上げるための以下の相補的な戦略を探求しました。1. 早期停止（Early Stopping）戦略：少量のラベル付き検証データセットを利用してモデルの状態を監視し、崩壊を防ぐためにタイムリーに訓練を終了します。2. アルゴリズム戦略：安定したベースモデル（継続的に更新されるモデルではなく）によって生成された疑似ラベルを採用することで、崩壊リスクを根本的に低減します。3. データ駆動型カリキュラム学習（Curriculum Learning）戦略：単純な早期停止の限界を突破し、漸進的な学習メカニズムを通じてモデル性能を向上させます。

早期停止戦略実験では、少量のラベル付き検証データを使用するだけでも、自己訓練プロセス中の性能ピーク点を効果的に特定でき、それによってモデル崩壊のリスクを回避できることが示されました。図6に示すように、DAPOデータセット上で訓練プロセスを継続的に監視し、複数のテストセットで評価することにより、著者たちは重要な現象を発見しました。異なる保持テストセット上の性能ピークは、すべて近い訓練ステップで出現しました。この規則性は、任意のテストセットが早期停止の決定に利用できることを示しています。具体的には、図6の垂直点線は、DAPOデータのわずか1%を検証セットとして使用した場合の早期停止効果を示しています。この時点でも、モデルは他のすべての評価データセットでほぼ最適な性能を維持しています。

アルゴリズム戦略モデル崩壊の根本原因は、SRT（自己訓練強化学習）が正確性よりも一貫性を過度に強調することにあります。出力結果が間違っていても、モデル間の一貫性が継続的に強化されてしまうためです。この問題に対処するため、研究者たちはシンプルで効果的な解決策を提案しました。それは、安定した固定チェックポイント（継続的に更新されるポリシーではなく）から疑似ラベルを生成するというものです。具体的な実施では、Qwen2.5-Math-7Bベースモデルを使用し、多数決メカニズムを通じて疑似ラベルを生成し、これらのオフラインで生成されたラベルを保存してその後の強化学習訓練に利用しました。図7は、このようなオフラインラベルを使用することで、訓練の安定性が著しく向上するだけでなく、SRTと同等のモデル性能を達成できることを示しています。この発見は重要な示唆を与えています。訓練中に疑似ラベルを動的に更新すること（オンラインアノテーション）は、必ずしも顕著な利点をもたらすとは限らず、むしろ訓練の不安定性の誘因となる可能性があります。

カリキュラム学習戦略さらに、研究者たちは重要な仮説を提唱しました。それは、より困難なデータセットで訓練するほど、モデルの崩壊現象が早く現れるというものです。その内在的なメカニズムは、高難度のデータに直面すると、モデルが事前学習知識を放棄しやすくなり、タスクを真に解決するのではなく、自己一貫性を最適化することで報酬を獲得しようと転換するためです。この仮説に基づき、研究者たちはカリキュラム学習を採用し、DAPOデータセットの中から「最も簡単な」サブセットをフィルタリングして訓練を行いました。具体的には、以下の2つの指標に基づいて選ばれた上位1/3の最も簡単なプロンプトサンプルを保持しました。1. ベースモデルの通過率（真のラベルが必要）2. 多数決頻度（真のラベルは不要）

図8に示すように、これらの簡単なサブセットで訓練することで、報酬ハッキング現象の出現を著しく遅らせることができ、モデルは複数の訓練サイクルにわたって継続的に向上しました。注目すべきは、カリキュラム学習戦略を採用した後、モデル性能は最終的に、DAPOデータセット全体で真のラベルを使用して標準的な強化学習訓練を行った場合と同等の水準に達したことです。これらの画期的な結果は、カリキュラム学習戦略がSRTの有効性の境界をさらに拡大する可能性を秘めており、今後の研究に新たな方向性を開拓することを示しています。

AIの数学能力が100%急増、自己進化が強化学習の限界に迫る！CMUの新作が認識を覆す

短いURLをシェア