大規模言語モデルの進化史において、RLHF(Reinforcement Learning with Human Feedback、人間からのフィードバックによる強化学習)は間違いなく画期的なパラダイムの一つです。これにより、モデルは「機械的な対話機」から「人間の好みを映す鏡」へと変貌を遂げました。しかし、RLHFには致命的な弱点があります。それは、モデルが実際に推論することを要求しないことです。そのため、モデルが提示する答えは「それらしいが本質ではない」ことが多く、表面的には満足できるものの、実質的には論理が空虚であるといった状況がしばしば見られます。
一方、近年登場したRLVR(Reinforcement Learning with Verifiable Rewards、検証可能な報酬による強化学習)は、数学やコードなどの検証可能なタスクで驚くべき威力を発揮しています。これは、モデルがまず明示的な推論軌跡を記述し、その後ルールに基づいて回答の正誤を判定することを要求します。これにより、モデルは「問題解決」において優れた性能を示しますが、これらのシナリオには唯一の「正解」基準がないため、オープンエンドなタスクへの一般化は困難です。
では、RLHFの「精神」とRLVRの「形式」を組み合わせることはできないでしょうか?モデルが明示的な思考を学び、かつ人間の好みに合致する回答を生成できるようにすることは可能でしょうか?
プリンストン大学の陳丹琦(Danqi Chen)グループの最新論文は、その答えを提示しました。それがRLMT(Reinforcement Learning with Model-rewarded Thinking、モデル報酬型思考強化学習)です。これは、モデルに回答前に「長い推論チェーンを記述する」ことを強制し、最終的な回答を好み報酬モデルで評価します。
実験結果は、RLMTを活用することで、8Bモデルがチャットや創作タスクにおいてGPT-4oやClaude-3.7 Sonnetに匹敵するか、あるいはそれを上回る性能を発揮できることを示しています。
論文タイトル:
Language Models that Think, Chat Better
論文リンク:
https://arxiv.org/pdf/2509.20357
コードリンク:
https://github.com/princeton-pli/RLMT
これは単なる技術的なブレークスルーではなく、パラダイムシフトです。以下では、論文の論理的な主軸に沿って、RLMTの核心的な思想と実験的発見を段階的に紐解いていきます。
RLMTの形式と精神
RLHFを「人間の好みを映す鏡」、RLVRを「検証可能な推論の定規」と見なすならば、RLMTはその両方を統合しようと試みます。すなわち、モデルに明示的な思考を学ばせ、かつその回答が人間の期待に沿うようにすることです。
RLMTでは、モデルはまず思考の軌跡zを記述し、その後最終的な回答yを出力することを強制されます。RLVRのように厳格な検証器で「正誤」を判定するのではなく、ここでの評価者は好み報酬モデルrです。したがって、訓練目標は以下のようになります:
理解を深めるために、まず2つの「親路線」を振り返りましょう:
RLHFの目的関数:
RLVRの目的関数:
比較からわかるように、RLMTはRLVRの「まず考えてから答える」という生成方式を継承していますが、最終的な報酬メカニズムは厳格な正誤判定基準ではなく、RLHFスタイルの人間好みモデルです。これにより、モデルは推論チェーンを生成することが必須となりつつも、オープンエンドなシナリオで柔軟性を保つことができます。
図1は、これら3つの構造的な違いを示しています。RLHFは好み報酬を直接使用し、RLVRは厳格な検証を重視する一方で、RLMTは「明示的な思考」と「好みによる採点」を組み合わせています。
▲ 図1. RLMTフレームワークは、RLVRの明示的な思考プロセスとRLHFの好み報酬メカニズムを組み合わせている。
図2はRLMTの事例を示しています。オープンエンドな質問に対して、モデルはまずチェックリストや下書きのような計画を記述し、その後最終的な回答を生成します。
▲ 図2. RLMTは、モデルが回答前に推論軌跡を明示的に生成できるようにし、思考スタイルをチェックリストから反復的な改訂へと移行させる。
有効な要素の分解
論文のアブレーション実験は、RLMTの成功が単一のイノベーションではなく、複数の要因が重なり合った結果であることを示しています:
報酬モデルの強度が重要な基盤です。著者はSkyworkシリーズの報酬モデルを使用し、報酬モデルが強力であるほどRLMTの性能が著しく向上することを発見しました。逆に、弱い報酬モデルは全体の性能を低下させます。
プロンプト分布はデータ規模よりも重要です。大規模な指示データを積み重ねるよりも、実際のチャット文脈に近いWildChat-IFサブセット(約7.5kサンプル)を選択する方が、より安定した利益をもたらしました。
アルゴリズムの選択は唯一の要素ではありません。GRPO、PPO、DPOの3種類の最適化手法において、RLMTはすべてで効果的に機能し、GRPOが最も良い結果を示しましたが、全体的な差は決定的ではありませんでした。
これらの要因が一体となることで、RLMTは数学的な定式化において「もっともらしく見える」だけでなく、エンジニアリングの実践においても「スムーズに動作する」ことが保証されています。
検証からブレークスルーへ
明示的な思考は本当に役立つのか?
論文の最初の問いは、「モデルに『まず考えてから回答する』ことを強制した場合、本当にメリットがあるのか?」です。
その答えは、表1の上部に示されています。同じ8Bモデルでも、RLMTはほぼすべてのオープンエンドベンチマークでRLHFを1.5~4ポイント上回りました。特にWildBenchとAlpacaEval2では、最も顕著な改善が見られました。これは、「明示的な思考」が負担ではなく、むしろ助けとなることを証明しています。
▲ 表1. 上部では、RLMTがWB、AE2、CWv3などのタスクでRLHFを明らかに上回っている。
「小型モデル」から「強力な競合」へ
表2は、RLMT 8BモデルとGPT-4o、Claude-3.7 Sonnetとの比較を示しています。WBとAE2では、8B-RLMTはGPT-4oを上回っただけでなく、一時的にClaudeをも凌駕しました。AH2とCWv3では依然として差があるものの、全体平均スコアは54.1で、GPT-4o(53.2)よりも高くなっています。
これは、RLMTが小型モデルに初めて、主要な商用モデルと「互角に渡り合う」可能性をもたらしたことを意味します。
▲ 表2. 8B-RLMTは、一部のタスクでGPT-4oおよびClaudeを凌駕した。
数学的論理 ≠ 汎用推論
図3は、数学領域でのみ訓練されたRLVRモデルが、オープン領域に移行すると効果がほぼ失われることを示しています。一方、RLMTはWildBenchなどのタスクで安定した性能を維持しています。
論理は明確です。推論チェーンは適切な報酬信号と連携する必要があります。単純に検証可能な「正誤」は、オープンエンドなシナリオには一般化できません。
▲ 図3. 数学領域のRLVRモデルはWildBenchで性能が劣るが、RLMTは優位性を維持している。
SFTをスキップしても大丈夫か?
表1の下部がその答え、Zero-RLMTです。
Qwen-2.5-7Bでは、Zero-RLMTの平均スコアは36.4で、Instructの35.0を上回りました。
Llama-3.1-8Bでは、合計スコアはわずかに低いものの(28.7 vs 30.8)、チャット能力(AvgChat)では5.5ポイント上回りました。
これは、RLMTの鍵が重いSFTに依存しているわけではなく、ゼロから開始しても機能することを示しています。
▲ 表1. 下部では、Zero-RLMTがQwenでInstructを完全に上回り、Llamaではより強力なチャット能力を示している。
アルゴリズムの選択は些細なこと
表3が示すように、DPO、PPO、GRPOのいずれを使用しても、RLMTはRLHFを一貫して上回ります。GRPOが最適であり、PPOよりも1~3ポイント、DPOよりも約5ポイント高いですが、核心的な利得は「明示的な思考+好み報酬」によるものであり、具体的なオプティマイザによるものではありません。
▲ 表3. GRPOが最も効果的だが、RLMTは異なるオプティマイザでも成立する。
アブレーション実験:本当に重要な要因を検証する
手法のセクションで、著者は「有効成分仮説」を提唱しました。報酬モデルの強弱、訓練プロンプト分布の品質、およびウォームスタートの源泉が、最終的な性能を決定する可能性があるというものです。
表4のアブレーション実験は、まさにこの3つの角度から検証を行いました:
プロンプト混合(Prompt mixture):結果は、WildChat-IFサブセットが最も効果的であり、UltraFeedbackやランダム混合よりも性能を向上させることを示しました。これは、データ規模よりも訓練分布の「適合度」がより重要であるという先行の見解を裏付けるものです。
ウォームスタートの源泉(Warm-start source):ここでは、著者はGemini-2.5を使用せず、GPT-4.1-miniで生成されたSFTデータを用いてウォームアップを行いました。結果、GPT-4.1-miniに変更してもRLMTは依然として機能し、元の設定と同様の傾向を維持することが示されました。これは、ウォームスタートの源泉が決定的な要因ではないことを意味します。
報酬モデルの強弱(Reward model strength):Skywork-V2はV1およびArmoRMよりも著しく優れていました。強力な報酬モデルは、チャットタスクのスコアを向上させるだけでなく、非チャットタスクでの性能低下も低減します。
言い換えれば、表4は前述の「有効成分の分解」に対する実証的検証を提供しています。報酬モデルとプロンプト分布が最も重要なレバーであり、ウォームスタートの源泉と最適化アルゴリズムは単なる詳細に過ぎないということです。
▲ 表4. アブレーション実験は、報酬モデルとプロンプト分布がRLMTの真のレバーであることを実証している。
思考スタイルの変革
図4が示すように、RLMTモデルは、チェックリスト方式の列挙ではなく、「制約設定—テーマ分割—反復改訂」という推論スタイルを徐々に習得していきます。
▲ 図4. RLMTは、モデルの思考スタイルを「線形チェックリスト」から「反復計画+改訂」へと移行させる。
図5は、訓練ステップの増加とともに思考と回答の長さが同期して増加することを示しています。これは水増しではなく、推論チェーンが習慣として徐々に定着していくことを表します。
▲ 図5. RLMT訓練過程において、思考と回答の長さが同期して増加し、より系統的な推論習慣を示している。
数式からスタイルへ:RLMTは本当に何を変えたのか?
RLMTの価値は、スコアの向上にのみ現れるものではありません。それが真に変化させたのは、モデルの数式レベルとスタイルレベルにおける二重の属性です。
数式レベルでは、RLMTはRLHFの人間好み報酬とRLVRの明示的な思考軌跡を巧みに単一の目的関数に統合しました。これは、「論理」と「好み」がもはや分離されず、単一の訓練の中で結びつけられることを意味します。
スタイルレベルでは、RLMTはモデルの生成習慣を再構築しました。実験における図4と図5は明確に示しています。モデルはチェックリスト方式の直線的な列挙から、人間により近い反復的な計画アプローチへと進化しました。それは「いくつかの要点をまず書き出す」ことに満足せず、「制約を設定—テーマを分割—継続的に改訂する」ことを学習したのです。
したがって、RLMTの貢献は単なる「スコアアップのテクニック」ではなく、小型モデルに「大いなる知恵」の萌芽を注入したことにあります。
「鏡」と「定規」から「第三の道」へ
RLMTの提唱は、RLHFの「精神」とRLVRの「形式」を継承しただけでなく、「第三の道」を切り開きました。それは、モデルが論理的に一貫し、かつ人間にとって好ましいものであるかという長年の課題に答えるものです。
この新しい道の可能性は、少なくとも二つの方向に現れています:
報酬モデルの精緻化:より強力な好みモデルの登場に伴い、RLMTの効果は継続的に強化されるでしょう。
マルチモーダルとツール利用:将来、RLMT駆動の思考がテキストだけでなく、画像、コード実行、検索計画なども含むようになれば、それは真に「汎用推論基盤」となり得るでしょう。
RLHFが維持困難であり、RLVRには限界がある現在、RLMTは私たちに新たな可能性を示してくれます。それは、小型モデルが後訓練パラダイムを通じて、最強の商用モデルに匹敵し、あるいはそれを凌駕できるというものです。
これは単なる実験的なブレークスルーではなく、パラダイムシフトです。「鏡」と「定規」から「第三の道」へ、RLMTはより汎用的な知能へと至る重要な結節点となるかもしれません。