AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない

MLNLPコミュニティは、国内外で知られる機械学習と自然言語処理のコミュニティであり、国内外のNLP修士・博士課程の学生、大学教授、企業の研究者などが対象です。

コミュニティのビジョンは、国内外の自然言語処理および機械学習の学術界、産業界、そして広く愛好家の間の交流と進歩を促進すること、特に初心者である学生たちの進歩を促すことです。

出典 | 量子位

著者｜夢晨鷺羽

DeepSeek-R1の長思考連鎖推論の再現により、大規模モデル強化学習の新しいパラダイムであるRLIFが話題となっています。

UC Berkeleyチームの共同筆頭著者であるXuandong Zhaoは、この成果を次のように述べています：

大規模モデルは、真の答えに触れることなく、自身の確信度を最適化するだけで複雑な推論を学習できる。

具体的には、この新しい方法は外部の報酬信号やラベル付きデータを一切必要とせず、モデル自身の確信度を内在的な報酬信号として使用します。

外部報酬信号GRPOを使用する場合と比較して、新しい方法は数学タスクにおいて標準的な答えを必要とせずに基本モデルの性能を向上させ、コードタスクではより優れた結果を示しました。

ほぼ同時に、別の論文「RENT: Reinforcement Learning via Entropy Minimization」も同様の結論を検証しています。

著者によると、両者の主な違いは、KLダイバージェンスとエントロピー最小化を用いて確信度を測定している点にあります。

Dropboxのエンジニアリング担当副社長はこれを見て、「Confidence is all you need」と述べました。

「自信」駆動型強化学習

これまで、大規模モデルの訓練は主に二つの方法に依存していました。

一つは大量の人間によるアノテーション（ChatGPTのRLHFなど）を必要とし、もう一つは検証可能な標準的な答え（DeepSeekのRLVRなど）を必要とします。

前者はコストが高く、偏見を導入する可能性があり、後者は数学やプログラミングなど明確な答えがある分野に限定されます。

AIの能力が徐々に人間と同等かそれを超えるレベルに達した場合、モデルが自身が生成する内在的な信号のみに頼り、外部の監督から解放されることは可能でしょうか？

この問題に対し、UC Berkeleyの研究チームは新しい訓練方法Intuitorを提案しました。これは、モデルの予測分布と一様分布の間のKLダイバージェンスを「確信度」として計算します。

これは、人間が問題を解く際に、答えに確信があれば思考も明確になるのと同じです。自信が不足している場合は、再考する必要があることが多いです。

この内在的な信号を最適化することで、INTUITORはモデルが「より確信のある」回答を生成するように促し、より構造化された推論プロセスを生成するようにも促します。

実験では、1.5Bと3Bの小規模モデルでも、DeepSeek-R1に似た長思考連鎖推論の振る舞いが出現しました。

論文はまた、内在的な報酬信号が「報酬ハッキング」のリスクをメカニズム的に低減するという追加の利点をもたらすと指摘しています。

従来の外部報酬信号に基づく強化学習は、「抜け道」を利用されやすい傾向があります。例えば、モデルが文法的に正しいが論理的に誤ったコードを生成してテストケースに合わせたり、数学の問題で推論せずに直接答えを暗記したりする可能性があります。

INTUITORでは、オフライン学習を使用した場合、約100ステップの訓練でモデルが不正行為を学習したことが判明しました。これは、回答に既に解決済みの簡単な問題を付加して確信度スコアを向上させるというものです。

しかし、オンライン学習を使用することでこの問題を回避でき、評価基準がモデルの能力とともに進化するため、不正行為の戦略が無効になります。

実験結果：問題を解くだけでなく、応用力も示す

チームはまず、INTUITORフレームワークがLLMsの数学的推論能力をどのように向上させるかについて実証研究を行いました。

実験ではQwen2.5-1.5B/3Bを基礎モデルとして選択し、自己確信度を唯一の報酬信号として使用しました。これをINTUITORと2つのベースライン手法（GRPO、GRPO-PV）にそれぞれ設定し、MATHデータセットで事前学習を行いました。

対話プロンプトを使用し、毎回128問の問題を処理し、それぞれ7つの候補解を生成しました。KLペナルティ係数は0.005に設定されました。

数学推論、コード生成、指示追従のベンチマークテストで性能評価が行われ、結果は図の通りです：

実験によると、INTUITORを用いた微調整後、Qwen2.5-1.5Bは当初、無意味な内容を繰り返し出力し、対話タスクのスコアも10%未満でしたが、無効な出力が大幅に減少し、応答長が効果的に増加しました。

構造化推論能力においては、チームはINTUITORが早期学習速度が速いことも発見しました。例えば、Qwen2.5-3BのGSM8Kベンチマークテストにおいて、INTUITOR（0.811）は常にGRPO（0.758）を上回りました。

さらに、INTUITORはマルチタスク汎化においても優れた性能を示し、例えばQwen2.5-3Bがコード生成タスクにおいて、相対的に遅れてはいるものの持続的に成長し、最終的な性能はGRPOよりも8%高く、相対的に65%向上しました。

同時にチームは、長思考連鎖推論を行う際、INTUITORモデルが完全なコードを生成する前に、必ず自然言語推論（例：「X問題を解決するには、まずYステップを実行する必要がある」）を追加することを確認しました。これがINTUITORがテストで常に優れた性能を示す理由の一つであると推測されます。

その進化過程は、およそ三つの段階で説明できます。

1. モデルがコード生成を学習し、精度向上と無効な応答の減少を実現します。

2. 自己理解を促進するために、コード生成前の推論を行います。

3. 詳細な推論を伴う有効なコードの生成を段階的に洗練させます。

報酬としての自己確信度の堅牢性を評価するため、研究者らはオフラインの自己確信度（固定された基本モデルからの報酬）とオンラインの自己確信度（進化し続けるポリシーモデルからの報酬）を比較しました。

さらに、報酬信号としての自己確信度の品質を評価するため、研究者らはMATH500の応答でモデルが生成した自己確信度スコアの分布を分析しました。

注目すべきは、INTUITORモデルが正解に対する自己確信度が著しく高い一方で、GRPOはモデルの自己評価能力を向上させたものの、INTUITORに比べて識別度が明らかに低いことです。

計算リソースの制約により、実験は比較的小規模な教師なしコーパスでしか行われていませんが、将来的にはより大規模な基本モデルと多様な実世界のデータセットでINTUITORの利点をさらに研究することができます。

チーム紹介

本研究はUC BerkeleyのSergey Levine、宋暁東チームによるもので、著者は合計5名です。筆頭著者の博士研究員Xuandong Zhao、共同筆頭著者の学部生Zhewei Kang、イェール大学のAosong Feng、そしてSergey LevineとDawn Songです。

2019年、Xuandong Zhaoは浙江大学を卒業後、カリフォルニア大学サンタバーバラ校でコンピュータサイエンスの博士号を取得し、その間にアリババ、マイクロソフト、グーグルなどの企業でインターンシップを行いました。

2024年にUC Berkeleyに入学して以来、今回の新しい成果に加え、これまでに10以上の論文を発表し、ICLR 2025、ICML 2025などに採択されています。

さらに今年の2月、Xuandong ZhaoとZhewei Kangは共同で、自己確信度に基づいたLLMsの推論能力向上新戦略「Best-of-N」を記述した論文を発表しました。これは本論文の先行試行と見なすことができます。

論文リンク：https://arxiv.org/abs/2505.19590

コードリンク：https://github.com/sunblaze-ucb/Intuitor

参考リンク：[1]https://x.com/joshclemm/status/1927400772817285264

参考リンク：[2]https://x.com/xuandongzhao/status/1927270931874910259

参考リンク：[3]https://x.com/xuandongzhao/status/192778163679341780

参考リンク：[4]https://arxiv.org/abs/2502.18581

技術交流グループへの招待状

△長押しでアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加してください

備考：氏名-学校/会社-研究方向

（例：小張-ハルビン工業大学-対話システム）

自然言語処理/Pytorchなどの技術交流グループに参加申請できます

私たちについて

MLNLPコミュニティは、国内外の機械学習と自然言語処理の学者によって共同で設立された民間学術コミュニティであり、現在では国内外で有名な機械学習と自然言語処理のコミュニティに発展しています。機械学習と自然言語処理の学術界、産業界、そして幅広い愛好家の間の進歩を促進することを目指しています。

コミュニティは、関連する専門家のために、さらなる研究、就職、研究などの面でオープンな交流プラットフォームを提供できます。皆様の関心とご参加を歓迎いたします。

AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない

短いURLをシェア