SFT+RL二段階学習でLLMの自己教師あり学習を突破！人民大学DeepCriticがAI批評の自律進化を実現

論文タイトル

DeepCritic: Deliberate Critique with Large Language Models

論文リンク：

https://arxiv.org/abs/2505.00662

コードリンク：

https://github.com/RUCBM/DeepCritic

著者チーム：

中国人民大学高瓴人工知能学院、北京交通大学コンピュータ科学技術学院

背景

大規模言語モデル（LLM）は、大規模な人間データを学習し、人間の監督フィードバックから継続的に進化することで、多くのタスクで優れたパフォーマンスを発揮しています。しかし、モデルの知能が向上するにつれて、人間による監督に依存する方法は、ますます高いコストと困難に直面しています。進化するモデルをより効率的かつスケーラブルな方法で監督する方法は、非常に重要で喫緊の課題となっています。

潜在的な解決策の一つは、大規模言語モデル自体を批評家（LLM Critics）として利用し、モデルの生成内容を評価し、フィードバックを提供することです。LLM critics は批判的な意見を生成することで、モデルの出力を改善するのに役立ち、それによって人手によるフィードバック作業を置き換え、LLMの自動監督と継続的な最適化を実現することが期待されます。

しかし、一部の研究では、既存のLLM critics が、例えば数学的推論のような複雑な領域を扱う際に、依然としてパフォーマンスが遅れていることが明らかになりました。

著者はその原因を分析し、既存のLLM critics が批判時に批判的思考を欠いており、元の推論ステップの論理を単純に繰り返し検証するだけで、疑問を投げかけるような批判的かつ詳細な分析を行わないため、元の推論ステップの誤りに誤誘導されて問題を発見できないことが多いことを発見しました（図1参照）。

この欠陥は、2つの核となる問題を引き起こします。1つは判断結果の精度が低いこと、もう1つは提供される批判情報に指導性が欠けており、生成モデルに効果的な修正や最適化の方向性を提供することが難しいことです。

▲ 図1. 既存のLLM critics は、浅く表面的な批判しか生成できず、精度が低い。本研究で訓練された批判モデルは、反復的な評価、多角的な検証、メタ批判などのメカニズムを組み合わせることで、判断を下す前に深く熟考した推論を行い、詳細なフィードバックと正確な判断を生成できる。

本研究は、現在のLLM critics が数学的推論タスクで生成する批判が過度に表面的で浅いという問題を解決することを目的としています。監督付きファインチューニング（SFT）と強化学習（RL）の2段階訓練を通じて、深く熟考するLLM critics を得るためのDeepCriticフレームワークを提案しました。

Qwen2.5-7B-Instruct をベースに訓練された DeepCritic-7B-RL モデルは、GPT-4o、Qwen2.5-72B-Instruct、および同規模のDeepSeek-R1-Distillモデルを含む現在のLLM critics を、異なる数学的エラー識別ベンチマークにおいて大幅に上回りました。DeepCritic-7B-RL は、検証者および批評家として、生成モデルのテスト時スケーリング結果をさらに向上させることもできます。

2段階訓練によるLLM批判能力の強化

2.1 監督付きファインチューニングがLLMに深く熟考した批判を教える

第1段階では、現在のLLMに深い批判の行動と形式を教えるため、まず著者らは長尺の思考連鎖形式の批判データをゼロから構築し、監督付きファインチューニング（SFT）を行うことで、LLMに初期の深い批判能力を付与しました。

具体的には、著者らは段階的かつ段階的に強化される批判生成プロセスを提案しました。これは、モデルに深い思考と自己反省を促すことで、判断の正確性とフィードバックの質を向上させます。生成方法は以下の3つの主要なステップを含みます。

初期批判生成：まず、人手でアノテーションされたPRM800Kの中から、ステップの正しさが人手でアノテーションされた問題とステップの一部を選択し、大規模モデル（Qwen2.5-72B-Instruct）を呼び出して、各推論ステップを個別に批判させ、各ステップの初期批判を生成します。

深層批判生成：しかし、上述のように、既存の大規模モデルによる直接的な批判は往々にして表面的であり、真の批判的思考を欠いています。

そのため、このステップでは、問題、推論ステップ、初期批判が与えられた上で、モデルを再度誘導し、異なる視点や異なる検証方法から再評価・批判を行うか、あるいは初期批判自体を再検討させます。これにより、初期批判では見つけられなかった問題や初期批判自体に存在する問題を発見し、より深層的で反省的なメタ批判を形成し、初期の誤判断を効果的に修正します。

最終批判の統合と監督付きファインチューニング：最後に、人間によるアノテーションと判断結果が一致するすべての深層批判とそれに対応する初期批判を抽出し、それらを長い思考連鎖として統合し、各ステップについてより成熟した詳細な最終批判テキストを形成します。

そして、各ステップに対する最終批判を結合して、解答全体に対する深層批判テキストを得ました。これにより、約4.5K件の高品質な監督付きファインチューニングデータが構築されました。基礎モデル（Qwen2.5-7B-Instruct）に対して監督付きファインチューニングを行うことで、最終的に多段階評価、多角的検証、およびメタ批判能力を備えた初期批評モデルDeepCritic-7B-SFTが得られました。

▲ 図2. 2段階訓練フロー図

2.2 強化学習がLLMに深く熟考した批判を促す

第1段階の教師ありファインチューニングを完了し、初期の深い批判能力を持つモデルを構築した後、第2段階の目標は、モデルの潜在能力をさらに引き出し、複雑な推論プロセスの評価においてより正確かつ柔軟にパフォーマンスを発揮させることです。この目的のために、著者らは強化学習（RL）を用いてモデルをさらに訓練しました。

強化学習段階の鍵は、質の高いデータの取得にあります。著者らは、2つの異なるデータソース設定でRL訓練を検討しました。

手動アノテーションデータ：既存の手動アノテーションデータセットPRM800Kを直接使用します。これは、信頼できるラベル情報を備えた最も理想的なデータソースです。

自動構築データ：手動アノテーションのコストがますます高騰し、持続不可能であるという現実を考慮し、著者らは手動アノテーションを必要としないデータ自動構築プロセスも採用しました。

具体的には、NuminaMath-CoTから一部の問題を抽出し、Qwen2.5-1.5B/3B/7B-Instructを使用して各問題に対して複数の解答経路を生成し、簡単すぎる問題や難しすぎる問題をフィルタリングしました。残りの解答経路については、モンテカルロサンプリング推定法を用いて、各推論ステップの正確性を評価しました。

（1）誤った解答経路における誤ったステップの識別：解答をあるステップで中断し、ジェネレータモデル（Qwen2.5-7B-Instruct）にそのステップから後続のステップを複数回展開させます。そのステップとその後のすべての推論ステップがすべての展開で誤っており、そのステップ以前のすべてのステップの各自の多数の展開で正しい解答が得られる場合、そのステップを最初の誤ったステップとしてマークします。

（2）正しい解答経路の検証：最終解答が正しい解答についても、同じ戦略を適用して、誤った中間ステップが存在するかどうかを検出し、ラベルの正確性とサンプルの品質を保証します。

最終的に、DeepCritic-7B-SFTモデルを40.7KのPRM800Kサンプル、または14.2Kの自動構築サンプルでそれぞれ訓練し、DeepCritic-7B-RL-PRM800KとDeepCritic-7B-RL-Numinaモデルを得ました。

実験結果

3.1 数学的批判タスクの主要実験結果

▲ 表1. 各モデルの異なる数学的批判タスクベンチマークにおけるパフォーマンス。指標は、誤った推論経路で最初のエラーステップを発見する精度と、正しい経路の判定に成功する精度との間のF1値です。

著者らは、複数の数学評価ベンチマークで異なるモデルの批判能力を体系的に評価し、結果を表1に示しました。主な実験結果は以下の通りです。

（1）基本的な指示ファインチューニングモデルの批判能力は一般的に弱く、特に小規模モデルで顕著です。モデル規模が大きくなるにつれて、批判能力もそれに応じて向上します。

（2）DeepSeek-R1-Distillシリーズモデルは、その数学的推論能力が著しく向上したため、数学的批判タスクにおけるパフォーマンスも向上しました。しかし、このシリーズのモデルは、推論ステップの正誤を判断するために自身の問題解決能力を利用する傾向があり、真に評価と批判を学ぶことができていません。そのため、難易度の高い問題（例：Omni-Math）に直面した場合、F1スコアは依然として比較的低いです。

（3）入念に構築された4.5Kの批判データでファインチューニングされたDeepCritic-7B-SFTモデルは、ベースモデルQwen2.5-7B-Instructと比較して、平均F1スコアが34.1から54.1に向上し、20パーセンテージポイントの改善を達成しました。これは、構築された深く熟考する批判データが高い品質を持っていることを証明し、「モデルに深く熟考する批判を教える」という動機の有効性を検証しています。

（4）強化学習段階では、わずか14.2Kの自動構築データを使用するだけで、DeepCritic-7B-RL-NuminaモデルのF1スコアは63.5に向上しました。これは、自動構築データが実現可能かつ有効であり、LLMの批判能力の自動化とスケーラブルな向上を実現できる可能性があることをさらに示しています。

（5）高品質の大規模アノテーションデータを使用して強化学習を行った結果、派生モデルDeepCritic-7B-RL-PRM800Kは、GPT-4oや同規模のDeepSeek-R1-Distillシリーズを含むすべてのベースラインモデルを、6つの評価サブセットのうち5つで打ち破り、最高の総合パフォーマンスを達成しました。

3.2 推論段階で生成モデルのTest-Time Scaling結果を改善するのに役立つ

批判モデルは、テスト時の生成モデルの計算を拡張（Test-Time Scaling）することで、生成モデルの効果を高めることができます。

一方、批判モデルは検証器（verifier）として機能し、生成モデルがサンプリングした解答が正しいかどうかを判断できます。誤りとして識別された解答を除外することで、より正確な多数決の結果が得られ、最終解答の精度が向上します。

他方、生成モデルは、批判モデルからのフィードバックに基づいて潜在的な誤りのある解答を修正することもでき、「批判—修正」という絶え間ないプロセスを通じて正しい解答にさらに近づくことができます。

著者らは、Qwen2.5-7B-InstructとQwen2.5-72B-Instructという2つの異なる規模のジェネレータを用いて実験を行い、MATH500とAIME2024-2025の2つのデータセットで評価を行いました。

著者らは、DeepCritic-7B-RL-PRM800Kを実験対象として選択しました（略称：DeepCritic-7B-RL）。ベースラインモデルはQwen2.5-7B-InstructとDeepSeek-R1-Distill-Qwen-7B（略称：DS-R1-Distill-Qwen-7B）です。

▲ 図3. 異なるモデルを検証器として使用した後の、MATH500およびAIME24-25における生成モデルの検証済み多数決結果。

批判モデルを検証器として機能させた実験結果を図3に示します。批判モデル自体の能力が弱い場合（例：Qwen2.5-7B-Instruct）には、それを検証器として多数決に参加させると、かえって全体的なパフォーマンスを低下させる可能性があることが観察されます。

対照的に、DeepCriticモデルは、ほとんどのサンプリング設定において、ジェネレータの多数決パフォーマンスをより効果的に向上させ、より顕著な改善をもたらします。

▲ 表2. 批判内容に基づく修正結果。「w→c」は、判断と修正の後、もともと誤っていた解答が正しくなった割合を示します。「c→w」はその逆、つまりもともと正しかった解答が誤りになった割合を示します。「Acc.」は、すべてのテストサンプルにおける平均正解率を示します。

最初の誤ったステップを識別した後で批判を停止することを強調したにもかかわらず、DeepSeek-R1-Distill-Qwen-7Bは依然として批判を最後まで行い、正しい解答を出すことがよくありました（すなわち、その指示追従能力は劣っていました）。

この問題は、生成モデルの修正結果がDS-R1-Distill-Qwen-7B自身の問題解決能力に大きく影響され、偏りが生じることを意味します。したがって、その結果は参考として別途記載しています。

DeepCritic-7B-RLモデルが、より詳細なフィードバックを提供することで、生成モデルのエラー修正を効果的に支援し、生成モデルの最終パフォーマンスを著しく向上させることがわかります。特筆すべきは、7Bの批判モデルが、72Bの生成モデルの出力を監督し修正することもできるという点で、弱から強への監督の可能性を示しています。

ケーススタディ

DeepCritic-7B-SFT と DeepCritic-7B-RL に関する以下の推論ケースは、DeepCritic シリーズモデルが批判タスクを実行する際に、多角的な検証、メタ批判、自己反省と修正などの重要な推論および評価能力を備えていることを示しています。

▲ 図4. DeepCritic-7B-SFT のケーススタディ

▲ 図5. DeepCritic-7B-RL-PRM800K のケーススタディ

今後の展望

本研究は、入念に構築された熟考された批判データを用いた教師ありファインチューニングと強化学習の組み合わせが、数学分野における大規模言語モデルの批判と監督能力を効果的に向上させることを予備的に検証しました。

本研究は、より広範で信頼性があり、スケーラブルなAI監督メカニズムを実現するための新たな示唆を提供します。しかし、依然として多くの探求すべき方向性があります。例えば、現段階の研究は数学的推論シナリオに焦点を当てていますが、この批判フレームワークをコードやオープンな領域など、より多くのタスクシナリオに拡張し、その汎用性とクロスドメインの潜在能力を探求することは、興味深い今後の研究方向の一つです。

その他の記事