本文の著者は全員、ZTE無線研究院の「大規模モデル深潜」チームに所属しています。チームの主な研究方向は、「推論モデル構築:蒸留と強化学習手法」、「無線通信障害特定と根本原因分析推論モデル」、「マルチモーダル推論モデル」、「推論高速化技術」です。主要メンバーは、中国科学技術大学、中国科学院ソフトウェア研究所などの有名大学や研究機関を卒業しています。
近年、「思考連鎖(Chain of Thought、CoT)」は大規模モデル推論における主要な技術となっていますが、小規模モデルにも長連鎖推論能力を持たせるのは容易ではありません。
ZTE無線研究院の「大規模モデル深潜チーム」は、「データ静的経験フロー」の観点からアプローチし、独自の「LLM適応型問題難易度グレーディング蒸留」手法を開発しました。これにより、高品質なCoTコーパスの生成効率と効果を同時に最大化しました。
論文タイトル:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
論文リンク:https://arxiv.org/pdf/2504.11919
オープンソースリンクはこちらです:
コードデータ:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data
数学データ:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data
コードモデル:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B
数学モデル:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B
研究動機:小規模モデルも「長連鎖思考」が欲しい
大規模モデルの利点は明確だが、展開が困難
DeepSeek-R1(671Bパラメータ)モデルの公開に伴い、長い思考連鎖(CoT)推論技術は基盤となる大規模モデルや産業応用において急速に普及しました。DeepSeek-R1は強力な推論能力を持っていますが、600+Bパラメータのモデルをエッジデバイスやリアルタイムシステムで使用することは困難です。
小規模モデルには「強化」が急務
このため、業界では70億未満のパラメータを持つ小規模モデルに関する継続的な研究が進められており、特に複雑な数学問題解決やコード生成などの長連鎖推論シナリオに焦点が当てられています。注目すべきは、DeepSeek-R1の推論プロセスを活用することで、高品質な思考連鎖(CoT)データを構築し、小規模モデルの推論能力を大幅に強化できることです。しかし、現在の数十億から数百億パラメータクラスの小規模モデルは、多段階推論タスク(複雑な数学問題やプログラミング問題など)において依然として明確なボトルネックがあり、このようなアプリケーションの要求を十分に満たすことは困難です。
既存のCoTデータのジレンマ
DeepSeek-R1に基づいたCoTデータ生成の研究は、主に2つの技術経路に分けられます:
1. 大量データ駆動(Labs 2025; Team 2025c):超大規模なCoTコーパスを積み重ねることで推論能力を向上させますが、計算コストとアノテーションコストが高く、効率が低い。
2. 精選データ駆動(Ye et al. 2025; Muennighoff et al. 2025):少量の高品質なサンプルに頼ってモデルの潜在能力を活性化させますが、規模の制限により性能向上が持続しません。
既存の研究(Wen et al. 2025a)では、カリキュラム学習や拒否サンプリングを導入して訓練プロセスを最適化していますが、上記の手法は一般的に「モデル能力とデータ難易度」の間の動的なマッチングを無視しています。
これは直接、2つの核心的な問題を引き起こします:
1、高品質なCoTコーパスはどのように定義されるべきか?
2、既存のデータからどのように転移可能な「静的経験フロー」を抽出するか?
新しい方法:モデル適応型難易度グレーディング蒸留
最近、強化学習の父であるRichard Suttonは、「経験」が次世代のスーパーデータソースであるという思想を提唱し、大規模モデル強化学習の本質をデータの動的な経験フローマイニングとして定義しました。これに基づき、私たちのチームはデータ静的経験フロー構築の観点から出発し、モデル適応型問題難易度蒸留によるCoTコーパスの手法を提案し、長いCoTコーパスの質を大幅に向上させました。
この手法は「モデル-データ動的マッチング」を中心に完全なCoT構築プロセスを提案しており、4つの主要な革新点があります:
1. モデル固有の推論能力に基づき、問題難易度グレーディングシステムを構築し、再利用可能な「静的経験」を形成する。
2. 難易度ラベルに従い、全勾配をカバーする適応型問題集を構築する。
3. カリキュラム学習の思想に合致する難易度分布サンプリング戦略を設計し、訓練データとモデル能力のリアルタイムでの整合性を確保する。
4. DeepSeek-R1を活用し、数学推論とコード生成の2つの主要なシナリオで高品質なCoTコーパスをバッチ生成する。
同じ計算予算下で、この適応型手法は異なる規模のモデルの推論性能を持続的に向上させることができます。AIME24数学コンテストデータセットを例にとると、各パラメータランクのモデルの精度は、従来の「非適応型」戦略と比較して6.66%~26.7%向上しました(図1参照)。
図1:LLM適応型問題難易度グレーディングに基づいたCoTデータ構築効果の比較
異なるパラメータ規模のLLMについて、問題適応型難易度グレーディング手法で構築されたCOTデータで訓練された推論モデル(左)は、数学コンテストデータセットAIME24において非適応型手法(右)よりも常に優れた推論性能を示しました。これは、前者が構築したCoTデータの品質が高く、モデルに適応した静的データ経験フローを見つけたことを示しています。
この手法は、CoTデータ中の静的経験フローを効果的にマイニングし、この静的経験フローはモデル自体と密接に関連しています。
手法フレームワーク、図で一目でわかる
図2:LLM適応型問題難易度グレーディングに基づいたCoTデータ生成フレームワーク
フレームワークは3つのコアコンポーネントを含んでいます:分布構築、LLM適応型問題難易度グレーディングと分布サンプリング、そしてLLM適応型思考連鎖(CoT)生成です。
1. 分布構築(Distribution Construction)
後続のサンプリングの基礎として、2種類の難易度分布戦略を構築します:
Option1:モデルの実績に基づいた分布(Pₑᵥₐₗ)
ベースLLM(Sₗₗₘ)が評価データセット(DBₑᵥₐₗ)上で示したパフォーマンスに基づき、動的に難易度分布を生成します:
正しく回答した問題:「簡単」(Easy)とマークされます。
間違って回答した問題:PRM-Grader(プロセス報酬モデル)を通じてさらにグレーディングされ、モデルが生成した回答の推論軌跡の品質(0-1点)に基づいて5つの難易度レベル(点数が低いほど難易度が高い)にマッピングされます。
Option2:カリキュラム学習に基づいた事前分布(P₆)
人工的に5段階の難易度を定義し、「簡単な問題が多く、難しい問題が少ない」という分布原則に従い、難易度が増加するにつれて重みが減少します:
例えば、難易度レベル1のサンプル数が最も多く、レベル5が最も少ないです。
2. LLM適応型問題難易度グレーディングと分布サンプリング
ステップ1:適応型問題集の構築(DBₐdₐₚₜᵢᵥₑ)
オープンソースデータセットから元の問題(DBᵣₐw)を収集し、Sₗₗₘを使用して回答を生成し、推論軌跡を記録します。
回答の正確性の検証:
数学推論タスク:モデルの回答と標準回答を直接比較します。
コード生成タスク:テストケース実行を通じてコードの正確性を検証します。
難易度グレーディング:
正解した問題は「簡単」とマークされ、問題集に追加されます。
間違った問題はPRM-Graderを通じて5段階の難易度(1-5段階、1段階が最も難しい)に細分化され、問題集に追加されます。
ステップ2:分布サンプリング(DBₛₐₘₚₗₑ)
構築された分布(PₑᵥₐₗまたはP₆)に従い、適応型問題集から難易度比率に応じて問題をサンプリングします
3. LLM適応型CoT生成
生成段階:サンプリングされた問題(DBₛₐₘₚₗₑ)を教師モデル(Tₗₗₘ、すなわちDeepSeek-R1)に入力し、詳細な推論連鎖(CoT)を生成します。
検証段階:Result-Verifierを通じて正しいCoTデータを厳格にフィルタリングし(ステップ2の検証方法と同じ)、最終的に高品質データセットCOTₐdₐₚₜᵢᵥₑを形成します。
モデル訓練:COTₐdₐₚₜᵢᵥₑを使用して基盤モデル(Sₗₗₘ)に教師ありファインチューニング(SFT)を行い、最適化された推論モデル(Rₗₗₘ)を取得します。
手法の重要な革新点:
モデル適応型難易度適合:モデルの実力に基づいて問題難易度分布を調整し、「一律」の主観的なグレーディングを避け、真にモデルと密接に関連する静的なデータ経験フローを構築する;
軽量化プロセス:複雑なカリキュラム学習や拒否サンプリングは不要で、グレーディングとサンプリングだけでデータ品質を向上できる;
マルチタスク互換性:数学推論とコード生成タスクに対応し、検証方法が柔軟(回答比較/テストケース)。
実験効果:驚きが続く
私たちが提案するCoTデータの品質効果を研究するため、異なるサイズと性質のモデルに対して詳細な検証を行いました。タスクには数学推論タスクとコード生成タスクが含まれます。
以下に重要な実験結果の詳細を紹介します:
数学推論(MATH500、AIME24/25、GPQA)
MATH500、AIME24/25、GPQAなどの数学ベンチマークにおいて、2kの適応型CoTデータで訓練されたZMathシリーズモデルは、ベースラインモデルよりも著しく優れていました。
ZMath-32BはMATH500で94.6%の精度を達成し、DeepSeek-Distill-32B(89.8%)とSky-32B-Preview(90%)を上回りました。AIME24では73.33%に向上しました(ベースラインは66.67%)。
ZMath-14BはAIME24で50%の精度を達成し、phi4-14B(30%)を大幅に上回り、GPQAでは63.13%を達成しました(phi4-14Bは54.55%)。
図3:数学推論実験結果
コード生成(LiveCodeBench)
ZCode-32BはEasy、Medium、Hardの3つの難易度レベルでそれぞれ96.06%、75.53%、31.85%を達成し、DeepSeek-Distill-32B(92.11%、74.92%、30%)を全面的に上回りました。
ZCode-14BはEasy難易度で89.96%を達成し、phi4-14B(72.4%)を著しくリードしました。これは、小パラメータモデルも適応型データ訓練を通じて競争力のあるパフォーマンスを達成できることを示しています。
図4:コード生成実験結果
アブレーション実験&分布転移
32Bモデルの難易度分布を7Bモデルに直接適用した場合、後者のMATH500データセットにおける精度は92%に留まり、自身の難易度分布で訓練した場合の93.2%を下回りました。この結果は、難易度分布は目標モデルの能力と動的にマッチする必要があり、適応型分布が性能向上の鍵であることを示しています。同時に、静的経験フローの中で真に価値のある経験は、具体的なモデルと密接に対応しているべきであり、「一律」でモデル間を転移すべきではないことを示唆しています。
図5:コード生成実験結果
まとめと展望
本論文は、LLM適応型難易度グレーディングに基づいた高品質なCoTデータ生成フレームワークを提案し、体系的な実験を通じてその効率性、有効性、汎化能力を検証しました。主な結論は以下の通りです:
効率的なデータ生成
まずモデルの現在の推論能力を動的に評価し、その後一致する適応型問題集を構築します。わずか約2kの高品質CoTサンプルだけで性能を大幅に向上させることができ、データと計算コストを著しく削減します。
タスク間およびパラメータ汎化
数学推論(AIMEシリーズ)とコード生成(LiveCodeBench)の2つの主要なシナリオでリードするパフォーマンスを達成しました。7B~32Bの異なる規模のモデルに対して安定したゲインをもたらします。
方法論的貢献
体系的なCoTデータ生成と評価プロセスを構築し、リソース制約のある環境下での小パラメータLLMの連鎖推論能力向上に新たな道筋を提供するとともに、「静的経験フロー」のマイニングに再利用可能なパラダイムを提供しました。
今後の展望:強化学習とのさらなる組み合わせによる深層推論能力の探求、および通信障害診断などのより複雑なクロスドメインタスクへの拡張。
© THE END
転載をご希望の場合は、本公式アカウントにご連絡の上、許諾を得てください
投稿または取材のご依頼:liyazhou@jiqizhixin.com