出典 | 机器之心
この記事の著者は、中興通讯無線研究院の「大規模モデル深潜」チームのメンバーです。チームは、「推論モデルの構築:蒸留と強化学習手法」、「無線通信故障特定と根本原因分析推論モデル」、「マルチモーダル推論モデル」、「推論高速化技術」を含む主要な研究分野に焦点を当てています。主要メンバーは、中国科学技術大学、中国科学院軟件研究所などの有名な大学や研究機関を卒業しています。
近年、「思考連鎖(Chain of Thought、CoT)」は大規模モデルの推論において注目される技術となりましたが、小規模モデルにも長鎖推論能力を持たせることは容易ではありませんでした。
中興通讯無線研究院の「大規模モデル深潜チーム」は、「データの静的経験フロー」の観点からアプローチし、初めて「LLM適応型質問難易度蒸留」手法を考案しました。これにより、高品質なCoTコーパスの生成効率と効果を同時に最大化しました。
論文タイトル:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
論文リンク:https://arxiv.org/pdf/2504.11919
オープンソースリンクは以下の通りです:
コードデータ:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data
数学データ:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data
コードモデル:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B
数学モデル:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B
研究動機:小規模モデルも「長鎖思考」を持ちたい
大規模モデルの明確な優位性、展開の難しさ
DeepSeek-R1(671Bパラメータ)モデルのリリースに伴い、長思考連鎖(CoT)推論技術は基礎となる大規模モデルや産業応用において急速に普及しました。DeepSeek-R1は強力な推論能力を持っていますが、600Bを超えるパラメータを持つモデルをエッジデバイスやリアルタイムシステムで使用するのは困難です。
小規模モデルは「強化」が急務
これにより、業界ではパラメータが70億未満の小型モデルに関する研究が継続して行われており、特に複雑な数学問題解決やコード生成のような長鎖推論シナリオに焦点が当てられています。注目すべきは、DeepSeek-R1の推論プロセスを活用することで、高品質な思考連鎖(CoT)データを構築し、小型モデルの推論能力を顕著に向上させることができる点です。しかし、現在の数十億から百億パラメータレベルの小型モデルは、多段階推論タスク(複雑な数学問題やプログラミング問題など)において依然として明確なボトルネックがあり、このようなアプリケーションのニーズを十分に満たすことは困難です。
既存のCoTデータの窮状
DeepSeek-R1に基づいたCoTデータ生成に関する研究は、大きく分けて2つの技術路線に分類されます:
1. 大量データ駆動(Labs 2025; Team 2025c):超大規模なCoTコーパスを積み重ねることで推論能力を向上させますが、計算コストとアノテーションコストが高く、効率が低いです。
2. ブティックデータ駆動(Ye et al. 2025; Muennighoff et al. 2025):少量の高品質サンプルに依存してモデルの潜在能力を活性化しますが、規模の制限により性能向上が継続しにくいです。
既存の研究(Wen et al. 2025a)では、カリキュラム学習やリジェクションサンプリングを導入してトレーニングプロセスを最適化していますが、上記の方法は一般的に「モデル能力 - データ難易度」間の動的マッチングを無視しています。
これは直接的に2つの核心的な問題を引き起こします:
1、高品質なCoTコーパスはどのように定義されるべきか?
2、既存のデータから移転可能な「静的経験フロー」をどのように抽出するか?
新しい手法:モデル適応型難易度別蒸留
最近、強化学習の父であるRichard Suttonは、「経験」が次世代のスーパーデータソースであるという考えを提唱し、大規模モデル強化学習の本質を、データの動的な経験フローマイニングとして定義しました。これに基づき、私たちのチームは、データの静的経験フロー構築の観点から出発し、モデル適応型質問難易度蒸留によるCoTコーパスの生成手法を提案しました。これにより、長CoTコーパスの品質が著しく向上しました。
この手法は「モデル - データ動的マッチング」を中心とした完全なCoT構築プロセスを提案しており、以下の4つの主要な革新点があります:
1. モデル固有の推論能力に基づき、問題難易度分類システムを確立し、再利用可能な「静的経験」を形成します。
2. 難易度ラベルに従い、全勾配をカバーする適応型問題集を構築します。
3. カリキュラム学習の思想に合致する難易度分布サンプリング戦略を設計し、訓練データとモデル能力のリアルタイムな一致を保証します。
4. DeepSeek-R1を活用し、数学推論とコード生成という2つの主要なシナリオで、高品質なCoTコーパスを一括生成します。
同じ計算予算の下で、この適応型手法は異なる規模のモデルの推論性能を持続的に向上させることができます——AIME24数学コンテストデータセットを例にとると、従来の「非適応」戦略と比較して、各パラメータランクのモデルの精度は6.66%~26.7%向上しました(図1参照)。
図1:LLM適応型質問難易度分類に基づくCoTデータ構築効果比較
異なるパラメータ規模のLLMに対して、質問適応型難易度分類手法で構築されたCOTデータで訓練された推論モデル(左)は、数学コンテストデータセットAIME24において、非適応型手法(右)よりも推論性能が常に優れています。これは、前者が構築したCoTデータの品質が高く、モデル自体に適応した静的データ経験フローを見つけたことを示しています。
この手法は、CoTデータ中の静的経験フローを効果的にマイニングし、その静的経験フローはモデル自体と密接に関連しています。
手法フレームワーク、一枚の図で理解
図2:LLM適応型質問難易度分類に基づくCoTデータ生成フレームワーク
フレームワークは3つの核心コンポーネントを含みます:分布構築、LLM適応型質問難易度分類と分布サンプリング、そしてLLM適応型思考連鎖(CoT)生成です。
1. 分布構築(Distribution Construction)
後のサンプリングの基準となる2つの難易度分布戦略を構築します:
Option1:モデルの実際のパフォーマンスに基づく分布(Pₑᵥₐₗ)
基礎LLM(Sₗₗₘ)が評価データセット(DBₑᵥₐₗ)で示したパフォーマンスに基づいて難易度分布を動的に生成します:
正解した問題:「簡単」(Easy)とマークします。
不正解だった問題:PRM-Grader(プロセス報酬モデル)によってさらに分類し、モデルが生成した回答の推論軌跡の質(0-1点)を5段階の難易度レベルにマッピングします(点数が低いほど難易度が高い)。
Option2:カリキュラム学習に基づく事前分布(P₆)
5段階の難易度を手動で定義し、「簡単な問題が多く、難しい問題が少ない」という分布原則に従い、難易度が増加するにつれて重みが減少するようにします:
例えば、難易度レベル1のサンプル数が最も多く、レベル5が最も少ないです。
2. LLM適応型質問難易度分類と分布サンプリング
ステップ1:適応型問題集(DBₐdₐₚₜᵢᵥₑ)の構築
オープンソースデータセットから元の問題(DBᵣₐw)を収集し、Sₗₗₘを使用して回答を生成し、推論軌跡を記録します。
回答の正確性を検証します:
数学推論タスク:モデルの回答と標準回答を直接比較します。
コード生成タスク:テストケースを実行してコードの正確性を検証します。
難易度分類:
正解した問題は「簡単」とマークし、問題集に追加します。
不正解だった問題は、PRM-Graderによって5段階の難易度(1-5段階、1段階が最も難しい)に細分化し、問題集に追加します。
ステップ2:分布サンプリング(DBₛₐₘₚₗₑ)
構築された分布(PₑᵥₐₗまたはP₆)に基づき、適応型問題集から難易度の割合に応じて問題をサンプリングします。
3. LLM適応型CoT生成
生成段階:サンプリングされた問題(DBₛₐₘₚₗₑ)を教師モデル(Tₗₗₘ、すなわちDeepSeek-R1)に入力し、詳細な推論連鎖(CoT)を生成します。
検証段階:Result-Verifierを使用して正確なCoTデータ(ステップ2の検証方法と同じ)を厳密にフィルタリングし、最終的に高品質なデータセットCOTₐdₐₚₜᵢᵥₑを形成します。
モデル訓練:COTₐdₐₚₜᵢᵥₑを使用して基礎モデル(Sₗₗₘ)に対して教師付きファインチューニング(SFT)を行い、最適化された推論モデル(Rₗₗₘ)を取得します。
手法の主要な革新点:
モデル適応型難易度適合:モデルの実際の能力に基づいて問題難易度分布を調整し、「一律」の主観的分類を回避し、モデルに密接に結びついた静的データ経験フローを構築します。
軽量化されたプロセス:複雑なカリキュラム学習やリジェクションサンプリングは不要で、分類とサンプリングのみでデータ品質を向上させることができます。
マルチタスク互換性:数学推論とコード生成タスクをサポートし、検証方法が柔軟です(回答比較 / テストケース)。
実験効果:驚くべき結果
私たちが提案するCoTデータの品質効果を研究するために、異なるサイズと性質のモデルで詳細な検証を行いました。検証対象のタスクには、数学推論タスクとコード生成タスクが含まれます。
以下は、重要な実験結果の詳細な紹介です:
数学推論(MATH500、AIME24/25、GPQA)
MATH500、AIME24/25、GPQAなどの数学ベンチマークにおいて、2kの適応型CoTデータで訓練されたZMathシリーズモデルは、ベースラインモデルを顕著に上回りました。
ZMath-32BはMATH500で94.6%の精度を達成し、DeepSeek-Distill-32B(89.8%)およびSky-32B-Preview(90%)を上回りました。AIME24では73.33%に向上しました(ベースラインは66.67%)。
ZMath-14BはAIME24で50%の精度を達成し、phi4-14B(30%)を大幅に上回り、GPQAで63.13%に達しました(phi4-14Bは54.55%)。
図3:数学推論実験結果
コード生成(LiveCodeBench)
ZCode-32Bは、Easy、Medium、Hardの3つの難易度レベルでそれぞれ96.06%、75.53%、31.85%を達成し、DeepSeek-Distill-32B(92.11%、74.92%、30%)を全面的に上回りました。
ZCode-14Bは、Easy難易度で89.96%とphi4-14B(72.4%)を顕著にリードしており、小規模パラメータモデルでも適応型データ訓練によって競争力のあるパフォーマンスを達成できることを示しています。
図4:コード生成実験結果
アブレーション実験&分布転移
32Bモデルの難易度分布をそのまま7Bモデルに適用した場合、後者のMATH500データセットでの精度は92%に留まり、自身の難易度分布で訓練した際の93.2%を下回りました。結果が示すこと:難易度分布はターゲットモデルの能力に動的に一致する必要があり、適応型分布こそが性能向上の鍵です。また、静的経験フロー中の真に価値のある経験は、特定のモデルと密接に対応すべきであり、「一律」にモデル間を転移すべきではないことも示唆しています。
図5:コード生成実験結果
まとめと展望
本論文では、LLM適応型難易度分類に基づく高品質CoTデータ生成フレームワークを提案し、体系的な実験を通じてその効率性、有効性、および汎化能力を検証しました。主要な結論は以下の通りです:
効率的なデータ生成
まずモデルの現在の推論能力を動的に評価し、次にマッチする適応型問題集を構築します。わずか約2k件の高品質CoTサンプルのみで性能を著しく向上させることができ、データと計算コストを大幅に削減できます。
タスク間およびパラメータ汎化
数学推論(AIMEシリーズ)とコード生成(LiveCodeBench)という2つの主要なシナリオで、いずれも先行するパフォーマンスを達成しました。7B〜32Bの異なる規模のモデルに対しても安定したゲインをもたらします。
方法論への貢献
CoTデータ生成と評価のための体系的なプロセスを構築し、リソースが限られた環境下での小規模パラメータLLMの連鎖推論能力向上に新しい道筋を提供しました。また、「静的経験フロー」マイニングのための再利用可能なパラダイムも提示しました。
今後の課題:強化学習との更なる組み合わせにより深層的な推論能力を掘り起こし、通信故障診断などのより複雑な領域横断的なタスクに拡張すること。
技術交流群招待状
△長押しでアシスタントを追加
QRコードをスキャンしてアシスタントのWeChatを追加
以下を記載してください:氏名 - 学校/会社 - 研究分野
(例:小張 - ハルビン工業大学 - 対話システム)
自然言語処理/Pytorchなどの技術交流群への参加申請が可能です
私たちについて
MLNLPコミュニティは、国内外の機械学習と自然言語処理の学者によって共同で構築された非営利の学術コミュニティです。現在、国内外で有名な機械学習と自然言語処理のコミュニティに発展しており、機械学習、自然言語処理の学術界、産業界、および広範な愛好家間の進歩を促進することを目指しています。
コミュニティは、関連する従事者のさらなる研究、就職、研究などの側面でオープンな交流プラットフォームを提供できます。皆様のフォローと参加を歓迎します。