中興通訊研究：LLM自適應題目難度分級蒸餾，讓小模型也擁有「長鏈思考」能力

本文作者均來自中興通訊無線研究院「大模型深潛」團隊。團隊重點攻關方向包括「推理模型構築：蒸餾與強化學習方法」、「無線通訊故障定位與根因分析推理模型」、「多模態推理模型」和「推理加速技術」。核心成員畢業於中國科學技術大學、中國科學院軟件研究所等知名高校與科研院所。

近年來，「思維鏈（Chain of Thought，CoT）」成為大模型推理的顯學，但要讓小模型也擁有長鏈推理能力卻非易事。

中興通訊無線研究院「大模型深潛團隊」從「數據靜態經驗流」的角度切入，首創「LLM 自適應題目難度蒸餾」方法，一舉將高品質 CoT 語料的生產效率與效果同步拉滿。

ZTE AIM Team Introduction

論文標題：Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

論文鏈結：https://arxiv.org/pdf/2504.11919

開源鏈結如下：

程式碼數據：https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data

數學數據：https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data

程式碼模型：https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B

數學模型：https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B

研究動機：小模型也想有「長鏈思考」

大模型優勢鮮明，部署困難

隨著 DeepSeek-R1（671B 參數）模型的發布，長思維鏈（CoT）推理技術在基礎大模型和工業應用中快速普及。DeepSeek-R1 雖然推理能力強大，但 600+B 參數量的模型難以在邊緣設備、實時系統中使用。

小模型亟待「加持」

這促使業界對參數量低于 70 億的小型模型開展持續研究，尤其聚焦在複雜數學解題和程式碼生成等長鏈推理場景。值得注意的是，借助 DeepSeek-R1 的推理過程，可構築高品質的思維鏈（CoT）數據，從而顯著增強小模型的推理能力。但目前幾十億到百億參數級別的小模型，在多步驟推理任務（如複雜數學問題和程式碼題）上仍存在明顯瓶頸，難以充分滿足此類應用需求。

現有 CoT 數據的困局

基于 DeepSeek-R1 生成 CoT 數據的研究大體分為兩條技術路線：

1. 海量數據驅動（Labs 2025；Team 2025c）：通過堆疊超大規模 CoT 語料來提升推理能力，但計算與標注成本高、效率低。

2. 精品數據驅動（Ye et al. 2025；Muennighoff et al. 2025）：依靠少量高品質樣本激活模型潛能，然而受規模限制，性能增益難以持續。

儘管已有工作（Wen et al. 2025a）引入課程學習和拒絕採樣以優化訓練流程，上述方法普遍忽視了「模型能力 — 數據難度」之間的動態匹配。

這直接引出了兩個核心問題：

1、高品質 CoT 語料應如何定義？

2、如何從既有數據中提煉可遷移的「靜態經驗流」？

全新方法：模型自適應難度分級蒸餾

近期，強化學習之父 Richard Sutton 提出「經驗」是下一代超級數據源的思想，將大模型強化學習的本質定義為是一種數據的動態經驗流挖掘。基于此，我們團隊從數據靜態經驗流建設的角度出發，提出基于模型自適應問題難易度蒸餾 CoT 語料的方法，顯著提升了長 CoT 語料的質量。

該方法圍繞「模型 - 數據動態匹配」提出了一條完整的 CoT 構築流程，具有四大創新點：

1. 基于模型的固有推理能力，建立題目難度分級體系，形成可復用的「靜態經驗」。

2. 依照難度標籤，構築覆蓋全梯度的自適應題庫。

3. 設計符合課程學習思想的難度分布採樣策略，確保訓練數據與模型能力實時對齊。

4. 借助 DeepSeek-R1，在數學推理與程式碼生成兩大場景批量生成高品質 CoT 語料。

在相同計算預算下，該自適應方案可持續提升不同規模模型的推理性能 —— 以 AIME24 數學競賽數據集為例，各參數檔模型的準確率相比傳統「非適配」策略提高 6.66 %–26.7 %（見圖 1）。

Figure 1: CoT Data Construction Effect Comparison

圖 1：基于 LLM 自適應題目難度分級的 CoT 數據構築效果對比

對于不同參數規模的 LLM，採用問題自適應難度分級方法構造的 COT 數據訓練的推理模型（左）在數學競賽數據集 AIME24 上的推理性能始終優于非自適應方法（右）。說明了前者構築的 CoT 數據品質更高，並且找到了適配于模型的靜態數據經驗流。

這一方法有效地挖掘了 CoT 數據中的靜態經驗流，并且該靜態經驗流與模型本身是密切相關的。

方法框架，一圖看懂

Figure 2: CoT Data Generation Framework

圖 2：基于 LLM 自適應題目難度分級的 CoT 數據生成框架

框架包含三個核心元件：分布構築、LLM 自適應題目難度分級與分布採樣，以及 LLM 自適應思維鏈（CoT）生成。

1. 分布構築（Distribution Construction）

構築兩種難度分布策略，作為後續採樣的依據：

Option1：基于模型實際表現的分布（Pₑᵥₐₗ）

通過基礎 LLM（Sₗₗₘ）在評估數據集（DBₑᵥₐₗ）上的表現動態生成難度分布：

正確回答的題目：標記為「簡單」（Easy）。

錯誤回答的題目：通過 PRM-Grader（過程獎勵模型）進一步分級，根據模型生成答案的推理軌跡品質（0-1 分）映射到 5 個難度等級（分數越低，難度越高）。

Option2：基于課程學習的先驗分布（P₆）

人工定義五級難度，遵循「易題多、難題少」的分布原則，權重隨難度遞增遞減：

例如，難度級別 1 的樣本數最多，級別 5 最少。

2. LLM 自適應題目難度分級與分布採樣

步驟 1：構築自適應題庫（DBₐdₐₚₜᵢᵥₑ）

從開源數據集收集原始題目（DBᵣₐw），利用 Sₗₗₘ 生成回答并記錄推理軌跡。

驗證答案正確性：

數學推理任務：直接對比模型答案與標準答案。

程式碼生成任務：通過測試用例執行驗證程式碼正確性。

難度分級：

正確題目標記為「簡單」，加入題庫。

錯誤題目通過 PRM-Grader 細分為 5 級難度（1-5 級，1 級最難），加入題庫。

步驟 2：分布採樣（DBₛₐₘₚₗₑ）

根據構築的分布（Pₑᵥₐₗ或 P₆），從自適應題庫中按難度比例採樣題目

3. LLM 自適應 CoT 生成

生成階段：將採樣題目（DBₛₐₘₚₗₑ）輸入教師模型（Tₗₗₘ，即 DeepSeek-R1）生成詳細推理鏈（CoT）。

驗證階段：通過 Result-Verifier 嚴格篩選正確 CoT 數據（與步驟 2 的驗證方法一致），最終形成高品質數據集 COTₐdₐₚₜᵢᵥₑ。

模型訓練：利用 COTₐdₐₚₜᵢᵥₑ 對基礎模型（Sₗₗₘ）進行監督微調（SFT），得到優化後的推理模型（Rₗₗₘ）。

方法的關鍵創新點：

模型自適應難度適配：基于模型實際能力調整題目難度分布，避免「一刀切」的主觀分級，構築真正與模型密切綁定的靜態數據經驗流；

輕量化流程：無需複雜課程學習或拒絕採樣，僅通過分級與採樣即可提升數據品質；

多任務兼容性：支持數學推理與程式碼生成任務，驗證方法靈活（答案對比 / 測試用例）。

實驗效果：驚喜不斷

為了研究我們提出的 CoT 數據的品質效果，我們在不同尺寸和性質的模型上均進行了詳細的驗證，涵蓋的任務包括數學推理任務和程式碼生成任務。

以下是重要實驗結果的詳細介紹：

數學推理（MATH500、AIME24/25、GPQA）

在 MATH500、AIME24/25、GPQA 等數學基準測試中，採用 2k 自適應 CoT 數據訓練的 ZMath 系列模型顯著優于基線模型。

ZMath-32B 在 MATH500 上達到 94.6% 準確率，超過 DeepSeek-Distill-32B（89.8%）和 Sky-32B-Preview（90%）；在 AIME24 上提升至 73.33%（基線為 66.67%）。

ZMath-14B 在 AIME24 上準確率為 50%，遠超 phi4-14B（30%），并在 GPQA 上達到 63.13%（phi4-14B 為 54.55%）。

Figure 3: Mathematical Reasoning Experiment Results

圖 3：數學推理實驗結果

程式碼生成（LiveCodeBench）

ZCode-32B 在 Easy、Medium、Hard 三個難度級別上分別達到 96.06%、75.53%、31.85%，全面優于 DeepSeek-Distill-32B（92.11%、74.92%、30%）。

ZCode-14B 在 Easy 難度上以 89.96% 顯著領先 phi4-14B（72.4%），表明小參數模型通過自適應數據訓練也能取得競爭力表現。

Figure 4: Code Generation Experiment Results

圖 4：程式碼生成實驗結果

消融實驗＆分布遷移

當把 32B 模型的難度分布直接套用到 7 B 模型時，後者在 MATH500 數據集上的準確率僅為 92%，低于採用自身難度分布訓練得到的 93.2%。結果說明：難度分布必須與目標模型能力動態匹配，自適應分布才是性能提升的關鍵；同時也表明，靜態經驗流中真正有價值的經驗應當與具體模型緊密對應，而非「一刀切」地跨模型遷移。

Figure 5: Ablation Study and Distribution Transfer Results

圖 5：程式碼生成實驗結果

總結與展望

論文提出了一套基于 LLM 自適應難度分級的高品質 CoT 數據生成框架，并通過系統實驗驗證了其效率、有效性與泛化能力。核心結論如下：

高效數據生成

先動態評估模型當前推理能力，再構築匹配的自適應題庫，僅憑約 2 k 條高品質 CoT 樣本即可顯著提升性能，顯著降低數據與算力成本。

跨任務與參數泛化

在數學推理（AIME 系列）與程式碼生成（LiveCodeBench）兩大場景中均取得領先表現；對 7 B–32 B 不同規模模型均能帶來穩定增益。

方法論貢獻

構築了一套系統化的 CoT 數據生成與評估流程，為資源受限環境下的小參數 LLM 提升鏈式推理能力提供了新路徑，也為「靜態經驗流」挖掘給出了可復用範式。

未來工作：進一步結合強化學習挖掘深層推理能力，并擴展至通訊故障診斷等更複雜的跨領域任務。

轉載請聯繫本公眾號獲得授權

投稿或尋求報道：liyazhou@jiqizhixin.com

中興通訊研究：LLM自適應題目難度分級蒸餾，讓小模型也擁有「長鏈思考」能力

分享短網址