中興通訊研究:LLM自適應題目難度分級蒸餾,讓小模型也擁有「長鏈思考」能力

本文作者均來自中興通訊無線研究院「大模型深潛」團隊。團隊重點攻關方向包括「推理模型構築:蒸餾與強化學習方法」、「無線通訊故障定位與根因分析推理模型」、「多模態推理模型」和「推理加速技術」。核心成員畢業於中國科學技術大學、中國科學院軟件研究所等知名高校與科研院所。

近年來,「思維鏈(Chain of Thought,CoT)」成為大模型推理的顯學,但要讓小模型也擁有長鏈推理能力卻非易事。

中興通訊無線研究院「大模型深潛團隊」從 「數據靜態經驗流」 的角度切入,首創 「LLM 自適應題目難度蒸餾」 方法,一舉將高品質 CoT 語料的生產效率與效果同步拉滿。

ZTE AIM Team Introduction

論文標題:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

論文鏈結:https://arxiv.org/pdf/2504.11919

開源鏈結如下:

程式碼數據:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data

數學數據:https://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data

程式碼模型:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B

數學模型:https://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B

研究動機:小模型也想有「長鏈思考」

大模型優勢鮮明,部署困難

隨著 DeepSeek-R1(671B 參數)模型的發布,長思維鏈(CoT)推理技術在基礎大模型和工業應用中快速普及。DeepSeek-R1 雖然推理能力強大,但 600+B 參數量的模型難以在邊緣設備、實時系統中使用。

小模型亟待「加持」

這促使業界對參數量低于 70 億的小型模型開展持續研究,尤其聚焦在複雜數學解題和程式碼生成等長鏈推理場景。值得注意的是,借助 DeepSeek-R1 的推理過程,可構築高品質的思維鏈(CoT)數據,從而顯著增強小模型的推理能力。但目前幾十億到百億參數級別的小模型,在多步驟推理任務(如複雜數學問題和程式碼題)上仍存在明顯瓶頸,難以充分滿足此類應用需求。

現有 CoT 數據的困局

基于 DeepSeek-R1 生成 CoT 數據的研究大體分為兩條技術路線:

1. 海量數據驅動(Labs 2025;Team 2025c):通過堆疊超大規模 CoT 語料來提升推理能力,但計算與標注成本高、效率低。

2. 精品數據驅動(Ye et al. 2025;Muennighoff et al. 2025):依靠少量高品質樣本激活模型潛能,然而受規模限制,性能增益難以持續。

儘管已有工作(Wen et al. 2025a)引入課程學習和拒絕採樣以優化訓練流程,上述方法普遍忽視了「模型能力 — 數據難度」之間的動態匹配。

這直接引出了兩個核心問題:

1、高品質 CoT 語料應如何定義?

2、如何從既有數據中提煉可遷移的「靜態經驗流」?

全新方法:模型自適應難度分級蒸餾

近期,強化學習之父 Richard Sutton 提出「經驗」是下一代超級數據源的思想,將大模型強化學習的本質定義為是一種數據的動態經驗流挖掘。基于此,我們團隊從數據靜態經驗流建設的角度出發,提出基于模型自適應問題難易度蒸餾 CoT 語料的方法,顯著提升了長 CoT 語料的質量。

該方法圍繞「模型 - 數據動態匹配」提出了一條完整的 CoT 構築流程,具有四大創新點:

1. 基于模型的固有推理能力,建立題目難度分級體系,形成可復用的「靜態經驗」。

2. 依照難度標籤,構築覆蓋全梯度的自適應題庫。

3. 設計符合課程學習思想的難度分布採樣策略,確保訓練數據與模型能力實時對齊。

4. 借助 DeepSeek-R1,在數學推理與程式碼生成兩大場景批量生成高品質 CoT 語料。

在相同計算預算下,該自適應方案可持續提升不同規模模型的推理性能 —— 以 AIME24 數學競賽數據集為例,各參數檔模型的準確率相比傳統「非適配」策略提高 6.66 %–26.7 %(見圖 1)。

Figure 1: CoT Data Construction Effect Comparison

圖 1:基于 LLM 自適應題目難度分級的 CoT 數據構築效果對比

對于不同參數規模的 LLM,採用問題自適應難度分級方法構造的 COT 數據訓練的推理模型(左)在數學競賽數據集 AIME24 上的推理性能始終優于非自適應方法(右)。說明了前者構築的 CoT 數據品質更高,並且找到了適配于模型的靜態數據經驗流。

這一方法有效地挖掘了 CoT 數據中的靜態經驗流,并且該靜態經驗流與模型本身是密切相關的。

方法框架,一圖看懂

Figure 2: CoT Data Generation Framework

圖 2:基于 LLM 自適應題目難度分級的 CoT 數據生成框架

框架包含三個核心元件:分布構築、LLM 自適應題目難度分級與分布採樣,以及 LLM 自適應思維鏈(CoT)生成。

1. 分布構築(Distribution Construction)

構築兩種難度分布策略,作為後續採樣的依據:

Option1:基于模型實際表現的分布(Pₑᵥₐₗ)

通過基礎 LLM(Sₗₗₘ)在評估數據集(DBₑᵥₐₗ)上的表現動態生成難度分布:

正確回答的題目:標記為「簡單」(Easy)。

錯誤回答的題目:通過 PRM-Grader(過程獎勵模型)進一步分級,根據模型生成答案的推理軌跡品質(0-1 分)映射到 5 個難度等級(分數越低,難度越高)。

Option2:基于課程學習的先驗分布(P₆)

人工定義五級難度,遵循「易題多、難題少」的分布原則,權重隨難度遞增遞減:

例如,難度級別 1 的樣本數最多,級別 5 最少。

2. LLM 自適應題目難度分級與分布採樣

步驟 1:構築自適應題庫(DBₐdₐₚₜᵢᵥₑ)

從開源數據集收集原始題目(DBᵣₐw),利用 Sₗₗₘ 生成回答并記錄推理軌跡。

驗證答案正確性:

數學推理任務:直接對比模型答案與標準答案。

程式碼生成任務:通過測試用例執行驗證程式碼正確性。

難度分級:

正確題目標記為「簡單」,加入題庫。

錯誤題目通過 PRM-Grader 細分為 5 級難度(1-5 級,1 級最難),加入題庫。

步驟 2:分布採樣(DBₛₐₘₚₗₑ)

根據構築的分布(Pₑᵥₐₗ或 P₆),從自適應題庫中按難度比例採樣題目

3. LLM 自適應 CoT 生成

生成階段:將採樣題目(DBₛₐₘₚₗₑ)輸入教師模型(Tₗₗₘ,即 DeepSeek-R1)生成詳細推理鏈(CoT)。

驗證階段:通過 Result-Verifier 嚴格篩選正確 CoT 數據(與步驟 2 的驗證方法一致),最終形成高品質數據集 COTₐdₐₚₜᵢᵥₑ。

模型訓練:利用 COTₐdₐₚₜᵢᵥₑ 對基礎模型(Sₗₗₘ)進行監督微調(SFT),得到優化後的推理模型(Rₗₗₘ)。

方法的關鍵創新點:

模型自適應難度適配:基于模型實際能力調整題目難度分布,避免「一刀切」的主觀分級,構築真正與模型密切綁定的靜態數據經驗流;

輕量化流程:無需複雜課程學習或拒絕採樣,僅通過分級與採樣即可提升數據品質;

多任務兼容性:支持數學推理與程式碼生成任務,驗證方法靈活(答案對比 / 測試用例)。

實驗效果:驚喜不斷

為了研究我們提出的 CoT 數據的品質效果,我們在不同尺寸和性質的模型上均進行了詳細的驗證,涵蓋的任務包括數學推理任務和程式碼生成任務。

以下是重要實驗結果的詳細介紹:

數學推理(MATH500、AIME24/25、GPQA)

在 MATH500、AIME24/25、GPQA 等數學基準測試中,採用 2k 自適應 CoT 數據訓練的 ZMath 系列模型顯著優于基線模型。

ZMath-32B 在 MATH500 上達到 94.6% 準確率,超過 DeepSeek-Distill-32B(89.8%)和 Sky-32B-Preview(90%);在 AIME24 上提升至 73.33%(基線為 66.67%)。

ZMath-14B 在 AIME24 上準確率為 50%,遠超 phi4-14B(30%),并在 GPQA 上達到 63.13%(phi4-14B 為 54.55%)。

Figure 3: Mathematical Reasoning Experiment Results

圖 3:數學推理實驗結果

程式碼生成(LiveCodeBench)

ZCode-32B 在 Easy、Medium、Hard 三個難度級別上分別達到 96.06%、75.53%、31.85%,全面優于 DeepSeek-Distill-32B(92.11%、74.92%、30%)。

ZCode-14B 在 Easy 難度上以 89.96% 顯著領先 phi4-14B(72.4%),表明小參數模型通過自適應數據訓練也能取得競爭力表現。

Figure 4: Code Generation Experiment Results

圖 4:程式碼生成實驗結果

消融實驗&分布遷移

當把 32B 模型的難度分布直接套用到 7 B 模型時,後者在 MATH500 數據集上的準確率僅為 92%,低于採用自身難度分布訓練得到的 93.2%。結果說明:難度分布必須與目標模型能力動態匹配,自適應分布才是性能提升的關鍵;同時也表明,靜態經驗流中真正有價值的經驗應當與具體模型緊密對應,而非「一刀切」地跨模型遷移。

Figure 5: Ablation Study and Distribution Transfer Results

圖 5:程式碼生成實驗結果

總結與展望

論文提出了一套基于 LLM 自適應難度分級的高品質 CoT 數據生成框架,并通過系統實驗驗證了其效率、有效性與泛化能力。核心結論如下:

高效數據生成

先動態評估模型當前推理能力,再構築匹配的自適應題庫,僅憑約 2 k 條高品質 CoT 樣本即可顯著提升性能,顯著降低數據與算力成本。

跨任務與參數泛化

在數學推理(AIME 系列)與程式碼生成(LiveCodeBench)兩大場景中均取得領先表現;對 7 B–32 B 不同規模模型均能帶來穩定增益。

方法論貢獻

構築了一套系統化的 CoT 數據生成與評估流程,為資源受限環境下的小參數 LLM 提升鏈式推理能力提供了新路徑,也為「靜態經驗流」挖掘給出了可復用範式。

未來工作:進一步結合強化學習挖掘深層推理能力,并擴展至通訊故障診斷等更複雜的跨領域任務。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:liyazhou@jiqizhixin.com

主標籤:大語言模型

次標籤:思維鏈推理能力小模型知識蒸餾


上一篇:AI的下半場:從演算法到效用

下一篇:AGI競賽通往失控?MIT:最強監督下失控概率仍超48%,全面失控風險超90%!

分享短網址