回顧Qwen3廢棄的混合推理模式

Claude 3.7 Sonnet 開啟了同一個模型能同時兼具無需思考和長鏈思考（Long Reasoning）能力的新範式。這條路的目標是將類似GPT-4o的聊天模型與類似GPT-o1/3/4系列的推理模型合併為單一模型。本文將對我目前看過且已有的相關研究進行小小的彙整（可能有所疏漏）。這裡將不包含單純縮短CoT長度的研究。

來源 | 知乎

作者 | 灰瞳六分儀

AdaptThink 的圖非常直觀地說明了這個設定的特殊之處：對於簡單問題，不應採用短CoT，而是應直接無需CoT。

無訓練（Training-Free）

大部分的無訓練（Training-Free）方法都著重於訓練一個路由（Router）。我找到兩個相關的研究：「Self-Route」[1]和「ThinkSwitcher」[2]，但我猜可能沒有找齊。由於與之前的「long2short」無訓練方法差異不大，礙於精力有限，這裡不作過多介紹。

基於微調（Finetuning-based）

這裡僅介紹Qwen3、Llama-Nemotron和KAT-V1三個模型的相關訓練方法。其他純SFT（監督式微調）方法（例如AutoL2S[3]、Self-Braking Tuning[4]、TLDR[5]）僅能縮短CoT長度，無法讓推理模型具備選擇完全不思考的能力。同時使用SFT和RL的方法則會放在RL部分介紹。

Qwen3

Qwen3在階段1和2讓模型具備長鏈思考（LongCoT）能力後，主要在階段3中使用監督式微調（SFT）實現了初步的自適應推理能力。

詳細技術細節我直接翻譯了，感覺資訊量很大：監督式微調（SFT）資料集包含了思考型（thinking）和非思考型（non-thinking）資料。為了確保階段2所獲得的模型在加入SFT資料後效能不受影響，Qwen團隊利用階段2模型本身對階段1的查詢進行拒絕取樣（rejection sampling），以生成思考型資料。而非思考型資料則經過精心篩選，涵蓋了多種任務類型，包括程式設計、數學、指令遵循、多語言任務、創意寫作、問答及角色扮演等。

此外，Qwen團隊還使用自動生成的檢查清單來評估非思考型資料的回覆品質。為了提升低資源語言任務的表現，Qwen團隊特別提高了翻譯任務在資料集中的佔比。具體的思考型和非思考型模板如下：

Llama-Nemotron[7]

輝達（NVIDIA）的Nemotron也大約在同時期釋出。他們並不諱言借用其他模型來提升效能，因此省略了先訓練模型長鏈思考（LongCoT）能力這一步，而是直接在監督式微調（SFT）中摻入了DeepSeek-R1的推理輸出。具體摻雜比例如下：

接著，因為僅使用蒸餾（distillation）的話，推理能力仍不足，才繼續加入了強化學習（RL）。

KAT-V1[8]

快手的模型在資料方面也使用了DeepSeek-R1。針對每個查詢（query），生成think-on和think-off模式的一些回答，然後進行多數決（majority vote）來選擇最終使用哪個模式。think-on模式使用的是DeepSeek-R1，think-off模式使用的是DeepSeek-V3。此外，還利用DeepSeek-V3生成了一些選擇該投票模式的理由，讓模型進行學習。總體而言，think-on和think-off的比例大約是2:1。之後還有AutoThink RL部分，但快手在文中並未詳述，表示將在後續單獨撰寫一篇……文中貼出了訓練過程的圖，可以參考：

基於強化學習（RL-based）

AutoThink[9]

本文首先發現了一個非常有趣的現象：在思考型內容的開頭加上省略號，會讓模型出現不穩定的現象。模型既可能輸出長鏈思考（LongCoT），也可能直接不思考。這說明即使是長推理模型，在這種分佈外（OOD）的提示詞情況下，仍然具備不思考的能力。

於是，本文引入了一種三階段的強化學習（RL）來強化這項能力：

• 透過對正確的非思考型（non-thinking）輸出施加更大獎勵的方式，強化並穩定模型的雙模式輸出能力。

• 使用正常的獎勵來增強模型的效能。由於第一階段的訓練效果良好，即使沒有加入其他技巧，模型也並未退化到只會思考或只會不思考。

• 第二階段的訓練仍會導致過長的輸出，因此第三階段對過長的輸出進行了懲罰。

AdaCoT[10]

本文並未發現AutoThink所提及的現象，因此與Qwen3和Nemotron一樣，先收集資料進行監督式微調（SFT），使模型先具備基本的非思考能力，然後再進行強化學習（RL）訓練。這裡並沒有將兩部分資料分開收集，而是直接使用一個15B的模型來標記查詢是否簡單到可以不經思考直接作答。

強化學習（RL）階段的損失（loss）函數很直接：

這裡，是基礎獎勵（reward），是關於是否需要省略推理的懲罰項，是關於推理是否過長的懲罰項，是關於格式化輸出的懲罰項。這裡將AutoThink的三個步驟合併為一個步驟來完成。

另一個技術非常巧妙，稱為選擇性損失遮罩（Selective Loss Masking）。由於擔心模型一味不推理或全部推理，作者選擇性地將<think>之後的第一個權杖（token）不計入損失計算。這點非常精妙。這使得模型在這個階段無法繼續學習是否思考，避免將SFT階段學好的東西繼續學習下去並偏離。這也解決了AutoThink階段2所擔憂但未發生的問題。

AdaptThink[11]

本文有幾張闡述動機的圖都非常出色，本文開頭使用的也是他們的預告圖。從下圖左圖可知，「無需思考」（No Thinking）不僅僅是效率問題，甚至在最簡單的問題上，其正確率也更高。

本文的思路非常強悍：反正「無需思考」（no-thinking）只是在<think>之後直接跟著</think>，那也就不需要SFT賦予能力了，直接最佳化以下這個式子即可：

經過拉格朗日乘子和一些其他的轉換後，變成了最佳化以下這個式子：

又因為和都不可導，於是將這個表達式的期望內部部分視為優勢函數（advantage function），並使用PPO（Proximal Policy Optimization）進行最佳化。

在重要性取樣時，由於原始模型未經過SFT，不具備「無需思考」能力，因此作者設定以一半的機率強制輸出，另一半機率則正常輸出長鏈思考（LongCoT）。

從損失函數（loss）的角度理解，只有在以下情況下，PPO才會讓模型更傾向於不思考。越大，越鼓勵模型不思考。

HGPO[12]

本文也是先收集資料進行監督式微調（SFT），使模型先具備基本的非思考能力，然後再進行強化學習（RL）訓練，也就是章節標題所提及的HGPO。

HGPO流程如下：

• 每個查詢（query）在思考模式（⊢）和無思考模式（⊬）下分別取樣N/2個候選回答，也就是說每個查詢會得到N個回答。

• 給予原始獎勵分數。有確定答案的採用規則導向（rule-based）方法，沒有的則使用獎勵模型Llama-3.1Tulu-3-8B-RM。

• 獎勵分配（Reward Assignment）。這裡分別計算組間獎勵（inter-group rewards）和組內獎勵（intra-group rewards）。組間獎勵給予的是同一個查詢在思考模式和無思考模式下原始獎勵分數較高的那一個；組內獎勵給予的是同一思考模式下原始獎勵分數較高的查詢。

• 優勢估計（Advantage Estimation）。使用的是GRPO，結合了上述兩種獎勵。這裡比較有趣的是組間獎勵（inter-group rewards），因為組間獎勵只作用於回答中決定是思考模式的詞，也就是think和no_think。

作者還提出了一個指標來評估這種自適應思考能力，稱作混合準確率（Hybrid Accuracy, HAcc）。具體做法是讓模型對每個查詢（query）分別在思考模式和無思考模式下各取樣N個回答，然後使用獎勵模型進行評分，分數較高的則被視為首選推理模式。接著觀察模型自身選擇的模式與計算出的首選推理模式之間的吻合比例。

引用連結

[1] Self-Route: http://arxiv.org/abs/2505.20664

[2] ThinkSwitcher: http://arxiv.org/abs/2505.14183

[3] AutoL2S: http://arxiv.org/abs/2505.22662

[4] Self-Braking Tuning: http://arxiv.org/abs/2505.14604

[5] TLDR: http://arxiv.org/abs/2506.02678

[6] Qwen3: https://arxiv.org/abs/2505.09388

[7] Llama-Nemotron: http://arxiv.org/abs/2505.00949

[8] KAT-V1: http://arxiv.org/abs/2507.08297

[9] AutoThink: http://arxiv.org/abs/2505.10832

[10] AdaCoT: http://arxiv.org/abs/2505.11896

[11] AdaptThink: http://arxiv.org/abs/2505.13417

[12] HGPO: http://arxiv.org/abs/2505.14631

回顧Qwen3廢棄的混合推理模式

分享短網址