Qwen3が廃止した混合推論モードを振り返る

Claude 3.7 Sonnet は、単一モデルが思考なし（non-thinking）と長考推論（Long Reasoning）能力を同時に担う新しいパラダイムを開拓しました。このアプローチの目標は、GPT-4oのようなチャットモデルと、GPT-o1/3/4シリーズのような推論モデルを1つのモデルに統合することです。本稿では、私がこれまでに調査した既存の取り組みを簡潔にまとめます（漏れがあるかもしれません）。CoTの長さを単純に短縮するだけの研究はここには含まれません。

出典 | 知乎

著者 | グレイトング・セクスタント

AdaptThinkの図は、この設定の特殊性を直感的に示しています。単純な問題に対しては、短いCoTではなく、直接CoTなしで対応すべきです。

トレーニングフリー（Training-Free）

ほとんどのトレーニングフリー（Training-Free）手法は、ルーター（Router）の訓練に焦点を当てています。関連する研究として「Self-Route」[1]と「ThinkSwitcher」[2]を見つけましたが、網羅できていない可能性もあります。これらは以前のlong2shortのトレーニングフリー研究と大きな違いがないため、時間の制約上、ここでは詳細な説明は省きます。

ファインチューニングベース（Finetuning-based）

ここでは、Qwen3、Llama-Nemotron、およびKAT-V1という3つのモデルの関連する訓練方法のみを紹介します。その他の純粋なSFT（Supervised Fine-Tuning）手法（例: AutoL2S[3]、Self-Braking Tuning[4]、TLDR[5]）は、CoTの長さを短縮するだけで、推論モデルに「全く思考しない」という選択能力を与えることはできません。SFTとRLの両方を使用する手法は、RLのセクションで紹介します。

Qwen3

Qwen3は、ステージ1と2でLongCoT（長考推論）能力をモデルに付与した後、主にステージ3でSFT（教師ありファインチューニング）を用いて初期の適応的推論能力を実現しました。

具体的な技術的詳細を直接翻訳しましたが、情報密度が高いと感じます。SFTデータセットには、思考データと非思考データが含まれていました。ステージ2で得られたモデルがSFTデータを追加した後も性能が低下しないように、Qwenチームはステージ2モデル自体を用いてステージ1のクエリに対してリジェクションサンプリングを行い、思考データを生成しました。一方、非思考データは慎重に選別され、プログラミング、数学、指示追従、多言語タスク、クリエイティブライティング、Q&A、ロールプレイングなど、多様なタスクタイプを網羅しています。

さらに、Qwenチームは自動生成されたチェックリストを使用して、非思考データの応答品質を評価しました。低リソース言語タスクのパフォーマンスを向上させるため、Qwenチームはデータにおける翻訳タスクの割合を特に増やしました。具体的な思考テンプレートと非思考テンプレートは以下の通りです。

Llama-Nemotron[7]

NVIDIAのNemotronもほぼ同時期に発表されました。彼らは性能向上のために他のモデルを利用したことを隠していません。そのため、モデルのLongCoT能力を事前に訓練するステップをスキップし、直接SFTにDeepSeek-R1の推論出力を混ぜました。具体的な混合比率は以下の通りです。

その後、蒸留のみでは推論能力が不十分であったため、さらにRL（強化学習）が追加されました。

KAT-V1[8]

快手のモデルもデータにはDeepSeek-R1を使用しています。各クエリに対して、think-onモードとthink-offモードでいくつかの回答を生成し、その後多数決によってどちらのモードを使用するかを決定します。think-onにはDeepSeek-R1が、think-offにはDeepSeek-V3が使用されました。さらに、DeepSeek-V3を用いて、投票で選ばれたモードを選択する理由がいくつか生成され、モデルがそれを学習しました。think-onとthink-offの全体的な比率は約2:1です。この後、AutoThinkのRL部分も存在しますが、快手は本文では記述せず、後日別の記事で詳述すると述べています…本文には訓練プロセスの図が掲載されており、参照できます。

RLベース（RL-based）

AutoThink[9]

本論文はまず、非常に興味深い現象を発見しました。思考内容の開始時に省略記号を追加すると、モデルが不安定な挙動を示すことでした。モデルはLongCoTを出力することもあれば、直接思考しないこともあります。これは、長考推論モデルであっても、このようなOOD（分布外）プロンプトの状況下では、思考しない能力を保持していることを示唆しています。

そこで、本論文ではこの能力を強化するために3段階のRLを導入しました。

• 正しい非思考出力により大きな報酬を与えることで、モデルのデュアルモード出力能力を強化し、安定化させる。

• 通常の報酬を用いてモデルの性能を向上させる。ステージ1の訓練が非常に良好であったため、他のトリックを追加しなくても、モデルは「思考のみ」または「非思考のみ」に崩壊することはなかった。

• ステージ2の訓練は依然として過剰な出力をもたらすため、ステージ3では過剰な出力に対して罰則を設けた。

AdaCoT[10]

本論文ではAutoThinkで言及された現象は発見されませんでした。そのため、Qwen3やNemotronと同様に、まずSFTのためにデータを収集し、モデルに基本的な非思考能力を付与してからRL訓練を行いました。ここでは、2つのデータを分けて収集するのではなく、15Bのモデルを直接使用して、クエリが思考なしで直接回答できるほど単純であるかをラベル付けしました。

RLステージの損失は非常に直接的です。

ここで、は基本報酬、は推論を省略すべきかどうかのペナルティ項、は推論が長すぎる場合のペナルティ項、はフォーマットされた出力に対するペナルティ項です。ここではAutoThinkの3つのステップが1つにまとめられています。

もう一つの非常に巧妙な技術は「選択的損失マスキング」（Selective Loss Masking）と呼ばれます。モデルが一方的に推論しない、あるいはすべて推論することを懸念し、著者は<think>タグの直後の最初のトークンを意図的に損失計算から除外しました。これは非常に見事なアイデアです。これにより、モデルはこの段階で思考するかどうかを学び続けることができなくなり、SFTで習得した内容が偏ったり失われたりするのを防ぎます。これは、AutoThinkステージ2が懸念しながらも発生しなかった問題を解決しています。

AdaptThink[11]

本論文の動機を説明する図のいくつかは非常に優れており、本稿冒頭で使用されているティーザー画像も彼らのものです。下図の左側からわかるように、「思考なし」（No Thinking）は効率性の問題だけでなく、最も単純な問題においても正答率が高いことが示されています。

本論文のアプローチは非常に大胆です。「思考なし」（no-thinking）は単に<think>の後に直接</think>が続く形式であるため、SFTで能力を付与する必要はなく、直接以下の式を最適化すればよいとされています。

ラグランジュ乗数といくつかの変換を経て、以下の式を最適化することになります。

また、とは微分不可能であるため、この式の期待値内部部分をアドバンテージ関数（advantage function）とみなし、PPO（Proximal Policy Optimization）を用いて最適化します。

重要度サンプリングの際、元のモデルはSFTを経ておらず、「思考なし」能力がなかったため、著者は50%の確率で強制的にを出力させ、残りの50%の確率で通常通りLongCoTを出力させるように設定しました。

損失（loss）の観点から理解すると、PPOは以下の状況でのみモデルを「思考しない」方向に傾けさせます。が大きいほど、モデルは「思考しない」ように促されます。

HGPO[12]

本論文もまずSFTのためにデータを収集し、モデルに基本的な非思考能力を付与してからRL訓練を行います。これが章のタイトルで述べられているHGPOです。

HGPOのプロセスは以下の通りです。

• 各クエリに対して、思考モード（⊢）と非思考モード（⊬）でそれぞれN/2個の候補回答をサンプリングします。つまり、各クエリでN個の回答が得られます。

• 元の報酬スコアを与えます。明確な答えがある場合はルールベースを使用し、ない場合は報酬モデルLlama-3.1Tulu-3-8B-RMを使用します。

• 報酬割り当て（Reward Assignment）。ここでは、グループ間報酬（inter-group rewards）とグループ内報酬（intra-group rewards）をそれぞれ計算します。グループ間報酬は、同一クエリにおける思考モードと非思考モードのうち、元の報酬スコアが高い方に与えられます。グループ内報酬は、同じ思考モード内で元の報酬スコアが高いクエリに与えられます。

• 優位性推定（Advantage Estimation）。GRPOを使用し、上記の2つの報酬を組み合わせます。ここで興味深いのはグループ間報酬（inter-group rewards）で、これは回答内で思考モードを決定する単語、すなわちthinkとno_thinkにのみ与えられるからです。

著者はまた、この適応的思考能力を評価するための指標として、混合精度（Hybrid Accuracy, HAcc）を提案しました。具体的な方法は、モデルに各クエリに対して思考モードと非思考モードでそれぞれN個の回答をサンプリングさせ、報酬モデルでスコアを付けます。スコアが高い方が優先される推論モードと見なされます。そして、モデル自身が選択したモードと、計算された優先される推論モードとの一致率を観察します。

参考文献

[1] Self-Route: http://arxiv.org/abs/2505.20664

[2] ThinkSwitcher: http://arxiv.org/abs/2505.14183

[3] AutoL2S: http://arxiv.org/abs/2505.22662

[4] Self-Braking Tuning: http://arxiv.org/abs/2505.14604

[5] TLDR: http://arxiv.org/abs/2506.02678

[6] Qwen3: https://arxiv.org/abs/2505.09388

[7] Llama-Nemotron: http://arxiv.org/abs/2505.00949

[8] KAT-V1: http://arxiv.org/abs/2507.08297

[9] AutoThink: http://arxiv.org/abs/2505.10832

[10] AdaCoT: http://arxiv.org/abs/2505.11896

[11] AdaptThink: http://arxiv.org/abs/2505.13417

[12] HGPO: http://arxiv.org/abs/2505.14631

Qwen3が廃止した混合推論モードを振り返る

短いURLをシェア