Qwen3技術レポートの解説

原文：https://zhuanlan.zhihu.com/p/1905735426339218114

技術レポート：https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

0 Abstruct

Qwen3は、パフォーマンス、効率、多言語機能を向上させるために設計された一連のLLMを含んでいます。

DenseおよびMoEアーキテクチャをカバーし、パラメーターサイズは0.6Bから235Bまであります。

Qwen3の主要なイノベーションは、思考モード（複雑な多段階推論用）と非思考モード（高速で文脈に応じた応答用）を統一されたフレームワークに統合し、ユーザーのクエリまたはチャットテンプレートに基づいて動的にモードを切り替えることができる点です。これにより、チャット最適化モデル（GPT-4oなど）と推論特化モデル（QwQ-32Bなど）を切り替える必要がなくなります。

同時に、Qwen3は思考予算メカニズムを導入しており、推論プロセス中に計算リソースを適応的に割り当てることで、レイテンシとパフォーマンスのバランスを取ることができます。

さらに、フラッグシップモデルの知識を活用することで、パフォーマンスを保証しながら、小規模モデルの構築に必要な計算リソースを大幅に削減しました。

テスト結果は、Qwen3がコード生成、数学的推論、Agentなどの複数のベンチマークでSOTAの結果を達成し、より大規模なMoEモデルやクローズドソースモデルに対して競争力があることを示しています。

以前のQwen2.5と比較して、Qwen3は多言語サポートを29言語から119言語および方言に拡張しました。

1 Introduction

Qwen3の事前学習プロセスでは、約36Tトークンを含む大規模なデータセットが利用されました。

トレーニングデータを効果的に拡張するために、マルチモーダルアプローチを採用しました：Qwen2.5-VLをファインチューニングして、大量のPDFドキュメントからテキストを抽出しました。

また、特定のドメインモデルを使用して合成データを生成しました：Qwen2.5-Mathは数学コンテンツに、Qwen2.5-Coderはコード関連データに使用されました。

事前学習プロセスは3段階の戦略を採用しています：

第1段階では、約30Tトークンでトレーニングを行い、堅固な基礎となる一般的な知識を構築します。

第2段階では、知識集約型データでさらにトレーニングを行い、科学、技術、工学、数学、コードなどの分野での推論能力を強化します。

第3段階では、長文コンテキストデータでトレーニングを行い、最大コンテキスト長を4096から32768に増やします。

後学習も多段階戦略を採用し、思考モードと非思考モードの両方を同時に強化しています：

最初の2段階では、数学およびコードタスクにおけるlong CoTコールドスタートファインチューニングとRLを通じて推論能力を養います。

最後の2段階では、推論パスを持つデータと持たないデータを統合し、統一されたデータセットとしてさらにファインチューニングすることで、モデルがこれら両方のタイプの入力を効果的に処理できるようにします。次に、汎用ドメインRLを適用し、多数の下流タスクでのパフォーマンスを向上させます。

小規模モデルについては、より大規模なモデルのオフポリシーおよびオンポリシー知識転移を活用して小規模モデルの能力を強化する、強から弱への蒸留法を採用しています。より優れた教師モデルからの蒸留は、パフォーマンスと効率の点でRLよりもはるかに優れています。

多様なタスクとドメインをカバーする包括的なベンチマークで、事前学習モデルおよび後学習モデルの評価を行いました。結果は、Qwen3 Base事前学習モデルがSOTAのパフォーマンスを達成したことを示しています。後学習モデル（思考モード、非思考モードのどちらも）は、現在の主要なクローズドソースモデル（o1、o3-miniなど）や大規模MoEモデル（DeepSeek-V3など）との競争において優れたパフォーマンスを示しています。

Qwen3は、プログラミング、数学、Agentタスクで特に優れたパフォーマンスを発揮します。たとえば、Qwen3-235B-A22BはAIME'24で85.7点、AIME'25で81.5点、LiveCodeBench v5で70.7点、CodeForcesで2056点、BFCL v3で70.8点を獲得しました。Qwen3シリーズの他のモデルも、同規模で強力なパフォーマンスを示しています。

さらに、思考トークンの予算を増やすと、さまざまなタスクでモデルのパフォーマンスが継続的に向上することが観察されました。

2 Architecture

Qwen3シリーズには、6つのDenseモデル（0.6B、1.7B、4B、8B、14B、32B）と2つのMoEモデル（Qwen3-30B-A3BおよびQwen3-235B-A22B）が含まれています。

DenseモデルのアーキテクチャはQwen2.5に類似しており、GQA、SwiGLU、RoPE、RMSNorm with pre-normalizationを使用しています。Qwen2のQKV-biasは削除され、安定したトレーニングを確保するためにアテンションメカニズムにQK-Normが導入されました。

MoEモデルはDenseモデルと同じ基本アーキテクチャを共有しています。Qwen2.5-MoEと同様に、きめ細かなエキスパート分割が実現されています。Qwen3 MoEモデルには合計128個のエキスパートがあり、トークンごとに8個のエキスパートがアクティベートされます。Qwen2.5-MoEとは異なり、共有エキスパートは削除されました。グローバルバッチ負荷分散ロスが採用されています。これらのアーキテクチャとトレーニングのイノベーションは、下流タスクのパフォーマンスを大幅に向上させます。

Qwen3モデルはQwenのトークナイザーを使用しており、バイトレベルBPEで、語彙サイズは151669です。

3 Pre-training

3.1 Pre-training Data

Qwen2.5と比較して、トレーニングデータの規模と多様性が大幅に拡大されました。2倍の量の、3倍以上の言語をカバーする事前学習トークンが収集されました。

すべてのQwen3モデルは、119の言語と方言、合計36Tトークンを含むデータでトレーニングされています。

データには、コード、STEM（科学、技術、工学、数学）、推論タスク、書籍、多言語テキスト、合成データなど、複数のドメインにわたる高品質なコンテンツが含まれています。

事前学習コーパスをさらに拡張するために、まずQwen2.5-VLを使用して大量のPDF形式のドキュメントからテキストを識別しました。その後、Qwen2.5を利用して識別されたテキストを洗練し、品質を向上させました。これにより、Tレベルの高品質トークンが得られました。

さらに、Qwen2.5、Qwen2.5-Math、Qwen2.5-Coderを使用して、教科書、Q&A、指示、コードスニペットなど数十のドメインを含む、異なる形式のTレベルのトークンを合成しました。

最後に、コーパスをさらに拡張するために、追加の多言語データが追加されました。

多言語データアノテーションシステムが開発され、大規模事前学習データセットに適用され、教育価値、フィールド、ドメイン、安全性などの複数の次元で30Tトークン以上がアノテーションされました。これらの詳細なアノテーションは、より効果的なデータフィルタリングと組み合わせをサポートします。

以前のデータソースまたはドメインレベルでのデータ組み合わせ最適化の作業とは異なり、きめ細かなラベルが付いた小規模モデルでの広範なアブレーション実験を通じて、インスタンスレベルでデータ組み合わせを最適化しました。

3.2 Pre-training Stage

Qwen3は3段階の事前学習を受けました：

汎用ステージ（S1）：長さ4096、30Tトークン以上でトレーニング。この段階では、モデルは119の言語と方言をカバーするデータで、言語能力と一般的な世界知識を包括的に事前学習しました。

推論ステージ（S2）：STEM、コード、推論、合成データの比率を増やして事前学習コーパスを最適化。約5Tの高品質トークンで、長さ4096で事前学習。この段階では学習率減衰を加速しました。

長文コンテキストステージ（S3）：高品質の長文コンテキストコーパスを収集し、すべてのモデルは長さ32768で数百Bのトークンをトレーニングしました。75%は16384-32768の長さで、25%は4096-16384の長さでした。ABF技術を使用してRoPEの基本周波数を10000から1000000に増加させました。YARNとDCKが導入され、推論プロセス中のシーケンス長容量が4倍に増加しました。

上記の3つの事前学習段階に基づいて、最適なハイパーパラメータ（lrスケジューラーやバッチサイズなど）を予測するためのスケーリング法則が探索されました。大量の実験を通じて、モデルアーキテクチャ、トレーニングデータ、トレーニング段階と最適なハイパーパラメータの関係が体系的に研究されました。最後に、各DenseおよびMoEモデルに予測された最適な学習率戦略とバッチサイズ戦略が設定されました。

3.3 Pre-training Evaluation

15個のベンチマーク：

汎用タスク：MMLU (5-shot)、MMLU-Pro (5-shot, CoT)、MMLU-redux (5-shot)、BBH (3-shot, CoT)、SuperGPQA (5-shot, CoT)

数学＆STEMタスク：GPQA (5-shot, CoT)、GSM8K (4-shot, CoT)、MATH (4-shot, CoT)

コーディングタスク：EvalPlus (0-shot) (HumanEval、MBPP、Humaneval+、MVPP+の平均)、MultiPL-E (0-shot) (Python, C++, JAVA, PHP, TypeScript, C#, Bash, JavaScript)、MBPP-3shot、CRUX-O of CRUXEval (1-shot)

多言語タスク：MGSM (8-shot, CoT)、MMMLU (5-shot)、INCLUDE (5-shot)

Qwen3シリーズBaseモデルをQwen2.5、DeepSeek-V3、Gemma-3、Llama-3、Llama-4と比較しました。すべてのモデルは、公正な比較を確保するために同じ評価プロセスと広く使用されている評価設定を使用しました。

事前学習評価の概要

(1) 以前のオープンソースMoEモデル（DeepSeek-V3 Base、Llama-4-Maverick Base、Qwen2.5-72B-Baseなど）と比較して、Qwen3-235B-A22B-Baseは、総パラメータまたはアクティベートされたパラメータを大幅に削減しながら、ほとんどのタスクでより優れたパフォーマンスを発揮します。

(2) Qwen3 MoE Baseモデルについて、実験結果は以下を示しています

同じ事前学習データで、MoEモデルはアクティベートされたパラメータの1/5を使用するだけで、Qwen3 Denseモデルと同等のパフォーマンスを達成できます。

Qwen3 MoE Baseモデルは、アクティベートされたパラメータの1/2未満と、より少ない総パラメータでQwen2.5 MoE Baseモデルを上回ることができます。

Qwen2.5 Denseモデルのアクティベートされたパラメータの1/10しかなくても、Qwen3 MoE Baseモデルは同等のパフォーマンスを達成できます。

(3) Qwen3 Dense Baseモデルの全体的なパフォーマンスは、より多くのパラメータ規模のQwen2.5 Baseモデルに匹敵します。

4 Post-training

後学習パイプラインは、2つの主要な目標を達成することを目指しています：

思考制御：思考モードと非思考モードの2つの異なるモードを統合し、ユーザーが推論を行うかどうかを柔軟に選択できるようにし、思考のためのトークン予算を指定することで思考の深さを制御できるようにします。

強から弱への蒸留：小規模モデルの後学習プロセスを簡素化および最適化することを目的としています。

教師モデルの出力logitsを直接小規模モデルに蒸留することで、推論プロセスに対するきめ細かな制御を維持しながらパフォーマンスを効果的に向上させることができ、各小規模モデルに対して個別に4段階のトレーニングを行う必要がなくなります。これにより、より優れたPass@1スコアが得られるだけでなく、モデルの探索能力（より優れたPass@64のパフォーマンスに反映されます）も向上します。4段階のトレーニング方法と比較して、必要なGPU時間は1/10だけです。

4.1 Long-CoT Cold Start

まず、データ、コード、論理推論、一般的なSTEM問題など、幅広いカテゴリをカバーする包括的なデータセットを構築します。データセットの各問題は、検証済みの参照解答またはコードベースのテストケースとペアになっています。このデータセットはlong-CoTのコールドスタートに使用されます。

データセット構築には、クエリフィルタリングと応答フィルタリングの2つのフィルタリングプロセスが含まれます。

クエリフィルタリング：Qwen2.5-72B-Instructを使用して、複数のサブ問題を含むクエリや一般的なテキスト生成クエリなど、検証が困難なクエリを特定して削除します。また、Qwen2.5-72B-InstructがCoT推論を使用せずに正しく回答できるクエリは除外されます。さらに、Qwen2.5-72B-Instructを使用して各クエリのドメインをラベリングし、データセットのバランスを取ります。

応答フィルタリング：検証クエリのセットを保持し、その後QwQ-32Bを使用して残りの各クエリに対してN個の候補応答を生成します。QwQ-32Bが一貫して正しい回答を生成できない場合、人間の評価を使用して応答の精度を評価します。肯定的なPass@Nのクエリについては、より厳格なフィルタリング基準が適用されます：（1）誤った最終回答を生成するもの。（2）大量の繰り返しを含むもの。（3）十分な推論を伴わない推測。（4）思考内容と要約内容が矛盾するもの。（5）不適切な言語の混合またはスタイルの変更を含むもの。（6）潜在的な検証セットと過度に類似している疑いのあるもの。

その後、洗練されたデータセットから、推論モードの初期コールドスタートトレーニングに使用するサブセットを注意深く選択し、基本的な推論モードを植え付け、モデルの可能性を制限しないようにすることで、後続のRL段階でより大きな柔軟性と改善の余地を確保します。この段階のデータ量とトレーニングステップは最小限に抑えられます。

4.2 Reasoning RL

推論RL段階で使用されるクエリ-ベリファイアペアは、以下の4つの基準を満たす必要があります：

コールドスタート段階で使用されていないこと

コールドスタートモデルにとって学習可能であること

可能な限り困難であること

幅広いサブドメインをカバーしていること

最終的に、3995個のクエリ-ベリファイアペアが収集され、GRPOを使用してモデルパラメータが更新されました。

大規模なバッチサイズ、大規模なロールアウト、およびオフポリシートレーニングを使用することが、トレーニングプロセスにおけるサンプル効率を向上させるのに有益であることが観察されました。

また、モデルのエントロピーを制御して着実に増加または安定させることで、探索と活用のバランスを取る方法も解決されました。これは安定したトレーニングを維持するために不可欠です。

したがって、単回のRL実行では、ハイパーパラメータに対する手動介入なしで、トレーニング報酬と検証セットパフォーマンスの一貫した向上が達成されました。例えば、Qwen3-235B-A22BのAIME'24スコアは、合計170ステップのRLトレーニング後、70.1から85.1に増加しました。

4.3 Thinking Mode Fusion

思考モード融合の目標は、非思考機能を以前に開発された思考モデルに統合し、開発者が推論動作を管理および制御できるようにすることです。

推論RLモデルはSFTでさらにファインチューニングされ、2つのモードを融合するためのチャットテンプレートが設計されました。そして、これら2つのモードを巧みに処理できるモデルは、異なる思考予算の下で優れたパフォーマンスを発揮することがわかりました。

Construction of SFT Data

SFTデータセットは、思考データと非思考データを組み合わせています。

第2段階のモデルが追加のSFTの影響を受けないように、思考データは第1段階のクエリを第2段階のモデル自体が拒否サンプリングすることで取得されます。

非思考データは、コード、数学、指示追従、多言語タスク、創造的ライティング、Q&A、ロールプレイングなど、多様なタスクをカバーするように慎重に設計されています。自動生成されたチェックリストを使用して、非思考データの品質を評価します。特に、低リソース言語タスクのパフォーマンスを向上させるために、翻訳タスクの割合が増加されました。

Chat Template Design

2つのモードをより良く統合し、動的な切り替えを可能にするために、Qwen3のチャットテンプレートが設計されました。

ユーザーのクエリまたはシステムメッセージに/thinkおよび/no_thinkタグを導入することで、モデルはユーザー入力に基づいて適切な思考モードを選択できます。

非思考サンプルについては、内部形式の一貫性を確保するために、応答に空の思考ブロックが保持されます。

デフォルトは思考モデルであるため、ユーザーのクエリに/thinkタグが含まれていない思考トレーニングサンプルがいくつか追加されました。

より複雑な複数ターン対話については、ユーザーのクエリに複数の/thinkおよび/no_thinkタグがランダムに挿入され、モデルの応答は最後に遭遇したタグに従います。

Thinking Budget

思考モード融合の追加の利点は、モデルが非思考モードと思考モードの両方で応答することを学習すると、不完全な思考に基づいて応答を生成するという中間的な状況を処理する能力を自然に発展させることです。これにより、モデルの思考プロセス予算を制御するための基盤が提供されます。

モデルの思考長がユーザー定義の閾値に達すると、思考プロセスは手動で停止され、思考停止指示が挿入されます：「Considering the limited time by the user, I have to give the solution based on the thinking directly now. </think>. 」。その後、モデルはその時点で蓄積された推論に基づいて最終的な応答を生成します。この機能は明示的にトレーニングされたものではなく、思考モード融合を適用した後に自然に現れたものです。

General RL

汎用RL段階は、さまざまなシナリオでモデルの能力と安定性を広く向上させることを目的としています。

複雑な報酬システムが構築され、20以上の異なるタスクをカバーしており、各タスクにはカスタマイズされた評価基準があります。これらのタスクは、以下の主要な能力の向上をターゲットとしています：

指示追従：モデルがユーザーの指示を正確に解釈および追従できるようにします。これには、コンテンツ、形式、長さ、構造化出力の使用に関する要件が含まれ、ユーザーの期待に沿った応答を提供します。

形式追従：モデルが特定の形式仕様に準拠することを期待します。例えば、/thinkおよび/no-thinkタグに基づいて思考モードと非思考モードを切り替え、最終出力の思考部分と応答部分を区切るために指定されたタグを一貫して使用します。

嗜好アライメント：モデルの有用性、エンゲージメント、スタイルを向上させることに焦点を当て、最終的に、より自然で満足のいくユーザー体験を提供します。

Agent能力：指定されたインターフェースを介してツールを正しく呼び出すようにモデルをトレーニングすることを含みます。RLロールアウト中、モデルは完全な複数ターンインタラクションサイクルを実行し、実際の環境実行からのフィードバックを受け取ることが許可され、これにより長期間の意思決定タスクでのパフォーマンスと安定性が向上します。

シナリオ固有の能力：より専門的なシナリオで特定の状況に対応するタスクを設計します。例えば、RAGタスクでは、報酬信号を組み合わせて、モデルが正確で文脈に沿った応答を生成するようにガイドし、幻覚を生成するリスクを最小限に抑えます。

上記のタスクにフィードバックを提供するために、3つの異なるタイプの報酬が使用されます：

(1) ルールベース報酬：適切に設計されたルールベース報酬は、モデル出力の正確性を高い精度で評価でき、報酬ハッキングなどの問題を防止します。

(2) 参照解答付きモデルベース報酬：各クエリに参照解答を提供し、Qwen2.5-72B-Instructを使用して参照解答に基づいてモデルの応答をスコアリングします。この方法により、厳格な形式コマンドなしで多様なタスクをより柔軟に処理でき、ルールベース報酬の偽陽性を回避できます。

(3) 参照解答なしモデルベース報酬：人間の嗜好データを活用して、各応答にスカラーを提供する報酬モデルをトレーニングします。

4.5 Strong-to-Weak Distillation

5つのDenseモデル（0.6B、1.7B、4B、8B、14B）と1つのMoEモデル（Qwen3-30B-A3B）を含む小規模モデルの最適化に使用されます。2つの主要な段階に分けられます：

(1) オフポリシー蒸留：この初期段階では、/thinkおよび/no_thinkモードでの教師モデルの出力を組み合わせて、応答蒸留を実行します。

(2) オンポリシー蒸留：生徒モデルがオンポリシーデータを生成してファインチューニングします。具体的には、/thinkまたは/no_thinkモードで生徒モデルをサンプリングし、そのlogitsを教師モデル（Qwen3-32BまたはQwen3-235B-A22B）のlogitsとアライメントすることでファインチューニングし、KLダイバージェンスを最小化します。

4.6 Post-training Evaluation

多数の表については元の論文を参照してください。

4.7 Discussion

The Effectiveness of Thinking Budget

Qwen3が増加した思考予算を利用してその知能レベルを向上させることができるかどうかを検証するために、数学、コード、STEM分野の4つのベンチマークで割り当てられた思考予算を調整しました。予算が増加し続けるにつれて、思考モデルはスケーラブルでスムーズなパフォーマンス向上を示しました。

The Effectiveness and Efficiency of On-Policy Distillation

The Effects of Thinking Mode Fusion and General RL

思考モード融合（ステージ3）と汎用RL（ステージ4）の有効性を評価します。いくつかの内部ベンチマークも追加しました。これには以下が含まれます：

CounterFactQA：反事実質問を含み、モデルが質問の反事実性を識別し、幻覚応答を生成しないようにする必要があります。

LengthCtrl：長さ要件付きの創造的ライティングタスクを含み、最終スコアは生成コンテンツ長と目標長の差に基づいています。

ThinkFollow：ランダムに挿入された/thinkおよび/no_thinkタグを含む複数ターン対話を含み、モデルが正しくモードを切り替えられるかをテストします。

ToolUse：シングルターン、複数ターン、複数ステップのツール呼び出しプロセスにおける安定性を評価します。スコアには、ツール呼び出し意図識別の精度、形式精度、パラメータ精度が含まれます。

Qwen3技術レポートの解説

短いURLをシェア