Interpretation des technischen Berichts zu Qwen3

Original: https://zhuanlan.zhihu.com/p/1905735426339218114

Technischer Bericht: https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

0 Abstrakt

Qwen3 umfasst eine Reihe von LLMs, die darauf abzielen, Leistung, Effizienz und mehrsprachige Fähigkeiten zu verbessern.

Sie decken Dense- und MoE-Architekturen ab, mit Parametergrößen von 0,6B bis 235B.

Eine Schlüsselinnovation von Qwen3 ist die Integration von Thinking Mode (für komplexe mehrstufige Schlussfolgerungen) und Non-Thinking Mode (für schnelle, kontextbezogene Antworten) in ein einheitliches Framework, mit der Fähigkeit, Modi basierend auf Benutzeranfrage oder Chat-Vorlagen dynamisch zu wechseln. Dies eliminiert die Notwendigkeit, zwischen chat-optimierten Modellen (wie GPT-4o) und Modellen speziell für Schlussfolgerungen (wie QwQ-32B) zu wechseln.

Gleichzeitig führt Qwen3 einen Thinking-Budget-Mechanismus ein, der eine adaptive Zuweisung von Rechenressourcen während der Inferenz ermöglicht und so Latenz und Leistung ausbalanciert.

Darüber hinaus wurden durch die Nutzung des Wissens von Flaggschiff-Modellen die für den Aufbau kleiner Modelle erforderlichen Rechenressourcen erheblich reduziert, während die Leistung gewährleistet blieb.

Die Testergebnisse zeigen, dass Qwen3 in mehreren Benchmarks wie Codegenerierung, mathematischer Schlussfolgerung und Agent-Aufgaben SOTA-Ergebnisse erzielt und mit größeren MoE-Modellen und Closed-Source-Modellen konkurrenzfähig ist.

Im Vergleich zur vorherigen Qwen2.5 erweitert Qwen3 die mehrsprachige Unterstützung von 29 auf 119 Sprachen und Dialekte.

1 Einführung

Der Vortrainingsprozess von Qwen3 nutzt einen groß angelegten Datensatz, der etwa 36 Billionen Tokens enthält.

Um die Trainingsdaten effektiv zu erweitern, wurde ein multimodaler Ansatz verfolgt: Feintuning von Qwen2.5-VL zur Extraktion von Text aus einer großen Anzahl von PDF-Dokumenten.

Auch domänenspezifische Modelle wurden zur Erstellung synthetischer Daten verwendet: Qwen2.5-Math für mathematische Inhalte und Qwen2.5-Coder für codebezogene Daten.

Der Vortrainingsprozess verfolgt eine Drei-Phasen-Strategie:

In Phase 1 wird auf etwa 30 Billionen Tokens trainiert, um eine solide Grundlage für allgemeines Wissen aufzubauen.

In Phase 2 wird weiter auf wissensintensiven Daten trainiert, um die Schlussfolgerungsfähigkeiten in Bereichen wie Wissenschaft, Technologie, Ingenieurwesen, Mathematik und Code zu stärken.

In Phase 3 wird auf Langkontextdaten trainiert, wobei die maximale Kontextlänge von 4096 auf 32768 erhöht wird.

Das Nachtraining verfolgt ebenfalls eine mehrstufige Strategie, die Thinking- und Non-Thinking-Modi gleichzeitig verbessert:

Die ersten beiden Phasen kultivieren die Schlussfolgerungsfähigkeit durch Long CoT Cold Start Feintuning und RL bei mathematischen und Code-Aufgaben.

In den letzten beiden Phasen werden Datensätze mit und ohne Schlussfolgerungspfade zusammengeführt, um einen einheitlichen Datensatz für weiteres Feintuning zu bilden, wodurch das Modell beide Eingabetypen effektiv verarbeiten kann. Anschließend wird allgemeines Domänen-RL angewendet, um die Leistung bei zahlreichen nachgelagerten Aufgaben zu verbessern.

Für kleinere Modelle wird eine Strong-to-Weak-Destillationsmethode angewendet, die Off-Policy- und On-Policy-Wissensübertragung von größeren Modellen nutzt, um die Fähigkeiten kleinerer Modelle zu verbessern. Die Destillation von besseren Lehrer-Modellen übertrifft RL in Bezug auf Leistung und Effizienz deutlich.

Vor- und nach trainierte Modelle wurden auf umfassenden Benchmarks evaluiert, die verschiedene Aufgaben und Domänen abdecken. Die Ergebnisse zeigen, dass die Qwen3 Base Vortrainingsmodelle SOTA-Leistung erzielen. Nach trainierte Modelle (sowohl im Thinking- als auch im Non-Thinking-Modus) schneiden im Wettbewerb mit derzeit führenden Closed-Source-Modellen (wie o1, o3-mini) und großen MoE-Modellen (wie DeepSeek-V3) gut ab.

Qwen3 zeigt besonders gute Leistungen bei Programmier-, Mathematik- und Agent-Aufgaben. Zum Beispiel erreichte Qwen3-235B-A22B 85,7 Punkte bei AIME'24, 81,5 Punkte bei AIME'25, 70,7 Punkte bei LiveCodeBench v5, 2056 Punkte bei CodeForces und 70,8 Punkte bei BFCL v3. Auch andere Modelle der Qwen3-Reihe zeigen starke Leistungen in ähnlichen Größenordnungen.

Darüber hinaus wurde beobachtet, dass eine Erhöhung des Budgets für Thinking-Tokens zu einer kontinuierlichen Verbesserung der Modellleistung bei verschiedenen Aufgaben führt.

2 Architektur

Die Qwen3-Reihe umfasst 6 Dense-Modelle (0.6B, 1.7B, 4B, 8B, 14B, 32B) und 2 MoE-Modelle (Qwen3-30B-A3B und Qwen3-235B-A22B).

Bild

Die Architektur der Dense-Modelle ähnelt der von Qwen2.5, einschließlich der Verwendung von GQA, SwiGLU, RoPE, RMSNorm mit Pre-Normalisierung. Der QKV-Bias von Qwen2 wurde entfernt, und QK-Norm wurde in den Aufmerksamkeitsmechanismus eingeführt, um stabiles Training zu gewährleisten.

MoE-Modelle teilen die gleiche Grundarchitektur wie Dense-Modelle. In Übereinstimmung mit Qwen2.5-MoE wurde eine feingranulare Experten-Segmentierung erreicht. Qwen3 MoE-Modelle verfügen über insgesamt 128 Experten, wobei 8 Experten pro Token aktiviert werden. Im Gegensatz zu Qwen2.5-MoE wurden gemeinsame Experten entfernt. Es wird ein Global-Batch-Load-Balancing-Loss verwendet. Diese architektonischen und trainingsspezifischen Innovationen verbessern die Leistung bei nachgelagerten Aufgaben erheblich.

Qwen3-Modelle verwenden den Qwen-Tokenizer, Byte-Level BPE, mit einer Vokabulargröße von 151669.

3 Vortraining

3.1 Vortrainingsdaten

Im Vergleich zu Qwen2.5 wurden Umfang und Vielfalt der Trainingsdaten signifikant erweitert. Es wurden doppelt so viele Vortrainings-Tokens gesammelt, die mehr als dreimal so viele Sprachen abdecken.

Alle Qwen3-Modelle werden auf Daten trainiert, die 119 Sprachen und Dialekte umfassen, insgesamt 36 Billionen Tokens.

Die Daten umfassen hochwertige Inhalte aus verschiedenen Domänen wie Code, MINT (Mathematik, Informatik, Naturwissenschaften, Technik), Schlussfolgerungsaufgaben, Büchern, mehrsprachigem Text und synthetischen Daten.

Um das Vortrainingskorpus weiter zu erweitern, wurde zunächst Qwen2.5-VL verwendet, um Text aus einer großen Anzahl von PDF-Dokumenten zu identifizieren. Anschließend wurde Qwen2.5 eingesetzt, um den identifizierten Text zu verfeinern und die Qualität zu verbessern. Dies ergab hochwertige Tokens auf T-Ebene.

Darüber hinaus wurden Qwen2.5, Qwen2.5-Math und Qwen2.5-Coder verwendet, um Tokens auf T-Ebene in verschiedenen Formaten zu synthetisieren, darunter Lehrbücher, Fragen und Antworten, Anweisungen, Code-Snippets und Dutzende anderer Domänen.

Schließlich wurden zusätzliche mehrsprachige Daten hinzugefügt, um das Korpus weiter zu erweitern.

Ein mehrsprachiges Datenanmerkungssystem wurde entwickelt und auf den groß angelegten Vortrainingsdatensatz angewendet, wobei über 30 Billionen Tokens in mehreren Dimensionen wie Bildungswert, Feldern, Domänen und Sicherheit annotiert wurden. Diese detaillierten Anmerkungen unterstützen eine effektivere Datenfilterung und -kombination.

Im Gegensatz zu früheren Arbeiten zur Optimierung der Datenkombination auf Datenquellen- oder Domänenebene wurde die Datenkombination auf Instanzebene durch umfangreiche Ablationsexperimente an kleinen Modellen mit feingranularen Labels optimiert.

3.2 Vortrainingsphase

Qwen3 durchlief 3 Phasen des Vortrainings:

Allgemeine Phase (S1): 4096 Länge, trainiert auf über 30 Billionen Tokens. In dieser Phase wurde das Modell auf Daten trainiert, die 119 Sprachen und Dialekte umfassen, um Sprachkenntnisse und allgemeines Weltwissen aufzubauen.

Schlussfolgerungsphase (S2): Erhöhte den Anteil von MINT-, Code-, Schlussfolgerungs- und synthetischen Daten, um das Vortrainingskorpus zu optimieren. Trainiert auf etwa 5 Billionen hochwertigen Tokens, 4096 Länge. In dieser Phase wurde die Lernratenabnahme beschleunigt.

Langkontextphase (S3): Es wurde ein hochwertiges Langkontext-Korpus gesammelt, und alle Modelle wurden auf Hunderten von Milliarden Tokens mit einer Länge von 32768 trainiert. 75% hatten eine Länge von 16384-32768 und 25% eine Länge von 4096-16384. Die ABF-Technik wurde verwendet, um die Basisfrequenz von RoPE von 10000 auf 1000000 zu erhöhen. YARN und DCK wurden eingeführt, um eine 4-fache Steigerung der Sequenzlängenkapazität während der Inferenz zu erreichen.

Basierend auf den oben genannten drei Vortrainingsphasen wurden Skalierungsgesetze untersucht, um optimale Hyperparameter (wie lr-Scheduler und Batchsize) vorherzusagen. Die Beziehung zwischen Modellarchitektur, Trainingsdaten, Trainingsphase und optimalen Hyperparametern wurde durch umfangreiche Experimente systematisch untersucht. Schließlich wurden für jedes Dense- und MoE-Modell die vorhergesagten optimalen Lernraten-Strategien und Batchsize-Strategien festgelegt.

3.3 Vortrainings-Evaluierung

15 Benchmarks:

Allgemeine Aufgaben: MMLU (5-shot), MMLU-Pro (5-shot, CoT), MMLU-redux (5-shot), BBH (3-shot, CoT), SuperGPQA (5-shot, CoT)

Mathematik- und MINT-Aufgaben: GPQA (5-shot, CoT), GSM8K (4-shot, CoT), MATH (4-shot, CoT)

Codierungsaufgaben: EvalPlus (0-shot) (Durchschnitt von HumanEval, MBPP, Humaneval+, MVPP+), MultiPL-E (0-shot) (Python, C++, JAVA, PHP, TypeScript, C#, Bash, JavaScript), MBPP-3shot, CRUX-O von CRUXEval (1-shot)

Mehrsprachige Aufgaben: MGSM (8-shot, CoT), MMMLU (5-shot), INCLUDE (5-shot)

Die Qwen3-Serie Basismodelle wurden mit Qwen2.5, DeepSeek-V3, Gemma-3, Llama-3 und Llama-4 verglichen. Alle Modelle verwendeten denselben Evaluierungsprozess und weit verbreitete Evaluierungseinstellungen, um faire Vergleiche zu gewährleisten.

Zusammenfassung der Vortrainings-Evaluierung

(1) Im Vergleich zu früheren Open-Source-MoE-Modellen (wie DeepSeek-V3 Base, Llama-4-Maverick Base, Qwen2.5-72B-Base) schneidet Qwen3-235B-A22B-Base bei den meisten Aufgaben besser ab, bei signifikant reduzierten Gesamt- oder aktivierten Parametern.

(2) Für Qwen3 MoE Basismodelle zeigen experimentelle Ergebnisse, dass

Mit denselben Vortrainingsdaten können MoE-Modelle mit nur 1/5 der aktivierten Parameter eine ähnliche Leistung wie Qwen3 Dense Modelle erzielen.

Qwen3 MoE Basismodelle können Qwen2.5 MoE Basismodelle mit weniger als 1/2 der aktivierten Parameter und weniger Gesamtparametern übertreffen.

Selbst mit nur 1/10 der aktivierten Parameter des Qwen2.5 Dense Modells können Qwen3 MoE Basismodelle vergleichbare Leistungen erzielen.

(3) Die Gesamtleistung der Qwen3 Dense Basismodelle ist vergleichbar mit der von Qwen2.5 Basismodellen mit mehr Parametern.

Bild

4 Nachtraining

Bild

Die Nachtrainings-Pipeline zielt darauf ab, zwei Kernziele zu erreichen:

Thinking Control: Integration von Thinking- und Non-Thinking-Modi, die es Benutzern ermöglichen, flexibel zu wählen, ob das Modell Schlussfolgerungen anstellt, und die Tiefe des Denkens durch die Angabe eines Token-Budgets für das Denken zu steuern.

Strong-to-Weak Distillation: Zielt darauf ab, den Nachtrainingsprozess für kleinere Modelle zu vereinfachen und zu optimieren.

Die direkte Destillation der Ausgabe-Logits des Lehrer-Modells auf kleinere Modelle kann die Leistung effektiv verbessern, während die feingranulare Steuerung des Schlussfolgerungsprozesses erhalten bleibt, wodurch die Notwendigkeit eines separaten 4-Phasen-Trainings für jedes kleinere Modell entfällt. Dies führt zu besseren Pass@1-Ergebnissen und verbessert auch die Explorationsfähigkeiten des Modells (was sich in einer besseren Pass@64-Leistung widerspiegelt). Im Vergleich zur 4-Phasen-Trainingsmethode sind nur 1/10 der GPU-Stunden erforderlich.

4.1 Long-CoT Cold Start

Zuerst wird ein umfassender Datensatz erstellt, der eine breite Palette von Kategorien abdeckt, darunter Daten, Code, logisches Schlussfolgern und allgemeine MINT-Probleme. Jedes Problem im Datensatz wird mit einer verifizierten Referenzantwort oder codebasierten Testfällen gepaart. Dieser Datensatz wird für den Cold Start von Long-CoT verwendet.

Die Datensatzkonstruktion beinhaltet zwei Filterprozesse: Abfragefilterung und Antwortfilterung.

Abfragefilterung: Qwen2.5-72B-Instruct wird verwendet, um schwer zu verifizierende Abfragen zu identifizieren und zu entfernen, einschließlich Abfragen mit mehreren Teilproblemen oder allgemeinen Textgenerierungsabfragen. Darüber hinaus werden Abfragen ausgeschlossen, die Qwen2.5-72B-Instruct ohne Verwendung von CoT-Schlussfolgern korrekt beantworten kann. Ferner wird Qwen2.5-72B-Instruct verwendet, um die Domäne jeder Abfrage zu kennzeichnen, um den Datensatz auszugleichen.

Antwortfilterung: Eine Reihe von Verifizierungsabfragen wird beibehalten, und dann wird QwQ-32B verwendet, um N Kandidatenantworten für jede verbleibende Abfrage zu generieren. Wenn QwQ-32B durchgehend keine korrekte Antwort generieren kann, wird die Genauigkeit der Antwort von Menschen bewertet. Für Abfragen mit positivem Pass@N werden strengere Filterkriterien angewendet: (1) solche, die falsche Endergebnisse liefern. (2) solche, die erhebliche Wiederholungen enthalten. (3) solche mit Vermutungen, denen eine ausreichende Schlussfolgerung fehlt. (4) solche, bei denen Denkinhalt und Zusammenfassungsinhalt inkonsistent sind. (5) solche, die unpassende Sprachmischung oder Stilwechsel beinhalten. (6) solche, die verdächtigt werden, der potenziellen Verifizierungsmenge zu ähnlich zu sein.

Anschließend wird eine Teilmenge aus dem verfeinerten Datensatz sorgfältig ausgewählt, um für das anfängliche Cold Start Training des Reasoning Mode verwendet zu werden, wobei der grundlegende Reasoning Mode implantiert wird, um sicherzustellen, dass das Potenzial des Modells nicht eingeschränkt wird, was in nachfolgenden RL-Phasen mehr Flexibilität und Verbesserungsmöglichkeiten ermöglicht. Die Datenmenge und Trainingsschritte in dieser Phase werden auf ein Minimum reduziert.

4.2 Reasoning RL

Die in der Reasoning RL-Phase verwendeten Abfrage-Verifier-Paare müssen die folgenden vier Kriterien erfüllen:

Nicht in der Cold Start-Phase verwendet worden

Für das Cold Start Modell erlernbar sein

So herausfordernd wie möglich sein

Eine breite Palette von Unterdomänen abdecken

Letztendlich wurden 3995 Abfrage-Verifier-Paare gesammelt, und GRPO wurde verwendet, um Modellparameter zu aktualisieren.

Es wurde beobachtet, dass die Verwendung großer Batchsize, großer Rollouts und Off-Policy-Trainings vorteilhaft ist, um die Sample-Effizienz im Trainingsprozess zu verbessern.

Es wird auch behandelt, wie man die Exploration und Exploitation ausbalancieren kann, indem die Entropie des Modells so gesteuert wird, dass sie stetig zunimmt oder stabil bleibt, was für die Aufrechterhaltung eines stabilen Trainings entscheidend ist.

Daher wurden bei einem einzigen RL-Durchlauf konsistente Verbesserungen der Trainingsbelohnung und der Leistung des Validierungssatzes erzielt, ohne dass manuelle Eingriffe in die Hyperparameter erforderlich waren. Zum Beispiel stieg der AIME'24-Score von Qwen3-235B-A22B nach insgesamt 170 Schritten RL-Training von 70,1 auf 85,1.

4.3 Thinking Mode Fusion

Das Ziel der Thinking Mode Fusion ist es, die Non-Thinking-Fähigkeiten in das zuvor entwickelte Thinking-Modell zu integrieren, wodurch Entwickler das Schlussfolgerungsverhalten verwalten und steuern können.

Das Reasoning RL-Modell wird weiter mit SFT feingetunt, und eine Chat-Vorlage wird entwickelt, um die beiden Modi zu fusionieren. Es wurde festgestellt, dass Modelle, die beide Modi geschickt handhaben können, bei unterschiedlichen Thinking-Budgets gut abschneiden.

Konstruktion von SFT-Daten

Der SFT-Datensatz kombiniert Thinking- und Non-Thinking-Daten.

Um sicherzustellen, dass das Modell der Stufe 2 nicht durch zusätzliches SFT beeinträchtigt wird, werden die Thinking-Daten durch Zurückweisungssampling von Abfragen aus Stufe 1 unter Verwendung des Stufe 2-Modells selbst erhalten.

Die Non-Thinking-Daten sind sorgfältig konzipiert, um vielfältige Aufgaben abzudecken, darunter Code, Mathematik, Befolgen von Anweisungen, mehrsprachige Aufgaben, kreatives Schreiben, Fragen und Antworten, Rollenspiele usw. Automatisierte Checklisten werden verwendet, um die Qualität der Non-Thinking-Daten zu bewerten. Der Anteil der Übersetzungsaufgaben wird besonders erhöht, um die Leistung bei Low-Resource-Sprachaufgaben zu verbessern.

Chat-Vorlagen-Design

Um die beiden Modi besser zu integrieren und dynamisches Umschalten zu ermöglichen, wurde für Qwen3 eine Chat-Vorlage entworfen.

Bild

Die Einführung von /think- und /no_think-Tags in der Benutzerabfrage oder Systemnachricht ermöglicht es dem Modell, den geeigneten Denkmodus basierend auf der Benutzereingabe auszuwählen.

Für Non-Thinking-Samples wird in der Antwort ein leerer Denkblock beibehalten, um die interne Formatkonsistenz zu gewährleisten.

Standardmäßig ist der Thinking-Modus aktiviert, daher wurden einige Thinking-Trainingssamples hinzugefügt, bei denen die Benutzerabfrage keinen /think-Tag enthält.

Für komplexere Konversationen mit mehreren Turns werden in der Benutzerabfrage zufällig mehrere /think- und /no_think-Tags eingefügt, und die Antwort des Modells folgt dem zuletzt angetroffenen Tag.

Thinking Budget

Ein zusätzlicher Vorteil der Thinking Mode Fusion ist, dass das Modell, sobald es gelernt hat, sowohl im Non-Thinking- als auch im Thinking-Modus zu antworten, auf natürliche Weise die Fähigkeit entwickelt, Zwischensituationen zu handhaben – Antworten basierend auf unvollständigem Denken zu generieren. Dies bietet eine Grundlage für die Kontrolle des Budgets des Denkprozesses des Modells.

Wenn die Denklänge des Modells einen vom Benutzer definierten Schwellenwert erreicht, wird der Denkprozess manuell gestoppt und die Stopp-Denken-Anweisung eingefügt: „Considering the limited time by the user, I have to give the solution based on the thinking directly now. </think>. “. Das Modell generiert dann die endgültige Antwort basierend auf der zu diesem Zeitpunkt angesammelten Schlussfolgerung. Diese Fähigkeit wurde nicht explizit trainiert, sondern ergab sich natürlich nach Anwendung der Thinking Mode Fusion.

General RL

Die allgemeine RL-Phase zielt darauf ab, die Fähigkeiten und die Stabilität des Modells in verschiedenen Szenarien umfassend zu verbessern.

Ein komplexes Belohnungssystem wurde aufgebaut, das über 20 verschiedene Aufgaben abdeckt, jede mit maßgeschneiderten Bewertungskriterien. Diese Aufgaben zielen auf die Verbesserung der folgenden Kernfähigkeiten ab:

Befolgung von Anweisungen: Sicherstellen, dass das Modell Benutzeranweisungen genau interpretiert und befolgt, einschließlich Anforderungen bezüglich Inhalt, Format, Länge und Verwendung strukturierter Ausgaben, um Antworten zu liefern, die den Benutzererwartungen entsprechen.

Formatbefolgung: Erwarten, dass das Modell bestimmte Formatvorgaben einhält. Zum Beispiel das Umschalten zwischen Thinking- und Non-Thinking-Modus basierend auf /think- und /no-think-Tags und die konsequente Verwendung spezifizierter Tags zur Trennung der Denk- und Antwortteile in der endgültigen Ausgabe.

Präferenzabgleich: Konzentration auf die Verbesserung der Nützlichkeit, des Engagements und des Stils des Modells, um letztendlich eine natürlichere und zufriedenstellendere Benutzererfahrung zu bieten.

Agenten-Fähigkeit: Beinhaltet das Trainieren des Modells, um Werkzeuge über angegebene Schnittstellen korrekt aufzurufen. Während des RL-Rollouts kann das Modell einen vollständigen Mehr-Turn-Interaktionszyklus ausführen und Feedback von der tatsächlichen Umgebungsausführung erhalten, wodurch seine Leistung und Stabilität bei langfristigen Entscheidungsaufgaben verbessert wird.

Szenariospezifische Fähigkeit: Entwurf von Aufgaben für spezifische Kontexte in spezialisierteren Szenarien. Zum Beispiel bei RAG-Aufgaben werden Belohnungssignale kombiniert, um das Modell dazu anzuleiten, genaue und kontextrelevante Antworten zu generieren, wodurch das Risiko der Generierung von Halluzinationen minimiert wird.

Um für die oben genannten Aufgaben Feedback zu geben, werden drei verschiedene Arten von Belohnungen verwendet:

(1) Regelbasierte Belohnung: Gut konzipierte regelbasierte Belohnungen können die Korrektheit der Modellausgabe mit hoher Genauigkeit bewerten und Probleme wie Reward Hacking verhindern.

(2) Modellbasierte Belohnung mit Referenzantwort: Für jede Abfrage wird eine Referenzantwort bereitgestellt, und Qwen2.5-72B-Instruct wird verwendet, um die Antwort des Modells basierend auf der Referenzantwort zu bewerten. Diese Methode ermöglicht eine flexiblere Handhabung vielfältiger Aufgaben ohne strenge Formatbefehle und vermeidet falsch negative Ergebnisse bei regelbasierten Belohnungen.

(3) Modellbasierte Belohnung ohne Referenzantwort: Nutzung von menschlichen Präferenzdaten zum Trainieren eines Belohnungsmodells, das jeder Antwort einen skalaren Wert zuweist.

4.5 Strong-to-Weak Distillation

Wird zur Optimierung kleinerer Modelle verwendet, darunter 5 Dense-Modelle (0.6B, 1.7B, 4B, 8B, 14B) und 1 MoE-Modell (Qwen3-30B-A3B). Es wird in zwei Hauptphasen unterteilt:

(1) Off-Policy-Destillation: In dieser Anfangsphase werden die Ausgaben des Lehrer-Modells sowohl im /think- als auch im /no_think-Modus für die Antwort-Destillation kombiniert.

(2) On-Policy-Destillation: Das Schülermodell generiert On-Policy-Daten für das Feintuning. Insbesondere wird das Schülermodell im /think- oder /no_think-Modus gesampelt und durch die Angleichung seiner Logits an die Logits des Lehrer-Modells (Qwen3-32B oder Qwen3-235B-A22B) feingetunt, wobei die KL-Divergenz minimiert wird.

4.6 Nachtrainings-Evaluierung

Zahlreiche Tabellen sind im Originalpapier detailliert beschrieben.

Bild

4.7 Diskussion

Die Effektivität des Thinking-Budgets

Um zu überprüfen, ob Qwen3 sein Intelligenzniveau durch die Nutzung eines erhöhten Denkbudgets verbessern kann, wurde das zugewiesene Denkbudget auf vier Benchmarks in den Bereichen Mathematik, Code und MINT angepasst. Mit kontinuierlicher Erhöhung des Budgets zeigte das Denkmodell skalierbare und reibungslose Leistungsverbesserungen.

Bild

Die Effektivität und Effizienz der On-Policy-Destillation

Bild

Die Auswirkungen der Thinking Mode Fusion und General RL

Bewerten Sie die Wirksamkeit von Thinking Mode Fusion (Stufe 3) und General RL (Stufe 4). Es wurden auch mehrere interne Benchmarks einbezogen, wie zum Beispiel:

CounterFactQA: Enthält kontrafaktische Fragen, bei denen das Modell die Kontrafaktualität der Frage identifizieren und die Generierung halluzinatorischer Antworten vermeiden muss.

LengthCtrl: Beinhaltet kreative Schreibaufgaben mit Längenanforderungen, wobei die Endnote auf der Differenz zwischen der generierten Inhaltslänge und der Zieldatenlänge basiert.

ThinkFollow: Beinhaltet mehrstufige Dialoge mit zufällig eingefügten /think- und /no_think-Tags, die die Fähigkeit des Modells testen, Modi korrekt zu wechseln.

ToolUse: Bewertet die Stabilität von Single-Turn-, Multi-Turn- und Multi-Step-Tool-Aufrufen. Die Bewertung umfasst die Genauigkeit der Identifizierung der Tool-Aufruf-Absicht, die Formatgenauigkeit und die Parametergenauigkeit.

Bild

Interpretation des technischen Berichts zu Qwen3

Kurz-URL teilen