Interpretación del Informe Técnico de Qwen3

Original: https://zhuanlan.zhihu.com/p/1905735426339218114

Informe Técnico: https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

0 Resumen

Qwen3 incluye una serie de LLMs diseñados para mejorar el rendimiento, la eficiencia y las capacidades multilingües.

Cubre arquitecturas Dense y MoE, con tamaños de parámetros que van desde 0.6B hasta 235B.

Una innovación clave de Qwen3 es la integración del modo de pensamiento (para razonamiento complejo de múltiples pasos) y el modo no pensante (para respuestas rápidas y basadas en el contexto) en un marco unificado, con la capacidad de cambiar dinámicamente entre modos según la consulta del usuario o las plantillas de chat. Esto elimina la necesidad de cambiar entre modelos optimizados para chat (como GPT-4o) y modelos dedicados al razonamiento (como QwQ-32B).

Al mismo tiempo, Qwen3 introduce un mecanismo de presupuesto de pensamiento que permite la asignación adaptativa de recursos computacionales durante la inferencia, equilibrando la latencia y el rendimiento.

Además, al aprovechar el conocimiento de los modelos insignia, se reducen significativamente los recursos computacionales necesarios para construir modelos pequeños, al tiempo que se garantiza el rendimiento.

Los resultados de las pruebas muestran que Qwen3 logra resultados SOTA en múltiples benchmarks como generación de código, razonamiento matemático y tareas de Agente, demostrando competitividad frente a modelos MoE más grandes y modelos de código cerrado.

En comparación con Qwen2.5 anterior, Qwen3 amplía el soporte multilingüe de 29 a 119 idiomas y dialectos.

1 Introducción

El proceso de pre-entrenamiento de Qwen3 utiliza un conjunto de datos a gran escala que contiene aproximadamente 36T tokens.

Para expandir eficazmente los datos de entrenamiento, se adoptó un enfoque multimodal: ajuste fino de Qwen2.5-VL para extraer texto de una gran cantidad de documentos PDF.

También se utilizaron modelos específicos de dominio para producir datos sintéticos: Qwen2.5-Math para contenido matemático y Qwen2.5-Coder para datos relacionados con código.

El proceso de pre-entrenamiento adopta una estrategia de tres etapas:

En la primera etapa, se entrena con aproximadamente 30T tokens para construir una base sólida de conocimiento general.

En la segunda etapa, se entrena adicionalmente con datos intensivos en conocimiento para mejorar las capacidades de razonamiento en áreas como ciencia, tecnología, ingeniería, matemáticas y código.

En la tercera etapa, se entrena con datos de contexto largo, aumentando la longitud máxima del contexto de 4096 a 32768.

El post-entrenamiento también adopta una estrategia de múltiples etapas, mejorando simultáneamente los modos pensante y no pensante:

Las dos primeras etapas cultivan la capacidad de razonamiento mediante el ajuste fino de inicio en frío long CoT y RL en tareas matemáticas y de código.

Las dos últimas etapas combinan conjuntos de datos con y sin rutas de razonamiento, formando un conjunto de datos unificado para un ajuste fino adicional, lo que permite que el modelo maneje eficazmente ambos tipos de entrada. Luego se aplica RL de dominio general para mejorar el rendimiento en una gran cantidad de tareas descendentes.

Para modelos pequeños, se utiliza un método de destilación de fuerte a débil, aprovechando la transferencia de conocimiento off-policy y on-policy de modelos más grandes para mejorar las capacidades de los modelos pequeños. La destilación de modelos docentes mejores supera significativamente a RL en términos de rendimiento y eficiencia.

Los modelos pre-entrenados y post-entrenados se evaluaron en benchmarks completos que cubren diversas tareas y dominios. Los resultados muestran que los modelos pre-entrenados Qwen3 Base logran un rendimiento SOTA. Los modelos post-entrenados (tanto en modo pensante como no pensante) se desempeñan bien en competencia con los modelos de código cerrado actualmente líderes (como o1, o3-mini) y modelos MoE grandes (como DeepSeek-V3).

Qwen3 destaca particularmente en tareas de programación, matemáticas y Agente. Por ejemplo, Qwen3-235B-A22B obtuvo 85.7 en AIME'24, 81.5 en AIME'25, 70.7 en LiveCodeBench v5, 2056 en CodeForces y 70.8 en BFCL v3. Otros modelos de la serie Qwen3 también muestran un rendimiento sólido a escalas similares.

Además, se observó que aumentar el presupuesto de tokens de pensamiento conduce a una mejora continua en el rendimiento del modelo en diversas tareas.

2 Arquitectura

La serie Qwen3 incluye 6 modelos Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) y 2 modelos MoE (Qwen3-30B-A3B y Qwen3-235B-A22B).

imagen

La arquitectura del modelo Dense es similar a Qwen2.5, incluido el uso de GQA, SwiGLU, RoPE, RMSNorm con pre-normalización. Se eliminó el QKV-bias de Qwen2 y se introdujo QK-Norm en el mecanismo de atención para garantizar un entrenamiento estable.

Los modelos MoE comparten la misma arquitectura básica que los modelos Dense. De acuerdo con Qwen2.5-MoE, se logró una segmentación de expertos de grano fino. Los modelos Qwen3 MoE tienen un total de 128 expertos, con 8 expertos activados por token. A diferencia de Qwen2.5-MoE, se eliminaron los expertos compartidos. Se utiliza la pérdida de equilibrio de carga global-batch. Estas innovaciones arquitectónicas y de entrenamiento mejoran significativamente el rendimiento en tareas descendentes.

Los modelos Qwen3 utilizan el tokenizador de Qwen, BPE a nivel de byte, con un tamaño de vocabulario de 151669.

3 Pre-entrenamiento

3.1 Datos de Pre-entrenamiento

En comparación con Qwen2.5, la escala y diversidad de los datos de entrenamiento se expandieron significativamente. Se recolectó el doble de tokens de pre-entrenamiento, cubriendo más de tres veces el número de idiomas.

Todos los modelos Qwen3 se entrenan con datos que contienen 119 idiomas y dialectos, totalizando 36T tokens.

Los datos incluyen contenido de alta calidad, que abarca múltiples dominios como código, STEM (Ciencia, Tecnología, Ingeniería, Matemáticas), tareas de razonamiento, libros, texto multilingüe y datos sintéticos.

Para expandir aún más el corpus de pre-entrenamiento, primero se usó Qwen2.5-VL para identificar texto de una gran cantidad de documentos PDF. Luego, se utilizó Qwen2.5 para refinar el texto identificado, mejorando la calidad. Esto arrojó tokens de alta calidad de nivel T.

Además, se usaron Qwen2.5, Qwen2.5-Math y Qwen2.5-Coder para sintetizar tokens de nivel T en diferentes formatos, incluidos libros de texto, preguntas y respuestas, instrucciones, fragmentos de código y docenas de otros dominios.

Finalmente, se agregaron datos multilingües adicionales para expandir aún más el corpus.

Se desarrolló un sistema de anotación de datos multilingüe, que se aplicó al conjunto de datos de pre-entrenamiento a gran escala, anotando más de 30T tokens en múltiples dimensiones, como valor educativo, campos, dominios y seguridad. Estas anotaciones detalladas respaldan una filtración y combinación de datos más efectiva.

A diferencia de trabajos anteriores sobre la optimización de la combinación de datos a nivel de fuente de datos o dominio, a través de extensos experimentos de ablación en modelos pequeños con etiquetas de grano fino, se optimizó la combinación de datos a nivel de instancia.

3.2 Etapa de Pre-entrenamiento

Qwen3 pasó por 3 etapas de pre-entrenamiento:

Etapa General (S1): Longitud 4096, entrenada con más de 30T tokens. En esta etapa, el modelo fue pre-entrenado de manera integral en datos que cubren 119 idiomas y dialectos para construir fluidez lingüística y conocimiento general del mundo.

Etapa de Razonamiento (S2): Aumentó la proporción de datos STEM, código, razonamiento y sintéticos para optimizar el corpus de pre-entrenamiento. Pre-entrenado con aproximadamente 5T tokens de alta calidad, longitud 4096. La disminución de la tasa de aprendizaje se aceleró en esta etapa.

Etapa de Contexto Largo (S3): Se recopiló un corpus de contexto largo de alta calidad, y todos los modelos se entrenaron con cientos de miles de millones de tokens con una longitud de 32768. El 75% tenía una longitud de 16384-32768 y el 25% tenía una longitud de 4096-16384. Se utilizó la técnica ABF para aumentar la frecuencia base de RoPE de 10000 a 1000000. Se introdujeron YARN y DCK para lograr un aumento de 4 veces en la capacidad de longitud de secuencia durante la inferencia.

Basado en las tres etapas de pre-entrenamiento anteriores, se exploraron leyes de escala para predecir hiperparámetros óptimos (como el programador de lr y el tamaño del lote). La relación entre la arquitectura del modelo, los datos de entrenamiento, la etapa de entrenamiento y los hiperparámetros óptimos se estudió sistemáticamente a través de extensos experimentos. Finalmente, se establecieron las estrategias predichas de tasa de aprendizaje óptima y tamaño de lote para cada modelo Dense y MoE.

3.3 Evaluación del Pre-entrenamiento

15 benchmarks:

Tareas Generales: MMLU (5-shot), MMLU-Pro (5-shot, CoT), MMLU-redux (5-shot), BBH (3-shot, CoT), SuperGPQA (5-shot, CoT)

Tareas Matemáticas y STEM: GPQA (5-shot, CoT), GSM8K (4-shot, CoT), MATH (4-shot, CoT)

Tareas de Codificación: EvalPlus (0-shot) (Promedio de HumanEval, MBPP, Humaneval+, MVPP+), MultiPL-E (0-shot) (Python, C++, JAVA, PHP, TypeScript, C#, Bash, JavaScript), MBPP-3shot, CRUX-O de CRUXEval (1-shot)

Tareas Multilingües: MGSM (8-shot, CoT), MMMLU (5-shot), INCLUDE (5-shot)

Se compararon los modelos Base de la serie Qwen3 con Qwen2.5, DeepSeek-V3, Gemma-3, Llama-3 y Llama-4. Todos los modelos utilizaron el mismo proceso de evaluación y configuraciones de evaluación ampliamente utilizadas para garantizar una comparación justa.

Resumen de la evaluación del pre-entrenamiento

(1) En comparación con modelos MoE de código abierto anteriores (como DeepSeek-V3 Base, Llama-4-Maverick Base, Qwen2.5-72B-Base), Qwen3-235B-A22B-Base se desempeña mejor en la mayoría de las tareas con parámetros totales o activados significativamente reducidos.

(2) Para los modelos Qwen3 MoE Base, los resultados experimentales muestran que

Con los mismos datos de pre-entrenamiento, los modelos MoE pueden lograr un rendimiento similar al de los modelos Qwen3 Dense utilizando solo 1/5 de los parámetros activados.

Los modelos Qwen3 MoE Base pueden superar a los modelos Qwen2.5 MoE Base con menos de 1/2 de los parámetros activados y menos parámetros totales.

Incluso con solo 1/10 de los parámetros activados del modelo Qwen2.5 Dense, los modelos Qwen3 MoE Base pueden lograr un rendimiento comparable.

(3) El rendimiento general de los modelos Qwen3 Dense Base es comparable al de los modelos Qwen2.5 Base con más parámetros.

imagen

4 Post-entrenamiento

imagen

El pipeline de post-entrenamiento tiene como objetivo lograr dos objetivos principales:

Control del Pensamiento: Integrar modos pensantes y no pensantes, permitiendo a los usuarios elegir de forma flexible si el modelo realiza razonamiento y controlar la profundidad del pensamiento especificando un presupuesto de tokens para pensar.

Destilación de Fuerte a Débil: Tiene como objetivo simplificar y optimizar el proceso de post-entrenamiento para modelos pequeños.

Destilar directamente los logits de salida del modelo docente a modelos pequeños puede mejorar eficazmente el rendimiento manteniendo un control detallado sobre el proceso de razonamiento, eliminando la necesidad de un entrenamiento separado en 4 etapas para cada modelo pequeño. Esto resulta en mejores puntuaciones Pass@1 y también mejora las capacidades de exploración del modelo (reflejado en un mejor rendimiento Pass@64). En comparación con el método de entrenamiento de 4 etapas, requiere solo 1/10 de las horas de GPU.

4.1 Inicio en Frío Long-CoT

Primero, se construye un conjunto de datos completo que cubre una amplia gama de categorías, incluidos datos, código, razonamiento lógico y problemas generales de STEM. Cada problema en el conjunto de datos se empareja con una respuesta de referencia verificada o casos de prueba basados en código. Este conjunto de datos se utiliza para el inicio en frío de long-CoT.

La construcción del conjunto de datos implica dos procesos de filtrado: filtrado de consultas y filtrado de respuestas.

Filtrado de consultas: Se utiliza Qwen2.5-72B-Instruct para identificar y eliminar consultas difíciles de verificar, incluidas consultas con múltiples subproblemas o consultas de generación de texto general. Además, se excluyen las consultas que Qwen2.5-72B-Instruct puede responder correctamente sin usar razonamiento CoT. Además, se utiliza Qwen2.5-72B-Instruct para etiquetar el dominio de cada consulta y equilibrar el conjunto de datos.

Filtrado de respuestas: Se retiene un conjunto de consultas de verificación, y luego se utiliza QwQ-32B para generar N respuestas candidatas para cada consulta restante. Cuando QwQ-32B consistentemente no logra generar la respuesta correcta, se utiliza la evaluación humana para evaluar la precisión de la respuesta. Para las consultas con Pass@N positivo, se aplican criterios de filtrado más estrictos: (1) aquellas que producen respuestas finales incorrectas. (2) aquellas que contienen repetición significativa. (3) aquellas con conjeturas que carecen de razonamiento suficiente. (4) aquellas donde el contenido de pensamiento y el contenido resumido son inconsistentes. (5) aquellas que implican una mezcla inapropiada de idiomas o cambios de estilo. (6) aquellas sospechosas de ser demasiado similares al posible conjunto de verificación.

Luego, se selecciona cuidadosamente un subconjunto del conjunto de datos refinado para el entrenamiento de inicio en frío inicial del modo de razonamiento, implantando el modo de razonamiento básico para garantizar que el potencial del modelo no esté limitado, permitiendo una mayor flexibilidad y mejora en las etapas posteriores de RL. La cantidad de datos y los pasos de entrenamiento en esta etapa se mantienen al mínimo.

4.2 RL de Razonamiento

Los pares de consulta-verificador utilizados en la etapa de RL de razonamiento deben satisfacer los siguientes cuatro criterios:

No se utilizó en la etapa de inicio en frío

Es aprendible por el modelo de inicio en frío

Tan desafiante como sea posible

Cubre una amplia gama de subdominios

Finalmente, se recopilaron 3995 pares de consulta-verificador, y se utilizó GRPO para actualizar los parámetros del modelo.

Se observó que el uso de un tamaño de lote grande, un despliegue grande y un entrenamiento fuera de política (off-policy) es beneficioso para mejorar la eficiencia de la muestra en el proceso de entrenamiento.

También aborda cómo equilibrar la exploración y la explotación controlando la entropía del modelo para que aumente o se mantenga estable, lo cual es crucial para mantener un entrenamiento estable.

Por lo tanto, en una sola ejecución de RL, se lograron mejoras consistentes en la recompensa de entrenamiento y el rendimiento del conjunto de validación sin ninguna intervención manual en los hiperparámetros. Por ejemplo, la puntuación AIME'24 de Qwen3-235B-A22B aumentó de 70.1 a 85.1 después de un total de 170 pasos de entrenamiento RL.

4.3 Fusión de Modos de Pensamiento

El objetivo de la Fusión de Modos de Pensamiento es integrar capacidades no pensantes en el modelo pensante previamente desarrollado, permitiendo a los desarrolladores gestionar y controlar el comportamiento de razonamiento.

El modelo de RL de Razonamiento se ajusta aún más con SFT, y se diseña una plantilla de chat para fusionar los dos modos. Se encontró que los modelos capaces de manejar ambos modos hábilmente se desempeñan bien con diferentes presupuestos de pensamiento.

Construcción de Datos SFT

El conjunto de datos SFT combina datos pensantes y no pensantes.

Para garantizar que el modelo de la Etapa 2 no se vea afectado por SFT adicional, los datos pensantes se obtienen mediante muestreo por rechazo de consultas de la Etapa 1 utilizando el propio modelo de la Etapa 2.

Los datos no pensantes se diseñan cuidadosamente para cubrir diversas tareas, incluido código, matemáticas, seguimiento de instrucciones, tareas multilingües, escritura creativa, preguntas y respuestas, juegos de rol, etc. Se utilizan listas de verificación automatizadas para evaluar la calidad de los datos no pensantes. La proporción de tareas de traducción se aumenta particularmente para mejorar el rendimiento en tareas de idiomas de bajos recursos.

Diseño de Plantilla de Chat

Para integrar mejor los dos modos y permitir el cambio dinámico, se diseñó una plantilla de chat para Qwen3.

imagen

La introducción de etiquetas /think y /no_think en la consulta del usuario o el mensaje del sistema permite que el modelo seleccione el modo de pensamiento apropiado según la entrada del usuario.

Para muestras no pensantes, se mantiene un bloque de pensamiento vacío en la respuesta para garantizar la coherencia del formato interno.

El modo predeterminado es el modo pensante, por lo que se agregaron algunas muestras de entrenamiento pensantes donde la consulta del usuario no contiene la etiqueta /think.

Para conversaciones de varios turnos más complejas, se insertan aleatoriamente múltiples etiquetas /think y /no_think en la consulta del usuario, y la respuesta del modelo sigue la última etiqueta encontrada.

Presupuesto de Pensamiento

Una ventaja adicional de la Fusión de Modos de Pensamiento es que una vez que el modelo aprende a responder en modos no pensantes y pensantes, naturalmente desarrolla la capacidad de manejar situaciones intermedias: generar respuestas basadas en pensamiento incompleto. Esto proporciona una base para controlar el presupuesto del proceso de pensamiento del modelo.

Cuando la longitud del pensamiento del modelo alcanza un umbral definido por el usuario, el proceso de pensamiento se detiene manualmente y se inserta la instrucción de detener el pensamiento: “Considering the limited time by the user, I have to give the solution based on the thinking directly now. </think>. “. Luego, el modelo generará la respuesta final basada en el razonamiento acumulado hasta ese momento. Esta capacidad no fue entrenada explícitamente sino que surgió naturalmente después de aplicar la fusión de modos de pensamiento.

RL General

La etapa de RL General tiene como objetivo mejorar ampliamente las capacidades y la estabilidad del modelo en varios escenarios.

Se construyó un complejo sistema de recompensas, que cubre más de 20 tareas diferentes, cada una con criterios de puntuación personalizados. Estas tareas apuntan a la mejora de las siguientes capacidades principales:

Seguimiento de Instrucciones: Asegurar que el modelo interprete y siga con precisión las instrucciones del usuario, incluidos los requisitos relacionados con el contenido, el formato, la longitud y el uso de salida estructurada, para proporcionar respuestas que cumplan con las expectativas del usuario.

Seguimiento de Formato: Esperar que el modelo cumpla con especificaciones de formato específicas. Por ejemplo, cambiar entre modos pensantes y no pensantes según las etiquetas /think y /no-think, y usar consistentemente etiquetas especificadas para separar las partes de pensamiento y respuesta en la salida final.

Alineación de Preferencias: Centrarse en mejorar la utilidad, el compromiso y el estilo del modelo, proporcionando en última instancia una experiencia de usuario más natural y satisfactoria.

Capacidad de Agente: Implica entrenar al modelo para llamar herramientas correctamente a través de interfaces especificadas. Durante el despliegue de RL, el modelo puede ejecutar un ciclo de interacción completo de varios turnos y recibir retroalimentación de la ejecución del entorno real, mejorando así su rendimiento y estabilidad en tareas de toma de decisiones a largo plazo.

Capacidad Específica de Escenario: Diseñar tareas para contextos específicos en escenarios más especializados. Por ejemplo, en tareas RAG, las señales de recompensa se combinan para guiar al modelo a generar respuestas precisas y contextualmente relevantes, minimizando así el riesgo de generar alucinaciones.

Para proporcionar retroalimentación para las tareas anteriores, se utilizan tres tipos diferentes de recompensas:

(1) Recompensa Basada en Reglas: Las recompensas basadas en reglas bien diseñadas pueden evaluar la corrección de la salida del modelo con alta precisión, evitando problemas como el

Interpretación del Informe Técnico de Qwen3

Compartir URL Corta