1. Introducción: Un Nuevo Hito en la Evolución de la IA
¿Recuerdas la escena de finales del año pasado, cuando los principales fabricantes competían por lanzar modelos de IA a gran escala? o1 de OpenAI, Gemini 2.5 de Google, Claude 3.7 de Anthropic... Estos modelos tenían cientos de miles de millones de parámetros, lo cual era asombroso. Pero, ¿alguna vez te has preguntado: ¿es realmente necesario un modelo tan masivo para obtener capacidades de razonamiento excepcionales?
Recientemente, los investigadores han publicado un modelo llamado "AM-Thinking-v1", que, con solo una arquitectura densa de 32B parámetros, logró resultados sorprendentes en tareas de alta dificultad como el razonamiento matemático y la generación de código, superando incluso a modelos de expertos mixtos como DeepSeek-R1 con 671B parámetros y cercanos a Qwen3-235B-A22B. ¿Cuál es el significado de este logro? ¿Y cómo se realizó? Echemos un vistazo.
2. Revelando: El Tamaño Medio También Puede Tener Capacidades de Súper Razonamiento
Si el desarrollo de los modelos de lenguaje grandes es un maratón, la mayoría de las empresas corren en la dirección de "más grande es mejor", mientras que AM-Thinking-v1 ha elegido un camino diferente: buscar la excelencia, no la expansión ciega.
Este modelo obtuvo altas puntuaciones de 85.3 y 74.4 en las pruebas de nivel de competición matemática AIME 2024 y AIME 2025, respectivamente, y logró una puntuación de 70.3 en el benchmark de código LiveCodeBench. ¿Qué significa esto? En pocas palabras, su capacidad para resolver problemas matemáticos complejos y escribir código de alta calidad ha superado a muchos modelos grandes con 10 o incluso 20 veces más parámetros.
Aún más sorprendente es que el equipo de investigación construyó este resultado completamente basado en el modelo base de código abierto Qwen2.5-32B y datos de entrenamiento disponibles públicamente. Esto es como crear un producto que supera con creces las expectativas a partir de las mismas materias primas mediante una artesanía exquisita.
3. Desglose Técnico: Cómo un Proceso de Post-Entrenamiento Cuidadosamente Diseñado Cambia las Reglas del Juego
El éxito de AM-Thinking-v1 no es accidental; proviene del proceso de post-entrenamiento cuidadosamente diseñado por los investigadores. Este proceso incluye principalmente dos etapas clave, y son estas etapas las que permitieron a un modelo base ordinario obtener capacidades de súper razonamiento.
(1) Procesamiento de Datos: Calidad Sobre Cantidad
El equipo de investigación no persiguió ciegamente cantidades masivas de datos, sino que realizó un filtrado y procesamiento estrictos de todos los datos de entrenamiento:
1) Deduplicación estricta: Eliminar muestras de consulta duplicadas
2) Filtrado de calidad: Eliminar datos con URLs o imágenes referenciadas
3) Validación de datos: Especialmente para datos matemáticos, construyeron un pipeline de procesamiento completo, incluyendo filtrado de consultas y validación de respuestas
Para los datos matemáticos, los investigadores incluso usaron DeepSeek-R1 para generar múltiples respuestas y compararlas con las respuestas originales. Cuando se encontraron inconsistencias, consultaron de nuevo el modelo o4-mini para obtener respuestas alternativas. Esta meticulosa validación de datos asegura que el modelo no aprenda de errores, mejorando en gran medida el efecto del entrenamiento.
(2) Entrenamiento en Dos Etapas: La Poderosa Combinación de SFT + RL
El proceso de entrenamiento adoptó un diseño de dos etapas:
Primera Etapa: Ajuste Fino Supervisado (SFT)
1) Usó aproximadamente 2.84 millones de muestras, cubriendo cinco categorías principales: matemáticas, programación, ciencia, seguimiento de instrucciones y conversación general
2) Utilizó una tasa de aprendizaje relativamente alta (8e-5) y un tamaño de lote grande (64)
3) Para datos de diálogo de múltiples turnos, solo se usó la respuesta final que contenía el proceso de razonamiento como objetivo de entrenamiento
Segunda Etapa: Aprendizaje por Refuerzo (RL)
1) Adoptó una selección de consultas consciente de la dificultad, filtrando muestras con una tasa de aprobación de 0 o 1 para asegurar que los datos de entrenamiento fueran suficientemente desafiantes
2) Usó el algoritmo de Optimización de Política Relativa Agrupada (GRPO), sin restricciones KL
3) Generación y programación de la tasa de aprendizaje en dos etapas: La primera etapa limitó la longitud máxima de respuesta a 24K, con una tasa de aprendizaje de 4e-6; la segunda etapa aumentó la longitud máxima de respuesta a 32K y redujo la tasa de aprendizaje a 1e-6
Los investigadores encontraron que usar una tasa de aprendizaje más alta en las etapas iniciales del entrenamiento puede hacer que el modelo converja más rápido, reduciendo significativamente el costo total del entrenamiento. Esto demuestra que una estrategia de entrenamiento cuidadosamente diseñada puede compensar la falta de escala de parámetros.
4. Conclusión
El éxito de AM-Thinking-v1 tiene múltiples implicaciones:
(1) Eficiencia de costos: Comparado con los modelos MoE con cientos de miles de millones de parámetros, los costos de inferencia y despliegue de los modelos densos de 32B son mucho menores, lo que significa que más instituciones y desarrolladores pueden permitirse capacidades de IA de alto nivel
(2) Ventaja de practicidad: Los modelos de tamaño medio son más fáciles de desplegar y ajustar finamente, adecuados para un rango más amplio de escenarios de aplicación
() Innovación de código abierto: Demuestra que la comunidad de código abierto también puede construir modelos de alto rendimiento comparables a los sistemas propietarios, promoviendo la democratización de la tecnología de IA
Cambio en la dirección de investigación: Indica que el progreso en el campo de la IA no depende únicamente del aumento de la escala de parámetros; un diseño de post-entrenamiento meticuloso es igualmente importante
Aunque AM-Thinking-v1 ha logrado resultados impresionantes, todavía tiene algunas limitaciones: falta de soporte para llamadas de función estructuradas y uso de herramientas, ausencia de capacidades de entrada multimodal y alineación de seguridad todavía en etapa preliminar.
Sin embargo, esta investigación sin duda proporciona una nueva dirección para el futuro desarrollo de la IA: a través de un proceso de entrenamiento cuidadosamente diseñado, los modelos de tamaño medio pueden alcanzar o incluso superar el rendimiento de los modelos a gran escala en tareas específicas.
Este cambio de paradigma puede influir en la dirección de desarrollo de toda la industria de la IA, llevando a más investigadores y desarrolladores a considerar: ¿se pueden mejorar las capacidades de la IA a través de métodos más inteligentes, en lugar de simplemente apilar parámetros?
Con la aparición continua de modelos como AM-Thinking-v1, tenemos razones para creer que el futuro de la IA no solo pertenece a los gigantes tecnológicos con recursos informáticos masivos, sino también a los innovadores que pueden utilizar hábilmente recursos limitados para crear valor extraordinario.
Título del Artículo: AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale
Enlace del Artículo: https://arxiv.org/abs/2505.08311
Lecturas Recomendadas
FloE: ¡Hace que los modelos MoE "adelgacen" y aceleren 50 veces!
INTELLECT-2: El primer modelo de IA de inferencia entrenado de forma descentralizada
MiMo: Liberando el Potencial de Razonamiento de los Modelos de Lenguaje - Del Pre-entrenamiento al Post-entrenamiento