Avance de Qwen: Usando "Computación Paralela" en Lugar de "Acumulación de Parámetros", el Nuevo Método Reduce la Memoria en 22x y la Latencia en 6x

La comunidad MLNLP es una comunidad de aprendizaje automático y procesamiento del lenguaje natural conocida a nivel nacional e internacional, que cubre a estudiantes de maestría y doctorado en PNL, profesores universitarios e investigadores de empresas en el país y en el extranjero.

La visión de la comunidad es promover la comunicación y el progreso entre la comunidad académica, la industria y los entusiastas del procesamiento del lenguaje natural y el aprendizaje automático en el país y en el extranjero, especialmente el progreso de los principiantes.

Fuente | Procesamiento del Lenguaje Natural con Aprendizaje Profundo

图片

Artículo: Parallel Scaling Law for Language ModelsEnlace: https://arxiv.org/pdf/2505.10475

La evolución de los LLMs siempre ha dependido de la "acumulación de parámetros", pero cuanto más grande es el modelo, más obvios son los problemas:

Costos de entrenamiento explosivos: Entrenar un modelo de billones de parámetros requiere decenas de millones de kilovatios-hora de electricidad

Velocidad de inferencia lenta: Generar una frase tarda decenas de segundos

No se puede ejecutar en teléfonos móviles: Los requisitos de VRAM son a menudo de cientos de GB, y los dispositivos ordinarios no pueden desplegarse

图片

El recientemente propuesto "Test Time Scaling" puede mejorar el rendimiento, pero requiere generar cientos de pasos intermedios, lo que lo hace aún más lento. Los investigadores no pueden evitar preguntarse: ¿Existe una forma de escalar que sea a la vez eficiente y que ahorre recursos?

La idea revolucionaria de ParScale: Usar "computación paralela" en lugar de "acumulación de parámetros"

La innovación principal de este artículo radica en permitir que el mismo modelo "piense por separado".

Método tradicional: Un modelo calcula en un "hilo único"

ParScale: Copia la entrada y añade diferentes "prefijos de pensamiento", ejecutando P flujos de cálculo simultáneamente

Fusión dinámica: Utiliza LLM para puntuar automáticamente los diferentes resultados de pensamiento y sintetizar la respuesta final con pesos

图片

Un ejemplo sencillo: Es como permitir que 10 expertos resuelvan el mismo problema al mismo tiempo, y luego seleccionar dinámicamente la mejor solución basándose en su proceso de resolución, en lugar de preguntar a un solo super experto.

Núcleo: Fusión ponderada dinámica

La fórmula clave se esconde en la Proposición 1 del artículo: La pérdida del modelo tiene una relación logarítmica con el número de flujos paralelos P

(N es el número de parámetros, P es el número de flujos paralelos)

Esto significa que:

El efecto de la computación paralela ≈ crecimiento logarítmico del número de parámetros

Abrir 8 flujos paralelos ≈ el efecto de triplicar los parámetros

Pero el costo de hardware adicional real es insignificante

图片

图片

Resultados experimentales: Eficiencia de inferencia aumentada 22 veces

El artículo entrenó 67 modelos en 42B tokens de datos, y la conclusión es asombrosa:

Rendimiento comparable al escalado de parámetros: 1.6B parámetros + 8 flujos paralelos ≈ modelo de 4.4B parámetros

Los costos de inferencia se desplomaron:

Uso de memoria reducido 22 veces

Latencia reducida 6 veces

Razonamiento matemático aumentó 34%: La mejora fue más obvia en tareas complejas como GSM8K

Comparación de memoria/latencia bajo diferentes lotes, la flecha azul para el escalado tradicional, la gris para ParScale

Comparación de memoria/latencia bajo diferentes lotes, la flecha azul para el escalado tradicional, la gris para ParScale

Aún más sorprendente es que los modelos antiguos también pueden ser modificados. Con una pequeña cantidad de ajuste fino de datos, los modelos existentes pueden soportar la computación paralela, lo que se puede llamar el "arte del rejuvenecimiento para modelos antiguos".

Enorme valor de implementación: Incluso los teléfonos móviles pueden ejecutar "LLM"

El escenario de aplicación más subversivo para esta tecnología son los dispositivos de borde:

Los teléfonos móviles/automóviles solo necesitan cargar un modelo pequeño y abrir múltiples flujos paralelos para obtener el rendimiento de un modelo grande

Ajustar dinámicamente el número de flujos paralelos: Abrir 2 flujos al chatear, abrir 8 flujos al resolver problemas matemáticos

Ventaja de coste aplastante: Muestra que su coste integral es solo 1/6 de los métodos tradicionales图片

En el futuro, nuestro asistente móvil podrá ser tanto un "administrador de vida" como un "profesor de matemáticas", ¡pero sin retrasos!

Imaginando el futuro: La "máquina de movimiento perpetuo de la potencia de cálculo" del modelo

ParScale revela una ley más profunda: La capacidad del modelo no solo está determinada por los parámetros, sino también por el método de cálculo. Esto abre una nueva puerta:

Escalado dinámico: Ajustar el número de flujos paralelos en tiempo real según la dificultad de la tarea

Arquitectura híbrida: MoE + ParScale combinados

Aplicaciones transdisciplinarias: La generación de imágenes, la predicción de proteínas, etc., pueden tomar prestado de esto

Proporción de las contribuciones de los parámetros y la computación paralela a la capacidad del modelo

Proporción de las contribuciones de los parámetros y la computación paralela a la capacidad del modelo

Quizás la clave de la evolución de la IA en el futuro ya no sea "construir modelos más grandes", sino "usar la potencia de cálculo de forma más inteligente".

¡Este artículo es realmente una obra maestra! ¡Épico! ¡Bien hecho, Qwen~!

Carta de invitación al grupo de intercambio técnico

图片

△Mantén pulsado para añadir asistente

Escanea el código QR para añadir el WeChat del asistente

Por favor, indica: Nombre - Escuela/Empresa - Dirección de investigación

(Ejemplo: Zhang San - Instituto Tecnológico de Harbin - Sistema de Diálogo)

para solicitar unirte a grupos de intercambio técnico de Procesamiento del Lenguaje Natural/Pytorch, etc.

Sobre nosotros

La comunidad MLNLP es una comunidad académica privada establecida conjuntamente por investigadores de aprendizaje automático y procesamiento del lenguaje natural en el país y en el extranjero. Actualmente se ha convertido en una comunidad de aprendizaje automático y procesamiento del lenguaje natural muy conocida en el país y en el extranjero, con el objetivo de promover el progreso de la comunidad académica, la industria y los entusiastas del aprendizaje automático y el procesamiento del lenguaje natural.

La comunidad puede proporcionar una plataforma de intercambio abierta para la formación continua, el empleo y la investigación de los profesionales relacionados. Damos la bienvenida a todos a seguirnos y unirse a nosotros.

图片

Etiqueta Principal:Modelos de Lenguaje Grandes

Etiquetas Secundarias:Computación ParalelaInvestigación en IAIA en el BordeOptimización de Inferencia


Anterior:Implementación de Código Abierto del Algoritmo de Auto-Descubrimiento de Google AlphaEvolve: OpenAplha_Evolve

Siguiente:Por qué es poco probable que tengamos Inteligencia Artificial General pronto

Compartir URL Corta