La comunidad MLNLP es una comunidad de aprendizaje automático y procesamiento del lenguaje natural conocida a nivel nacional e internacional, que cubre a estudiantes de maestría y doctorado en PNL, profesores universitarios e investigadores de empresas en el país y en el extranjero.
La visión de la comunidad es promover la comunicación y el progreso entre la comunidad académica, la industria y los entusiastas del procesamiento del lenguaje natural y el aprendizaje automático en el país y en el extranjero, especialmente el progreso de los principiantes.
Fuente | Procesamiento del Lenguaje Natural con Aprendizaje Profundo
Artículo: Parallel Scaling Law for Language ModelsEnlace: https://arxiv.org/pdf/2505.10475
La evolución de los LLMs siempre ha dependido de la "acumulación de parámetros", pero cuanto más grande es el modelo, más obvios son los problemas:
Costos de entrenamiento explosivos: Entrenar un modelo de billones de parámetros requiere decenas de millones de kilovatios-hora de electricidad
Velocidad de inferencia lenta: Generar una frase tarda decenas de segundos
No se puede ejecutar en teléfonos móviles: Los requisitos de VRAM son a menudo de cientos de GB, y los dispositivos ordinarios no pueden desplegarse
El recientemente propuesto "Test Time Scaling" puede mejorar el rendimiento, pero requiere generar cientos de pasos intermedios, lo que lo hace aún más lento. Los investigadores no pueden evitar preguntarse: ¿Existe una forma de escalar que sea a la vez eficiente y que ahorre recursos?
La idea revolucionaria de ParScale: Usar "computación paralela" en lugar de "acumulación de parámetros"
La innovación principal de este artículo radica en permitir que el mismo modelo "piense por separado".
Método tradicional: Un modelo calcula en un "hilo único"
ParScale: Copia la entrada y añade diferentes "prefijos de pensamiento", ejecutando P flujos de cálculo simultáneamente
Fusión dinámica: Utiliza LLM para puntuar automáticamente los diferentes resultados de pensamiento y sintetizar la respuesta final con pesos
Un ejemplo sencillo: Es como permitir que 10 expertos resuelvan el mismo problema al mismo tiempo, y luego seleccionar dinámicamente la mejor solución basándose en su proceso de resolución, en lugar de preguntar a un solo super experto.
Núcleo: Fusión ponderada dinámica
La fórmula clave se esconde en la Proposición 1 del artículo: La pérdida del modelo tiene una relación logarítmica con el número de flujos paralelos P
(N es el número de parámetros, P es el número de flujos paralelos)
Esto significa que:
El efecto de la computación paralela ≈ crecimiento logarítmico del número de parámetros
Abrir 8 flujos paralelos ≈ el efecto de triplicar los parámetros
Pero el costo de hardware adicional real es insignificante
Resultados experimentales: Eficiencia de inferencia aumentada 22 veces
El artículo entrenó 67 modelos en 42B tokens de datos, y la conclusión es asombrosa:
Rendimiento comparable al escalado de parámetros: 1.6B parámetros + 8 flujos paralelos ≈ modelo de 4.4B parámetros
Los costos de inferencia se desplomaron:
Uso de memoria reducido 22 veces
Latencia reducida 6 veces
Razonamiento matemático aumentó 34%: La mejora fue más obvia en tareas complejas como GSM8K
Comparación de memoria/latencia bajo diferentes lotes, la flecha azul para el escalado tradicional, la gris para ParScale
Aún más sorprendente es que los modelos antiguos también pueden ser modificados. Con una pequeña cantidad de ajuste fino de datos, los modelos existentes pueden soportar la computación paralela, lo que se puede llamar el "arte del rejuvenecimiento para modelos antiguos".
Enorme valor de implementación: Incluso los teléfonos móviles pueden ejecutar "LLM"
El escenario de aplicación más subversivo para esta tecnología son los dispositivos de borde:
Los teléfonos móviles/automóviles solo necesitan cargar un modelo pequeño y abrir múltiples flujos paralelos para obtener el rendimiento de un modelo grande
Ajustar dinámicamente el número de flujos paralelos: Abrir 2 flujos al chatear, abrir 8 flujos al resolver problemas matemáticos
Ventaja de coste aplastante: Muestra que su coste integral es solo 1/6 de los métodos tradicionales
En el futuro, nuestro asistente móvil podrá ser tanto un "administrador de vida" como un "profesor de matemáticas", ¡pero sin retrasos!
Imaginando el futuro: La "máquina de movimiento perpetuo de la potencia de cálculo" del modelo
ParScale revela una ley más profunda: La capacidad del modelo no solo está determinada por los parámetros, sino también por el método de cálculo. Esto abre una nueva puerta:
Escalado dinámico: Ajustar el número de flujos paralelos en tiempo real según la dificultad de la tarea
Arquitectura híbrida: MoE + ParScale combinados
Aplicaciones transdisciplinarias: La generación de imágenes, la predicción de proteínas, etc., pueden tomar prestado de esto
Proporción de las contribuciones de los parámetros y la computación paralela a la capacidad del modelo
Quizás la clave de la evolución de la IA en el futuro ya no sea "construir modelos más grandes", sino "usar la potencia de cálculo de forma más inteligente".
¡Este artículo es realmente una obra maestra! ¡Épico! ¡Bien hecho, Qwen~!
Carta de invitación al grupo de intercambio técnico
△Mantén pulsado para añadir asistente
Escanea el código QR para añadir el WeChat del asistente
Por favor, indica: Nombre - Escuela/Empresa - Dirección de investigación
(Ejemplo: Zhang San - Instituto Tecnológico de Harbin - Sistema de Diálogo)
para solicitar unirte a grupos de intercambio técnico de Procesamiento del Lenguaje Natural/Pytorch, etc.
Sobre nosotros
La comunidad MLNLP es una comunidad académica privada establecida conjuntamente por investigadores de aprendizaje automático y procesamiento del lenguaje natural en el país y en el extranjero. Actualmente se ha convertido en una comunidad de aprendizaje automático y procesamiento del lenguaje natural muy conocida en el país y en el extranjero, con el objetivo de promover el progreso de la comunidad académica, la industria y los entusiastas del aprendizaje automático y el procesamiento del lenguaje natural.
La comunidad puede proporcionar una plataforma de intercambio abierta para la formación continua, el empleo y la investigación de los profesionales relacionados. Damos la bienvenida a todos a seguirnos y unirse a nosotros.