Las largas cadenas de pensamiento dotan a los modelos grandes de capacidad de razonamiento, pero pensar en exceso puede convertirse en una carga.
Huawei, junto con el Instituto de Ingeniería de la Información de la Academia China de Ciencias, ha propuesto un nuevo mecanismo que permite a los modelos grandes terminar el pensamiento temprano para evitar este problema.
Utilizando este método, la precisión y la eficiencia de los modelos grandes pueden mejorarse simultáneamente sin entrenamiento adicional.
src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIpjicokns9wxhevX5LORMhgKibSI5OKYMdkz2iaZFibe0RciawQKKeZQpqhw/640" alt="图片">
Este método se llama DEER, abreviatura de Dynamic Early Exit in Reasoning.
Su núcleo reside en encontrar el punto crítico antes de que la calidad de la información de razonamiento decline e interrumpir rápidamente el razonamiento del modelo grande en este punto.
Los resultados en múltiples puntos de referencia de razonamiento muestran que DEER es consistentemente efectivo en los LLM de razonamiento de la serie DeepSeek, reduciendo la longitud de generación de la cadena de pensamiento en un promedio del 31% al 43% mientras aumenta la precisión en un 1.7% al 5.7%.
Hasta la fecha, se ha verificado que DEER es continuamente efectivo en más modelos de razonamiento como QwQ, Qwen3 y Nemotron, y en 11 conjuntos de evaluación.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIBevnibyT7nJzepw8lUp4wJtpuooCQicwT64s0kKlkvU7wYVjCooibmZsg/640" alt="图片">
El punto crítico para detener el razonamiento requiere planificación dinámica.
Intuitivamente, a medida que aumenta el número de rutas de razonamiento en la cadena de pensamiento, hay más información disponible para generar conclusiones.
Si se puede identificar el punto crítico donde la información de razonamiento se vuelve justo suficiente (llamado Razonamiento Perla, Pearl Reasoning), y se fuerza al modelo a dejar de pensar más allá y a emitir la conclusión directamente en este punto, se pueden lograr la precisión y la eficiencia simultáneamente.
La clave de esta investigación es encontrar tal perla durante la generación de largas cadenas de pensamiento.
Para verificar esta motivación, los autores forzaron al modelo a cambiar del pensamiento a la generación directa de la respuesta en los puntos de transición de cada ruta de razonamiento. Si la respuesta resultante era correcta, se verificó la existencia de este Razonamiento Perla.
Como se muestra en la figura siguiente, aproximadamente el 75% de las muestras contienen efectivamente tal perla (es decir, la salida temprana aún puede generar la respuesta correcta), e incluso el 36.7% de las muestras pueden obtener la respuesta correcta con menos de la mitad de las rutas de razonamiento originales.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI8tEsGQOIJicgHwoWXK9niaEIefqn1LozPNmeOpYMKY6SoYRLI2TUhmicg/640" alt="图片">
Por lo tanto, cómo encontrar el Razonamiento Perla a partir de una larga cadena de pensamiento es un tema de investigación de gran potencial y valor para lograr un razonamiento eficiente.
Con este fin, los autores analizaron en detalle el problema del pensamiento excesivo existente en los modelos de razonamiento en experimentos preliminares y exploraron el impacto de la salida temprana estática en el rendimiento del modelo. Todos los experimentos se realizaron en DeepSeek-R1-Ditil-Qwen-14B.
Los autores primero permitieron que el modelo realizara un razonamiento completo en el conjunto de prueba (incluyendo la cadena de pensamiento y la conclusión entre las etiquetas think antes y después), luego mantuvieron la cadena de pensamiento completa y la dividieron en bloques de pensamiento basados en los puntos de transición del pensamiento (como la aparición de palabras como “wait” o “alternatively”).
Para estas muestras, los autores mantuvieron diferentes proporciones (20%-90%) de bloques de pensamiento y añadieron un separador de marcador de fin de pensamiento en cada punto de truncamiento para forzar el proceso de la cadena de pensamiento a terminar y generar la conclusión final.
Los resultados cuantitativos muestran que bajo la configuración estática de salida temprana utilizando solo el 20% de los pasos de razonamiento, para MATH-500, el 60.8% de las muestras respondidas correctamente aún permanecieron correctas;
Para el GPQA más difícil, el 35.1% de las muestras aún pudieron permanecer correctas.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIDCK4QyLdxsicAicm7j2H8aNGTcgwJTOUFys5SHiaYoUVFc6CcFC3m4nTA/640" alt="图片">
La figura siguiente ilustra las diferentes proporciones de respuestas incorrectas que pueden corregirse saliendo temprano en diferentes posiciones.
Para el conjunto de datos MATH, la tasa más alta de corrección de errores se logra al salir al 40% de los pasos de razonamiento; mientras que para el conjunto de datos GPQA, la mejor tasa de corrección de errores se logra al salir al 50% de los pasos de razonamiento.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIkUe86Jfg2g0GnVS4g0lMP10Nyp1ozl9libdf6qrzTibGzibyt0icsRIhMQ/640" alt="图片">
Parece que el punto óptimo de salida temprana para cada problema es diferente y está estrechamente relacionado con la dificultad inherente del problema en sí.
Por lo tanto, depender de estrategias estáticas de salida temprana basadas en heurísticas fijas es subóptimo. Basado en esta motivación, los autores diseñaron un mecanismo de salida temprana dinámica para corregir aún más los errores y mejorar la precisión al encontrar el Razonamiento Perla, al tiempo que se reduce la longitud generada.
Entonces, ¿cómo funciona específicamente DEER?
Tres pasos para determinar el momento de salir del razonamiento.
DEER considera los momentos críticos en que el modelo cambia su cadena de pensamiento durante el razonamiento como oportunidades para la salida temprana, lo que lleva al modelo grande a dejar de pensar en estos momentos y generar respuestas tentativas.
La confianza de cada respuesta de prueba sirve como referencia para la decisión de salida temprana en el razonamiento.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI0YHtmjU1lJpyaHPFfxH1q1gkj7vVjhiaVLjohYDYmic09MBicD0BzJ3qg/640" alt="图片">
Específicamente, el método DEER incluye tres acciones: Monitor de Transición de Razonamiento (Reasoning Transition Monitor), Inductor de Respuesta de Prueba (Trial Answer Inducer) y Evaluación de Confianza (Confidence Evaluation).
El Monitor de Transición de Razonamiento se inspira en la técnica de budget force, identificando palabras como “wait” y “alternatively” como puntos críticos para la transición del pensamiento y monitoreando su aparición.
Cuando aparece un punto de transición del pensamiento, se desencadena la acción del Inductor de Respuesta de Prueba: los autores reemplazan “wait” con un marcador similar a “Final Answer:” para inducir al modelo a generar inmediatamente una respuesta de verificación.
Esto se utilizará para la tercera acción, Evaluación de Confianza—
Si la confianza es lo suficientemente alta, el modelo se configura para detenerse y no seguir pensando, y generar la conclusión directamente basándose en la cadena de pensamiento ya generada;
De lo contrario, la acción de inducción de respuesta se retira y el razonamiento continúa por la ruta original.
La figura siguiente muestra que la confianza de la respuesta de verificación en DEER puede efectivamente reflejar si la cadena de pensamiento ya generada es suficiente para respaldar que el modelo grande genere la respuesta final.
Se puede observar que cuando el proceso de razonamiento del modelo es incompleto o defectuoso, la respuesta de prueba a menudo muestra una confianza significativamente menor; por el contrario, cuando el razonamiento es completo y lógicamente sólido, la respuesta generada por el modelo tiene una confianza mayor.
src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnInVhicutrfGydRUmNic6HwGVHCMr3hD6XAULfumviagJjBr5sSeQMyMA0g/640" alt="图片">
Intuitivamente, el cálculo de la inducción de respuesta y la evaluación de confianza en DEER introduce latencia adicional durante el proceso de razonamiento, especialmente para tareas de generación de código donde las respuestas de prueba aún son muy largas, lo que reduce las ganancias de eficiencia obtenidas al acortar la secuencia de la cadena de pensamiento.
Para abordar este problema, los autores propusieron una estrategia de aceleración en paralelo de ramas (branch-parallel acceleration) para resolver aún más estas limitaciones de eficiencia:
Múltiples ramas se linealizan en una única secuencia y se generan en paralelo utilizando una Máscara de Atención Causal especializada;
La gestión dinámica de caché KV se logra mediante la poda basada en la confianza. Esta estrategia permite la superposición temporal entre el Inductor de Respuesta de Prueba y la Evaluación de Confianza y la generación en curso de la cadena de razonamiento, optimizando así la eficiencia general del razonamiento.
src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI8FAG9IWgEe5PDUsHx48ibTgIhlT6pibp8AYMlSSD6grWtjaFX8MFM3dQ/640" alt="图片">
Además, se incluirá más discusión sobre la latencia de extremo a extremo en la próxima versión.
Haciendo los modelos de razonamiento más rápidos y potentes.
Para verificar el rendimiento de DEER, los autores realizaron evaluaciones en 6 puntos de referencia de razonamiento desafiantes, que incluyen 3 tareas de razonamiento matemático (MATH-500, AMC 2023, AIME 2024), una tarea de razonamiento científico (GPQA Diamond) y dos tareas de generación de código (HumanEval, BigCodeBench).
Se seleccionaron la precisión y la longitud de generación como métricas de evaluación, midiendo la precisión y la eficiencia, respectivamente. Los experimentos utilizaron modelos de la serie DeepSeek-R1-Distill-Qwen de diferentes tamaños (1.5B, 7B, 14B, 32B).
Los resultados experimentales muestran que DEER demuestra efectos sorprendentes en todos los tamaños de modelo y conjuntos de evaluación.
Numéricamente, DEER mejora la precisión en un promedio de 1.7 a 5.7 puntos en comparación con el método convencional Long CoT, mientras que reduce la longitud de generación en un 31% a 43%.
En modelos más pequeños, DEER muestra mejoras más significativas para los dos puntos de referencia ligeramente menos difíciles, MATH-500 y AMC 2023.
En modelos más grandes, DEER muestra mejoras más significativas para los dos puntos de referencia más desafiantes, AIME 2024 y GPQA.
Especialmente cuando la capacidad de razonamiento del modelo coincide con la dificultad del problema, el método de los autores es más efectivo.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnITBOh7mYzKPlDqSnR3ARWxwcdCcgK1qChSicQEic23cTZgyNKk2TtpdTA/640" alt="图片">
En los dos conjuntos de prueba de programación, HumanEval y BigCodeBench, el método de los autores logró una reducción promedio del 64.9% en la longitud de generación, mientras que pass@1 aumentó en 2.1 puntos, y mostró robustez a umbrales alrededor de 0.95, sin fluctuaciones significativas.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIibnRro8LRItuSaicSNbp9Suz03g0icbw0HTkibicibfKjjlITCwGmTES66aA/640" alt="图片">
Para verificar aún más la mejora en la eficiencia de razonamiento de extremo a extremo por DEER, los autores probaron la latencia de inferencia promedio por muestra en los conjuntos de datos MATH y AMC basándose en transformers de huggingface.
Los resultados muestran que incluso sin usar la aceleración de decodificación en paralelo de ramas propuesta por los autores, DEER ya redujo la latencia de inferencia en un 43.4% a 47.3%.
Después de adoptar la decodificación en paralelo de ramas, la relación de disminución de la latencia de inferencia mostró una relación superlineal con la relación de disminución de la longitud de la secuencia.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnItBUpmmxeMF3aA5kc2ia8YpJnYy38micc3ibsheyE70dUUkibVFDsiasSXZQ/640" alt="图片">
Los autores también demostraron aún más la efectividad de DEER mediante el análisis de muestras.
El modelo de razonamiento original tiende a cambiar de ideas y explorar múltiples métodos de solución al resolver problemas, sin embargo, es muy probable que solo haya un camino de solución óptimo, y en pensamientos posteriores, el modelo cometerá errores y no obtendrá la respuesta correcta.
Para verificar cuál de los dos resultados diferentes es correcto, el modelo realizará una auto-verificación interminable, fallando finalmente en proporcionar una respuesta.
Sin embargo, bajo el modo de trabajo de DEER, este problema se evita eficazmente.
src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIZolAUia7aIuycqUpuZqL3SMIuH2sR1j5YSicdSwpzTibDv9ibG8RsXvqvg/640" alt="图片">
Dirección del artículo: https://arxiv.org/abs/2504.15895Enlace del proyecto: https://github.com/iie-ycx/DEER