De la intuición al "pensamiento profundo": Evolución multidimensional de la capacidad de razonamiento de los modelos grandes

(Tiempo de lectura de este artículo: 15 minutos)

Nota del editor: Aunque las capacidades de la inteligencia artificial han aumentado rápidamente en los últimos años, todavía existen deficiencias en tareas de razonamiento complejas. Investigadores de Microsoft Research Asia han estado estudiando esto desde múltiples ángulos, explorando continuamente nuevas vías para mejorar las capacidades de razonamiento de los modelos grandes. Desde rStar-Math, que utiliza la búsqueda en árbol Monte Carlo para simular el proceso de "pensamiento profundo" humano, hasta Logic-RL, un método de aprendizaje por refuerzo basado en reglas; desde LIPS, que fusiona la intuición matemática de los modelos de lenguaje grandes con métodos simbólicos, hasta un nuevo marco para mejorar la precisión de la formalización automática; y un marco neuro-simbólico para generar automáticamente datos matemáticos supervisados de alta calidad, así como la propuesta del marco de razonamiento unificado CoR y el aprendizaje de pasos clave de planificación CPL – cada estudio proporciona una nueva perspectiva y método para mejorar las capacidades de razonamiento de los modelos grandes.

El rápido desarrollo de la inteligencia artificial le ha permitido mostrar capacidades potentes en numerosos campos, al mismo tiempo que ha generado constantemente expectativas más altas, esperando que la inteligencia artificial pueda poseer pensamiento profundo y capacidad de razonamiento para ayudar a los humanos a resolver diversos problemas complejos de la vida real que "queman el cerebro".

Para mejorar la capacidad de razonamiento de los modelos grandes, los investigadores de Microsoft Research Asia están llevando a cabo investigaciones en tres direcciones: primero, mejorando la capacidad de razonamiento mediante la mejora del modelo en sí, permitiendo que modelos de menor escala también tengan un rendimiento de razonamiento potente; segundo, aprendiendo profundamente las reglas del razonamiento matemático para mejorar la fiabilidad de los modelos de lenguaje grandes; y tercero, mejorando la capacidad de generalización del razonamiento, permitiendo que el modelo se aplique de forma flexible en tareas de diversos dominios, promoviendo así el progreso de la inteligencia artificial general.

Imagen

Liberando el potencial de los modelos de lenguaje grandes: una capacidad de razonamiento más potente en modelos pequeños

"Aunque los modelos grandes entrenados con conocimiento del mundo poseen reservas masivas de conocimiento, los modelos existentes no han explotado plenamente todo su potencial inherente. Además, los modelos existentes carecen de la capacidad de aprendizaje continuo, lo que contrasta marcadamente con la capacidad humana de aprender constantemente nuevos conocimientos y llenar vacíos cognitivos", dice la Dra. Lihong Zhang, Investigadora Principal de Microsoft Research Asia. Una capacidad de razonamiento excepcional a menudo depende del soporte de modelos a gran escala; por lo tanto, algunos investigadores también están explorando cómo se pueden lograr capacidades de razonamiento similares en modelos de menor escala.

Bajo el modo de razonamiento tradicional, los modelos grandes a menudo utilizan un razonamiento simple y directo "intuitivo" para generar respuestas al enfrentar problemas complejos. Aunque este método es rápido, es muy propenso a errores. En contraste, los humanos analizan los problemas paso a paso, prueban múltiples enfoques, sopesan los pros y los contras y luego dan una respuesta. Dado esto, los investigadores propusieron rStar-Math, cuyo núcleo es el uso de la búsqueda en árbol Monte Carlo (MCTS) para simular el proceso de "pensamiento profundo" humano, permitiendo que los modelos de lenguaje pequeños alcancen un nivel superior en cuanto a capacidad de razonamiento.

rStar-Math logra la auto-evolución a través de tres pasos: Primero, descomponer problemas matemáticos complejos en múltiples pasos de razonamiento, permitiendo que el modelo explore y verifique gradualmente la contribución de cada paso, asegurando que la trayectoria de razonamiento generada por el modelo pequeño consista en pasos intermedios correctos y de alta calidad; segundo, entrenar un modelo pequeño como un Modelo de Preferencia de Proceso (PPM) para predecir de manera fiable etiquetas de recompensa para cada paso de razonamiento matemático, logrando así el modelado de recompensa de proceso deseado y una anotación fiable; finalmente, a través de un esquema de auto-evolución de cuatro rondas, construir gradualmente modelos de política de vanguardia y PPMs desde cero, usando en cada ronda los modelos de política y PPMs más recientes para la búsqueda en árbol Monte Carlo, evolucionando progresivamente y entrenando modelos de política y PPMs más fuertes.

Los experimentos muestran que rStar-Math valida su efectividad en cuatro modelos de lenguaje pequeños (1.5 mil millones - 7 mil millones de parámetros). En el Examen de Matemáticas por Invitación Americano (AIME), rStar-Math resolvió en promedio el 53.3% (8/15) de los problemas, clasificándose entre el 20% superior de los estudiantes de matemáticas de secundaria más excelentes.

rStar-Math: Small LLMs can master math reasoning with self-evolved deep thinking

Enlace al artículo:

https://arxiv.org/pdf/2501.04519

Imagen

Figura 1: Diagrama esquemático de rStar-Math

Los investigadores también propusieron el método de aprendizaje por refuerzo basado en reglas, Logic-RL, que mejora la capacidad de razonamiento del modelo en problemas lógicos complejos mediante la síntesis de rompecabezas lógicos como datos de entrenamiento. Logic-RL introduce un mensaje de sistema práctico y una función de recompensa de formato estricta para evitar que el modelo de razonamiento tome atajos. Por ejemplo, al generar respuestas, el modelo debe organizar el proceso de razonamiento y la respuesta de acuerdo con un formato específico, y solo cuando el proceso de razonamiento y la respuesta cumplen los requisitos, puede recibir una recompensa más alta, garantizando así la completitud y precisión del proceso de razonamiento.

Después de ser entrenado con Logic-RL, el modelo no solo tuvo un rendimiento excelente en rompecabezas lógicos, sino que también demostró una fuerte capacidad de generalización en las pruebas de referencia de competiciones matemáticas para modelos pequeños de 7 mil millones de parámetros (como AIME y AMC), mejorando la precisión en un 125% y un 38% respectivamente.

Logic-RL: Unleashing LLM reasoning with rule-based reinforcement learning

Enlace al artículo:

https://arxiv.org/pdf/2502.14768

Imagen

Fortaleciendo la Capacidad de Razonamiento Matemático – Razonamiento Más Fiable

Las matemáticas, como piedra angular de la ciencia, poseen una lógica rigurosa y una alta precisión. Para la inteligencia artificial, resolver problemas de razonamiento matemático mejorará enormemente las capacidades de razonamiento de la IA y promoverá la amplia aplicación de modelos en diversos campos. Sin embargo, confiar únicamente en la capacidad de procesamiento del lenguaje natural de los modelos grandes a menudo no cumple con los estrictos estándares requeridos para el razonamiento matemático. Para abordar esto, los investigadores están utilizando métodos de investigación formales y simbólicos para ayudar a los modelos a aprender métodos y herramientas matemáticas humanas existentes, dominar las reglas matemáticas y mejorar la eficiencia y precisión del razonamiento.

"El lenguaje natural es el lenguaje humano, no el lenguaje nativo de las computadoras o los modelos grandes, que no pueden entender directamente el lenguaje natural. Esperamos convertir la salida de los modelos de lenguaje grandes en formato de código y mapearla a axiomas, como '1+1=2', que son verdades autoevidentes, verificando así la corrección de la salida del modelo. Esto es similar a cómo los humanos convierten lo que escuchan en su propia comprensión al comunicarse, mientras que nosotros lo convertimos en herramientas que las computadoras pueden entender a través de un proceso de formalización", dice el Dr. Xian Zhang, Investigador Senior de Microsoft Research Asia.

El lenguaje matemático abarca teoremas matemáticos, pruebas de desigualdades, etc., que son significativamente diferentes del sistema de lenguaje de los modelos de lenguaje grandes. Para que los modelos grandes comprendan problemas matemáticos, primero es necesario convertir los problemas matemáticos a formato de código mediante métodos formales y simbólicos, y luego mapearlos a axiomas comprensibles por computadora. Basado en esto, los investigadores diseñaron el probador de desigualdades de razonamiento simbólico basado en LLM (LIPS). Integra de manera creativa la intuición matemática de los modelos grandes con los conocimientos específicos del dominio codificados por métodos simbólicos para determinar qué partes del razonamiento matemático son más adecuadas para los modelos grandes y cuáles se manejan mejor con métodos simbólicos.

Al analizar cómo los humanos resuelven este tipo de problemas, LIPS extrae dos estrategias: una es el escalado (scaling), manejado por métodos simbólicos; la otra es la reescritura (rewriting), manejada por modelos grandes. Después de evaluar LIPS en 161 desigualdades desafiantes de múltiples competiciones matemáticas, los resultados muestran que LIPS demostró un rendimiento de vanguardia y superó significativamente a los modelos grandes y métodos simbólicos existentes sin requerir datos de entrenamiento adicionales.

Proving Olympiad inequalities by synergizing LLMs and symbolic reasoning

Enlace al artículo:

https://openreview.net/pdf?id=FiyS0ecSm0

Imagen

Figura 2: Probador de desigualdades de razonamiento simbólico LIPS

Aunque los métodos formales han demostrado un gran potencial para los modelos grandes en diversas tareas de razonamiento matemático, la tasa de éxito de los modelos grandes en la formalización automática de declaraciones de datos sigue siendo baja. Específicamente, en la formalización automática de modelos grandes, existe una diferencia significativa entre la tasa de un pase (el primer resultado generado es correcto) y la tasa de k pases (uno de los mejores k resultados generados es correcto).

Para reducir esta brecha, los investigadores introdujeron un nuevo marco que establece la autoconsistencia para la formalización automática desde dos dimensiones innovadoras y complementarias: equivalencia simbólica y consistencia semántica. La equivalencia simbólica extiende las comparaciones tradicionales (como las respuestas finales y el comportamiento de ejecución) para verificar la equivalencia lógica entre los candidatos de formalización automática. La consistencia semántica corrige las diferencias inesperadas de razonamiento que la equivalencia simbólica podría pasar por alto midiendo la similitud de incrustación entre los resultados re-no formalizados (traducidos inversamente) y las declaraciones originales en lenguaje natural. Este método asegura que el proceso de formalización automática preserve el significado previsto y la coherencia de las declaraciones originales. Experimentos en los conjuntos de datos MATH y miniF2F mostraron que este método mejoró enormemente la precisión de la formalización automática, logrando una mejora relativa de hasta 0.22-1.35 veces en varios modelos de lenguaje grandes y métodos de referencia.

Autoformalizing mathematical statements by symbolic equivalence and semantic consistency

Enlace al artículo:

https://openreview.net/pdf?id=8ihVBYpMV4

Imagen

Figura 3: Marco de formalización automática

Además, los investigadores consideran que la extrema escasez de conjuntos de datos matemáticos de alta calidad es también un factor clave que limita la mejora de las capacidades de razonamiento matemático de los modelos de lenguaje grandes. Para superar este desafío, los investigadores propusieron un marco neuro-simbólico para generar automáticamente datos matemáticos supervisados y de alta calidad. Este paradigma combina las fortalezas de los enfoques neuronales y simbólicos. Por un lado, genera diversos problemas matemáticos mediante muestreo sistemático en el espacio simbólico y utiliza solucionadores simbólicos para garantizar la validez de los problemas; por otro lado, los modelos grandes pueden soportar eficazmente la conversión del espacio simbólico al espacio de lenguaje natural, asegurando que los problemas formalizados generados recientemente permanezcan consistentes con sus versiones correspondientes en lenguaje natural.

Neuro-symbolic data generation for math reasoning

Enlace al artículo:

https://openreview.net/pdf?id=CIcMZGLyZW

Imagen

Figura 4: Marco neuro-simbólico

Imagen

Mejorando la Capacidad de Generalización del Razonamiento en Modelos de Lenguaje Grandes – Razonamiento Más Utilizable

La capacidad de generalización del razonamiento es un indicador importante de si la inteligencia artificial posee realmente universalidad. Los modelos con una fuerte capacidad de generalización pueden cruzar las fronteras del conocimiento de diferentes campos y "inferir otros casos a partir de uno", ampliando así el ámbito de aplicación y el valor de la inteligencia artificial. Los investigadores han descubierto que, después de entrenar modelos con datos matemáticos, su capacidad de razonamiento mejora significativamente en múltiples campos como la ciencia y el código. Este hallazgo proporciona una nueva dirección para mejorar la capacidad de generalización del razonamiento de los modelos grandes.

Al integrar tres paradigmas de razonamiento—lenguaje natural, código y lenguaje simbólico—en la misma trayectoria de razonamiento, los investigadores propusieron el marco de razonamiento unificado CoR (Chain-of-Reasoning). En él, el lenguaje natural ayuda a comprender el contexto y los requisitos del problema, el lenguaje de código es bueno para el cálculo preciso y el procesamiento lógico, y el lenguaje simbólico puede expresar relaciones matemáticas y lógicas de manera concisa y rigurosa. CoR permite que el modelo primero razone basándose en un paradigma, luego cambie de paradigma de manera flexible según las diferentes etapas y necesidades del problema, y continúe el razonamiento colaborativo con múltiples paradigmas basándose en el contenido generado previamente, logrando la generalización del razonamiento en tareas matemáticas generales.

Además, al ajustar los mensajes (prompt), el modelo puede cambiar la profundidad del razonamiento y el número de paradigmas utilizados, mejorando enormemente su adaptabilidad a diferentes tareas. En las pruebas realizadas en 5 conjuntos de datos de razonamiento matemático, CoR logró mejoras significativas, demostrando una sorprendente capacidad general de resolución de problemas matemáticos: puede resolver tanto problemas de cálculo matemático como problemas de demostración matemática.

Chain-of-Reasoning: Towards unified mathematical reasoning in LLMs via a multi-paradigm perspective

Enlace al artículo:

https://arxiv.org/pdf/2501.11110

Imagen

Figura 5: Proceso de razonamiento bajo diferentes paradigmas

Además, los modelos grandes existentes se centran principalmente en mejorar las capacidades de razonamiento para tareas o dominios específicos (como matemáticas o programación) y no han abordado plenamente el problema de la capacidad de generalización en diversas tareas de razonamiento. Para mejorar la capacidad de generalización en tareas de razonamiento, los investigadores sugieren buscar dentro del espacio de acción de planes abstractos de alto nivel, en lugar de limitarse a los espacios de acción específicos de tareas que generalmente restringen la generalización.

Al analizar investigaciones previas que utilizaron modelos grandes para generar planes de razonamiento y soluciones de tareas específicas para mejorar la capacidad de razonamiento, los investigadores encontraron que las soluciones de tareas específicas están estrechamente relacionadas con las habilidades de tareas específicas. En contraste, los planes representan un pensamiento abstracto para resolver problemas, como decidir qué conocimiento aplicar o cómo descomponer un problema, lo que ayuda al modelo a desarrollar capacidades más amplias e independientes de la tarea, mejorando así la capacidad de generalización.

La Dra. Xueting Han, Investigadora Principal de Microsoft Research Asia, afirma: "Los humanos tienen algunas estrategias comunes al pensar en la resolución de problemas. Por ejemplo, descomponer problemas complejos en subproblemas, extraer partes clave de información abundante y recordar y recuperar conocimiento existente basado en información específica, como teoremas en matemáticas o algoritmos en programación. Al aprender estas estrategias de resolución de problemas, al encontrarse con nuevos problemas, los modelos grandes también formarán un proceso de pensamiento similar al de la resolución de problemas humanos, resolviendo así los problemas de manera más efectiva".

Basado en esto, los investigadores propusieron el método de Aprendizaje de Pasos Críticos de Planificación (CPL - Critical Plan Step Learning), que consta de dos componentes clave: búsqueda basada en planes y aprendizaje de pasos críticos de plan a través de la Optimización de Preferencia de Ventaja a Nivel de Paso (Step-APO). La búsqueda basada en planes utiliza la búsqueda en árbol Monte Carlo para explorar diferentes pasos de plan en tareas de razonamiento de varios pasos. Al crear un árbol de plan, ayuda al modelo a adquirir habilidades independientes de la tarea, mejorando la capacidad de generalización del modelo en diferentes tareas. Step-APO integra las estimaciones de ventaja de los pares de preferencia a nivel de paso obtenidos mediante la búsqueda en árbol Monte Carlo, lo que permite al modelo aprender preferencias finas entre pasos, identificar pasos críticos de plan y debilitar la influencia de los pasos incorrectos, mejorando así la capacidad de razonamiento general del modelo y mejorando su capacidad de generalización en diferentes tareas.

CPL: Critical plan step learning boosts LLM generalization in reasoning tasks

Enlace al artículo:

https://arxiv.org/pdf/2409.08642

Imagen

Figura 6: Diagrama esquemático de CPL

Imagen

Ampliando Continuamente los Límites de la Capacidad de Razonamiento y Abordando los Desafíos de los Modelos Grandes

Desde el razonamiento matemático hasta la mejora de la capacidad de generalización del razonamiento de los modelos, desde respuestas rápidas intuitivas hasta respuestas derivadas de un pensamiento profundo, los investigadores de Microsoft Research Asia continúan explorando los límites del rendimiento del razonamiento de los modelos grandes. Al introducir nuevas perspectivas y métodos, no solo han impulsado la vanguardia de este campo, sino que también han impulsado que más investigaciones relacionadas logren nuevos avances. Con la mejora del rendimiento y la fiabilidad de los modelos de lenguaje grandes, el ámbito de aplicación de la inteligencia artificial en escenarios del mundo real también se está expandiendo continuamente, proporcionando un fuerte soporte técnico para campos como la educación inteligente, la atención médica inteligente y la investigación científica inteligente.

Sin embargo, también debemos reconocer que los modelos grandes actuales aún enfrentan numerosos desafíos, como los problemas de alucinación al generar contenido y los procesos de razonamiento insuficientemente rigurosos. Estos problemas pueden tener consecuencias graves en escenarios de aplicación específicos. Por ejemplo, en la investigación científica, las desviaciones en el razonamiento del modelo pueden llevar a direcciones de investigación incorrectas, causando un desperdicio significativo de recursos; en el campo de la atención médica, la información inexacta puede poner directamente en peligro la vida de los pacientes.

Además de la investigación mencionada anteriormente, los investigadores de Microsoft Research Asia también están intentando mejorar las capacidades de razonamiento de la inteligencia artificial desde muchos ángulos diferentes, incluido el uso de LLMs para generar automáticamente pruebas de corrección para código Rust, diseñando métodos que coincidan con las características únicas de la herramienta de verificación Verus; proponiendo el marco SAFE para abordar el problema de la escasez de datos en la verificación formal de código Rust; introduciendo el marco Alchemy para construir teoremas formales variando símbolos, aliviando el problema de la insuficiencia de datos en la Prueba de Teoremas Neurales (NTP), y así sucesivamente. Estos logros brindan más posibilidades para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes y ofrecen ideas ricas para futuras direcciones de investigación.

Otras investigaciones relacionadas:

AutoVerus: Automated proof generation for rust code

https://arxiv.org/abs/2409.13082

Automated proof generation for rust code via self-evolution

https://arxiv.org/pdf/2410.15756v1

Alchemy: Amplifying theorem-proving capability through symbolic mutation

https://arxiv.org/pdf/2410.15748

Mutual reasoning makes smaller LLMs stronger problem-solvers

https://arxiv.org/pdf/2408.06195

De la intuición al "pensamiento profundo": Evolución multidimensional de la capacidad de razonamiento de los modelos grandes

Compartir URL Corta