Autor丨Chen Caixian
Después de R1, la cadena de pensamiento larga se ha convertido en una dirección de investigación candente para la capacidad de "razonamiento" (Reasoning) en los modelos fundamentales de próxima generación. Por un lado, R1 demostró la viabilidad del pensamiento profundo en modelos grandes; al mismo tiempo, aunque R1 mostró un rendimiento potente, el telón del razonamiento en modelos grandes apenas se ha abierto.
Además, la disrupción causada por R1 en el extranjero también ha tenido un impacto significativo en la investigación de inteligencia artificial en China: cada vez más investigadores se atreven a pensar desde una perspectiva más alta y a proponer ideas tecnológicas prospectivas y líderes. La reflexión de Wu Wei, jefe de procesamiento del lenguaje natural en el Instituto de Investigación Tecnológica de Ant Group, sobre el razonamiento es un ejemplo típico.
Wu Wei se graduó de la Facultad de Ciencias Matemáticas de la Universidad de Pekín con una licenciatura y un doctorado. Después de ser becario de Microsoft en 2011, se unió a Microsoft Research Asia en 2012, donde fue investigador principal y científico jefe de Microsoft XiaoIce. Antes de unirse a Ant Group, también fue jefe del Centro de PNL de Meituan.
Respecto al razonamiento de los modelos, Wu Wei, partiendo de las matemáticas, ha planteado muchas ideas diferentes a las corrientes principales actuales de la industria.
De hecho, ya a finales de 2023, antes de que OpenAI lanzara o1, Wu Wei y su equipo ya habían comenzado a investigar el problema del razonamiento en modelos grandes. Wu Wei señaló que el resultado de la implementación de R1 es emocionante, pero al mismo tiempo evaluó que el razonamiento de cadena de pensamiento larga no es necesariamente óptimo, "porque la dimensión de tales modelos es demasiado alta y la energía es demasiado alta, lo que resulta en un rendimiento inestable".
En realidad, un gran número de fenómenos en física y química muestran que la estructura con menor energía es la más estable. Por lo tanto, Wu Wei especula que los futuros modelos de razonamiento pueden ser sistemas de inteligencia artificial de menor dimensión y más estables. Si la cadena de pensamiento larga es el sistema 2, algunas investigaciones muestran que en el pensamiento diario de las personas, lo que domina a menudo es el sistema 1, que consume menos energía.
Además, los modelos de razonamiento principales actuales muestran el fenómeno de resultados de razonamiento correctos pero procesos de razonamiento incorrectos. En la implementación de la cadena de pensamiento larga, el costo de corrección de errores aumenta en consecuencia. Tomando las matemáticas como ejemplo, Wu Wei señaló: cuando el modelo de razonamiento se desarrolla hasta el final, el proceso de pensamiento puede ser más importante que el resultado; en comparación con resolver un problema, que el modelo descubra nuevos conocimientos (como una nueva prueba para un problema matemático clásico) durante el pensamiento es más valioso, lo que demuestra el gran potencial del pensamiento profundo.
Cómo diseñar un modelo de razonamiento que pueda combinar eficazmente el sistema 1 y el sistema 2, o el pensamiento rápido y el pensamiento lento, se ha convertido en la próxima dirección importante para los modelos grandes. Wu Wei cree que, desde una perspectiva matemática, utilizar un modelo matemático elegante para describir la forma de pensar de la inteligencia artificial podría ser la solución definitiva; o, la auto-consistencia es el destino final de todos los sistemas de razonamiento.
A continuación, la conversación entre AI Tech Review y Wu Wei:
Enlace al artículo: https://arxiv.org/pdf/1102.1808
AI Tech Review: Actualmente, hay varias definiciones de "razonamiento" en la industria, y algunos puntos de vista confunden Reasoning con Inference.
Wu Wei: Correcto. Según la literatura que he leído, la definición de "razonamiento" se remonta a 2011. Ese año, el gran maestro de aprendizaje automático Leon Bottou escribió un artículo llamado "From Machine Learning to Machine Reasoning". En ese momento, no había una definición clara de "Reasoning" en la industria, y Leon Bottou dijo en este artículo que él creía que el "Reasoning" (razonamiento) era "operar algebraicamente el conocimiento existente para resolver nuevos problemas".
El conocimiento del sistema 1 y el sistema 2 ha alcanzado básicamente un consenso. La característica del sistema 1 es que es rápido, espontáneo y no consume energía. El sistema 2 consiste en asignar atención a actividades conductuales y mentales que requieren un gran esfuerzo. Esta es la diferencia entre rápido y lento según el autor Daniel Kahneman. Sin embargo, lo que encuentro más interesante en este libro es que el autor escribió sobre cómo el pensamiento rápido y el pensamiento lento se coordinan.
El primer punto es que el libro menciona que, en realidad, en el proceso de pensamiento diario de las personas, el pensamiento rápido del sistema 1 es dominante la mayor parte del tiempo.
El pensamiento rápido genera un gran número y complejos patrones de ideas, y los transmite al sistema 2. En la mayoría de los casos, el sistema 2 los acepta sin pensar, en lugar de revisar cada idea. Por lo tanto, el pensamiento diario es en su mayoría el resultado del sistema 1, y el sistema 2 es perezoso y solo revisa y piensa en casos individuales. Al mismo tiempo, el sistema 1 comete muchos errores porque piensa rápido, e incluso puede proporcionar ideas más profundas para este error.
¿Por qué hay errores? ¿Por qué los modelos grandes de hoy tienen alucinaciones? Creo que puede ser una explicación para las alucinaciones de los modelos grandes. En pocas palabras, es porque la energía es mínima. El sistema 1 persigue la "facilidad cognitiva" (Cognitive Ease): cuando integro esta información con mi conocimiento, si es coherente y auto-consistente, está bien. Al sistema 1 no le importa si hay errores.
Esto es lo que le gusta hacer al sistema 1, y de hecho el consumo de energía es bajo. Luego, debido a que el sistema 2 es relativamente perezoso y rara vez verifica, estos resultados se consolidan. Finalmente, este tipo de errores se acumulan cada vez más. La raíz de este tipo de error radica en la pereza o la simplicidad cognitiva, lo cual es difícil de evitar. Pero el punto interesante es que el autor dice: si no puedes evitar los errores, ¿qué debe hacer la gente? Él dice que la mejor manera es descubrir lo más posible en qué situaciones es fácil cometer errores, y luego pensar lo más posible sobre estas situaciones de alto riesgo.
Al final, el autor no propuso una solución sobre cómo descubrir situaciones de alto riesgo. Él cree que, en muchas situaciones, la gente simplemente termina viviendo en un mundo auto-consistente, incluso si hay errores, siempre y cuando sea auto-consistente.
Volviendo a los modelos grandes. Si citamos a Daniel Kahneman, los modelos grandes deberían poder combinar el razonamiento largo y el razonamiento corto. Puede ser un modelo, o pueden ser dos modelos. La clave está en cómo se programan los dos modelos, o los dos sistemas. Actualmente, no hay una forma particularmente elegante en la industria, y la forma más elegante debería ser asignar automáticamente los dos modos.
AI Tech Review: Usted mencionó el problema central, que es cómo combinar el sistema 1 y el sistema 2. ¿Puede lograrse con una arquitectura Transformer única? Parece que tampoco hay consenso sobre esto.
Wu Wei: Creo que no hay un buen modelo, o una buena Ecuación (fórmula) para resolver este problema, por lo que todos están haciendo algunos intentos. Por ejemplo, mezclar datos de cadena de pensamiento larga y cadena de pensamiento corta para hacer SFT, esto podría ser una solución. O dar una Recompensa (Reward) de longitud en el aprendizaje por refuerzo.
Sin embargo, todavía no tienen un modelo para describir el pensamiento rápido y lento, o la colaboración entre el sistema 1 y el sistema 2.
Creo que, en última instancia, debe haber un modelo, preferiblemente un modelo matemático, para describir la forma de pensar de la inteligencia artificial. Mi conjetura es que este modelo probablemente esté en un espacio de baja dimensión, y se logrará optimizando la energía mínima.
AI Tech Review: Entonces, ¿desde qué ángulos planea investigar más a fondo el problema del razonamiento de los modelos?
Wu Wei: Además de la autorregresión, también analizamos estructuras jerárquicas como planificar primero y luego razonar.
Por ejemplo, si se le asigna la tarea de elaborar un plan de encuesta de usuarios, ¿toma inmediatamente un bolígrafo y empieza a escribir? No. En circunstancias normales, primero tiene un borrador en la cabeza, un plan abstracto, y luego implementa cada paso. Puede considerar que este plan abstracto es una representación de baja dimensión de todo el proceso de razonamiento. Bajo esta baja dimensión, luego digo cómo expandirlo para convertirlo en una ejecución de alta dimensión. Esta también es una forma de razonamiento.
De hecho, Yann LeCun siempre dice en sus entrevistas que la planificación y el razonamiento son muy importantes. Pero al mismo tiempo, dice que cree que los modelos de razonamiento actuales no parecen ser correctos porque son demasiado simples. En cuanto a qué tipo de modelo de razonamiento es correcto, LeCun tampoco lo ha dicho.
AI Tech Review: Acabamos de mencionar el sistema 1 y el sistema 2. También hay un debate en la industria sobre si debemos o no imitar el cerebro humano al diseñar modelos.
Wu Wei: Para ser honesto, no creo que las máquinas tengan que pensar como los humanos. Este problema también me ha preocupado durante mucho tiempo, es decir, si debemos o no diseñar modelos de inteligencia artificial según la forma del cerebro humano. Por ejemplo, una computadora puede calcular el valor de π muy rápidamente, pero el cerebro humano no.
Por ejemplo, en el libro "Thinking, Fast and Slow", hay largas secciones que describen la forma de pensar de las personas, pero ¿son necesariamente correctas estas descripciones? De hecho, las personas pueden verificar las afirmaciones del libro a través de algunos hechos, pero el problema sigue siendo este: no se puede decir que si el caso 1 es correcto, y el 2, 3, 4... hasta el 100 también son correctos, entonces el caso 101 debe ser correcto.
Esto no es válido en matemáticas. Las matemáticas no permiten esta situación. Si hay excepciones, las matemáticas deben tener una condición para restringirlas y eliminar esa excepción. En otras palabras, la inducción incompleta no es correcta.
Así que, después de pensarlo mucho, mi punto de vista final es que, independientemente de si un sistema de inteligencia artificial debe o no ser como un humano, solo necesito encontrar una manera de acercarme a este objetivo. Este objetivo son las 8 palabras que mencioné antes: "多快好省,双商齐备" (Más, Rápido, Bueno, Económico, con IQ y EQ completos).
AI Tech Review: Hay otro problema con el razonamiento actual, y es que algunas investigaciones han encontrado que modelos como o1, R1 y Gemini, al realizar razonamiento, dan más importancia a la precisión del resultado, y el proceso de razonamiento intermedio puede ser incorrecto.
Wu Wei: Tengo dos puntos de vista sobre este fenómeno. El primero es: creo que la cadena de pensamiento larga es una forma relativamente torpe de lograr el pensamiento profundo. Por supuesto, tiene un gran significado porque al menos proporciona una implementación, incluso si esta implementación consume mucha energía. No podemos hablar de pensamiento profundo todo el tiempo sin ninguna implementación.
El segundo punto de vista es que, cuando la capacidad del modelo se desarrolla hasta el final, el proceso de pensamiento puede ser más importante que el resultado. Porque si volvemos a las matemáticas, en realidad muchos problemas matemáticos ya tienen un resultado, solo que algunos han sido probados y otros no.
Por ejemplo, el Último Teorema de Fermat, originalmente llamado Conjetura de Fermat, su resultado ya existía: cuando el entero n>2, la ecuación x^n + y^n = z^n no tiene solución en enteros positivos. La Hipótesis de Riemann también, el resultado ya existe, lo importante es: cómo se obtiene todo el proceso de solución desde esta hipótesis hasta esta conclusión. Desde la perspectiva matemática, el proceso de razonamiento es muy importante.
Por lo tanto, la gran contribución de Andrew Wiles, por un lado, fue demostrar la Conjetura de Fermat, convirtiéndola en el Teorema de Fermat; lo que es más importante, en el proceso de esta demostración, nacieron muchas nuevas direcciones en matemáticas, como curvas elípticas, geometría algebraica, etc., lo que fue una gran contribución a la comunidad matemática.
En mi opinión, el razonamiento es la combinación orgánica del conocimiento utilizando la lógica. Si podemos ofrecer todo tipo de combinaciones de conocimiento para diferentes problemas, ¿habrá algunas combinaciones de conocimiento que los humanos nunca hayan tocado y que sean muy inspiradoras para el progreso de la civilización humana? Si las hay, entonces el valor de producir estas combinaciones es mucho mayor que resolver un problema, porque creará nuevo conocimiento.
Desde esta perspectiva, el gran valor y potencial del pensamiento profundo aún no se ha excavado. El resultado del razonamiento es muy importante, pero doy más importancia al proceso de pensamiento intermedio. Ahora R1 nos ha proporcionado una implementación de alta dimensión, y deberíamos realizar iteraciones más audaces basándonos en R1.
AI Tech Review: Después del lanzamiento de R1, ¿cambió su perspectiva sobre el razonamiento? ¿Está más entusiasmado con la investigación del razonamiento?
Wu Wei: Creo que es muy emocionante, porque R1 nos mostró una implementación escalable del pensamiento profundo, pero R1 es esencialmente autorregresivo, y creo que todavía hay mucho espacio aquí.
Creo que debería haber un modelo universal, pero no sé cómo se ve ese modelo. Así que en 2023, cuando empezamos a investigar el razonamiento, primero investigamos los Agentes.
¿Por qué primero investigamos los Agentes? Porque no sabía cómo hacer algo universal, así que no tuve más remedio que crear primero un Agente de Conocimiento (Knowledge Agent) especial para ver si podía expandirse. Desglosamos una tarea en módulos y luego conectamos estos módulos utilizando lógica diseñada manualmente.
Es como cuando resuelves un problema matemático y no sabes cómo hacerlo, ¿qué haces? Primero buscas algunos casos específicos y añades algunas condiciones. Por ejemplo, un problema funcional, primero lo conviertes en un espacio bidimensional, si se puede probar en dos dimensiones, miras si se puede probar en tres dimensiones; después de probar en dos y tres dimensiones, miras si hay alguna característica común y si se puede extender a dimensiones superiores.
Lo sorprendente de R1 es que fue directamente a alta dimensión. Lo que encuentro más emocionante es la creación de nuevo conocimiento a través del pensamiento profundo. Pero R1 aún no puede lograr esto porque no hay forma de garantizar que el proceso de pensamiento sea correcto. Tampoco podemos garantizar que nuestro proceso de razonamiento sea correcto, pero creo que este es un problema muy importante.
Luego exploramos CodePlan, esperando usar código para implementar la planificación primero y luego el razonamiento. Sin embargo, después de terminar, debido a algunos problemas de recursos, no pudimos verificar que su efecto fuera el mejor. A principios de este año, el equipo de DeepSeek tuvo un trabajo en el que también usaron código para planificar, la diferencia es que luego convirtieron el código en lenguaje natural. Sospecho que podría ser porque el efecto del código puro no era muy bueno.
Recientemente, también desarrollamos PromptCoT, intentando aplicar el pensamiento profundo a la síntesis de problemas, y también vimos efectos muy impresionantes. Un modelo pequeño de 7B puede competir con un modelo de 32B. Lo más importante es que este trabajo nos mostró la posibilidad del pensamiento profundo para otras tareas.
En realidad, todo el mundo está pensando en cómo debería ser el modelo de razonamiento de próxima generación, y al mismo tiempo, esperan perseguir el límite de la inteligencia. Ambos objetivos son muy difíciles, especialmente para las empresas. En una empresa, no es muy probable que diga que tiene un objetivo muy grande, que invertirá mucho dinero, y que no puede estar seguro de si se puede alcanzar. Este es un problema realista. Racionalmente hablando, necesitamos más casos para respaldar la creencia de seguir explorando.
¡Prohibida estrictamente la reimpresión por cualquier medio en páginas web, foros, comunidades sin autorización de "AI Tech Review"!
Para reimprimir en cuentas oficiales, por favor, obtenga primero la autorización dejando un mensaje en el backend de "AI Tech Review". Al reimprimir, debe indicar la fuente e insertar la tarjeta de presentación de esta cuenta oficial.
¿Por qué solo hay un DeepSeek en China?
Modelos base grandes "Seis a dos": Jietiao en el sur, Zhipu en el norte
Revisión de los trece años de Megvii: momentos destacados, el fondo y el renacimiento