Avance en Razonamiento: ¿Cómo SoftCoT++ Permite a los LLM 'Pensar Múltiples Caminos'?

La capacidad de razonamiento de los LLMs depende de la "Cadena de Pensamiento" (Chain-of-Thought, CoT), que implica generar pasos de razonamiento intermedios. Sin embargo, los métodos tradicionales generan estos pasos en un espacio de tokens discreto, lo que lleva a dos problemas principales:

Pérdida de información: Solo se puede elegir una palabra en cada paso, y la lógica compleja puede simplificarse;

Diversidad insuficiente: Múltiples muestreos pueden generar rutas idénticas, sin explorar completamente las posibilidades.

Por ejemplo, al pedirle a un modelo que resuelva un problema matemático, podría usar repetidamente el mismo enfoque incorrecto, lo que resulta en una respuesta inexacta. imagen

Artículo: SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

Enlace: https://arxiv.org/pdf/2505.11484

Comparación entre CoT tradicional y SoftCoT++: El primero genera pasos en espacio discreto, mientras que el último genera

Comparación entre CoT tradicional y SoftCoT++: El primero genera pasos en espacio discreto, mientras que el último genera "pensamientos suaves" en espacio continuo.

En los últimos años, estudios como Coconut y SoftCoT han intentado codificar el proceso de razonamiento utilizando un espacio latente continuo (similar al "pensamiento difuso" del cerebro), pero surge un nuevo problema: ¿Cómo permitir que el modelo "piense múltiples caminos" en el espacio continuo?

Cómo SoftCoT++ Supera las Limitaciones con "Pensamientos Suaves"

Idea Principal de SoftCoT++:

Separar "Pensar" y "Razonar":

Etapa de Pensamiento: Usar un modelo auxiliar pequeño para generar "pensamientos suaves" en espacio continuo (similar a la inspiración vaga);

Etapa de Razonamiento: El modelo grande genera pasos específicos basados en estas "inspiraciones".

Simular la Exploración de Múltiples Rutas: Los métodos tradicionales solo pueden generar rutas diferentes mediante muestreo aleatorio, mientras que SoftCoT++ permite que el modelo se diferencie naturalmente en rutas diversas en el espacio continuo al perturbar las condiciones iniciales (por ejemplo, proporcionando diferentes "puntos de partida del pensamiento").

Por ejemplo: Al resolver el mismo problema, el modelo podría considerar primero "usar ecuaciones" o "dibujar un diagrama"; diferentes puntos de partida conducirán a diferentes métodos de solución.

Detalles Técnicos: Tokens Iniciales Diversos y Aprendizaje Contrastivo

Dos Tecnologías Clave:

Tokens Iniciales Especializados ([TNT] token)

Los métodos tradicionales utilizan marcadores de posición fijos (por ejemplo, [UNK]) para activar el pensamiento, mientras que SoftCoT++ utiliza múltiples tokens [TNT] diferentes, cada uno correspondiente a una dirección de pensamiento inicial distinta.

Esto equivale a darle al modelo diferentes "fusibles de pensamiento" para activar pensamientos suaves diversos.

Aprendizaje Contrastivo

Objetivo: Hacer que los pensamientos suaves de diferentes rutas sean lo más "diferentes" posible.

Método: Maximizar la diferencia entre diferentes pensamientos mediante una función de pérdida (fórmula a continuación).

(En pocas palabras: hacer que los pensamientos de la misma ruta estén más concentrados, y los pensamientos de diferentes rutas más dispersos)

Experimentos contrastivos: Agregar ruido solo (SoftCoT-P) tiene un efecto limitado, mientras que combinar tokens especializados y aprendizaje contrastivo (SoftCoT++) mejora significativamente el rendimiento.

Experimentos: Superando Completamente los Métodos Tradicionales

En 5 pruebas de referencia que cubren matemáticas, sentido común y razonamiento simbólico, SoftCoT++ tuvo un rendimiento notable:

Razonamiento Matemático: La precisión en GSM8K aumentó un 1-2%, con el modelo Qwen3 alcanzando el 93.65%;

Razonamiento de Sentido Común: Liderazgo estable en la tarea StrategyQA;

Compatibilidad: El rendimiento se disparó aún más al combinarse con la Auto-Consistencia (Self-Consistency).

Comparación de métodos principales: SoftCoT++ supera completamente a CoT tradicional y Coconut

Lo más crucial es que, sin modificar los parámetros del modelo, simplemente aumentando los recursos computacionales durante la inferencia (por ejemplo, generando 10 rutas de pensamiento) se puede mejorar inmediatamente los resultados.

Nota: Apodo - Escuela/Empresa - Área / Conferencia (ej. ACL), únete al grupo técnico/de envío

imagen

ID: DLNLPer, recuerda incluir una nota