¿Qué modelo debe usar un Agente fiable? El fenómeno "Lost in Conversation" en el diálogo multi-turno de LLMs | Lo último de Microsoft

Introducción: Microsoft se asoció recientemente con Salesforce Research para publicar un estudio titulado "Lost in Conversation", que afirma que el rendimiento de los LLMs más avanzados disminuye significativamente en conversaciones multi-turno, con una caída promedio de hasta el 39%. Este fenómeno se conoce como "perderse" en la conversación. El artículo analiza las diferencias de rendimiento de los principales modelos (incluyendo Claude 3.7-Sonnet, Deepseek-R1, etc.) en conversaciones multi-turno y también desglosa las causas fundamentales por las que los modelos se "pierden" y las estrategias de mitigación efectivas. Esto es muy importante para los desarrolladores de Agentes al seleccionar modelos y merece una lectura cuidadosa. La parte final del artículo incluye enlaces al código abierto y al conjunto de datos utilizados por los investigadores para su estudio.

Diálogo Multi-Turno: Los Modelos de IA Más Potentes También se "Pierden"

图片

Comparación de rendimiento de 15 modelos LLM en conversaciones de un solo turno (FULL) y multi-turno (SHARDED), mostrando una disminución significativa del rendimiento en el diálogo multi-turno.

Cuando los Modelos de Lenguaje Grandes (LLMs) más avanzados se enfrentan a conversaciones multi-turno, su rendimiento disminuye significativamente, con una caída promedio de hasta el 39%. El último estudio de Microsoft Research, "Lost in Conversation", en colaboración con Salesforce Research, reveló este problema prevalente pero poco notado a través de 200,000 simulaciones de diálogo en 15 modelos principales. El estudio encontró que tanto los modelos comerciales de código cerrado (como GPT-4.1, Gemini 2.5 Pro) como los modelos de código abierto (como la serie Llama) luchan con el problema de "perderse", lo que plantea un desafío severo para los ingenieros que desarrollan sistemas de Agentes.

图片

Perderse Provoca una Caída del 112% en la Fiabilidad

图片

Análisis comparativo de Aptitud y Fiabilidad, mostrando que la disminución de la fiabilidad es el problema principal en las conversaciones multi-turno.

Los investigadores utilizaron una descomposición innovadora de métricas para dividir la disminución del rendimiento de los LLMs en conversaciones multi-turno en dos partes:

• Disminución de la Aptitud: Cayó solo un 16%

• Disminución de la Fiabilidad: Cayó un 112%

Esto significa que la brecha entre el mejor y el peor rendimiento del modelo se duplicó con creces. Esta alta falta de fiabilidad explica por qué su asistente de IA a veces funciona de manera excelente, pero a veces inexplicablemente "olvida cosas", con resultados que varían significativamente incluso para la misma pregunta en múltiples intentos.

Simulación Fragmentada (Sharded Simulation): Diseño Experimental para el Fenómeno de Pérdida del Modelo

图片

Seis tipos principales de tareas cubiertas por el estudio y ejemplos de instrucciones fragmentadas, ilustrando cómo una instrucción completa se descompone en múltiples fragmentos de información.

图片

Los investigadores diseñaron un marco experimental innovador llamado "simulación fragmentada" (sharded simulation), que descompone las instrucciones completas en múltiples fragmentos de información (shards) y los revela gradualmente en conversaciones multi-turno. Este método simula el proceso del mundo real en el que los usuarios aclaran gradualmente sus necesidades en un diálogo, a diferencia de las evaluaciones tradicionales donde se proporciona información completa de una vez. El estudio cubre seis dominios de tareas principales:

1. Programación (Code)

2. Consulta de Base de Datos (Database)

3. Llamadas a API (Actions)

4. Problemas Matemáticos (Math)

5. Generación de Datos a Texto (Data-to-text)

6. Resumen de Múltiples Documentos (Summary)

Esta amplia cobertura asegura que los hallazgos del estudio tengan una amplia aplicabilidad.

Fragmentación de Instrucciones y Tipos de Simulación de Diálogo

图片

Esta figura ilustra la metodología de diseño experimental central del estudio, dividida en dos partes:

1. Parte superior (Fragmentación de Instrucciones):

• Muestra cómo los investigadores dividieron una instrucción completa de un solo turno (cuadrado azul) en múltiples fragmentos de información (cuadrados pequeños amarillos).

• Esta es la base del experimento de "simulación fragmentada" en el artículo, simulando el escenario en el que los usuarios proporcionan información gradualmente en un diálogo multi-turno.

2. Parte inferior (Tipos de Simulación de Diálogo):

• Muestra cinco configuraciones experimentales diferentes y su flujo de información:

• FULL: La instrucción completa se proporciona completamente en el primer turno (escenario base).

• SHARDED: La instrucción se divide en múltiples fragmentos y se proporciona gradualmente en diferentes turnos (simula el diálogo multi-turno real).

• CONCAT: Todos los fragmentos se proporcionan en el primer turno, pero se mantienen en forma de fragmento.

• RECAP: Utiliza el patrón de fragmentación pero agrega un turno final resumiendo toda la información previa.

• SNOWBALL: Cada turno reafirma acumulativamente toda la información previa.

Esta figura explica intuitivamente por qué el diálogo multi-turno conduce a la degradación del rendimiento y cómo funcionan estrategias como RECAP y SNOWBALL.

Ayudándole a Probar y Mejorar Sistemas de Agentes

El equipo de investigación de Microsoft ha hecho público el repositorio de código completo y el conjunto de datos del estudio "Lost in Conversation", proporcionándole un potente conjunto de herramientas para probar y mejorar sus propios sistemas de Agentes. El repositorio incluye un marco completo de simulación de diálogo (simulator_full.py, simulator_sharded.py, etc.), que cubre instrucciones completas de un solo turno, instrucciones fragmentadas multi-turno e implementaciones de estrategias RECAP/SNOWBALL.

Github:https://github.com/Microsoft/lost_in_conversation

HuggingFace:https://huggingface.co/datasets/microsoft/lost_in_conversation

Características clave del repositorio de código y el conjunto de datos:

• Marco completo de simulación de diálogo que soporta pruebas en diferentes escenarios.

• 600 instrucciones de alta calidad verificadas por humanos y sus versiones fragmentadas.

• Cubre seis escenarios prácticos principales, incluyendo programación, matemáticas y consultas de bases de datos.

Si usted es un desarrollador de Agentes, puede utilizar estos recursos para realizar tres tipos de pruebas:

1. Evaluar las diferencias de rendimiento reales de varios modelos fundacionales en diálogo multi-turno.

2. Validar la efectividad real de las estrategias de integración de información que usted diseñe (como RECAP).

3. Diagnosticar en qué tipos de tareas es más probable que su propio sistema de Agente se "pierda".

Los investigadores recomiendan confirmar la configuración con experimentos a pequeña escala antes de realizar pruebas a gran escala y prestar atención a los límites de tasa del proveedor de API. Este conjunto de herramientas podría ser el más completo disponible para evaluar las capacidades de integración de información de LLM, ofreciendo un alto valor de referencia para construir sistemas de diálogo multi-turno verdaderamente fiables.

⚠️ Los Modelos Empiezan a Fallar Después de Solo Dos Turnos

图片

Resultados del experimento de fragmentación progresiva, demostrando que incluso en solo dos turnos de diálogo, la fiabilidad del modelo disminuye significativamente.

El hallazgo más alarmante es que incluso en los diálogos más simples de dos turnos, el rendimiento de los LLMs disminuye significativamente. Los investigadores utilizaron un experimento de "fragmentación progresiva" para demostrar que, siempre que el diálogo implique algún grado de divulgación gradual de información (incluso si se divide en solo dos fragmentos), la fiabilidad del modelo colapsa. Esto significa que su sistema de Agente corre riesgo incluso cuando maneja diálogos multi-turno aparentemente simples, y los usuarios no necesitan plantear preguntas complejas para encontrar situaciones en las que el asistente de IA "pierde el rumbo".

Por Qué Incluso los Modelos Más Potentes Tropiezan

A través de un análisis detallado de los registros de diálogo, el estudio identificó cuatro factores clave que contribuyen a que los modelos se "pierdan":

1. Suposiciones Prematuras: Los modelos intentan responder preguntas antes de tener información completa, haciendo numerosas suposiciones.

2. Inflación de Respuestas: Dependencia excesiva de respuestas anteriores (potencialmente incorrectas), lo que lleva a que las respuestas se "inflen" gradualmente en lugar de ser reconsideradas.

3. Distribución Desigual de la Atención: Enfoque excesivo en el primer y último turno del diálogo, descuidando la información en los turnos intermedios.

4. Verbosidad de las Respuestas: Generación de respuestas excesivamente largas, introduciendo más suposiciones irrelevantes y distrayendo al propio modelo.

Estos factores, en conjunto, hacen que incluso los modelos más avanzados se desvíen gradualmente del camino correcto en conversaciones multi-turno.

Impacto de la Verbosidad de las Respuestas en el Rendimiento

图片

Esta tabla revela un hallazgo importante: las respuestas más cortas suelen ser más efectivas que las respuestas largas.

• El eje horizontal representa la verbosidad de la respuesta, desde la más corta (0-20%) hasta la más larga (80-100%).

• El eje vertical muestra diferentes tipos de tareas (Código, Matemáticas, Base de Datos, etc.).

• Los valores en la tabla son las puntuaciones de rendimiento del modelo para esa tarea.

Hallazgo Clave:

• En la mayoría de las tareas (especialmente Code, Database, Summary), las respuestas más cortas conducen a un mejor rendimiento.

• Por ejemplo, en la tarea de Código, la puntuación para las respuestas más cortas (0-20%) es 55.3, mientras que para las respuestas más largas (80-100%) es solo 42.5.

• Solo la tarea de Acciones rinde mejor con verbosidad media (40-60%).

• En general, las respuestas más cortas (0-40%) rinden significativamente mejor que las respuestas largas (60-100%) en promedio.

Esto indica que los modelos que generan respuestas excesivamente largas introducen más suposiciones innecesarias, lo que lleva a "perderse".

Claude 3.7 y DeepSeekR1

Entre los 15 modelos probados, Claude 3.7-Sonnet mostró la mayor fiabilidad en conversaciones multi-turno, con una tasa de retención de rendimiento del 65.9%, superando a otros competidores. Aunque GPT-4.1 tuvo un rendimiento superior en conversaciones de un solo turno, Claude tuvo la menor pérdida al pasar de un solo turno a multi-turno, manteniendo particularmente altos niveles en las tareas de Matemáticas (85.4→70.0) y Resumen (29.3→23.6).

Consejo Aplicable:

• Si está desarrollando un Agente que requiere una interacción multi-turno compleja, Claude 3.7-Sonnet podría ser la mejor opción actual.

• Si está limitado a modelos de código abierto, Llama 3.3-70B (64.2% de retención de rendimiento) es la opción más rentable.

图片

Como uno de los dos modelos de razonamiento especializados probados en el estudio, Deepseek-R1 exhibió una naturaleza marcadamente "doble cara".

Ventaja en Diálogo de un Solo Turno:

• Tarea de Programación (Code): Rendimiento superior de 99.4 puntos.

• Tarea de Acciones: 97.0 puntos.

• Tarea de Matemáticas: 95.5 puntos.

Desventaja en Diálogo Multi-Turno:

• El rendimiento multi-turno es solo del 31.5%.

• La tasa de retención es solo del 47.5%.

• Hubo una pérdida de capacidad de más del 60% en casi todas las tareas.

Los investigadores notaron específicamente que a pesar de que Deepseek-R1 tiene capacidad de razonamiento adicional (test-time compute), esto no le ayudó a mantener la estabilidad en conversaciones multi-turno, indicando que "pensar" por sí solo no es suficiente para resolver problemas de integración de información.

Consejo para Desarrolladores de Agentes:

• Escenarios de interacción de un solo turno: Deepseek-R1 es una opción muy competitiva.

• Escenarios de diálogo multi-turno complejos: Requiere una evaluación cuidadosa o considere usar DeepSeekV3 como alternativa.

🌡️ Bajar la Temperatura es Ineficaz: La Incertidumbre No es la Culpable

图片

Resultados de las pruebas de falta de fiabilidad del modelo con diferentes configuraciones de temperatura, demostrando que reducir la temperatura no aumenta efectivamente la fiabilidad en diálogos multi-turno.

Una idea errónea común es que reducir el parámetro de temperatura del modelo puede aumentar la consistencia en el diálogo multi-turno. Los investigadores diseñaron específicamente experimentos de temperatura, y los resultados muestran:

• Diálogo de un solo turno: Bajar la temperatura es efectivo (reducir la temperatura de 1.0 a 0.0 puede disminuir la falta de fiabilidad en un 50%).

• Diálogo multi-turno: Bajar la temperatura es casi ineficaz (a una temperatura de 0.0, la falta de fiabilidad sigue siendo alrededor del 30%).

Este hallazgo indica que la causa fundamental del problema no es la aleatoriedad, sino un defecto inherente en la forma en que los modelos procesan la información en un contexto multi-turno. Los ingenieros deben tener en cuenta: los ajustes simples a los parámetros de generación no pueden resolver el problema de "perderse" en el diálogo multi-turno.

Estrategia RECAP: Mejora del Rendimiento en Diálogo Multi-Turno

图片

Comparación de rendimiento de las estrategias RECAP y SNOWBALL, demostrando que estos métodos pueden mitigar efectivamente la degradación del rendimiento en el diálogo multi-turno.

Para abordar el problema de "perderse", los investigadores probaron dos posibles soluciones:

1. RECAP (Recapitulación Final): Añadir un turno adicional antes del final del diálogo multi-turno para resumir toda la información proporcionada previamente por el usuario.

2. SNOWBALL (Reafirmación Acumulativa): Reafirmar toda la información previa en cada turno.

Los resultados experimentales fueron significativos: la estrategia RECAP mejoró el rendimiento multi-turno de GPT-4o del 59.1% al 76.6%, mitigando aproximadamente el 40% de la caída del rendimiento.

Consejo Práctico: Al diseñar sistemas de Agentes, considere añadir un mecanismo de revisión de información en los puntos de decisión críticos. Aunque esto no puede resolver completamente el problema, puede reducir significativamente el riesgo.

Cinco Sugerencias Prácticas para el Diseño de Arquitectura de Agentes

Basado en los hallazgos del estudio, las siguientes cinco sugerencias pueden ayudarle a diseñar sistemas de Agentes más fiables:

1. Retrasar la Generación de Respuestas: Evitar que los modelos hagan suposiciones prematuras instruyéndolos explícitamente a abstenerse de responder hasta que se haya recopilado suficiente información.

2. Controlar la Longitud de las Respuestas: Los datos del estudio muestran que las respuestas más cortas tienen una tasa de éxito significativamente mayor que las respuestas largas.

3. Implementar Mecanismos de Revisión de Información: Resumir la información conocida en los puntos de decisión críticos.

4. Utilizar Arquitectura Multi-Modelo: Usar modelos especializados responsables de la integración de información y la toma de decisiones.

5. Entrenar a los Usuarios para Proporcionar Información Completa: El estudio muestra que proporcionar instrucciones completas de una vez rinde mucho mejor que las instrucciones dispersas.

El uso combinado de estas estrategias puede construir sistemas de Agentes más fiables.

Recomendaciones de los Investigadores

Los hallazgos del estudio presentan un desafío severo para los desarrolladores de LLM: los métodos de evaluación convencionales actuales se centran excesivamente en la capacidad (Aptitude) en escenarios de un solo turno y completamente especificados, mientras descuidan la fiabilidad en escenarios multi-turno y gradualmente aclarados.

Los investigadores instan a los desarrolladores de LLM a dar igual importancia a ambas dimensiones en futuras iteraciones de modelos y proponen estándares específicos:

• Un LLM ideal debe mantener niveles de capacidad similares tanto en configuraciones de un solo turno como multi-turno.

• La falta de fiabilidad en el diálogo multi-turno debe ser inferior al 15%.

• Estas métricas deben lograrse con la temperatura predeterminada (T=1.0).

Este cambio hará que la próxima generación de LLMs sea más adecuada para construir sistemas de Agentes conversacionales verdaderamente fiables.

En Conclusión

El estudio "Lost in Conversation" revela las limitaciones clave de los LLMs actuales. Al seleccionar el modelo más adecuado para sus necesidades, combinándolo con estrategias de integración de información como RECAP y siguiendo las sugerencias prácticas proporcionadas en el artículo, puede mejorar significativamente la fiabilidad de su sistema de Agente en el diálogo multi-turno.

Aunque aún no existe una solución perfecta, reconocer el problema y tomar medidas específicas es un paso importante hacia la construcción de la próxima generación de sistemas de Agentes fiables. Cuando los usuarios digan "La IA siempre olvida lo que dije a mitad de camino", su sistema podría convertirse en la excepción que rompa este estereotipo.

El futuro ya está aquí, envíe "grupo" al backend de la cuenta oficial

Caminemos juntos si el destino lo permite

图片

<Fin del Artículo, Autor: Xiu Mao>

Por favor, contácteme para reimpresión

🎉¡Creamos más belleza juntos!🎉

Si encontró este artículo útil

Gracias por darme un [Me Gusta] y [Visto]

<Solo yo puedo ver tu me gusta y visto>

👉ID de WeChat: xiumaoprompt

¡Por favor, especifique su intención al añadir!

Etiqueta Principal:Fiabilidad de LLM

Etiquetas Secundarias:Diálogo multi-turnoModelos de lenguaje grandesMicrosoft ResearchAgentes de IA


Anterior:Verdad en la Luz vs. Ilusión Algorítmica: Fotografía Científica en la Era de la IA

Siguiente:El CEO de Google, Pichai, responde a la afirmación "Google ha muerto"

Compartir URL Corta