Google | Análisis de Errores en Sistemas RAG: Propuesta de un Marco de Generación Selectiva para Aumentar la Precisión de RAG en un 10%

Haga clic en "AINLPer" a continuación para seguirnos y recibir más contenido útil de primera mano.

Más contenido emocionante -> ¡Enfocado en compartir lo último en Grandes Modelos, Agentes, RAG y más!

Introducción

La tecnología RAG actual es ampliamente utilizada, pero debido a la implicación de muchos nodos técnicos, la resolución de problemas suele ser muy difícil. Para abordar esto, los autores de este artículo realizaron un análisis en profundidad de los errores que ocurren en los sistemas RAG, "introduciendo el concepto de Contexto Suficiente y señalando que los fenómenos de alucinación en los sistemas RAG pueden ser causados por un contexto insuficiente". Luego propusieron un marco de generación selectiva para mejorar la precisión de los sistemas RAG, y los resultados experimentales muestran que este método puede aumentar la precisión del sistema RAG hasta en un 10%. imagen Enlace: https://arxiv.org/pdf/2411.06037

Antecedentes

La Generación Aumentada por Recuperación (Retrieval-Augmented Generation, RAG) es uno de los avances tecnológicos más significativos en el campo actual del PNL. Combina Modelos de Lenguaje Grandes (LLM) con mecanismos de recuperación de información dinámica, resolviendo eficazmente tres problemas centrales de los modelos de lenguaje tradicionales: el problema de la solidificación del conocimiento, la tendencia a la alucinación factual y la cobertura insuficiente del conocimiento de cola larga. Este método es ampliamente utilizado tanto en aplicaciones de código abierto como comerciales, como preguntas y respuestas de búsqueda, servicio al cliente inteligente y diagnóstico médico asistido.

A pesar del excelente rendimiento de RAG en muchas tareas, a menudo ocurren fenómenos de "alucinación", donde el modelo genera respuestas incorrectas con confianza, incluso cuando se le proporcionan documentos incompletos o irrelevantes. En este punto, uno podría preguntarse: "¿Estos errores se deben a que el sistema de recuperación no proporcionó suficiente información, o a que el propio modelo no utilizó el contexto correctamente?"

Para analizar y resolver este problema, Google propuso el concepto de "Contexto Suficiente" y realizó una investigación en profundidad al respecto, con el objetivo de delimitar claramente la responsabilidad de los errores del sistema RAG y proporcionar varias estrategias para mejorar la calidad de la generación RAG.

Herramienta de Evaluación de la Suficiencia del Contexto

¿Qué es el Contexto Suficiente? Los autores lo definen como: si el contenido recuperado "contiene toda la información necesaria para respaldar la respuesta correcta". Este estándar no requiere que el contexto contenga explícitamente la respuesta, pero debe permitir que un LLM familiarizado con la tarea derive razonablemente la respuesta correcta basándose en su sentido común y sus habilidades de razonamiento.

Para cuantificar este concepto, los autores construyeron una nueva tarea de evaluación: "Dada una pregunta, una respuesta y un contexto, determinar si el contexto es suficiente para respaldar esa respuesta". En pocas palabras: si el contexto contiene toda la información necesaria para que un modelo grande genere la respuesta correcta, se define como "suficiente"; si el contexto carece de información necesaria, es incompleto, incierto o contiene información contradictoria, se define como "insuficiente". imagen Basándose en la definición anterior, los autores desarrollaron primero un evaluador de suficiencia de contexto basado en modelos grandes (aquí el modelo grande utiliza principalmente Gemini 1.5 Pro, implementado mediante la construcción de indicaciones) para determinar automáticamente si el contexto es suficiente. Si el contexto es suficiente, emite "Verdadero"; si es insuficiente, emite "Falso". Los resultados experimentales muestran que el evaluador de suficiencia de contexto, 1-shot, alcanzó una precisión de hasta el 93% en la evaluación de la suficiencia del contexto.

Análisis de Trazabilidad de Errores RAG

Los autores de este artículo utilizaron la herramienta de evaluación de la suficiencia del contexto para analizar el rendimiento de varios modelos de lenguaje grandes (LLMs) y conjuntos de datos, llegando a los siguientes hallazgos clave:

Los modelos grandes de vanguardia (como Gemini, GPT y Claude) suelen responder preguntas de manera excelente cuando se les proporciona suficiente contexto, pero no logran identificar y evitar generar respuestas incorrectas cuando el contexto es insuficiente.

Los modelos de código abierto más pequeños presentan problemas específicos, ya que son propensos a las alucinaciones incluso cuando el contexto es suficiente para responder correctamente a la pregunta.

A veces, incluso cuando el contexto se considera insuficiente, el modelo aún puede generar respuestas correctas, lo que indica que un contexto insuficiente aún puede ser útil, por ejemplo, para llenar vacíos en el conocimiento del modelo o aclarar ambigüedades en la consulta.

Basándose en estos hallazgos, los autores propusieron recomendaciones para mejorar los sistemas RAG: 1) agregar una verificación de suficiencia antes de la generación; 2) recuperar más contexto o reordenar el contexto recuperado; 3) ajustar el umbral de abstención según la confianza y las señales del contexto.

Suficiencia del Contexto en los Puntos de Referencia de Evaluación

Los autores de este artículo investigaron a fondo las circunstancias detrás del contexto suficiente. El análisis reveló que existen numerosos casos de contexto insuficiente en varios conjuntos de datos de referencia estándar. Los autores consideraron tres conjuntos de datos: FreshQA, HotPotQA y MuSiQue. Aquellos conjuntos de datos con una mayor proporción de instancias de contexto suficiente, como FreshQA, a menudo tienen un contexto derivado de documentos de apoyo organizados manualmente. imagen

Contexto que Conduce a Alucinaciones

Sorprendentemente, aunque la Generación Aumentada por Recuperación (RAG) generalmente mejora el rendimiento general, reduce la capacidad del modelo para elegir no responder preguntas en momentos apropiados. "La introducción de contexto adicional parece aumentar la confianza del modelo, lo que lo lleva a ser más propenso a alucinar". imagen Para entender esto, los autores utilizaron Gemini para calificar las respuestas de cada modelo, comparándolas con las posibles respuestas verdaderas. Los autores clasificaron cada respuesta como "correcta", "alucinación" (es decir, respuesta incorrecta) o "abstención" (por ejemplo, diciendo "no sé"). Usando este método, los autores encontraron que, por ejemplo, Gemma dio respuestas incorrectas al 10.2% de las preguntas sin contexto, mientras que esta proporción aumentó al 66.1% cuando se usó contexto insuficiente.

Marco de Generación Selectiva

Basándose en el análisis anterior, los autores propusieron un marco de "generación selectiva", que utiliza información de contexto suficiente para guiar la abstención. Los autores consideraron las siguientes métricas: 1) "precisión selectiva" mide la proporción de respuestas correctas entre las preguntas que el modelo intenta responder; 2) "cobertura" es la proporción de preguntas respondidas.

El método de generación selectiva de los autores "combina señales de contexto suficientes con las puntuaciones de confianza auto-evaluadas del modelo para tomar decisiones informadas sobre cuándo abstenerse". Esto es más refinado que simplemente abstenerse cuando el contexto es insuficiente, ya que el modelo a veces puede dar respuestas correctas incluso con contexto limitado. Los autores utilizaron estas señales para entrenar un modelo de regresión logística para predecir alucinaciones. Luego, establecieron un umbral de equilibrio entre cobertura y precisión para determinar cuándo el modelo debería abstenerse de responder.

imagen

Los autores utilizaron dos señales principales para decidir si abstenerse:

"Confianza auto-evaluada" adoptó dos estrategias: P(Verdadero) y P(Correcto). P(Verdadero) implica muestrear respuestas varias veces e indicar al modelo que etiquete cada muestra como correcta o incorrecta. P(Correcto) se utiliza para modelos con altos costos de consulta, e implica obtener la respuesta del modelo y su probabilidad estimada de corrección.

"Señal de contexto suficiente" utiliza la etiqueta binaria del modelo de herramienta de auto-evaluación (FLAMe) para indicar si el contexto es suficiente. Crucialmente, los autores no necesitan la respuesta verdadera para determinar la etiqueta de contexto suficiente, por lo que esta señal se puede utilizar al responder preguntas. imagen Los resultados de la investigación de los autores demuestran que este método logra un mejor equilibrio entre precisión selectiva y cobertura en comparación con el uso exclusivo de la confianza del modelo. Al utilizar la etiqueta de contexto suficiente, los autores pueden mejorar la precisión en las preguntas que el modelo responde, a veces hasta en un 10%.

Más contenido emocionante --> ¡Enfocado en las fronteras académicas de los Grandes Modelos/AIGC, Agentes, RAG y más!

Lectura recomendada

[1]Transformer|Red Neuronal de Alimentación Directa (FFN)

[2]Transformer|¡De MHA a DeepSeek MLA!

[3]Transformer|Mecanismo de Atención

[4]Transformer|Arquitectura MoE (incluyendo DeepSeek)

[5]Transformer|Normalización

[6]Transformer|Codificación Posicional (Codificación Posicional DeepSeek)

Se aceptan contribuciones o solicitudes de cobertura, contacto: ainlperbot

No es fácil organizar la información, ¡por favor, dale a "volver a ver" y "me gusta"!

Google | Análisis de Errores en Sistemas RAG: Propuesta de un Marco de Generación Selectiva para Aumentar la Precisión de RAG en un 10%

Compartir URL Corta