Google | Fehlersuche in RAG-Systemen: Ein Framework zur selektiven Generierung zur Steigerung der RAG-Genauigkeit um 10%

Klicken Sie unten auf „AINLPer“, um zu folgen und weitere nützliche Inhalte aus erster Hand zu erhalten.

Weitere spannende Inhalte -> Fokus auf die neuesten Entwicklungen bei großen Modellen, Agenten, RAG und mehr!

Einleitung

Die aktuelle RAG-Technologie ist weit verbreitet, aber aufgrund der Beteiligung vieler technischer Knotenpunkte ist die Fehlerbehebung im Allgemeinen sehr schwierig. Um dies zu adressieren, führten die Autoren dieses Artikels eine detaillierte Analyse der in RAG-Systemen auftretenden Fehler durch, „führten das Konzept des ausreichenden Kontexts (Sufficient Context) ein und wiesen darauf hin, dass Halluzinationsphänomene in RAG-Systemen durch unzureichenden Kontext verursacht werden könnten“. Sie schlugen daraufhin ein Framework zur selektiven Generierung vor, um die Genauigkeit von RAG-Systemen zu verbessern, und experimentelle Ergebnisse zeigen, dass diese Methode die Genauigkeit von RAG-Systemen um bis zu 10% steigern kann. Bild Link: https://arxiv.org/pdf/2411.06037

Hintergrund

Retrieval-Augmented Generation (RAG) ist einer der bedeutendsten technologischen Durchbrüche im aktuellen NLP-Bereich. Es kombiniert große Sprachmodelle (LLMs) mit dynamischen Informationsabrufmechanismen und löst so effektiv drei Kernprobleme traditioneller Sprachmodelle: das Problem der Wissensverfestigung, die Tendenz zu faktischen Halluzinationen und die unzureichende Abdeckung von Long-Tail-Wissen. Diese Methode wird sowohl in Open-Source- als auch in kommerziellen Anwendungen weit verbreitet eingesetzt, wie z.B. bei Suchanfragen, intelligentem Kundenservice und medizinischer Diagnostik.

Obwohl RAG in vielen Aufgaben hervorragende Leistungen erbringt, treten dennoch häufig „Halluzinationen“ auf, d.h. das Modell generiert selbst bei unvollständigen oder irrelevanten Dokumenten selbstbewusst falsche Antworten. An diesem Punkt könnten Sie sich fragen: „Sind diese Fehler darauf zurückzuführen, dass das Abrufsystem nicht genügend Informationen bereitgestellt hat, oder dass das Modell selbst den Kontext nicht korrekt verwendet hat?“

Um dieses Problem zu analysieren und zu lösen, hat Google das Konzept des „ausreichenden Kontexts (Sufficient Context)“ vorgeschlagen und intensive Forschung dazu betrieben. Ziel ist es, die Verantwortlichkeit für RAG-Systemfehler klar abzugrenzen und verschiedene Strategien zur Verbesserung der RAG-Generierungsqualität bereitzustellen.

Tool zur Bewertung der Kontextsuffizienz

Was ist ein ausreichender Kontext (Sufficient Context)? Die Autoren definieren ihn wie folgt: Ob der abgerufene Inhalt „alle Informationen enthält, die zur Unterstützung der korrekten Antwort erforderlich sind“. Dieser Standard erfordert nicht, dass der Kontext die Antwort explizit enthält, aber er sollte es einem mit der Aufgabe vertrauten LLM ermöglichen, die korrekte Antwort auf der Grundlage seines gesunden Menschenverstandes und seiner Schlussfolgerungsfähigkeiten vernünftig abzuleiten.

Um dieses Konzept zu quantifizieren, entwickelten die Autoren eine neue Bewertungsaufgabe: „Angesichts einer Frage, einer Antwort und eines Kontexts beurteilen Sie, ob der Kontext ausreichend ist, um diese Antwort zu unterstützen.“ Einfach ausgedrückt: Wenn der Kontext alle notwendigen Informationen enthält, die es einem großen Modell ermöglichen, die richtige Antwort zu generieren, wird er als „ausreichend“ definiert; wenn dem Kontext notwendige Informationen fehlen, er unvollständig, unsicher oder widersprüchliche Informationen enthält, wird er als „unzureichend“ definiert. Bild Basierend auf der obigen Definition entwickelten die Autoren zunächst einen auf großen Modellen basierenden Kontext-Suffizienz-Evaluator (hier wird hauptsächlich Gemini 1.5 Pro verwendet, implementiert durch die Konstruktion von Prompts), um automatisch zu beurteilen, ob der Kontext ausreichend ist. Wenn der Kontext ausreichend ist, gibt er „Wahr“ aus; wenn unzureichend, gibt er „Falsch“ aus. Experimentelle Ergebnisse zeigen, dass der 1-Shot Kontext-Suffizienz-Evaluator bei der Bewertung der Kontext-Suffizienz eine Genauigkeit von bis zu 93% erreichte.

RAG-Fehlerursachenanalyse

Die Autoren dieses Artikels nutzten das Tool zur Bewertung der Kontextsuffizienz, um die Leistung verschiedener großer Sprachmodelle (LLMs) und Datensätze zu analysieren, und kamen zu folgenden wichtigen Erkenntnissen:

Die fortschrittlichsten großen Modelle (wie Gemini, GPT und Claude) können Fragen in der Regel hervorragend beantworten, wenn ausreichend Kontext bereitgestellt wird, aber sie können falsche Antworten nicht erkennen und vermeiden, wenn der Kontext unzureichend ist.

Kleinere Open-Source-Modelle weisen spezifische Probleme auf; selbst wenn der Kontext ausreichend ist, um die Frage korrekt zu beantworten, neigen sie zu Halluzinationen.

Manchmal kann das Modell selbst dann korrekte Antworten generieren, wenn der Kontext als unzureichend eingestuft wird, was darauf hindeutet, dass unzureichender Kontext immer noch nützlich sein kann, z.B. um Lücken im Wissen des Modells zu füllen oder Ambiguitäten in der Abfrage zu klären.

Basierend auf diesen Erkenntnissen schlugen die Autoren Empfehlungen zur Verbesserung von RAG-Systemen vor: 1) vor der Generierung eine Suffizienzprüfung hinzufügen; 2) mehr Kontext abrufen oder den abgerufenen Kontext neu ordnen; 3) die Verzichtsschwelle basierend auf Konfidenz- und Kontextsignalen anpassen.

Kontextsuffizienz in Bewertungs-Benchmarks

Die Autoren dieses Artikels untersuchten die Umstände hinter dem ausreichenden Kontext. Die Analyse ergab, dass in mehreren Standard-Benchmark-Datensätzen zahlreiche Fälle mit unzureichendem Kontext vorhanden sind. Die Autoren berücksichtigten drei Datensätze: FreshQA, HotPotQA und MuSiQue. Datensätze mit einem höheren Anteil an ausreichenden Kontextinstanzen, wie FreshQA, hatten oft einen Kontext, der aus manuell organisierten unterstützenden Dokumenten stammte. Bild

Kontext, der zu Halluzinationen führt

Überraschenderweise reduziert Retrieval-Augmented Generation (RAG), obwohl es die Gesamtleistung im Allgemeinen verbessert, die Fähigkeit des Modells, zu gegebener Zeit keine Fragen zu beantworten. „Die Einführung zusätzlicher Kontexte scheint das Vertrauen des Modells zu erhöhen, was dazu führt, dass es eher zu Halluzinationen neigt.“ Bild Um dies zu verstehen, verwendeten die Autoren Gemini, um die Antworten jedes Modells zu bewerten und sie mit möglichen wahren Antworten zu vergleichen. Die Autoren klassifizierten jede Antwort als „korrekt“, „Halluzination“ (d.h. falsche Antwort) oder „Verzicht“ (z.B. sagen „Ich weiß es nicht“). Mit dieser Methode stellten die Autoren fest, dass beispielsweise Gemma ohne Kontext bei 10,2 % der Fragen falsche Antworten gab, während dieser Anteil bei Verwendung unzureichenden Kontexts auf 66,1 % anstieg.

Framework zur selektiven Generierung

Basierend auf der obigen Analyse schlugen die Autoren ein „selektives Generierungs“-Framework vor, das ausreichende Kontextinformationen nutzt, um den Verzicht zu steuern. Die Autoren berücksichtigten folgende Metriken: 1) „Selektive Genauigkeit“ misst den Anteil der korrekten Antworten unter den Fragen, die das Modell zu beantworten versucht; 2) „Abdeckung“ ist der Anteil der beantworteten Fragen.

Die selektive Generierungsmethode der Autoren „kombiniert ausreichende Kontextsignale mit den selbstbewerteten Konfidenzwerten des Modells, um fundierte Entscheidungen darüber zu treffen, wann verzichtet werden sollte“. Dies ist differenzierter als ein einfacher Verzicht bei unzureichendem Kontext, da das Modell manchmal selbst bei begrenztem Kontext korrekte Antworten geben kann. Die Autoren verwendeten diese Signale, um ein logistisches Regressionsmodell zur Vorhersage von Halluzinationen zu trainieren. Anschließend legten sie einen Schwellenwert für den Kompromiss zwischen Abdeckung und Genauigkeit fest, um zu bestimmen, wann das Modell die Beantwortung verweigern sollte.

Bild

Die Autoren verwendeten zwei Hauptsignale, um zu entscheiden, ob verzichtet werden soll:

„Selbstbewertete Konfidenz“ umfasste zwei Strategien: P(Wahr) und P(Korrekt). P(Wahr) beinhaltet das mehrfache Sampling von Antworten und das Auffordern des Modells, jede Stichprobe als richtig oder falsch zu kennzeichnen. P(Korrekt) wird für Modelle mit hohen Abfragekosten verwendet und beinhaltet das Abrufen der Antwort des Modells und dessen geschätzte Wahrscheinlichkeit der Korrektheit.

„Ausreichendes Kontextsignal“ verwendet das binäre Label des Selbstbewertungstool-Modells (FLAMe) um anzuzeigen, ob der Kontext ausreichend ist. Entscheidend ist, dass die Autoren die wahre Antwort nicht benötigen, um das Label für ausreichenden Kontext zu bestimmen, sodass dieses Signal beim Beantworten von Fragen verwendet werden kann. Bild Die Forschungsergebnisse der Autoren zeigen, dass diese Methode im Vergleich zur ausschließlichen Verwendung der Modellkonfidenz einen besseren Kompromiss zwischen selektiver Genauigkeit und Abdeckung erzielt. Durch die Verwendung des Labels für ausreichenden Kontext können die Autoren die Genauigkeit bei den vom Modell beantworteten Fragen manchmal um bis zu 10% verbessern.

Weitere spannende Inhalte -> Fokus auf akademische Neuerungen im Bereich große Modelle/AIGC, Agenten, RAG und mehr!

Empfohlene Lektüre

[1]Transformer|Feedforward Neural Network (FFN)

[2]Transformer|Von MHA zu DeepSeek MLA!

[3]Transformer|Aufmerksamkeitsmechanismus

[4]Transformer|MoE-Architektur (einschließlich DeepSeek)

[5]Transformer|Normalisierung

[6]Transformer|Positionskodierung (DeepSeek Positionskodierung)

Beiträge oder Berichterstattungsanfragen willkommen, Kontakt: ainlperbot

Die Informationsaufbereitung ist nicht einfach, bitte klicken Sie auf „Erneut ansehen“ und „Gefällt mir“!

Google | Fehlersuche in RAG-Systemen: Ein Framework zur selektiven Generierung zur Steigerung der RAG-Genauigkeit um 10%

Kurz-URL teilen