Welches Modell sollte ein zuverlässiger Agent verwenden? Das Phänomen "Lost in Conversation" in Multi-Turn-Dialogen von LLMs | Microsoft Neuestes

Einleitung: Microsoft hat kürzlich gemeinsam mit Salesforce Research eine Studie mit dem Titel "Lost in Conversation" veröffentlicht, die besagt, dass die Leistung der fortschrittlichsten LLMs in Multi-Turn-Gesprächen erheblich abnimmt, mit einem durchschnittlichen Rückgang von bis zu 39%. Dieses Phänomen wird als "Verlorengehen" im Gespräch bezeichnet. Der Artikel analysiert die Leistungsunterschiede der wichtigsten Modelle (einschließlich Claude 3.7-Sonnet, Deepseek-R1 usw.) in Multi-Turn-Gesprächen und entschlüsselt die grundlegenden Ursachen für das "Verlorengehen" der Modelle sowie wirksame Abhilfestrategien. Dies ist für die Agentenentwicklung bei der Modellauswahl sehr wichtig und lohnt eine sorgfältige Lektüre. Der letzte Teil des Artikels enthält Links zum Open-Source-Code und zum Datensatz, die von den Forschern für ihre Studie verwendet wurden.

Multi-Turn-Gespräche: Die stärksten KI-Modelle "verlieren sich" tatsächlich

Leistungsvergleich von 15 LLM-Modellen in Einzelzug- (FULL) und Mehrfachzug-Gesprächen (SHARDED), der den signifikanten Leistungsabfall in Multi-Turn-Dialogen zeigt.

Wenn die fortschrittlichsten großen Sprachmodelle (LLMs) mit Multi-Turn-Gesprächen konfrontiert werden, nimmt ihre Leistung erheblich ab, mit einem durchschnittlichen Rückgang von bis zu 39 %. Die neueste Studie von Microsoft Research, "Lost in Conversation", in Zusammenarbeit mit Salesforce Research, enthüllte dieses weit verbreitete, aber selten beachtete Problem durch 200.000 Dialogsimulationen mit 15 Top-Modellen. Die Studie ergab, dass sowohl kommerzielle Closed-Source-Modelle (wie GPT-4.1, Gemini 2.5 Pro) als auch Open-Source-Modelle (wie die Llama-Serie) dem Problem des "Verlorengehens" nicht entkommen können, was eine ernsthafte Herausforderung für Ingenieure darstellt, die Agenten-Systeme entwickeln.

Verlorengehen lässt die Zuverlässigkeit um 112% abstürzen

Vergleichende Analyse von Eignung (Aptitude) und Zuverlässigkeit (Reliability), die zeigt, dass der Zuverlässigkeitsabfall das Hauptproblem in Multi-Turn-Gesprächen ist.

Die Forscher teilten den Leistungsabfall von LLMs in Multi-Turn-Gesprächen durch innovative Metrikzerlegung in zwei Teile auf:

• Rückgang der Eignung (Aptitude): Nur 16% Rückgang

• Rückgang der Zuverlässigkeit (Reliability): Stürzte um 112% ab

Das bedeutet, dass sich die Kluft zwischen der besten und der schlechtesten Leistung des Modells mehr als verdoppelte. Diese hohe Unzuverlässigkeit erklärt, warum Ihr KI-Assistent manchmal hervorragend funktioniert, manchmal aber unerklärlicherweise "Dinge vergisst", wobei die Ergebnisse selbst bei derselben Frage bei mehreren Versuchen erheblich variieren können.

Geshardete Simulation: Experimentelles Design für das Verlorengehen von Modellen

Die sechs wichtigsten Aufgabentypen, die in der Studie behandelt werden, und Beispiele für geshardete Anweisungen, die zeigen, wie eine vollständige Anweisung in mehrere Informationsfragmente zerlegt wird.

Die Forscher entwickelten ein innovatives experimentelles Framework namens "Geshardete Simulation", das vollständige Anweisungen in mehrere Informationsfragmente (Shards) zerlegt und diese in Multi-Turn-Gesprächen schrittweise offenlegt. Diese Methode simuliert den Prozess, bei dem Benutzer im realen Dialog ihre Bedürfnisse schrittweise klären, im Gegensatz zu herkömmlichen Bewertungen, bei denen vollständige Informationen auf einmal bereitgestellt werden. Die Studie deckt sechs wichtige Aufgabenbereiche ab:

1. Programmierung (Code)

2. Datenbankabfrage (Database)

3. API-Aufrufe (Actions)

4. Mathematische Probleme (Math)

5. Daten-zu-Text-Generierung (Data-to-text)

6. Zusammenfassung mehrerer Dokumente (Summary)

Diese breite Abdeckung gewährleistet die allgemeine Anwendbarkeit der Studienergebnisse.

Anweisungs-Sharding und Dialogsimulationsarten

Diese Abbildung zeigt die zentrale experimentelle Designmethodik der Studie, aufgeteilt in zwei Teile:

1. Oberer Teil (Anweisungs-Sharding):

• Zeigt, wie Forscher eine vollständige Single-Turn-Anweisung (blaues Quadrat) in mehrere Informationsfragmente (gelbe kleine Quadrate) aufteilen.

• Dies ist die Grundlage des "Geshardeten Simulations"-Experiments im Artikel, das das Szenario simuliert, in dem Benutzer Informationen in Multi-Turn-Dialogen schrittweise bereitstellen.

2. Unterer Teil (Dialogsimulationsarten):

• Zeigt fünf verschiedene experimentelle Einstellungen und ihren Informationsfluss:

• FULL: Die vollständige Anweisung wird im ersten Zug vollständig bereitgestellt (Baseline-Szenario).

• SHARDED: Die Anweisung wird in mehrere Fragmente aufgeteilt und in verschiedenen Zügen schrittweise bereitgestellt (simuliert echten Multi-Turn-Dialog).

• CONCAT: Alle Fragmente werden im ersten Zug bereitgestellt, aber in Fragmentform beibehalten.

• RECAP: Verwendet das Sharding-Muster, fügt aber am Ende einen zusätzlichen Zug hinzu, der alle vorherigen Informationen zusammenfasst.

• SNOWBALL: Jeder Zug wiederholt kumulativ alle vorherigen Informationen.

Diese Abbildung erklärt anschaulich, warum Multi-Turn-Dialoge zu Leistungseinbußen führen und wie Strategien wie RECAP und SNOWBALL funktionieren.

Unterstützung beim Testen und Verbessern von Agenten-Systemen

Das Microsoft-Forschungsteam hat das vollständige Code-Repository und den Datensatz der Studie "Lost in Conversation" als Open Source veröffentlicht. Dies bietet Ihnen ein leistungsfähiges Werkzeugset zum Testen und Verbessern Ihrer eigenen Agenten-Systeme. Das Repository enthält ein vollständiges Dialogsimulationsframework (simulator_full.py, simulator_sharded.py usw.), das vollständige Anweisungen für einen Zug, geshardete Anweisungen für mehrere Züge und Implementierungen der RECAP/SNOWBALL-Strategien abdeckt.

Github:https://github.com/Microsoft/lost_in_conversation

HuggingFace:https://huggingface.co/datasets/microsoft/lost_in_conversation

Hauptmerkmale des Code-Repositorys und des Datensatzes:

• Vollständiges Dialogsimulationsframework zur Unterstützung von Tests in verschiedenen Szenarien

• 600 qualitativ hochwertige, von Menschen überprüfte Anweisungen und deren geshardete Versionen

• Deckt sechs wichtige praktische Szenarien ab, darunter Programmierung, Mathematik und Datenbankabfragen

Wenn Sie ein Agenten-Entwickler sind, können Sie diese Ressourcen für drei Arten von Tests verwenden:

1. Bewerten Sie die realen Leistungsunterschiede verschiedener Grundmodelle in Multi-Turn-Dialogen.

2. Überprüfen Sie die tatsächliche Wirksamkeit der von Ihnen entwickelten Informationsintegrationsstrategien (wie RECAP).

3. Diagnostizieren Sie, bei welchen Aufgabentypen Ihr eigenes Agenten-System eher "verloren" geht.

Die Forscher empfehlen, die Einstellungen zunächst in kleinen Experimenten zu bestätigen, bevor groß angelegte Tests durchgeführt werden, und die Ratenbeschränkungen des API-Anbieters zu beachten. Dieses Toolset ist möglicherweise das umfassendste verfügbare Werkzeug zur Bewertung der Informationsintegrationsfähigkeiten von LLMs und bietet einen hohen Referenzwert für den Aufbau wirklich zuverlässiger Multi-Turn-Dialogsysteme.

⚠️ Modelle beginnen schon nach zwei Zügen abzustürzen

Ergebnisse des progressiven Sharding-Experiments, die beweisen, dass die Modellzuverlässigkeit selbst bei nur zwei Gesprächsrunden signifikant abnimmt.

Das alarmierendste Ergebnis ist, dass selbst in den einfachsten Zwei-Zug-Dialogen die Leistung von LLMs signifikant abnimmt. Die Forscher zeigten durch das "progressive Sharding"-Experiment, dass die Modellzuverlässigkeit zusammenbricht, sobald der Dialog einen Grad der schrittweisen Informationsfreigabe beinhaltet (selbst wenn er nur in zwei Fragmente aufgeteilt ist). Das bedeutet, dass Ihr Agenten-System selbst bei der Verarbeitung scheinbar einfacher Multi-Turn-Dialoge einem Risiko ausgesetzt ist und Benutzer keine komplexen Fragen stellen müssen, um Situationen zu begegnen, in denen der KI-Assistent "den Überblick verliert".

Warum selbst die stärksten Modelle straucheln

Durch eine eingehende Analyse der Dialogprotokolle identifizierte die Studie vier Schlüsselfaktoren, die dazu führen, dass Modelle "verloren gehen":

1. Vorzeitige Annahmen: Modelle versuchen, Fragen zu beantworten, bevor sie vollständige Informationen haben, und treffen zahlreiche Annahmen.

2. Antwortinflation: Übermäßiges Vertrauen auf frühere (möglicherweise falsche) Antworten, was dazu führt, dass Antworten allmählich "aufgebläht" werden, anstatt neu überdacht zu werden.

3. Ungleichmäßige Aufmerksamkeitsverteilung: Übermäßige Fokussierung auf den ersten und letzten Zug des Dialogs, während Informationen in Zwischenzügen vernachlässigt werden.

4. Antwort-Ausführlichkeit: Generierung übermäßig langer Antworten, die weitere irrelevante Annahmen einführen und das Modell selbst ablenken.

Diese Faktoren tragen gemeinsam dazu bei, dass selbst die fortschrittlichsten Modelle in Multi-Turn-Gesprächen allmählich vom richtigen Weg abweichen.

Einfluss der Antwort-Ausführlichkeit auf die Leistung

Diese Tabelle zeigt eine wichtige Erkenntnis: Kürzere Antworten sind in der Regel effektiver als längere Antworten.

• Die horizontale Achse stellt den Grad der Antwort-Ausführlichkeit dar, von kürzester (0-20%) bis längster (80-100%).

• Die vertikale Achse zeigt verschiedene Aufgabentypen (Code, Mathematik, Datenbank usw.).

• Die Werte in der Tabelle sind die Leistungswerte des Modells für diese Aufgabe.

Schlüsselerkenntnis:

• Bei den meisten Aufgaben (insbesondere Code, Database, Summary) führt eine kürzere Antwort zu besserer Leistung.

• Zum Beispiel beträgt bei der Code-Aufgabe der Wert für die kürzesten Antworten (0-20%) 55.3, während er für die längsten Antworten (80-100%) nur 42.5 beträgt.

• Nur bei der Actions-Aufgabe wird mit mittlerer Ausführlichkeit (40-60%) die beste Leistung erzielt.

• Im Durchschnitt ist die Leistung kürzerer Antworten (0-40%) deutlich besser als die längerer Antworten (60-100%).

Dies zeigt, dass Modelle, die übermäßig lange Antworten generieren, mehr unnötige Annahmen einführen, was zum "Verlorengehen" führt.

Claude 3.7 und DeepSeekR1

Unter allen 15 getesteten Modellen zeigte Claude 3.7-Sonnet die stärkste Zuverlässigkeit in Multi-Turn-Gesprächen, mit einer Leistungserhaltungsrate von 65.9%, was es an die Spitze der Konkurrenten setzte. Obwohl GPT-4.1 in Einzelzug-Gesprächen besser abschnitt, hatte Claude den geringsten Verlust beim Übergang von Einzelzug zu Mehrfachzug, insbesondere bei den Aufgaben Mathematik (85.4→70.0) und Zusammenfassung (29.3→23.6) hielt es ein hohes Niveau.

Anwendbarer Ratschlag:

• Wenn Sie einen Agenten entwickeln, der komplexe Multi-Turn-Interaktionen erfordert, könnte Claude 3.7-Sonnet die derzeit beste Wahl sein.

• Wenn Sie auf Open-Source-Modelle beschränkt sind, ist Llama 3.3-70B (Leistungserhaltungsrate 64.2%) die kostengünstigste Option.

Als eines der beiden in der Studie getesteten spezialisierten Reasoning-Modelle zeigte Deepseek-R1 eine äußerst ausgeprägte "Janusköpfigkeit".

Vorteil im Einzelzug-Dialog:

• Programmieraufgabe (Code): Spitzenleistung von 99.4 Punkten

• Actions-Aufgabe: 97.0 Punkte

• Mathematikaufgabe: 95.5 Punkte

Nachteil im Multi-Turn-Dialog:

• Die Leistung im Multi-Turn beträgt nur 31.5%.

• Die Erhaltungsrate beträgt nur 47.5%.

• Bei fast jeder Aufgabe gab es einen Fähigkeitsverlust von über 60%.

Die Forscher merkten speziell an, dass, obwohl Deepseek-R1 zusätzliche Denkfähigkeit (Test-Time Compute) besitzt, dies ihm nicht geholfen hat, Stabilität in Multi-Turn-Gesprächen zu wahren, was darauf hindeutet, dass "Denken" allein nicht ausreicht, um Probleme der Informationsintegration zu lösen.

Ratschläge für Agenten-Entwickler:

• Szenarien mit Einzelzug-Interaktion: Deepseek-R1 ist eine sehr wettbewerbsfähige Wahl.

• Szenarien mit komplexen Multi-Turn-Dialogen: Erfordert eine sorgfältige Bewertung oder erwägen Sie die Verwendung von DeepSeekV3 als Alternative.

🌡️ Temperaturabsenkung unwirksam: Unsicherheit ist nicht der Schuldige

Testergebnisse zur Unzuverlässigkeit von Modellen bei verschiedenen Temperatureinstellungen, die beweisen, dass das Senken der Temperatur die Zuverlässigkeit in Multi-Turn-Dialogen nicht effektiv erhöht.

Ein häufiges Missverständnis ist, dass das Senken des Temperaturparameters eines Modells die Konsistenz in Multi-Turn-Dialogen erhöhen kann. Die Forscher führten speziell Temperaturexperimente durch, und die Ergebnisse zeigen:

• Einzelzug-Dialog: Temperatursenkung ist wirksam (Reduzierung der Temperatur von 1.0 auf 0.0 kann die Unzuverlässigkeit um 50% reduzieren).

• Multi-Turn-Dialog: Temperatursenkung ist nahezu unwirksam (bei einer Temperatur von 0.0 beträgt die Unzuverlässigkeit immer noch etwa 30%).

Dieses Ergebnis zeigt, dass die Grundursache des Problems nicht Zufälligkeit ist, sondern ein inhärenter Fehler in der Art und Weise, wie Modelle Informationen in einem Multi-Turn-Kontext verarbeiten. Ingenieure müssen beachten: Einfache Anpassungen der Generierungsparameter können das Problem des "Verlorengehens" in Multi-Turn-Dialogen nicht lösen.

RECAP-Strategie: Verbesserung der Multi-Turn-Dialogleistung

Leistungsvergleich der RECAP- und SNOWBALL-Strategien, der zeigt, dass diese Methoden den Leistungsabfall in Multi-Turn-Dialogen effektiv mildern können.

Zur Lösung des "Verlorengehen"-Problems testeten die Forscher zwei mögliche Lösungen:

1. RECAP (Abschließende Zusammenfassung): Fügen Sie vor dem Ende des Multi-Turn-Dialogs einen zusätzlichen Zug hinzu, um alle zuvor vom Benutzer bereitgestellten Informationen zusammenzufassen.

2. SNOWBALL (Kumulative Wiederholung): Wiederholen Sie in jedem Zug alle vorherigen Informationen.

Die experimentellen Ergebnisse waren signifikant: Die RECAP-Strategie verbesserte die Multi-Turn-Leistung von GPT-4o von 59.1% auf 76.6%, wodurch etwa 40% des Leistungsabfalls gemildert wurden.

Praktischer Ratschlag: Berücksichtigen Sie bei der Entwicklung von Agenten-Systemen die Hinzufügung eines Mechanismus zur Informationsüberprüfung an kritischen Entscheidungspunkten. Obwohl dies das Problem nicht vollständig lösen kann, kann es das Risiko erheblich reduzieren.

Fünf praktische Vorschläge für das Design von Agenten-Architekturen

Basierend auf den Studienergebnissen können die folgenden fünf Vorschläge Ihnen helfen, zuverlässigere Agenten-Systeme zu entwickeln:

1. Verzögerung der Antwortgenerierung: Vermeiden Sie, dass Modelle verfrühte Annahmen treffen, indem Sie sie explizit anweisen, mit der Beantwortung zu warten, bis genügend Informationen gesammelt wurden.

2. Kontrolle der Antwortlänge: Studiendaten zeigen, dass kürzere Antworten eine signifikant höhere Erfolgsrate haben als längere.

3. Implementierung von Informationsüberprüfungsmechanismen: Fassen Sie bekannte Informationen an kritischen Entscheidungspunkten zusammen.

4. Nutzung einer Multi-Modell-Architektur: Verwenden Sie spezialisierte Modelle, die für die Informationsintegration und Entscheidungsfindung zuständig sind.

5. Benutzer dazu anregen, vollständige Informationen bereitzustellen: Die Studie zeigt, dass die Bereitstellung vollständiger Anweisungen auf einmal viel besser funktioniert als verteilte Anweisungen.

Die kombinierte Anwendung dieser Strategien kann zu zuverlässigeren Agenten-Systemen führen.

Empfehlungen der Forscher

Die Ergebnisse der Studie stellen LLM-Entwickler vor eine ernsthafte Herausforderung: Aktuelle Mainstream-Bewertungsmethoden konzentrieren sich übermäßig auf die Fähigkeit (Aptitude) in Einzelzug- und vollständig spezifizierten Szenarien, während die Zuverlässigkeit in Multi-Turn- und schrittweise geklärten Szenarien vernachlässigt wird.

Die Forscher rufen LLM-Entwickler dazu auf, in zukünftigen Modell-Iterationen beiden Dimensionen gleichermaßen Beachtung zu schenken und schlagen spezifische Standards vor:

• Ein ideales LLM sollte ähnliche Fähigkeitsniveaus sowohl in Einzelzug- als auch in Multi-Turn-Einstellungen beibehalten.

• Die Unzuverlässigkeit in Multi-Turn-Dialogen sollte unter 15% liegen.

• Diese Metriken sollten bei der Standardtemperatur (T=1.0) erreicht werden.

Diese Verschiebung wird die nächste Generation von LLMs besser für den Aufbau wirklich zuverlässiger konversationeller Agenten-Systeme geeignet machen.

Schlussbemerkung

Die Studie "Lost in Conversation" enthüllt wichtige Einschränkungen der aktuellen LLMs. Durch die Auswahl des für Ihre Bedürfnisse am besten geeigneten Modells, die Kombination mit Informationsintegrationsstrategien wie RECAP und die Befolgung der im Artikel bereitgestellten praktischen Vorschläge können Sie die Zuverlässigkeit Ihres Agenten-Systems in Multi-Turn-Dialogen erheblich verbessern.

Obwohl eine perfekte Lösung noch nicht verfügbar ist, ist die Erkenntnis des Problems und das Ergreifen gezielter Maßnahmen ein wichtiger Schritt auf dem Weg zum Aufbau der nächsten Generation zuverlässiger Agenten-Systeme. Wenn Benutzer sagen: "Die KI vergisst immer zur Hälfte, was ich gesagt habe", könnte Ihr System die Ausnahme sein, die dieses Stereotyp durchbricht.

Die Zukunft ist da, senden Sie "Gruppe" an das Backend des offiziellen Kontos

Lassen Sie uns gemeinsam gehen, wenn das Schicksal es zulässt

Bitte kontaktieren Sie mich für Nachdruck

🎉Lassen Sie uns gemeinsam mehr Schönes schaffen!🎉

Wenn Sie diesen Artikel hilfreich fanden

Danke für Ihr [Like] und [Gesehen]

👉WeChat ID: xiumaoprompt

Bitte geben Sie beim Hinzufügen Ihren Grund an!

Welches Modell sollte ein zuverlässiger Agent verwenden? Das Phänomen "Lost in Conversation" in Multi-Turn-Dialogen von LLMs | Microsoft Neuestes

Kurz-URL teilen