DeepSeek-Genauigkeit und -Effizienz verdoppelt, Huawei & IE CAS schlagen "Early Exit"-Mechanismus für Gedankenkette vor

Lange Gedankenkette ermöglichen großen Modellen die Schlussfolgerung, aber übermäßiges Nachdenken kann zur Last werden.

Huawei hat zusammen mit dem Institut für Informationsingenieurwesen der Chinesischen Akademie der Wissenschaften einen neuen Mechanismus vorgeschlagen, der es großen Modellen ermöglicht, das Denken frühzeitig zu beenden, um dieses Problem zu vermeiden.

Mit dieser Methode können Genauigkeit und Effizienz großer Modelle gleichzeitig verbessert werden, ohne zusätzliches Training.

src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIpjicokns9wxhevX5LORMhgKibSI5OKYMdkz2iaZFibe0RciawQKKeZQpqhw/640" alt="图片">

Diese Methode heißt DEER und ist die Abkürzung für Dynamic Early Exit in Reasoning.

Ihr Kern besteht darin, den kritischen Punkt zu finden, bevor die Qualität der Schlussfolgerungsinformationen abnimmt, und die Schlussfolgerung des großen Modells an diesem Punkt rechtzeitig zu unterbrechen.

Ergebnisse auf mehreren Reasoning-Benchmarks zeigen, dass DEER bei DeepSeek-Reasoning-LLMs der DeepSeek-Serie stets effektiv ist, die Generierungslänge der Gedankenkette um durchschnittlich 31% bis 43% reduziert und gleichzeitig die Genauigkeit um 1.7% bis 5.7% erhöht.

Bis heute wurde DEER kontinuierlich als effektiv auf weiteren Reasoning-Modellen wie QwQ, Qwen3 und Nemotron sowie auf 11 Bewertungssätzen verifiziert.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIBevnibyT7nJzepw8lUp4wJtpuooCQicwT64s0kKlkvU7wYVjCooibmZsg/640" alt="图片">

Der kritische Punkt zum Stoppen des Reasoning erfordert dynamische Planung.

Intuitiv stehen mit zunehmender Anzahl von Reasoning-Pfaden in der Gedankenkette mehr Informationen für die Generierung von Schlussfolgerungen zur Verfügung.

Wenn der kritische Punkt, an dem die Reasoning-Informationen gerade ausreichend sind (genannt Perlen-Reasoning, Pearl Reasoning), identifiziert werden kann und das Modell gezwungen wird, an diesem Punkt weiteres Nachdenken einzustellen und die Schlussfolgerung direkt auszugeben, können Genauigkeit und Effizienz gleichzeitig erreicht werden.

Der Schlüssel dieser Forschung liegt darin, während der Generierung langer Gedankenkette eine solche Perle zu finden.

Um diese Motivation zu überprüfen, zwangen die Autoren das Modell an den Übergangspunkten jedes Reasoning-Pfades, vom Denken zum direkten Generieren der Antwort zu wechseln. Wenn die resultierende Antwort korrekt war, wurde die Existenz dieses Perlen-Reasoning verifiziert.

Wie in der Abbildung unten gezeigt, enthalten etwa 75% der Beispiele tatsächlich eine solche Perle (d.h. ein frühzeitiger Ausstieg kann immer noch die richtige Antwort generieren), und sogar 36.7% der Beispiele können die richtige Antwort mit weniger als der Hälfte der ursprünglichen Reasoning-Pfade erhalten.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI8tEsGQOIJicgHwoWXK9niaEIefqn1LozPNmeOpYMKY6SoYRLI2TUhmicg/640" alt="图片">

Daher ist die Frage, wie man Pearl Reasoning aus einer langen Gedankenkette findet, ein Thema von großem Potenzial und Wert für die Erzielung effizienten Reasonings.

Zu diesem Zweck analysierten die Autoren in Vorversuchen das Problem des übermäßigen Nachdenkens, das in Reasoning-Modellen existiert, und untersuchten den Einfluss eines statischen frühzeitigen Ausstiegs auf die Modellleistung. Alle Experimente wurden auf DeepSeek-R1-Ditil-Qwen-14B durchgeführt.

Die Autoren ließen das Modell zunächst auf dem Testdatensatz vollständiges Reasoning durchführen (einschließlich der Gedankenkette und der Schlussfolgerung zwischen den vorangehenden und nachfolgenden Think-Tags), behielten dann die vollständige Gedankenkette bei und teilten sie basierend auf Gedankenübergangspunkten (wie dem Auftreten von Wörtern wie „wait“ oder „alternatively“) in Gedankenblöcke auf.

Für diese Beispiele behielten die Autoren unterschiedliche Anteile (20%-90%) von Gedankenblöcken bei und fügten an jeder Truncation-Stelle einen Trennzeichen für das Ende des Gedankens hinzu, um den Prozess der Gedankenkette zu beenden und die endgültige Schlussfolgerung zu generieren.

Quantitative Ergebnisse zeigen, dass bei der statischen Einstellung des frühzeitigen Ausstiegs mit nur 20% der Reasoning-Schritte bei MATH-500 60.8% der korrekt beantworteten Beispiele weiterhin korrekt blieben;

Bei der schwierigeren GPQA konnten immer noch 35.1% der Beispiele korrekt bleiben.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIDCK4QyLdxsicAicm7j2H8aNGTcgwJTOUFys5SHiaYoUVFc6CcFC3m4nTA/640" alt="图片">

Die Abbildung unten zeigt die unterschiedlichen Anteile falscher Antworten, die durch frühzeitiges Beenden an verschiedenen Positionen korrigiert werden können.

Für den MATH-Datensatz wird die höchste Fehlerkorrekturrate erreicht, wenn bei 40% der Reasoning-Schritte ausgestiegen wird; während für den GPQA-Datensatz die beste Fehlerkorrekturrate erreicht wird, wenn bei 50% der Reasoning-Schritte ausgestiegen wird.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIkUe86Jfg2g0GnVS4g0lMP10Nyp1ozl9libdf6qrzTibGzibyt0icsRIhMQ/640" alt="图片">

Es scheint, dass der optimale Punkt für den frühzeitigen Ausstieg für jedes Problem unterschiedlich ist und eng mit der intrinsischen Schwierigkeit des Problems selbst zusammenhängt.

Daher ist es subotimal, sich auf statische frühzeitige Ausstiegsstrategien zu verlassen, die auf festen Heuristiken basieren. Aus dieser Motivation heraus entwarfen die Autoren einen dynamischen frühzeitigen Ausstiegsmechanismus, um durch das Finden von Perlen-Reasoning weitere Fehler zu korrigieren und die Genauigkeit zu verbessern, während gleichzeitig die generierte Länge reduziert wird.

Wie funktioniert DEER also konkret?

Drei Schritte zur Bestimmung des Zeitpunkts für den Ausstieg aus dem Reasoning.

DEER betrachtet die kritischen Momente, in denen das Modell während des Reasonings seine Gedankenkette wechselt, als Gelegenheiten für den frühzeitigen Ausstieg und veranlasst das große Modell, an diesen Momenten das Denken einzustellen und versuchsweise Antworten zu generieren.

Die Konfidenz jeder Testantwort dient als Referenz für die Entscheidung zum frühzeitigen Ausstieg im Reasoning.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI0YHtmjU1lJpyaHPFfxH1q1gkj7vVjhiaVLjohYDYmic09MBicD0BzJ3qg/640" alt="图片">

Konkret umfasst die DEER-Methode drei Aktionen: Reasoning Transition Monitor, Trial Answer Inducer und Confidence Evaluation.

Der Reasoning Transition Monitor ist von der Budget-Force-Technik inspiriert und identifiziert Wörter wie „wait“ und „alternatively“ als kritische Punkte für den Gedankenübergang und überwacht ihr Auftreten.

Wenn ein Gedankenübergangspunkt erscheint, wird die Aktion des Trial Answer Inducer ausgelöst – die Autoren ersetzen „wait“ durch einen Marker ähnlich wie „Final Answer:“, um das Modell zu veranlassen, sofort eine Verifizierungsantwort zu generieren.

Dies wird für die dritte Aktion, die Confidence Evaluation, verwendet:

Wenn die Konfidenz hoch genug ist, wird das Modell darauf eingestellt, weiteres Denken einzustellen und basierend auf der bereits generierten Gedankenkette direkt die Schlussfolgerung zu generieren;

Andernfalls wird die Aktion zur Antworteninduktion zurückgenommen und das Reasoning auf dem ursprünglichen Pfad fortgesetzt.

Die Abbildung unten zeigt, dass die Konfidenz der Verifizierungsantwort in DEER tatsächlich widerspiegelt, ob die bereits generierte Gedankenkette ausreicht, um das große Modell bei der Generierung der endgültigen Antwort zu unterstützen.

Es kann beobachtet werden, dass bei unvollständigem oder fehlerhaftem Reasoning-Prozess des Modells die Testantwort oft deutlich niedrigere Konfidenz aufweist; umgekehrt hat die vom Modell generierte Antwort eine höhere Konfidenz, wenn das Reasoning umfassend und logisch fundiert ist.

src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnInVhicutrfGydRUmNic6HwGVHCMr3hD6XAULfumviagJjBr5sSeQMyMA0g/640" alt="图片">

Intuitiv führt die Berechnung der Antworteninduktion und Konfidenzbewertung in DEER zu zusätzlicher Latenz während des Reasoning-Prozesses, insbesondere bei Code-Generierungsaufgaben, bei denen die Testantworten immer noch sehr lang sind. Dies reduziert die Effizienzsteigerungen, die durch Verkürzung der Sequenz der Gedankenkette erzielt werden.

Um dieses Problem zu lösen, schlugen die Autoren eine Strategie zur parallelen Beschleunigung von Zweigen (branch-parallel acceleration) vor, um diese Effizienzbeschränkungen weiter zu beheben:

Mehrere Zweige werden in eine einzige Sequenz linearisiert und parallel unter Verwendung einer spezialisierten Causal Attention Mask generiert;

Dynamische KV-Cache-Verwaltung wird durch Konfidenz-basiertes Beschneiden erreicht. Diese Strategie ermöglicht eine zeitliche Überlappung zwischen dem Trial Answer Inducer und der Confidence Evaluation sowie der laufenden Generierung der Reasoning-Kette, wodurch die Gesamteffizienz des Reasonings optimiert wird.

src="http://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnI8FAG9IWgEe5PDUsHx48ibTgIhlT6pibp8AYMlSSD6grWtjaFX8MFM3dQ/640" alt="图片">

Darüber hinaus wird eine weitere Diskussion zur End-to-End-Latenz in der kommenden Version enthalten sein.

Reasoning-Modelle schneller und stärker machen.

Um die Leistung von DEER zu überprüfen, führten die Autoren Bewertungen auf 6 herausfordernden Reasoning-Benchmarks durch, darunter 3 mathematische Reasoning-Aufgaben (MATH-500, AMC 2023, AIME 2024), eine wissenschaftliche Reasoning-Aufgabe (GPQA Diamond) und zwei Code-Generierungsaufgaben (HumanEval, BigCodeBench).

Genauigkeit und Generierungslänge wurden als Bewertungsmetriken ausgewählt, die Präzision und Effizienz messen. Die Experimente verwendeten Modelle der DeepSeek-R1-Distill-Qwen-Serie unterschiedlicher Größe (1.5B, 7B, 14B, 32B).

Experimentelle Ergebnisse zeigen, dass DEER auf allen Modellgrößen und Bewertungssätzen erstaunliche Effekte erzielt.

Numerisch verbessert DEER die Genauigkeit im Durchschnitt um 1.7 bis 5.7 Punkte im Vergleich zur konventionellen Long CoT-Methode, während die Generierungslänge um 31% bis 43% reduziert wird.

Bei kleineren Modellen zeigt DEER signifikantere Verbesserungen für die beiden etwas weniger schwierigen Benchmarks, MATH-500 und AMC 2023.

Bei größeren Modellen zeigt DEER signifikantere Verbesserungen für die beiden anspruchsvolleren Benchmarks, AIME 2024 und GPQA.

Besonders wenn die Reasoning-Fähigkeit des Modells mit der Schwierigkeit des Problems übereinstimmt, ist die Methode der Autoren effektiver.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnITBOh7mYzKPlDqSnR3ARWxwcdCcgK1qChSicQEic23cTZgyNKk2TtpdTA/640" alt="图片">

Bei den beiden Programmier-Testsets HumanEval und BigCodeBench erreichte die Methode der Autoren eine durchschnittliche Reduzierung der Generierungslänge um 64.9%, während pass@1 um 2.1 Punkte stieg und sich gegenüber Schwellenwerten um 0.95 als robust erwies, ohne signifikante Schwankungen.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIibnRro8LRItuSaicSNbp9Suz03g0icbw0HTkibicibfKjjlITCwGmTES66aA/640" alt="图片">

Um die Verbesserung der End-to-End-Reasoning-Effizienz durch DEER weiter zu überprüfen, testeten die Autoren die durchschnittliche Inferenzlatenz pro Beispiel auf den Datensätzen MATH und AMC basierend auf huggingface transformers.

Die Ergebnisse zeigen, dass DEER selbst ohne die von den Autoren vorgeschlagene parallele Dekodierungsbeschleunigung die Inferenzlatenz bereits um 43.4% bis 47.3% reduziert hat.

Nach der Einführung der parallelen Zweig-Dekodierung zeigte das Reduktionsverhältnis der Inferenzlatenz eine überlineare Beziehung zum Reduktionsverhältnis der Sequenzlänge.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnItBUpmmxeMF3aA5kc2ia8YpJnYy38micc3ibsheyE70dUUkibVFDsiasSXZQ/640" alt="图片">

Die Autoren bewiesen die Wirksamkeit von DEER auch durch Beispielanalysen weiter.

Das ursprüngliche Reasoning-Modell neigt dazu, beim Lösen von Problemen die Ideen zu wechseln und mehrere Lösungsansätze zu erkunden, jedoch ist es sehr wahrscheinlich, dass es nur einen optimalen Lösungsweg gibt, und in nachfolgenden Gedanken macht das Modell Fehler und erhält nicht die richtige Antwort.

Um zu überprüfen, welches der beiden unterschiedlichen Ergebnisse richtig ist, führt das Modell eine endlose Selbstprüfung durch und kann letztendlich keine Antwort liefern.

Im DEER-Arbeitsmodus wird dieses Problem jedoch effektiv vermieden.

src="https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtBComrB1IsiaZXelaXxYvtnIZolAUia7aIuycqUpuZqL3SMIuH2sR1j5YSicdSwpzTibDv9ibG8RsXvqvg/640" alt="图片">

Link zum Paper: https://arxiv.org/abs/2504.15895Projektlink: https://github.com/iie-ycx/DEER

DeepSeek-Genauigkeit und -Effizienz verdoppelt, Huawei & IE CAS schlagen "Early Exit"-Mechanismus für Gedankenkette vor

Kurz-URL teilen