Durchbruch beim Reasoning: Wie SoftCoT++ LLMs ermöglicht, 'mehrere Wege zu denken'?

Die Reasoning-Fähigkeit von LLMs hängt von der „Denkkette“ (Chain-of-Thought, CoT) ab, d. h. der Generierung von Zwischenschritten im Denkprozess. Traditionelle Methoden generieren diese Schritte jedoch in einem diskreten Token-Raum, was zu zwei Hauptproblemen führt:

Informationsverlust: Bei jedem Schritt kann nur ein Wort gewählt werden, komplexe Logik kann vereinfacht werden;

Unzureichende Vielfalt: Mehrere Stichproben können identische Pfade generieren und die Möglichkeiten nicht vollständig erkunden.

Wenn man ein Modell zum Beispiel ein mathematisches Problem lösen lässt, kann es sein, dass es immer wieder denselben falschen Ansatz verwendet, was zu einer ungenauen Antwort führt. Bild

Papier: SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

Link: https://arxiv.org/pdf/2505.11484

Vergleich zwischen traditionellem CoT und SoftCoT++: Ersteres generiert Schritte im diskreten Raum, während letzteres

Vergleich zwischen traditionellem CoT und SoftCoT++: Ersteres generiert Schritte im diskreten Raum, während letzteres "weiche Gedanken" im kontinuierlichen Raum generiert.

In den letzten Jahren haben Studien wie Coconut und SoftCoT versucht, den Denkprozess mithilfe eines kontinuierlichen latenten Raums zu kodieren (ähnlich dem "verschwommenen Denken" des menschlichen Gehirns), doch es ergab sich ein neues Problem: Wie kann man dem Modell ermöglichen, im kontinuierlichen Raum "mehrere Wege zu denken"?

Wie SoftCoT++ mit "Weichen Gedanken" Grenzen durchbricht

Kernidee von SoftCoT++:

Trennung von "Denken" und "Schlussfolgern":

Denkphase: Verwendung eines kleinen Hilfsmodells zur Generierung von "weichen Gedanken" im kontinuierlichen Raum (ähnlich einer vagen Inspiration);

Schlussfolgerungsphase: Das große Modell generiert spezifische Schritte basierend auf diesen "Inspirationen".

Simulation der Erkundung mehrerer Pfade: Traditionelle Methoden können verschiedene Pfade nur durch zufälliges Sampling generieren, während SoftCoT++ dem Modell ermöglicht, sich im kontinuierlichen Raum natürlich in vielfältige Pfade zu differenzieren, indem Anfangsbedingungen gestört werden (z. B. durch Bereitstellung unterschiedlicher "Denkanstöße").

Zum Beispiel: Beim Lösen desselben Problems könnte das Modell zuerst überlegen, "Gleichungen zu verwenden" oder "ein Diagramm zu zeichnen"; verschiedene Ausgangspunkte führen zu unterschiedlichen Lösungsmethoden.

Technische Details: Diverse Anfangs-Tokens und kontrastives Lernen

Zwei Schlüsseltechnologien:

Spezialisierte Anfangs-Tokens ([TNT] token)

Traditionelle Methoden verwenden feste Platzhalter (z. B. [UNK]), um das Denken auszulösen, während SoftCoT++ mehrere verschiedene [TNT]-Tokens verwendet, wobei jedes Token einer anderen anfänglichen Denkrichtung entspricht.

Dies entspricht dem Geben unterschiedlicher "Denkanstöße", um vielfältige weiche Gedanken auszulösen.

Kontrastives Lernen

Ziel: Die weichen Gedanken verschiedener Pfade so "unterschiedlich" wie möglich gestalten.

Methode: Maximierung des Unterschieds zwischen verschiedenen Gedanken durch eine Verlustfunktion (Formel unten).

(Einfach gesagt: Gedanken desselben Pfades konzentrierter gestalten, Gedanken verschiedener Pfade verteilter gestalten)

Kontrastive Experimente: Das Hinzufügen von Rauschen allein (SoftCoT-P) hat eine begrenzte Wirkung, während die Kombination aus spezialisierten Tokens und kontrastivem Lernen (SoftCoT++) die Leistung signifikant verbessert.

Experimente: Umfassende Überlegenheit gegenüber traditionellen Methoden

In 5 Benchmark-Tests zu Mathematik, allgemeinem Wissen und symbolischem Reasoning zeigte SoftCoT++ eine bemerkenswerte Leistung:

Mathematisches Reasoning: Die GSM8K-Genauigkeit stieg um 1-2%, das Qwen3-Modell erreichte 93,65%;

Reasoning mit allgemeinem Wissen: Stabiler Vorsprung bei der StrategyQA-Aufgabe;

Kompatibilität: Die Leistung stieg weiter an, wenn es mit Self-Consistency kombiniert wurde.

Vergleich der wichtigsten Methoden: SoftCoT++ übertrifft traditionelles CoT und Coconut bei weitem.

Noch wichtiger ist, dass ohne Änderung der Modellparameter, allein durch Erhöhung der Rechenressourcen während der Inferenz (z. B. Generierung von 10 Denkpfaden), eine sofortige Leistungssteigerung erzielt werden kann.

Hinweis: Spitzname - Schule/Unternehmen - Bereich / Konferenz (z.B. ACL), treten Sie der Tech-/Einreichungsgruppe bei

Bild

ID: DLNLPer, denken Sie daran, eine Notiz beizufügen