ICML 2025 | Trainingsfreie, sofortige Ausrichtung großer Modellpräferenzen

TPO: Ein neuer Ansatz zur sofortigen Präferenz-Ausrichtung während der Inferenz

Um das Verhalten großer Sprachmodelle (LLMs) besser an menschliche Erwartungen anzupassen, optimieren eine Reihe von Alignment-Methoden während des Trainings (z. B. RLHF und DPO) Präferenzen durch Feinabstimmung von Modellparametern. Dieser 'Trainings-Alignment'-Modus ist jedoch nicht nur zeit- und arbeitsaufwändig, sondern erfordert auch ein erneutes Training von Grund auf, sobald sich Präferenzen ändern (z. B. aktualisierte Sicherheitsstandards). Dieser Ansatz ist sehr passiv, wenn es darum geht, auf sich ändernde Anforderungen zu reagieren.

Gibt es eine Methode, die das mühsame erneute Training überspringen kann und es Modellen ermöglicht, sich während der Inferenz schnell an menschliche Präferenzen anzupassen? Kürzlich hat das Shanghai AI Lab die Test-Time Preference Optimization (TPO) vorgestellt. Kurz gesagt: TPO ermöglicht es LLMs, ihre Ausgabe bei jeder Antwort durch iteratives Text-Feedback selbst anzupassen, wodurch eine 'Plug-and-Play'-Ausrichtung ohne Aktualisierung der Modellgewichte erreicht wird. Im Gegensatz zu RLHF und DPO, die ein Offline-Training zur Parameteroptimierung erfordern, führt TPO die Präferenzoptimierung vollständig während des Inferenzprozesses durch, wobei die Modellparameter unverändert bleiben. Die Forschung zeigt, dass TPO als praktische, leichte Alternative die Modellausgaben während der Inferenz dynamisch an menschliche Präferenzen anpassen kann.

Bild

Papiertitel: Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual FeedbackPapieradresse: arxiv.org/abs/2501.12895Huggingface-Adresse: https://huggingface.co/papers/2501.12895Github-Adresse: https://github.com/yafuly/TPO

TPO = Textueller Gradientenabstieg

Die Kernintuition von TPO besteht darin, das Modell Antworten generieren und sich gleichzeitig anhand von Feedback kontinuierlich verbessern zu lassen, was im Wesentlichen einer 'Gradientenabstiegs'-Optimierung im Textraum entspricht. Vereinfacht ausgedrückt, nutzt das Modell seine Fähigkeit zum Befehlsverständnis und zur Argumentation, um numerische Belohnungssignale in lesbare Textvorschläge zu übersetzen und so die Richtung nachfolgender Antworten anzupassen. Der gesamte Prozess erfordert keine explizite Gradientenberechnung oder Gewichtsaktualisierungen, sondern schließt die Ausgabeoptimierung durch natürliche Sprachinteraktion ab.

Abbildung 1 zeigt die drei Schlüsselschritte von TPO, die einen sprachbasierten 'Gradientenabstiegsprozess' simulieren.

Wie in Abbildung 1 dargestellt, umfasst der TPO-Ausrichtungsprozess mehrere Schritte, die der Gradientenoptimierung ähneln: Das Modell generiert zuerst eine erste Antwort, erhält dann Feedback-Signale, generiert Verbesserungsvorschläge und aktualisiert schließlich die Antwort entsprechend, wobei die Iterationen bei Bedarf wiederholt werden. Der spezifische Prozess ist wie folgt:

Kandidatenantwortgenerierung: Bei einer Benutzeranfrage generiert das Sprachmodell zunächst mehrere erste Antworten und bewertet diese mithilfe eines vortrainierten Belohnungsmodells (reward model). Wir wählen die Antwort mit der höchsten Punktzahl als 'gewählt' (chosen) und die Antwort mit der niedrigsten Punktzahl als 'abgelehnt' (rejected) aus.

Textuelle Verlustberechnung: Als Nächstes vergleicht das LLM die gewählte und die abgelehnte Antwort. Mithilfe eines sorgfältig entworfenen Prompts erstellt das Modell einen Kommentar, der erklärt, warum die gewählte Antwort besser ist als die abgelehnte und welche Mängel letztere aufweist. Dies entspricht der Berechnung eines 'textuellen Verlusts': einer Beschreibung in natürlicher Sprache, wie stark und warum die aktuelle Antwort von den menschlichen Präferenzen abweicht.

Textuelle Gradientenberechnung: Anschließend wird das Modell über einen neuen Prompt aufgefordert, basierend auf dem oben genannten Kommentar Verbesserungsvorschläge zu unterbreiten. Diese Vorschläge können als 'textuelle Gradienten' für die Antwort betrachtet werden – sie zeigen an, wie die Antwort angepasst werden kann, um den Präferenzen besser zu entsprechen.

Antwort aktualisieren: Schließlich generiert das Modell unter Bezugnahme auf diese Textvorschläge eine oder mehrere verbesserte neue Antworten. Die neuen Antworten sind in den zuvor schwachen Bereichen in der Regel gestärkt, was einem Schritt entlang des textuellen Gradienten entspricht, um die Ausgabe zu aktualisieren.

Durch den oben genannten Zyklus wird die Ausgabe des Modells schrittweise 'geschliffen', um den Anforderungen des Belohnungsmodells (d.h. des menschlichen Präferenz-Proxys) besser zu entsprechen. Es ist ersichtlich, dass dieser Ablauf den 'drei Schritten' des traditionellen Gradientenabstiegs entspricht: Verlust berechnen → Gradienten berechnen → Parameter aktualisieren, nur dass in TPO diese drei Schritte vom Modell auf Textebene abgeschlossen werden. Im Gegensatz zu numerischen Optimierungsmethoden, die Modellgewichte direkt ändern, optimiert TPO den Ausgabeinhalt, während die Modellparameter fixiert bleiben, was es sicherer und kontrollierbarer macht. Aus einer bestimmten Perspektive ermöglicht TPO dem Modell, während der Inferenzphase ein 'kleines Selbsttraining' durchzuführen, indem es natürliches Sprach-Feedback nutzt, um das Potenzial des vortrainierten Modells selbst zu erschließen.

Ausrichtungseffekt und Leistungsfähigkeit

Die Autoren bewerteten TPO auf mehreren Benchmark-Datensätzen, die verschiedene Aufgaben abdeckten, von der Befehlsfolge (z.B. AlpacaEval, Arena), Präferenz-Alignment (z.B. HH-RLHF-Datensatz), Sicherheit (z.B. BeaverTails und XSTest) bis hin zur Mathematik (MATH-500). Die Ergebnisse zeigen, dass mit nur wenigen Iterationsschritten (z.B. zwei Runden TPO-Optimierung) sowohl ursprünglich nicht ausgerichtete Basismodelle als auch bereits durch RLHF ausgerichtete Modelle signifikante Leistungsverbesserungen erzielen können.

Abbildung 2 zeigt den Verbesserungseffekt von TPO auf die Ausgabequalität des Modells während der Inferenz (vertikale Achse ist die Bewertung des Belohnungsmodells, horizontale Achse ist die Anzahl der TPO-Iterationsschritte).

Wie in Abbildung 2 dargestellt, steigt während des TPO-Iterationsprozesses die Belohnungspunktkurve des nicht ausgerichteten Modells (SFT) allmählich an und übertrifft das Niveau des ausgerichteten Modells (Instruct) (die gestrichelte Linie in der Abbildung entspricht der festen Punktbasis des Modells ohne TPO). Gleichzeitig kann TPO selbst bei bereits ausgerichteten Modellen (Instruct-Modelle) deren Ausgabequalität weiter verbessern.

Abbildung 3: TPO-Leistung bei nicht trainierten, ausgerichteten Modellen (SFT).

Besonders hervorzuheben ist, dass ein ursprünglich keinerlei Präferenztraining unterzogenes Llama-3.1-70B-SFT-Basismodell nach nur zwei TPO-Optimierungsschritten bei fast allen Bewertungsbenchmarks die Präferenzwerte seines mittels Reinforcement Learning ausgerichteten Pendants, des Llama-3.1-70B-Instruct, übertraf.

Abbildung 4: TPO-Leistung bei bereits ausgerichteten Modellen.

Darüber hinaus kann TPO auch bei bereits ausgerichteten Modellen die Modellleistung bei verschiedenen Aufgaben weiter verbessern, ohne zusätzliches Training zu erfordern.

'Breiten- und Tiefen'-kombiniertes Testzeit-Erweiterungsparadigma

Ein zentraler Vorteil von TPO ist, dass es nicht nur eine sofortige Ausrichtung während der Inferenz ermöglicht, sondern auch eine flexible und anpassbare 'Breiten- + Tiefen'-Inferenz-Erweiterungsstrategie (Test-Time Scaling) bietet. Das bedeutet, dass durch die Steuerung der Anzahl der Kandidatengenerierungen pro Runde (Breite) und der Anzahl der iterativen Optimierungsrunden (Tiefe) die Ausgabequalität und die Präferenzkonsistenz erheblich verbessert werden können.

Dies ist in der Praxis besonders wichtig: Oftmals wollen oder können wir nicht von Anfang an Dutzende oder Hunderte von Kandidaten generieren (wie bei BoN-60), zum Beispiel wenn der GPU-Speicher dies nicht unterstützt; aber wenn man eine schrittweise Optimierung mit geringerem Ressourcenaufwand erreichen kann, ist das zweifellos praktischer.

Die Arbeit analysiert systematisch die Rolle von Breite und Tiefe:

Die Abtastbreite (N) bestimmt die Vielfalt der vor jeder Optimierungsrunde zur Auswahl stehenden Antworten. Eine größere Breite bedeutet reichere initiale Kandidaten, wodurch es einfacher wird, qualitativ hochwertige Basisversionen zu erhalten, erfordert jedoch mehr GPU-Speicherplatz;

Die Optimierungstiefe (D) steuert die Anzahl der Runden, in denen TPO die Ausgabe wiederholt verfeinern kann. Eine erhöhte Tiefe bedeutet, dass das Modell mehr Möglichkeiten hat, Feedback zu verarbeiten und die Generierung zu verbessern, erfordert jedoch mehr Iterations-Zeit;

Breite und Tiefe ergänzen sich: Breite beschleunigt die Konvergenz, und Tiefe verbessert die Feinheit. Zusammen ermöglichen sie bessere Ergebnisse bei kontrollierbaren Kosten.

Abbildung 5: Links: Einfluss der Suchbreite auf TPO; Rechts: TPO-Gewinnrate gegenüber BoN.

Wie in Abbildung 5 dargestellt, zeigt die linke Grafik die Trainingskurve von TPO auf dem HH-RLHF-Datensatz bei verschiedenen Breiteneinstellungen. Es ist zu erkennen, dass sich die Leistung von TPO von N=5 auf N=20 kontinuierlich verbessert und die Methode der 'Sequentiellen Revision' (die nur modifiziert) bei weitem übertrifft. Noch beeindruckender ist: Nur zwei Runden TPO, die pro Runde 5 Antworten generieren (D2-N5), reichten aus, um die Best-of-N (BoN-60)-Strategie, die das Sampling von 60 Beispielen erfordert, zu übertreffen.

Dies deutet darauf hin, dass es besser ist, "intelligente Iterationen" durch Feedback-Führung durchzuführen, anstatt von Anfang an mehrere Kandidaten erschöpfend zu generieren. Der "Breiten- und Tiefen"-Kombinationsmechanismus von TPO ist im Wesentlichen eine effiziente Testzeit-Inferenzoptimierungsmethode, die LLMs einen neuen Weg eröffnet, ihre Leistung in ressourcenbeschränkten Umgebungen freizusetzen.

Zusammenfassung und Ausblick: Inferenz kann auch der Ausgangspunkt für Alignment sein

TPO demonstriert ein leichtes, flexibles und interpretierbares neues Paradigma: ohne Parameter anzupassen und nur mit natürlichem Sprach-Feedback kann es Präferenzoptimierung in der Inferenzphase erreichen. Im Vergleich zu Trainings-Alignment-Methoden erfordert TPO sehr geringen Rechenaufwand. Durch die kontinuierliche Verbesserung bereits ausgerichteter Modelle und die Ermöglichung einer 'Plug-and-Play'-Schnellentwicklung bei nicht ausgerichteten Modellen senkt TPO nicht nur die Alignment-Hürde, sondern erweitert auch die Grenzen der LLM-Inferenzfähigkeiten.

Noch wichtiger ist, dass die Idee hinter TPO hochgradig skalierbar ist: den Optimierungsprozess zu 'versprachlichen' und ihn dann vom Modell autonom verstehen und ausführen zu lassen. Dies bietet einen allgemeinen Weg für die zukünftige Steuerbarkeit, Sicherheit und sogar Personalisierung von LLMs.

Mit Blick auf die Zukunft glauben wir, dass TPO nur der Anfang ist. Optimierungs-, Debugging- und Feedback-Mechanismen in der Inferenzphase bergen noch großes Potenzial, und die Fähigkeit großer Sprachmodelle, 'Feedback zu verstehen und die Ausgabe zu überarbeiten', wird in diesem Prozess weiter angeregt werden.

Alignment muss nicht das Ende des Trainings sein; es kann auch der Anfang der Inferenz sein.

Hinweis: Spitzname - Schule/Unternehmen - Fachgebiet/Konferenz (z.B. ACL), treten Sie der Technik-/Einreichungsgruppe bei

Bild

ID: DLNLPer, vergessen Sie nicht den Hinweis

ICML 2025 | Trainingsfreie, sofortige Ausrichtung großer Modellpräferenzen

Kurz-URL teilen