ZeroSearch: <Alibaba-Technologie> Große Sprachmodelle Lernen durch Selbstbelohnung Ohne Browser

Hier kommt wieder eine Technologie zum Lernen. Diesmal handelt es sich um eine Framework-Technologie, die von Alibaba entwickelt wurde und auf den Aufbau allgemeiner AGI-Fähigkeiten abzielt. Wenn selbstgesteuertes Lernen erreicht werden kann, ist es wahr, dass große Sprachmodelle alle Wissensdomänen problemlos vereinheitlichen können. Daher hat das Alibaba-Team ZeroSearch vorgeschlagen, um die Suchfähigkeiten von LLMs zu fördern, ohne mit tatsächlichen Suchmaschinen zu interagieren. Dies wandelt das LLM in ein Abrufmodul um, das in der Lage ist, relevante und verrauschte Dokumente basierend auf Anfragen zu generieren.

Reinforcement Learning (RL) ist derzeit die beste Lösung für das Training großer Modelle und eine vielversprechende Strategie. Es verbessert die Leistung von LLMs weiter, indem es deren Denk- und Entscheidungsfähigkeiten stärkt. Bemerkenswert ist, dass RL-basierte Modelle wie OpenAI-o1 und DeepSeek-R1 signifikante Fortschritte im logischen und iterativen Denken erzielt haben (DeepSeek-R1: Tiefenanalyse, der erste Schritt für heimische AGI), die rein durch belohnungsgesteuertes Lernen erreicht wurden, ohne auf explizite schrittweise Überwachung angewiesen zu sein.

Im Rahmen dieses Paradigmas untersuchen einige Forschungsarbeiten die Verwendung von Reinforcement Learning, um Policy-Modelle zu trainieren, die relevante Informationen effektiver suchen können. DeepResearcher führte die Echtzeit-Interaktion mit kommerziellen Suchmaschinen wie Google ein, wodurch Modelle in einer Umgebung trainiert werden konnten, die der realen Websuche sehr ähnlich ist (Magentic-One: Implementierung der vernetzten KI-Suche, eine allgemeine Multi-Agenten-Lösung). Trotz dieser Fortschritte steht die Kombination von RL mit realen Suchszenarien immer noch vor erheblichen Herausforderungen:

Unkontrollierte Dokumentenqualität: Die Qualität der aus Echtzeit-Suchmaschinen abgerufenen Dokumente ist oft unvorhersehbar, was Rauschen und Instabilität in den Trainingsprozess einführt.

Übermäßige API-Kosten: RL-Training erfordert häufige Bereitstellung und umfangreiche manuelle Beschriftung, möglicherweise Hunderttausende von API-Aufrufen, was enorme finanzielle Kosten verursacht und die Skalierbarkeit stark einschränkt.

Schwerpunkte dieses Artikels:

Verständnis der ZeroSearch-Architektur und der technischen Prinzipien

Verständnis von KI-Wissen

ZeroSearch

ZeroSearch ist ein Reinforcement Learning-Framework, das es LLMs ermöglicht, Suchstrategien zu lernen, ohne mit echten Suchmaschinen zu interagieren. Im Kern erwerben LLMs während des groß angelegten Vortrainings umfangreiches Weltwissen, das es ihnen ermöglicht, relevante Dokumente basierend auf Suchanfragen zu generieren (quasi einen eigenen Spickzettel aus dem Lehrbuch erstellen, hm?).

Der Hauptunterschied zwischen einer Suchmaschine und einem simulierten LLM liegt im Textstil des zurückgegebenen Inhalts. Durch leichtes überwachtes Fine-Tuning oder Prompt-Einschränkung kann das Verhalten einer echten Suchmaschine effektiv simuliert werden. Neben der Eliminierung von API-Kosten ist ein signifikanter Vorteil der Verwendung von LLMs zur Dokumentengenerierung die Möglichkeit, die Dokumentenqualität zu kontrollieren.

Wie soll ich sagen, während des überwachten Fine-Tunings wird das Prompt-Design verwendet, um Dokumente zu unterscheiden, die zu richtigen oder falschen Antworten führen, sodass das simulierte LLM lernen kann, relevante oder verrauschte Dokumente durch Anpassen einiger Wörter im Prompt zu generieren. Darauf aufbauend wird während des Trainings ein Curriculum-Rollout-Mechanismus eingeführt, bei dem die Qualität der generierten Dokumente im Laufe der Zeit allmählich abnimmt, um zunehmend herausfordernde Abrufszenarien zu simulieren. Dies ermöglicht es dem Policy-Modell, zunächst grundlegende Ausgabeformate und Aufgabenanforderungen zu lernen und sich dann schrittweise an anspruchsvollere und verrauschtere Abrufszenarien anzupassen.

In Bezug auf die Skalierbarkeit von ZeroSearch kann eine Erhöhung der GPU-Anzahl den Generierungsdurchsatz des simulierten LLM beschleunigen und so einen effizienten groß angelegten Rollout ermöglichen. Die Verwendung eines 3B-LLM als simulierte Suchmaschine kann die Suchfähigkeiten des Policy-Modells ebenfalls effektiv anregen. Ein 7B-Abrufmodul erreichte eine mit Google Search vergleichbare Leistung, während ein 14B-Abrufmodul Google Search sogar übertraf.

ZeroSearch ist kompatibel mit Basismodellen und Anweisungs-getunten Modellen verschiedener Parametergrößen, ohne dass eine separate überwachte Aufwärmphase erforderlich ist (auch kein Pre-Filling? Der Autor glaubt, dass Alibaba ein bisschen prahlt). Darüber hinaus integriert es sich nahtlos in weit verbreitete Reinforcement Learning-Algorithmen, darunter Proximal Policy Optimization (PPO), Group Relative Policy Optimization (GRPO) und Reinforce++.

Architektur und zugrundeliegende Prinzipien

Bevor wir die wichtigsten technischen Punkte vorstellen, wollen wir verstehen, was LLM-Retrieval ist. Jeder weiß, dass die LLM-Inferenz auch ein Abrufprozess ist, ähnlich wie das Aufrufen eines Expertensystems (Browsers), um den vorhergesagten größten Normalverteilungswert (Softmax) zu finden und zusammenzufassen. Natürlich gibt es auch fortschrittlichere externe Tools (RAG) und verstärkte Gedankenkettenansätze.

RAG verbessert die Generierungsleistung durch die Integration relevanter externer Kenntnisse in den Generierungsprozess. Es führt das LLM durch Prozesse wie Abfragegenerierung, Abfragezerlegung und mehrstufige Informationsabfrage. Obwohl diese Methoden effektiv sind, erfordern sie oft komplexes Prompt-Engineering und stellen hohe Anforderungen an die Denkfähigkeiten des Modells. Um die Effizienz zu verbessern und die Abhängigkeit von leistungsstarken Black-Box-LLMs zu reduzieren, schlugen spätere Forschungsarbeiten überwachte Fine-Tuning-Strategien für kleinere LLMs vor. Diese Verbesserungen führen jedoch gleichzeitig zu Leistungs- und Zeitkosten bei der Bereitstellung.

Self-RAG nutzt einen Selbstreflexionsmechanismus, um die Modellausgabe durch vorhergesagte Reflexionstoken iterativ zu verfeinern.

RetroLLM integriert Abruf- und Generierungsfunktionen, indem es dem Modell ermöglicht, durch eingeschränkte Dekodierung direkt feinkörnige Beweise aus dem Korpus zu generieren.

RAG-star integriert abgerufene Informationen in den auf Monte Carlo Tree Search (MCTS) basierenden Denkprozess und erweitert dynamisch den Suchraum während der Inferenz.

AirRAG nutzt Monte Carlo Tree Search (MCTS), um intrinsische Denkfähigkeiten zu aktivieren und den Lösungsraum zu erweitern.

Die verstärkte Gedankenkette ist ganz einfach; sie verwendet ein DeepResearcher-ähnliches Framework, um einen Agenten zur Abfrage des benötigten Wissens einzurichten.

Null-Abruf

Zurück zur Definition des Null-Abrufs im Haupttext: Das Alibaba-Team beschreibt ihn als die Nutzung von LLMs zur Simulation von Suchmaschinen, wodurch die Notwendigkeit echter Suchmaschinen entfällt. Wie unten dargestellt,

Das Team demonstriert den Anwendungsprozess von zwei Reinforcement Learning-Algorithmen (PPO und GRPO) innerhalb des ZeroSearch-Frameworks. Die Rollout-Sequenz enthält Token, die vom Policy-Modell generiert wurden, und Dokument-Token, die vom simulierten LLM zurückgegeben wurden.

Hier gibt es ein Problem: Die einheitliche Anwendung desselben Optimierungsverfahrens auf zwei Arten von Token kann zu Trainingsinstabilität führen, da der abgerufene Inhalt extern generiert wird und nicht unter der direkten Kontrolle des Policy-Modells steht.

Um dieses Problem zu entschärfen, führte das Team einen Verlustmaskierungsmechanismus für abgerufene Token ein, um sicherzustellen, dass Gradienten nur für die eigene Ausgabe des Modells berechnet werden. Diese Strategie stabilisiert den Reinforcement Learning-Trainingsprozess und erhält gleichzeitig die Effektivität der abrufgestützten Generierung aufrecht.

Die gesamte Interaktion ist in drei unterschiedliche Phasen unterteilt: Zuerst artikuliert das Modell seine interne Denkweise klar innerhalb der Tags .... Zweitens, wenn mehr Beweise benötigt werden, gibt es eine Suchanfrage innerhalb der Tags

... aus. Schließlich, sobald genügend Informationen abgerufen wurden, liefert das Modell die Antwort innerhalb der Tags ....

(Bild aus Anhang)

Schauen wir uns zuerst PPO an. Es ist ein Policy-Gradienten-Algorithmus, der darauf abzielt, die erwartete Belohnung zu maximieren und gleichzeitig die Trainingsstabilität durch Begrenzung des Umfangs von Policy-Updates zu gewährleisten. Die Kernidee ist: Policy-Modell-Updates sollten nicht zu aggressiv sein, um Leistungseinbrüche aufgrund einer einzelnen Aktualisierung zu vermeiden. Ausgehend vom Policy-Modell π(θ), das im Wesentlich ein Wertemodell ist, generiert es Trajektorien basierend auf der Eingabefrage. Dabei sind mehrere Tag-bezogene Probleme zu berücksichtigen, wie z. B. Denken (), Analyse, ob Informationsabfrage erforderlich ist, Suchen (

) zur Generierung von Such-Prompts, Abrufen () durch die simulierte Suchmaschine zur Rückgabe relevanter oder verrauschter Dokumente und schließlich Beantworten () zur Generierung der endgültigen Antwort. Dann wird basierend auf der vom Belohnungsmodell und Referenzmodell erhaltenen Belohnung r A mithilfe der untenstehenden Formel berechnet und das Policy-Modell aktualisiert.

RPO hingegen optimiert die Policy durch relative Belohnungsvergleiche innerhalb von Gruppen, wodurch die Abhängigkeit von absoluten Belohnungswerten reduziert wird, was die Trainingseffizienz und -stabilität verbessert. Das Policy-Modell generiert mehrere Pfade (O(1)...O(g)). Jede Gruppe von Trajektorien entspricht verschiedenen Versuchen zur Suchanfrage und Antwortgenerierung. Dann werden basierend auf dem Ergebnis-Set r die Policy-Wahrscheinlichkeiten entsprechend den Belohnungsranglisten angepasst, wodurch Verhaltensweisen mit hoher Belohnung gefördert und solche mit geringer Belohnung unterdrückt werden. Schließlich wird das Policy-Modell über Feedback aktualisiert.

PPO ist wie ein „strenger Coach“: Er verlangt von den Schülern, bei jeder Prüfung die Punktzahl zu verbessern, verbietet aber plötzliche Änderungen der Lernmethoden (z. B. vom Auswendiglernen zum divergenten Denken).

GRPO ist wie eine „kompetitive Volksabstimmung“: Die Schüler erfahren durch Gruppenrankings, welche Methoden effektiver sind (z. B. Methode A punktet höher als Methode B) und passen so ihre Strategie selbstständig an.

Ein bisschen verwirrt, hm?Fassen wir den obigen Fall in einfachen Worten zusammen. Angenommen, ein Policy-Modell erhält die Frage „Wer ist der Redakteur? In welcher Stadt lebt er?“. Das Modell simuliert „lautes Denken“, analysiert die Frage innerhalb von , z. B. „Ich muss zuerst den Autor dieses Artikels finden, dann die Stadt suchen, in der er lebt.“ Dann generiert es eine Suchanfrage innerhalb von

, z. B. „Stadt, in der der Redakteur lebt“. Die simulierte Suchmaschine (das aktualisierte Policy-Modell, das entrauscht ist) gibt Dokumente basierend auf der Anfrage zurück und erhält . Schließlich generiert sie die Antwort, z. B. „Changsha, Hunan“.

Um dies zu erreichen, hat Alibaba eine Formel vorgeschlagen, um die Belohnung (Antwortgenauigkeit) zu maximieren und gleichzeitig die Differenz zwischen dem Policy-Modell π(θ) und dem Referenzmodell π(ref) durch KL-Divergenz zu begrenzen, um stabile und kontrollierbare Policy-Updates zu gewährleisten.

Hier repräsentiert π(θ） das zu optimierende Policy-Modell, das für die Generierung von Suchanfragen und der endgültigen Antwort verantwortlich ist. Umgekehrt ist π(ref) das Referenzmodell (typischerweise das anfängliche Policy-Modell), das verwendet wird, um Policy-Updates zu begrenzen und übermäßige Abweichungen zu verhindern. r(ϕ) ist eindeutig eine Belohnungsfunktion, die Feedback basierend auf der Genauigkeit der Antwort liefert und hauptsächlich darin besteht, die optimale Lösung y basierend auf π(ref) und π(θ） abzuleiten. π(ψ) repräsentiert das simulierte Suchmaschinen-LLM mit festen Parametern, das Dokumente basierend auf Anfragen generiert. β repräsentiert den Gewichtungskoeffizienten für die KL-Divergenz, der die Maximierung der Belohnung und die Policy-Stabilität ausgleicht.

Ein weiterer wichtiger Punkt ist das Design der Belohnungsfunktion. Diese Belohnungsfunktion ist ein zentraler Mechanismus. Erstens leitet die Belohnungsfunktion die Lernrichtung des Modells. Basierend auf der Übereinstimmung zwischen der generierten Antwort y und der Standardantwort quantifiziert die Belohnungsfunktion die Richtigkeit des Modells. Zum Beispiel ist der Belohnungswert hoch, wenn die Antwort vollständig korrekt ist, ansonsten niedrig. Zweitens kann Reward Hacking vermieden werden. Die Verwendung von Exact Match (EM) hier verhindert, dass das Modell übermäßig lange Antworten generiert, um „Glück zu haben“ und die richtige Antwort einzuschließen. Stattdessen berücksichtigt die Bewertung sowohl die Präzision (der Anteil der korrekten Teile in der vorhergesagten Antwort) als auch den Recall (der Anteil der abgedeckten Standardantwort), was das Modell dazu anregt, prägnante und genaue Antworten zu generieren. Schließlich gibt es eine dynamische Anpassung. Die Höhe des Belohnungswerts beeinflusst direkt die Parameter-Update-Richtung des Policy-Modells π(θ) und lässt es schrittweise zu Abruf- oder Denkprozessen neigen, die hohe Belohnungen liefern.

Fine-Tuning

Das Team schlug ein leichtes überwachtes Fine-Tuning (SFT) Verfahren vor. Konkret wurden Interaktionstrajektorien gesammelt, indem das LLM in einem Mehrrunden-Dialog mit einer echten Suchmaschine zur Interaktion aufgefordert wurde, bis eine endgültige Antwort erreicht war. Trajektorien, die korrekte Antworten produzierten, wurden als positiv gekennzeichnet, was auf nützliche abgerufene Dokumente hindeutet. Umgekehrt wurden Trajektorien, die zu falschen Antworten führten, als negativ gekennzeichnet, was auf verrauschte Abrufergebnisse hindeutet.

Dann extrahierte das Team Abfrage-Dokument-Paare aus positiven und negativen Trajektorien und führte ein leichtes SFT durch, um die Fähigkeit des LLM zu verbessern, eine echte Suchmaschine zu simulieren. Wie unten gezeigt, kann durch Anpassen einiger Wörter im Prompt zwischen nützlichem Abruf und verrauschtem Abruf unterschieden werden. Zusätzlich wurden die Eingabefrage und die entsprechende Antwort in den Prompt integriert, um den Wissensbereich des LLM zu erweitern. Nach dem Fine-Tuning ist das LLM in der Lage, nützliche und verrauschte Dokumente zu generieren, was eine dynamische Kontrolle der Dokumentenqualität während des Bereitstellungsprozesses ermöglicht.

(Bild aus Anhang)

Automatisierter Lernmechanismus

Durch das oben genannte Policy-Modell-Design und den Prompt hat das Team einen vollautomatischen Agenten eingesetzt, um Selbstlernen zu erreichen. In diesem Prozess führt das Policy-Modell interaktives Denken durch und generiert Suchanfragen, die in das simulierte LLM eingegeben werden, um entsprechende Dokumente zu generieren. Um die Trainingsschwierigkeit schrittweise zu erhöhen, wird ein auf einem Curriculum basierender Bereitstellungsmechanismus eingeführt, bei dem die Qualität der generierten Dokumente im Laufe der Zeit allmählich abnimmt. Dies wird durch eine Wahrscheinlichkeitsfunktion gesteuert.

Hier repräsentieren p(s) und p(e) die anfänglichen und endgültigen Rauschwahrscheinlichkeiten, i und m repräsentieren den aktuellen Trainingsschritt und die Gesamtzahl der Trainingsschritte, und b ist die Basis des Exponenten, mit einem Standardwert von 4. Mit fortschreitendem Training nimmt das Verhältnis i/m zu, was zu einem höheren p(i)-Wert führt; d.h. die Wahrscheinlichkeit, verrauschte Dokumente zu generieren, ist anfänglich höher. Dies ermöglicht es dem Policy-Modell jedoch, zunächst grundlegende Ausgabestrukturen und Aufgabenanforderungen zu lernen und sich dann schrittweise an herausforderndere und verrauschtere Abrufszenarien anzupassen.

Das Belohnungssignal dient während des Reinforcement Learning-Prozesses als primäre Überwachung. In dieser Studie hat das Team eine regelbasierte Belohnungsfunktion verwendet, die sich ausschließlich auf die Genauigkeit der Antwort konzentriert. In vorläufigen Experimenten beobachtete das Team, dass die Verwendung von Exact Match (EM) als Belohnungsmetrik häufig zu Reward Hacking führte, bei dem das Policy-Modell dazu neigte, übermäßig lange Antworten zu generieren, um die Wahrscheinlichkeit zu erhöhen, die korrekte Antwort einzuschließen (jede Menge ausgefallenen Kram machen, um zu betrügen, richtig?). Um dieses Problem zu entschärfen, verwendete das Team eine F1-Score-basierte Belohnungsfunktion, die Präzision und Recall ausgleicht. Sie wird wie folgt berechnet:

Wobei IN die Anzahl der sich überlappenden Wörter zwischen dem vorhergesagten Ergebnis und dem wahren Ergebnis darstellt, PN die Anzahl der Wörter im vorhergesagten Ergebnis und RN die Anzahl der Wörter im wahren Ergebnis.

Leistungsvergleich

Zur Bewertung der Wirksamkeit von ZeroSearch verglich das Team seine Methode unter Verwendung offener Modelle (Qwen) unterschiedlicher Größe mit den folgenden Baselines.

Originale Prompt-Methoden: Diese Kategorie umfasst direkte Prompts, Chain-of-Thought (CoT) und Standard Retrieval-Augmented Generation (RAG).

Fortgeschrittene RAG-Methoden: Berücksichtigung von RAgent und Search-o1, die relevanten Informationen iterativ suchen.

Reinforcement Learning Tuning-Methoden: Diese Kategorie umfasst R1 und Search-R1. In R1 wird das Policy-Modell ausschließlich auf der Grundlage seines internen Wissens trainiert, um tiefes Denken durchzuführen.

(Bild aus Anhang)

ZeroSearch übertraf durchweg alle Baseline-Methoden. Dieser Leistungsvorteil zeigte sich sowohl in domäneninternen Datensätzen (z. B. NQ und HotpotQA) als auch in domänenexternen Datensätzen (z. B. TriviaQA, PopQA, 2WikiMultiHopQA, Musique und Bamboogle) und bewies die Robustheit der Methode des Teams.

Darüber hinaus übertraf ZeroSearch Methoden, die auf echte Suchmaschinen angewiesen sind. Im Vergleich zu Search-R1, das echte Suchmaschinen verwendet, erzielte ZeroSearch eine bessere Leistung, was sein Potenzial als effektive Alternative zu echten Suchmaschinen im groß angelegten Reinforcement Learning hervorhebt. ZeroSearch zeigte auch starke Generalisierungsfähigkeiten. Über verschiedene Modellfamilien, Parametergrößen und Typen (z. B. Basismodelle oder Anweisungs-getunte Modelle) übertraf ZeroSearch durchweg die Baseline-Modelle. Darüber hinaus verbesserte sich seine Leistung mit zunehmender Modellgröße, was seine Skalierbarkeit unterstreicht.

Fazit

ZeroSearch ist ein neuartiges Reinforcement Learning-Framework, das die Suchfähigkeiten von LLMs verbessert, ohne mit echten Suchmaschinen zu interagieren. Durch überwachtes Fine-Tuning wird das LLM in ein Abrufmodul umgewandelt, das relevante und verrauschte Dokumente generieren kann. Das Gesamtdesign nutzt einen Curriculum-Rollout-Mechanismus, um die Denkfähigkeit schrittweise zu verbessern, indem das Modell zunehmend herausfordernden Abrufszenarien ausgesetzt wird. Experimentelle Ergebnisse zeigen, dass die Leistung von ZeroSearch die von Modellen auf Basis echter Suche übertrifft, gute Generalisierungsfähigkeit über Basis-LLMs und Anweisungs-getunte LLMs unterschiedlicher Größe aufweist und verschiedene Reinforcement Learning-Algorithmen unterstützt.

Anhänge:

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://arxiv.org/html/2505.04588v1

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://github.com/Alibaba-NLP/ZeroSearch/blob/main/llm_agent/generation.py

ZeroSearch: <Alibaba-Technologie> Große Sprachmodelle Lernen durch Selbstbelohnung Ohne Browser

Kurz-URL teilen