Über Nacht ist Jensens Himmel eingestürzt (doge).
Das weltweit erste verteilte RL-Trainingsmodell, INTELLECT-2, wurde veröffentlicht. Es hat das Reinforcement-Learning-Training des Modells allein durch die Integration globaler ungenutzter oder verteilter Computerressourcen abgeschlossen, wodurch die Trainingskosten erheblich gesenkt wurden.
Die Modellleistung ist vergleichbar mit DeepSeek-R1!
Sobald dieses Paradigma etabliert ist, bedeutet dies, dass das RL-Training von der Abhängigkeit von zentraler Rechenleistung befreit ist. Jeder auf der Welt kann am Modelltraining teilnehmen, was die Ära des Monopols großer Unternehmen auf Rechenleistung beenden könnte.
Just like this~ Rechenleistung kommt, Rechenleistung kommt, Rechenleistung kommt von allen Seiten.
Diese Modellversion wurde von 19 Personen/Institutionen mit Rechenressourcen unterstützt (stammt aus den Antworten des Modells und umfasst es selbst)
Neben der Bereitstellung von Rechenleistung sind viele große Namen bereit zu investieren, darunter unter anderem Karpathy, FlashAttention-Autor Tri Dao, HuggingFace-Mitbegründer und CEO Clem Delangue usw.
Laut Teammitgliedern haben sie von der Entwicklung des Reinforcement-Learning-Frameworks prime-rl bis zur heutigen Veröffentlichung nur etwa zwei Monate benötigt.
Die Infrastruktur ist nun vorhanden und wurde verifiziert. Es ist nur eine Frage der Zeit, bis sie jene fortschrittlichen Labore übertreffen.
INTELLECT-2 unterstützt derzeit eine webbasierte Nutzung; eine einfache Registrierung ist erforderlich. Es ähnelt anderen allgemeinen Assistentenseiten, aber die Eingabe unterstützt nur Text.
Beginnen wir mit einigen grundlegenden Fragen: Was sind die größten Merkmale von INTELLECT-2?
Nachdem es einige Sekunden nachgedacht hatte, gab es die Antwort. Zuerst betonte es, dass es sich um das erste dezentral trainierte Ultra-Large-Scale-Modell handelt, und hob dann Merkmale wie Reinforcement-Learning-Training, das Gleichgewicht von Parameterskala und Leistung, Datenschutz und Sicherheit sowie Community-gesteuerte Entwicklung hervor.
Die Antwort ist grundsätzlich in Ordnung, versuchen wir etwas Schwierigeres:
Nachdem ein Außerirdischer auf der Erde angekommen war, hatte er am ersten Tag die gleiche Wahrscheinlichkeit, eine der folgenden vier Dinge zu tun: 1. Sich selbst zerstören; 2. Sich in zwei Außerirdische teilen; 3. Sich in drei Außerirdische teilen; 4. Nichts tun.
Danach trifft jeder Außerirdische jeden Tag eine Entscheidung, unabhängig voneinander. Frage: Wie hoch ist die Wahrscheinlichkeit, dass es schließlich keine Außerirdischen mehr auf der Erde gibt?
Nachdem es eine Weile nachgedacht hatte, war die Antwort wie folgt.
Obwohl das Format etwas unordentlich ist, ist die endgültige Antwort korrekt und es handelt sich um eine analytische Lösung. (o゜▽゜)o☆[BINGO!]。
Wenn gestern morgen wäre, dann wäre heute Freitag. Frage: Welcher Wochentag könnte der heutige Tag im Satz sein?
Man sieht, dass die grundlegenden Fähigkeiten vorhanden sind, aber es ist derzeit nicht besonders stabil. Wenn man zum Beispiel ein neues Gespräch beginnt, stößt man auf folgende Situation.
Einige entusiastische Internetnutzer haben es bereits im GGUF-Format erstellt und auf HF hochgeladen.
INTELLECT-2 ist ein verteiltes Framework für das Training großer Modelle, das das Paradigma des global verteilten asynchronen Reinforcement Learnings verwendet.
Vereinfacht gesagt, ist INTELLECT-2 wie ein riesiges Crowdsourcing-Projekt, an dem jeder mit ungenutzten Rechenressourcen teilnehmen kann.
"Asynchron" bedeutet, dass verschiedene Phasen unabhängig und parallel ablaufen können, sodass Geräte unterschiedlicher Leistung gleichzeitig teilnehmen können, ohne sich gegenseitig zu beeinflussen.
Konkret nutzt das System die von globalen Beitragenden bereitgestellte heterogene Rechenleistung, um lokal Inferenzdaten zu generieren; diese Daten werden nach der Validierung zentral gesammelt, um die Modellstrategie zu aktualisieren; die aktualisierte Strategie wird dann an jeden Knoten verteilt, um eine neue Iterationsrunde zu starten.
Das INTELLECT-Team hat alle vier Schlüsselkomponenten als Open Source veröffentlicht.
Der Kern von PRIME-RL ist die Unterstützung der Entkopplung und asynchronen Ausführung von Inferenzdatengenerierung und Modelltraining.
Diese Methode erlaubt es verteilten Inferenzknoten, Daten in ihrem eigenen Tempo zu generieren, ohne sich gegenseitig koordinieren und warten zu müssen.
Um die Leistung weiter zu verbessern und den Speicherverbrauch zu reduzieren, verwendet PRIME-RL vLLM (vector LLM), das bfloat16-Genauigkeit unterstützt, als Inferenz-Runtime.
Darüber hinaus wurde die FSDP (Fully Sharded Data Parallel)-Technologie zur Segmentierung des Modells integriert.
FSDP segmentiert die Parameter und Gradienten des Modells schichtweise auf verschiedene GPUs, wobei jede GPU nur für einen Teil der Berechnung und Speicherung zuständig ist.
SHARDCAST ist ein HTTP-basiertes Parameterverteilungsnetzwerk, das für die Verbreitung der aktualisierten Modellgewichte an Inferenzknoten weltweit zuständig ist.
Beim verteilten Reinforcement Learning ist die Verteilung der Modellgewichte oft eine Herausforderung, da die Dateigrößen sehr groß sind und die Netzwerkbandbreitenressourcen uneinheitlich sind.
Um dieses Problem zu lösen, hat SHARDCAST eine Reihe von Optimierungstechniken eingeführt, wie z.B. Shard-Übertragung, mehrstufiges Caching und intelligente Planung.
Shard-Übertragung bezieht sich auf das Aufteilen der Modellgewichtsdatei in mehrere kleine Shards und die parallele Übertragung. Dies nutzt nicht nur die Netzwerkbandbreite voll aus und reduziert die Übertragungsverzögerung, sondern verbessert auch die Robustheit der Übertragung und verhindert, dass einzelne Shard-Übertragungsfehler zu einer vollständigen Neuübertragung führen.
Mehrstufiges Caching ist ein Übertragungsmodus ähnlich einem CDN. Konkret führt SHARDCAST eine Schicht von Relay-Servern zwischen Inferenzknoten und zentralen Knoten als Cache ein. Wenn der zentrale Knoten neue Modellgewichte erzeugt, werden diese zuerst an diese Relay-Server gepusht.
Auf diese Weise können Inferenzknoten die Gewichtsdatei von einem nahe gelegenen Relay-Server abrufen, anstatt sie direkt vom zentralen Knoten zu erhalten, was den I/O-Druck des zentralen Knotens effektiv reduzieren kann.
Darüber hinaus verfolgen SHARDCASTs Relay-Server im Gegensatz zur gewöhnlichen passiven, reaktiven Übertragung aktiv die Gewichtsversion jedes Inferenzknotens. Wenn festgestellt wird, dass die Version veraltet ist, pushen sie aktiv inkrementelle Gewichte an den Knoten, um die Echtzeitaktualisierung der Gewichte zu gewährleisten.
Gleichzeitig passt SHARDCAST die Übertragungsstrategie und das Routing dynamisch an die Netzwerktopologie und Bandbreitenbedingungen an und wählt den optimalen Verteilungspfad.
TOPLOC, kurz für Tierion backed Proof-of-Locality Protocol, ist die Schlüsselkomponente in INTELLECT-2, die für die Überprüfung der Vertrauenswürdigkeit der von Inferenzknoten generierten Daten zuständig ist.
Ziel ist es sicherzustellen, dass die von jedem Inferenzknoten übermittelten Daten vertrauenswürdig sind, um zu verhindern, dass böswillige Knoten das Modelltraining durch die Übermittlung gefälschter Daten stören.
TOPLOC wird durch kryptografische Beweise und überprüfbare Berechnungen realisiert und kann in zwei Hauptschritte unterteilt werden: Proof-Generierung und Proof-Überprüfung.
Proof-Generierung bedeutet, dass ein Inferenzknoten nach Abschluss einer Reihe von Inferenzaufgaben nicht nur die generierten Trajektoriendaten an den zentralen Knoten übermitteln muss, sondern auch einen kryptografischen Proof beifügen muss.
Dieser Proof beweist, dass die übermittelten Daten tatsächlich von einer bestimmten Modellversion, bestimmten Eingaben und bestimmten Zufallszahlen generiert wurden. Seine Generierung basiert auf einem sicheren Hash-Algorithmus, der sicherstellt, dass der Proof an den Inferenzprozess gebunden ist.
Nachdem der zentrale Knoten Inferenzdaten und Proof erhalten hat, überprüft er regelmäßig die Vertrauenswürdigkeit eines Teils der Daten. Der Überprüfungsknoten wiederholt zunächst das Modell-Prefill des Inferenzknotens und vergleicht dann den berechneten Zwischenzustand mit dem Proof.
Um den Aufwand zu reduzieren, muss der Inferenzknoten nur die kritischen Zwischenzustände und nicht den vollständigen Berechnungsprozess übermitteln; der Überprüfungsknoten muss auch nur einen Teil der kritischen Pfade und nicht die gesamte Berechnung wiederholen.
Protocol Testnet ist die zugrunde liegende Infrastruktur von INTELLECT-2 und bietet eine einheitliche Schnittstelle und Spezifikation für die Verwaltung von Rechenressourcen und die Aufgabenplanung im globalen Maßstab.
Es organisiert verschiedene Kategorien von KI-Trainingsaufgaben in unabhängige Rechenbereiche. Jeder Rechenbereich verfügt über einen eigenen Ressourcenpool, der von einem dezentralen "Ledger-System" verwaltet wird, um die Identität, den Beitrag und den Ruf der Knoten zu verwalten.
Jeder Rechenbereich entspricht einer bestimmten Trainingsaufgabe, wie z.B. Sprachtraining, multimodale Ausrichtung, Reinforcement Learning usw.
Für eine bestimmte Trainingsaufgabe registriert der Entwickler einen neuen Rechenbereich im Testnet. Der Rechenbereich definiert die relevanten Attribute und Protokollspezifikationen der Aufgabe.
Rechenanbieter auf der ganzen Welt können ihre Rechengeräte im Ressourcenpool des Testnets registrieren. Bei der Teilnahme muss jeder Knoten im dezentralen "Ledger" eine einzigartige kryptografische Identität generieren, die für die spätere Aufzeichnung von Beiträgen und die Verwaltung des Rufs verwendet wird.
Wenn ein Rechenbereich eine neue Trainingsaufgabe ausführen muss, verteilt der Aufgabenscheduling-Dienst des Testnets die Aufgabe basierend auf den Rechenmerkmalen und dem Netzwerkstatus der einzelnen Knoten an die entsprechenden Knoten. Die Knoten führen die Berechnung gemäß den Aufgabenanforderungen aus und generieren Ergebnisse.
Die von den Knoten generierten Berechnungsergebnisse müssen überprüft werden, um ihre Vertrauenswürdigkeit sicherzustellen. Für überprüfte Ergebnisse wird der Beitrag des Knotens im dezentralen Ledger aufgezeichnet und dient als Grundlage für die spätere Belohnungsverteilung.
Servi