Interpretation des Erstautors! Über Qwens Neues Skalierungsgesetz – Parallel Scaling – Aus der Ideenperspektive

Als Erstautor möchte ich diese Arbeit aus der Perspektive der Ideenentwicklung vorstellen. Ich habe viele Jahre auf Zhihu mitgelesen und meine erste Antwort diesem Thema gewidmet. Bitte zögern Sie nicht, mich zu kritisieren und auf Fehler hinzuweisen (Verbeugung). Vielen Dank an Professor Liu Zhongxin und Professor Binyuan Hui für ihre Anleitung sowie an alle Mitarbeiter für ihre Hilfe, insbesondere für die Ressourcenunterstützung von Tongyi Qianwen.

Wie wir alle wissen, gibt es neben der Erweiterung der Datenmenge derzeit zwei Hauptrichtungen für das Skalieren zur Erhöhung des Rechenaufwands und zur Verbesserung der Fähigkeiten großer Modelle:

Daher stellt sich die Frage: Kann es eine neue Skalierungsrichtung geben, die keine signifikante Erhöhung des Speichers und der Latenz mit sich bringt und gleichzeitig auf alle Szenarien anwendbar ist?

Unsere Kernidee ist: Bei gleichbleibender Parameteranzahl gleichzeitig den parallelen Rechenaufwand für Training und Inferenz zu erhöhen.

Motivation und Ursprung

Zuerst war mein Mitbewohner dabei, Diffusion-Modelle im Wohnheim zu studieren, und er war ratlos über einen Trick, der bei Diffusion-Modellen unbedingt verwendet wird: Classifier-Free Guidance (CFG). Im Inferenzstadium nimmt CFG die Eingabe x entgegen, führt zunächst einen normalen Forward-Pass durch, um f(x) zu erhalten; dann verschlechtert es x aktiv (z. B. durch Entfernen von Bedingungen), um x' zu erzeugen, und führt erneut einen Forward-Pass durch, um f(x') zu erhalten. Die endgültige Ausgabe g(x) ist eine gewichtete Kombination von f(x) und f(x'), und ihre Wirkung ist besser als die von f(x), da sie den Eingabebedingungen besser folgt.

Dieses Phänomen ist tatsächlich etwas kontraintuitiv: f(x) ist mit der Trainingsphase ausgerichtet, während g(x) eindeutig eine Lücke zum Ziel der Trainingsphase aufweist. Nach allgemeinem Verständnis kann die Inferenz nur dann maximale Wirkung entfalten, wenn Trainingsziel und Inferenzziel die gleiche Form haben. Außerdem ist die Parameteranzahl von f(x) und g(x) gleich, und auch die effektive Informationsmenge des Inputs ist gleich. Warum kann f(x) dann die Fähigkeit von g(x) nicht lernen? Das deutet darauf hin, dass dahinter vielleicht tiefere Gründe stecken.

Wir stellten eine kühne Vermutung auf: Der Grund für die Wirksamkeit von CFG ist im Wesentlichen, dass es den doppelten parallelen Rechenaufwand nutzt, was die inhärente Kapazität des Modells erhöht.

Dies inspirierte uns, weiter zu skalieren:

Diese Methode ist sehr einfach und kann auf jede Modellarchitektur, Aufgabe und Daten angewendet werden. Wir haben diese Idee zunächst an großen Sprachmodellen untersucht, wie in der folgenden Abbildung dargestellt:

Die Eingabetransformation verwendet verschiedene zufällig initialisierte Präfixe (d.h. Prefix Tuning), und die Ausgabe verwendet eine MLP-Schicht, um dynamisch aggregierte Gewichte zu erzeugen. Tatsächlich stellten wir schließlich fest, dass die spezifische Strategie wenig Einfluss hat; wirklich wichtig ist der Wert von P: die Anzahl der parallelen Berechnungen.

Vergleich verschiedener Skalierungskurven

Parallel Scaling Law

Wir führten zunächst eine Reihe theoretischer Analysen durch und kamen zu dem Schluss: Die Parallelisierung eines Modells mit N Parametern in P Streams ist gleichbedeutend mit der Erhöhung der Parameteranzahl um einen Faktor von (siehe Analyse im Paper). Die Diversity hängt mit dem Residualkorrelationskoeffizienten zwischen verschiedenen Streams zusammen und ist schwer weiter zu analysieren. Aber dies zeigt zumindest, dass zwischen der Skalierung des parallelen Rechenaufwands und der Skalierung von Parametern notwendigerweise eine Verbindung besteht.

Daher führten wir anschließend zahlreiche Experimente durch und kamen schließlich zu folgendem Ergebnis: Die Parallelisierung von P Streams entspricht der Vergrößerung der Parameter um O(logP), hat aber einen sehr signifikanten Vorteil bei der Inferenz-Effizienz im Vergleich zur Vergrößerung der Parameter:

Abbildung eins: Skalierungsgesetz; Abbildung zwei: Ergebnisse gemittelt über die Batch-Größen {1, 2, 4, 8}.

Details der Anpassung. Die Genauigkeit ist sehr hoch: R^2=0.998, was den Reiz des Skalierungsgesetzes zeigt.

Loss-Konturdiagramm. Je größer die Parameteranzahl, desto höher der Gewinn, da das Wachstum von P direkt mit N multipliziert wird.

Der Gewinn bei Reasoning-Aufgaben ist größer (übertrifft den Loss-Gewinn) und auch größer als bei allgemeinen Aufgaben. Dies zeigt: Die Erhöhung des Rechenaufwands kann die Reasoning-Fähigkeit signifikant verbessern.

Berechnung der Effizienz pro Batch. Je kleiner die Batch-Größe, desto näher kommt sie einem Free Lunch. Dies deutet darauf hin, dass ParScale sehr gut für Edge-Geräte geeignet ist, da diese Szenarien wenig Speicher haben und Benutzeranfragen nicht häufig sind, was zu kleinen Batch-Größen führt.

Wir stellen auch einen HuggingFace-Bereich bereit, um die Kraft des Skalierungsgesetzes intuitiver zu erleben. Sie sind herzlich eingeladen, es auszuprobieren:

Zweistufiges Training

Frühere Experimente konzentrierten sich hauptsächlich auf das Vortraining, das aufgrund der Vervielfachung der Batch-Größe um P erhebliche Trainingskosten verursachte. Daher probierten wir eine Post-Training-Strategie: Zuerst trainierten wir 1 T Tokens (konstante Lernrate) in der ersten Phase und dann verwendeten wir ParScale (abfallende Lernrate), um 20 B Tokens in der zweiten Phase nachzutrainieren. Wir stellten fest, dass diese Strategie ebenfalls sehr effektiv ist.

Zweistufiger Trainingsverlust. Nach 0,0002 T Tokens können P=2, 4, 8 P=1 übertreffen.

Die Leistung ist immer noch sehr gut, mit signifikanten Verbesserungen bei inferenzintensiven Aufgaben (Mathematik, Code). Unerwartet ist auch die Verbesserung bei MMLU signifikant.

Anschließend haben wir ParScale auf das Qwen-2.5-Modell angewendet (bereits mit 12 T Tokens trainiert), einschließlich Full-Parameter Continued Training (CPT) und PEFT Training (Einfrieren des Hauptnetzwerks und Feinabstimmung nur der eingeführten Prefix-Parameter).

Abbildung (a,b): Full-Parameter CPT; Abbildung (c): PEFT

Hervorzuheben ist, dass das PEFT-Training die Aussicht auf dynamische parallele Erweiterung gezeigt hat: Wir können dieselben Modellgewichte verwenden und in verschiedenen Szenarien unterschiedliche P-Werte verwenden, um Fähigkeiten und Inferenzkosten schnell und dynamisch anzupassen. Dies ist mit derzeitigen Mainstream-Methoden schwierig zu erreichen.

Zusammenfassung

ParScale ist unser neuer Versuch, das LLM Scaling Law zu erforschen, und die Forschung ist noch im Gange. Wir glauben, dass die Erweiterung des Rechenaufwands zur Entstehung von Intelligenz führen kann. Zukünftig planen wir, weitere Experimente an mehr Modellarchitekturen (wie MoE) und mit größeren Daten durchzuführen, um die Vorteile der Erhöhung des parallelen Rechenaufwands besser zu verstehen. Weitere zukünftige Richtungen werden im Paper ausführlich diskutiert. Wir freuen uns über Ihre Kritik und Anmerkungen!

Interpretation des Erstautors! Über Qwens Neues Skalierungsgesetz – Parallel Scaling – Aus der Ideenperspektive

Kurz-URL teilen