Qwen-Durchbruch: Verwendung von "Paralleler Verarbeitung" statt "Stapeln von Parametern", neue Methode reduziert Speicher um das 22-fache, Latenz um das 6-fache

Die MLNLP-Gemeinschaft ist eine national und international bekannte Gemeinschaft für maschinelles Lernen und natürliche Sprachverarbeitung, die NLP-Master- und Doktoranden, Universitätsdozenten und Unternehmensforscher im In- und Ausland umfasst.

Die Vision der Gemeinschaft ist es, den Austausch und Fortschritt zwischen der akademischen Gemeinschaft, der Industrie und den Enthusiasten der natürlichen Sprachverarbeitung und des maschinellen Lernens im In- und Ausland zu fördern, insbesondere den Fortschritt von Anfängern.

Quelle | Deep Learning Natural Language Processing

图片

Paper: Parallel Scaling Law for Language ModelsLink: https://arxiv.org/pdf/2505.10475

Die Entwicklung von LLMs basierte bisher auf dem "Stapeln von Parametern", aber je größer das Modell, desto offensichtlicher werden die Probleme:

Explodierende Trainingskosten: Das Training eines Modells mit Billionen von Parametern erfordert zig Millionen Kilowattstunden Strom

Langsame Inferenzgeschwindigkeit: Die Generierung eines Satzes dauert Dutzende von Sekunden

Kann nicht auf Mobiltelefonen ausgeführt werden: VRAM-Anforderungen betragen oft Hunderte von GB, und gewöhnliche Geräte können nicht eingesetzt werden

图片

Das kürzlich vorgeschlagene "Test Time Scaling" kann zwar die Leistung verbessern, erfordert aber die Generierung Hunderter Zwischenschritte, was es wiederum langsamer macht. Wissenschaftler fragen sich unweigerlich: Gibt es eine Skalierungsmethode, die sowohl effizient als auch ressourcenschonend ist?

Der Durchbruchgedanke von ParScale: "Parallele Verarbeitung" statt "Stapeln von Parametern"

Die Kerninnovation dieses Papers besteht darin, dass dasselbe Modell "getrennt denken" kann.

Traditionelle Methode: Ein Modell rechnet im "Single-Thread"

ParScale: Kopiert die Eingabe und fügt verschiedene "Denkpräfixe" hinzu, führt gleichzeitig P Berechnungsflüsse aus

Dynamische Fusion: Verwendet LLM, um die Ergebnisse unterschiedlicher Denkprozesse automatisch zu bewerten und die endgültige Antwort gewichtet zu synthetisieren

图片

Ein einfaches Beispiel: Es ist so, als würde man 10 Experten gleichzeitig dasselbe Problem lösen lassen und dann dynamisch die beste Lösung basierend auf ihrem Lösungsprozess auswählen, anstatt nur einen Super-Experten zu fragen.

Kern: Dynamische gewichtete Fusion

Die Schlüsselformel verbirgt sich in Proposition 1 des Papers: Der Modellverlust steht in logarithmischer Beziehung zur Anzahl der parallelen Flüsse P

(N ist die Parameterzahl, P ist die Anzahl der parallelen Flüsse)

Das bedeutet:

Der Effekt paralleler Verarbeitung ≈ logarithmischer Anstieg der Parameterzahl

Das Öffnen von 8 parallelen Flüssen ≈ dem Effekt einer Verdreifachung der Parameter

Aber die tatsächlich gestiegenen Hardwarekosten sind vernachlässigbar

图片

图片

Experimentelle Ergebnisse: Inferenz-Effizienz um das 22-fache gesteigert

Das Paper trainierte 67 Modelle auf 42B Token-Daten, und das Ergebnis ist verblüffend:

Leistung vergleichbar mit Parameter-Skalierung: 1.6B Parameter + 8 parallele Flüsse ≈ 4.4B Parameter Modell

Die Inferenzkosten sind stark gesunken:

Speicherverbrauch um das 22-fache reduziert

Latenz um das 6-fache reduziert

Mathematisches Denken um 34% gestiegen: Die Verbesserung war bei komplexen Aufgaben wie GSM8K am offensichtlichsten

Speicher-/Latenzvergleich bei verschiedenen Batches, blauer Pfeil für traditionelle Skalierung, grauer für ParScale

Speicher-/Latenzvergleich bei verschiedenen Batches, blauer Pfeil für traditionelle Skalierung, grauer für ParScale

Noch erstaunlicher ist, dass alte Modelle ebenfalls modifiziert werden können! Mit einer geringen Datenmenge zum Fine-Tuning können bestehende Modelle die parallele Verarbeitung unterstützen, was schlichtweg die "Verjüngungskunst für alte Modelle" ist.

Enormer Implementierungswert: Sogar Mobiltelefone können "LLM" ausführen

Das revolutionärste Anwendungsszenario für diese Technologie sind Edge-Geräte:

Mobiltelefone/Autos müssen nur ein kleines Modell laden und mehrere parallele Flüsse öffnen, um die Leistung eines großen Modells zu erzielen

Anzahl der parallelen Flüsse dynamisch anpassen: Beim Chatten 2 Flüsse öffnen, beim Lösen mathematischer Probleme 8 Flüsse öffnen

Überragender Kostenvorteil: Es zeigt, dass die Gesamtkosten nur 1/6 der traditionellen Methoden betragen图片

In Zukunft kann unser mobiler Assistent sowohl ein "Lebensmanager" als auch ein "Mathelehrer" sein, ohne dabei zu laggen!

Ein Blick in die Zukunft: Das "Computer-Perpetuum Mobile" des Modells

ParScale enthüllt ein tieferes Gesetz: Die Modellfähigkeit hängt nicht nur von den Parametern ab, sondern auch von der Berechnungsmethode. Dies öffnet eine neue Welt:

Dynamische Skalierung: Die Anzahl der parallelen Flüsse in Echtzeit an die Aufgabenschwierigkeit anpassen

Hybridarchitektur: MoE + ParScale kombiniert

Anwendungen in verschiedenen Bereichen: Bildgenerierung, Proteinvorhersage können alle davon profitieren

Proportionen der Beiträge von Parametern und paralleler Verarbeitung zur Modellfähigkeit

Proportionen der Beiträge von Parametern und paralleler Verarbeitung zur Modellfähigkeit

Vielleicht liegt der Schlüssel zur zukünftigen KI-Entwicklung nicht mehr darin, "größere Modelle zu bauen", sondern "Rechenleistung intelligenter zu nutzen".

Dieses Paper ist wirklich ein Meisterwerk! Epochal! Gut gemacht, Qwen~

Einladung zum technischen Austauschgruppe

图片

△Lange drücken, um Assistenten hinzuzufügen

QR-Code scannen, um WeChat des Assistenten hinzuzufügen

Bitte angeben: Name - Schule/Firma - Forschungsrichtung

(z.B. Zhang San - Harbin Institute of Technology - Dialogue System)

um der technischen Austauschgruppe für Natural Language Processing/Pytorch etc. beizutreten.

Über uns

Die MLNLP-Gemeinschaft ist eine private akademische Gemeinschaft, die gemeinsam von Forschern des maschinellen Lernens und der natürlichen Sprachverarbeitung im In- und Ausland gegründet wurde. Sie hat sich zu einer national und international bekannten Gemeinschaft für maschinelles Lernen und natürliche Sprachverarbeitung entwickelt, deren Ziel es ist, den Fortschritt der akademischen Gemeinschaft, der Industrie und der Enthusiasten des maschinellen Lernens und der natürlichen Sprachverarbeitung zu fördern.

Die Gemeinschaft kann eine offene Austauschplattform für Weiterbildung, Beschäftigung und Forschung von Fachleuten in verwandten Bereichen bieten. Wir heißen alle herzlich willkommen, uns zu folgen und sich uns anzuschließen.

图片

Hauptkategorie:Große Sprachmodelle

Unterkategorien:Parallele VerarbeitungKI-ForschungEdge AIInferenzoptimierung


Vorheriger:Open-Source-Implementierung von Googles selbstentdeckendem Algorithmus AlphaEvolve: OpenAplha_Evolve

Nächster:Warum wir unwahrscheinlich so schnell Allgemeine künstliche Intelligenz bekommen werden

Kurz-URL teilen