AM-Thinking-v1: Die Grenze der Schlussfolgerung im 32B-Maßstab vorantreiben

1. Einleitung: Ein neuer Meilenstein in der KI-Evolution

Erinnern Sie sich an die Szene Ende letzten Jahres, als große Hersteller darum wetteiferten, KI-Modelle im Supermaßstab auf den Markt zu bringen? OpenAIs o1, Googles Gemini 2.5, Anthropics Claude 3.7... Diese Modelle hatten oft Hunderte von Milliarden Parametern, was erstaunlich war. Aber haben Sie sich jemals gefragt: Braucht man wirklich so massive Modelle, um exzellente Schlussfolgerungsfähigkeiten zu erzielen?

圖片

Kürzlich haben Forscher ein Modell namens "AM-Thinking-v1" veröffentlicht, das mit nur einer dichten Architektur von 32B Parametern überraschende Ergebnisse bei schwierigen Aufgaben wie mathematischem Schlussfolgern und Codegenerierung erzielte und sogar Modelle von Mixture-of-Experts wie DeepSeek-R1 mit 671B Parametern und nahe Qwen3-235B-A22B übertraf. Welche Bedeutung hat diese Errungenschaft? Und wie wurde sie realisiert? Werfen wir einen Blick darauf.

2. Enthüllung: Mittelgroße Modelle können auch Super-Schlussfolgerungsfähigkeiten haben

Wenn die Entwicklung großer Sprachmodelle ein Marathon ist, sprinten die meisten Unternehmen in die Richtung "größer ist besser", während AM-Thinking-v1 einen anderen Weg gewählt hat: Streben nach Exzellenz, nicht blinde Expansion.

Dieses Modell erzielte hohe Punktzahlen von 85,3 und 74,4 bei den mathematischen Wettbewerbstests AIME 2024 bzw. AIME 2025 und erreichte eine Punktzahl von 70,3 auf dem LiveCodeBench Code-Benchmark. Was bedeutet das? Einfach ausgedrückt, seine Fähigkeit, komplexe mathematische Probleme zu lösen und qualitativ hochwertigen Code zu schreiben, hat viele große Modelle mit der 10- oder sogar 20-fachen Anzahl an Parametern übertroffen!

Noch erstaunlicher ist, dass das Forschungsteam dieses Ergebnis vollständig auf der Grundlage des Open-Source-Basismodells Qwen2.5-32B und öffentlich zugänglicher Trainingsdaten aufgebaut hat. Das ist, als würde man aus denselben Rohmaterialien durch exquisite Handwerkskunst ein Produkt schaffen, das die Erwartungen bei weitem übertrifft.

3. Technische Aufschlüsselung: Wie ein sorgfältig entworfener Post-Training-Prozess die Spielregeln ändert

Der Erfolg von AM-Thinking-v1 ist kein Zufall; er rührt von dem sorgfältig von den Forschern entworfenen Post-Training-Prozess her. Dieser Prozess umfasst hauptsächlich zwei Schlüsselphasen, und es sind diese Phasen, die es einem gewöhnlichen Basismodell ermöglichten, Super-Schlussfolgerungsfähigkeiten zu erlangen.

(1) Datenverarbeitung: Qualität vor Quantität

Das Forschungsteam verfolgte nicht blindlings riesige Datenmengen, sondern führte eine strenge Filterung und Verarbeitung aller Trainingsdaten durch:

1) Strikte Deduplizierung: Entfernen von doppelten Anfragemustern

2) Qualitätsfilterung: Ausschluss von Daten mit URLs oder referenzierten Bildern

3) Datenvalidierung: Insbesondere für mathematische Daten bauten sie eine komplette Verarbeitungspipeline auf, einschließlich Anfragefilterung und Antwortvalidierung

Für mathematische Daten nutzten die Forscher sogar DeepSeek-R1, um mehrere Antworten zu generieren und sie mit den ursprünglichen Antworten zu vergleichen. Bei Inkonsistenzen konsultierten sie erneut das o4-mini-Modell, um alternative Antworten zu erhalten. Diese sorgfältige Datenvalidierung stellt sicher, dass das Modell nicht aus Fehlern lernt, was den Trainingseffekt erheblich verbessert.

(2) Zweistufiges Training: Die leistungsstarke Kombination aus SFT + RL

Der Trainingsprozess umfasste ein zweistufiges Design:

Erste Phase: Supervised Fine-Tuning (SFT)

1) Verwendung von ca. 2,84 Millionen Stichproben, die fünf Hauptkategorien abdecken: Mathematik, Programmierung, Wissenschaft, Befolgen von Anweisungen und allgemeine Konversation

2) Verwendung einer relativ hohen Lernrate (8e-5) und einer großen Batch-Größe (64)

3) Für Daten aus mehrstufigen Dialogen wurde nur die endgültige Antwort, die den Schlussfolgerungsprozess enthielt, als Trainingsziel verwendet

Zweite Phase: Reinforcement Learning (RL)

1) Verwendung einer schwierigkeitsbewussten Anfrageauswahl, bei der Stichproben mit einer Erfolgsrate von 0 oder 1 herausgefiltert wurden, um sicherzustellen, dass die Trainingsdaten ausreichend anspruchsvoll waren

2) Verwendung des Grouped Relative Policy Optimization (GRPO)-Algorithmus, ohne KL-Beschränkungen

3) Zweistufige Generierung und Lernratenplanung: Die erste Phase begrenzte die maximale Antwortlänge auf 24K, mit einer Lernrate von 4e-6; die zweite Phase erhöhte die maximale Antwortlänge auf 32K und reduzierte die Lernrate auf 1e-6

Die Forscher fanden heraus, dass die Verwendung einer höheren Lernrate in den frühen Phasen des Trainings das Modell schneller konvergieren lassen und die gesamten Trainingskosten erheblich senken kann. Dies beweist, dass eine sorgfältig entworfene Trainingsstrategie den Mangel an Parameterskala ausgleichen kann.

圖片

圖片

4. Fazit

Der Erfolg von AM-Thinking-v1 hat mehrere Implikationen:

(1) Kosteneffizienz: Im Vergleich zu MoE-Modellen mit Hunderten von Milliarden Parametern sind die Inferenz- und Bereitstellungskosten von 32B-dichten Modellen viel geringer, was bedeutet, dass mehr Institutionen und Entwickler sich KI-Fähigkeiten auf hohem Niveau leisten können

(2) Praktischer Vorteil: Mittelgroße Modelle sind einfacher bereitzustellen und fein abzustimmen, geeignet für ein breiteres Spektrum von Anwendungsszenarien

() Open-Source-Innovation: Beweist, dass die Open-Source-Gemeinschaft auch Hochleistungsmodelle bauen kann, die mit proprietären Systemen vergleichbar sind, was die Demokratisierung der KI-Technologie fördert

Verschiebung der Forschungsrichtung: Zeigt, dass Fortschritte im Bereich der KI nicht allein vom Anstieg der Parameterskala abhängen; sorgfältiges Post-Training-Design ist gleichermaßen wichtig

Obwohl AM-Thinking-v1 beeindruckende Ergebnisse erzielt hat, gibt es immer noch einige Einschränkungen: fehlende Unterstützung für strukturierte Funktionsaufrufe und Werkzeugnutzung, keine multimodalen Eingabefähigkeiten und die Sicherheitsausrichtung befindet sich noch im Anfangsstadium.

Dennoch bietet diese Forschung zweifellos eine neue Richtung für die zukünftige Entwicklung der KI: Durch einen sorgfältig entworfenen Trainingsprozess können mittelgroße Modelle die Leistung von Super-Scale-Modellen bei bestimmten Aufgaben erreichen oder sogar übertreffen.

Dieser Paradigmenwechsel könnte die Entwicklungsrichtung der gesamten KI-Branche beeinflussen und mehr Forscher und Entwickler dazu bringen, darüber nachzudenken: Können KI-Fähigkeiten durch intelligentere Methoden verbessert werden, anstatt einfach nur Parameter zu stapeln?

Mit dem kontinuierlichen Aufkommen von Modellen wie AM-Thinking-v1 haben wir Grund zu der Annahme, dass die Zukunft der KI nicht nur Technologiegiganten mit massiven Rechenressourcen gehört, sondern auch Innovatoren, die begrenzte Ressourcen geschickt nutzen können, um außergewöhnlichen Wert zu schaffen.

Papiertitel: AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

Paper-Link: https://arxiv.org/abs/2505.08311

Empfohlene Lektüre

FloE: Lässt MoE-Modelle "abspecken" und 50-mal schneller werden!

INTELLECT-2: Das erste dezentral trainierte Inferenz-KI-Modell

MiMo: Entfesselt das Schlussfolgerungspotenzial von Sprachmodellen – Vom Pre-Training zum Post-Training

Hauptkategorie:Künstliche Intelligenz

Unterkategorien:Große SprachmodelleSchlussfolgerungModellleistungModelltraining


Vorheriger:An der Spitze der Arena! Das neueste Speech-02-Modell von MiniMax erobert die Ranglisten: Übertrifft OpenAI, ElevenLabs, 99% menschliche Stimmähnlichkeit

Nächster:Thoughtworks CTO: KI bedeutet, dass wir Entwickler mehr denn je brauchen

Kurz-URL teilen