Google | Veröffentlicht revolutionären Codierungsagenten: AlphaEvolve, durchbricht mathematische Grenzen!

Heute hat DeepMind AlphaEvolve offiziell vorgestellt – einen revolutionären evolutionären Codierungsagenten, der von LLMs angetrieben wird. Es ist nicht nur ein Werkzeug zur Codegenerierung, sondern ein leistungsstarkes System, das in der Lage ist, ganze Codebasen für die allgemeine Algorithmenentdeckung und -optimierung zu entwickeln.

图片

LLMs besitzen eine erstaunliche Vielseitigkeit. Sie können Dokumente zusammenfassen, Code generieren und sogar neue Ideen vorschlagen. Jetzt erweitert DeepMind diese Fähigkeiten auf grundlegende und hochkomplexe Probleme in der Mathematik und modernen Informatik.

Matej Balog, ein Forscher bei Google DeepMind, sagte in einem Interview: „Es kann unglaublich komplexe Algorithmen finden – die Hunderte von Codezeilen umfassen, mit komplexen logischen Strukturen, weit über den Umfang einfacher Funktionen hinaus.“

Terence Tao erklärte ebenfalls auf Mathstodon, dass er mit Google DeepMind zusammengearbeitet hat, um die potenziellen mathematischen Anwendungen von AlphaEvolve zu erforschen.

图片

Die meisten KI-Modelle halluzinieren. Aufgrund ihrer probabilistischen Architektur erfinden sie manchmal selbstbewusst Dinge. Tatsächlich sind neuere KI-Modelle wie o3 von OpenAI anfälliger für Halluzinationen als ihre Vorgänger.

AlphaEvolve führt einen ausgeklügelten Mechanismus zur Reduzierung von Halluzinationen ein: ein automatisiertes Bewertungssystem. Dieses System verwendet das Modell, um einen Pool möglicher Antworten auf ein Problem zu generieren, zu kritisieren und abzuleiten, und bewertet und bewertet die Genauigkeit der Antworten automatisch.

AlphaEvolve kombiniert auch die kreativen Fähigkeiten zur Problemlösung des Gemini-Modells mit einem Evaluator, der Antworten automatisch überprüft, und nutzt einen evolutionären Rahmen, um die vielversprechendsten Lösungen kontinuierlich zu optimieren.

AlphaEvolve hat die Effizienz der Google-Rechenzentren, des Chipdesigns und der KI-Trainingsprozesse verbessert – einschließlich des Trainings der großen Sprachmodelle, die AlphaEvolve selbst zugrunde liegen. Es hat auch dazu beigetragen, schnellere Matrixmultiplikationsalgorithmen zu entwickeln und neue Lösungen für offene mathematische Probleme zu finden, mit riesigem Anwendungspotenzial in vielen Bereichen.【】

Entwurf besserer Algorithmen mit großen Sprachmodellen

AlphaEvolve ist ein Agent, der über die Entdeckung einzelner Funktionen hinausgehen, ganze Codebasen entwickeln und komplexere Algorithmen entwickeln kann. Im Gegensatz zu vielen Systemen, die nur einzelne Funktionen entwickeln, liegt ein Hauptvorteil von AlphaEvolve in der Fähigkeit, ganze Codebasen iterativ zu optimieren und zu entwickeln.

Dies baut auf einer Arbeit von DeepMind aus dem Jahr 2023 auf – FunSearch –, bei der DeepMind erstmals demonstrierte, dass große Sprachmodelle Funktionen in Computercode generieren können, um bei der Entdeckung neuen Wissens über offene wissenschaftliche Probleme zu helfen und dessen Richtigkeit zu beweisen.

Tabelle 1 zeigt einen Vergleich der Fähigkeiten und des typischen Verhaltens von AlphaEvolve und früheren Agenten.

图片

Kernmechanismus: Kombination von LLM-Kreativität mit automatisierter Bewertung

Wie erreicht AlphaEvolve nun diese leistungsstarke Code-Entwicklungsfähigkeit? Sein Kern liegt in der cleveren Integration der Kreativität großer Sprachmodelle mit dem objektiven Feedback automatisierter Bewertung in einen evolutionären Rahmen.

Dieser Prozess kann als kontinuierlicher „Generieren - Bewerten - Entwickeln“-Zyklus zusammengefasst werden:

图片

Die Abbildung zeigt den Workflow des Systems: Der Prompt-Sampler erstellt zunächst Eingabe-Prompts, die das Sprachmodell zur Generierung neuer Programme anregen; diese Programme werden vom Evaluator bewertet und in der Programmdatenbank gespeichert. Die Datenbank optimiert kontinuierlich die Programmauswahl durch evolutionäre Algorithmen und treibt so die kontinuierliche Entwicklung des Systems voran.

Generierung

AlphaEvolve kombiniert mehrere hochmoderne große Sprachmodelle: Gemini Flash (DeepMinds schnellstes und effizientestes Modell) erweitert die Breite der kreativen Erkundung, während Gemini Pro (DeepMinds leistungsstärkstes Modell) mit seinen tiefen Einblicken die kritische Tiefe liefert, die für Lösungen erforderlich ist.

Ziel dieser integrierten Strategie ist es, den Berechnungst durchsatz zu verbessern und gleichzeitig die Qualität der generierten Lösungen zu erhalten. Diese Modelle arbeiten zusammen, um Computerprogramme zu generieren, die algorithmische Lösungen implementieren.

1. Prompt-Sampling

Da AlphaEvolve auf den derzeit fortschrittlichsten LLMs basiert, unterstützt es verschiedene Formen benutzerdefinierter Operationen und kann lange Kontextinformationen in seinem primären Entwicklungs-Prompt (primary evolution prompt) bereitstellen.

Dieser Prompt enthält typischerweise mehrere bestehende Lösungen, die aus der Programmdatenbank gesampelt wurden, sowie Systemanweisungen, wie bestimmte Lösungen zu modifizieren sind. Benutzer können den Prompt weiter über expliziten Kontext, gerenderte Bewertungsergebnisse und andere Mittel anpassen.

2. Kreative Generierung

Um den Entwicklungsprozess voranzutreiben, nutzt AlphaEvolve die Fähigkeiten der hochmodernen LLMs. Ihre Kernaufgabe besteht darin, Informationen über zuvor generierte Lösungen zu verstehen und vielfältige neue Verbesserungsmöglichkeiten vorzuschlagen.

Obwohl AlphaEvolve selbst nicht von einem bestimmten Modell abhängt (es ist modellagnostisch), wurde in Ablationsstudien beobachtet, dass sich die Leistung von AlphaEvolve kontinuierlich verbessert, wenn die Leistung des zugrunde liegenden LLM steigt.

Ausgabeformat (Output Format): Wenn AlphaEvolve ein LLM auffordert, vorhandenen Code zu ändern, insbesondere in einer größeren Codebasis, fordert es eine Reihe von Differential-(Diff)-Fragmenten in einem bestimmten Format an. Das Format ist wie folgt:

图片

Dabei ist der Code zwischen <<<<<<<SEARCH und ======= das Originalfragment in der aktuellen Programmversion, das genau übereinstimmen muss; und zwischen ======= und>>>>>>> REPLACE ist das neue Codefragment, das zum Ersetzen des Originalfragments verwendet wird.

Auf diese Weise können Änderungen präzise auf bestimmte Teile des Codes angewendet werden. Wenn der zu entwickelnde Code kurz ist oder wenn das Neuschreiben von Grund auf sinnvoller ist als eine lokale Änderung, kann AlphaEvolve auch so konfiguriert werden, dass das LLM direkt den gesamten Codeblock ohne Verwendung des Differentialformats ausgibt.

Bewertung

In diesem Zyklus spielen automatisierte Bewertungsmetriken eine entscheidende Rolle. AlphaEvolve verwendet diese Metriken, um vorgeschlagene Programme zu verifizieren, auszuführen und zu bewerten. Diese Metriken liefern objektive, quantifizierbare Bewertungen der Genauigkeit und Qualität jeder Lösung.

1. Aufgabenspezifikation

Bewertung: Da AlphaEvolve maschinenbewertbare (machine-gradeable) Probleme bearbeitet, müssen Benutzer einen Mechanismus zur automatischen Bewertung generierter Lösungen bereitstellen. Dies geschieht typischerweise in Form einer Funktion h, die eine Lösung auf einen Satz skalarer Bewertungsmetriken (die maximiert werden müssen) abbildet, normalerweise als Python-Funktion (evaluate) implementiert.

API: Um die Entwicklung mehrerer Komponenten innerhalb einer Codebasis zu unterstützen, bietet AlphaEvolve eine Eingabe-API an, die durch Hinzufügen spezieller Marker (z. B. # EVOLVE-BLOCK-START und # EVOLVE-BLOCK-END in Kommentaren) zum Code angibt, welche Codeblöcke vom System entwickelt werden können. Der vom Benutzer bereitgestellte Code in diesen Entwicklungsblöcken dient als anfängliche Lösung, und der restliche Code bildet das Skelett, das diese entwickelbaren Teile verbindet, sodass sie von der evaluate-Funktion aufgerufen werden können.

Flexibilität bei der Wahl des Abstraktionsgrads: AlphaEvolve kann auf sehr unterschiedliche Weise auf dasselbe Problem angewendet werden, insbesondere wenn das entwickelte Programm nicht die endgültige Ausgabe, sondern ein Mittel zur Entdeckung der Lösung ist. Zum Beispiel kann man Lösungen entwickeln, die als Roh-Strings dargestellt werden, eine wohldefinierte Funktion entwickeln, um eine Lösung von Grund auf zu erstellen, einen benutzerdefinierten Suchalgorithmus entwickeln, um eine Lösung innerhalb eines festen Rechenbudgets zu finden, oder sogar Zwischenlösungen und den Suchalgorithmus gemeinsam entwickeln.

2. Bewertungsprozess und Optimierungsmechanismus

Um den Fortschritt von AlphaEvolve zu verfolgen und Ideen für die Weitergabe in zukünftigen Generationen auszuwählen, wird jede neue vom LLM vorgeschlagene Lösung automatisch bewertet. Der grundlegende Prozess besteht darin, die vom Benutzer bereitgestellte Bewertungsfunktion h auszuführen. In der Praxis unterstützt AlphaEvolve verschiedene Mechanismen, um die Bewertung flexibler und effizienter zu gestalten:

Bewertungskaskade (Evaluation Cascade): Verwendung von Testsets mit steigendem Schwierigkeitsgrad zur schnellen Filterung von Lösungen.

LLM-generiertes Feedback (LLM-generated Feedback): Verwendung von LLMs zur Bewertung schwer quantifizierbarer Attribute.

Parallelisierte Bewertung (Parallelized Evaluation): Verteilte Ausführung von Bewertungsaufgaben zur Steigerung der Effizienz.

Unterstützt die Optimierung mehrerer Metriken (Multiple scores), optimiert mehrere Ziele gleichzeitig und kann sogar die Ergebnisse eines einzelnen Ziels verbessern.

Entwicklung

In seinem Entwicklungsprozess generiert AlphaEvolve kontinuierlich Lösungen mit Bewertungsergebnissen (Scores und Programmausgaben). Diese Lösungen werden in einer evolutionären Datenbank (evolutionary database) gespeichert. Das primäre Ziel dieser Datenbank ist die optimale Wiederverwendung zuvor untersuchter Ideen in zukünftigen Generationen.

Eine zentrale Herausforderung beim Entwurf einer solchen Datenbank ist das Gleichgewicht zwischen Erkundung (exploration) und Ausbeutung (exploitation): das heißt, während die aktuelle beste Lösung kontinuierlich verbessert wird, die Vielfalt der Lösungen zu erhalten, um die Erkundung des gesamten Suchraums zu fördern.

In AlphaEvolve implementiert diese evolutionäre Datenbank einen Algorithmus, der von einer Kombination aus dem MAP-elites-Algorithmus und populationsbasierten Inselmodellen (island-based population models) inspiriert ist.

Dies macht AlphaEvolve besonders hilfreich in breiten Bereichen wie Mathematik und Informatik, in denen Fortschritte klar und systematisch gemessen werden können.

Optimierung des DeepMind-Rechenökosystems

Im vergangenen Jahr hat DeepMind von AlphaEvolve entdeckte Algorithmen im gesamten Rechenökosystem von Google bereitgestellt, einschließlich DeepMinds Rechenzentren, Hardware und Software.

Die Auswirkungen dieser Verbesserungen werden in der KI- und Recheninfrastruktur von DeepMind vervielfacht und bilden ein leistungsstärkeres und nachhaltigeres digitales Ökosystem für alle Benutzer von DeepMind.

图片

Das Diagramm veranschaulicht, wie AlphaEvolve Google hilft, ein effizienteres digitales Ökosystem bereitzustellen, von der Planung von Rechenzentren und dem Hardwaredesign bis hin zum Training von KI-Modellen.

Verbesserung der Rechenzentrumsplanung

AlphaEvolve entdeckte eine einfache, aber hochwirksame heuristische Methode, die Borg hilft, die massiven Rechenzentren von Google effizienter zu koordinieren. Diese Lösung ist seit über einem Jahr in Produktion und stellt im Durchschnitt kontinuierlich 0,7 % der globalen Rechenressourcen von Google wieder her. Diese nachhaltige Effizienzsteigerung bedeutet, dass zu jedem Zeitpunkt mehr Aufgaben mit denselben Rechenressourcen erledigt werden können.

Die Lösung von AlphaEvolve erzielte nicht nur eine starke Leistung, sondern bot auch wichtige operationelle Vorteile von menschenlesbarem Code: Interpretierbarkeit, Debugging-Fähigkeit, Vorhersagbarkeit und einfache Bereitstellung.

Unterstützung beim Hardware-Design

AlphaEvolve schlug eine Verilog-Rewrite-Lösung vor, die redundante Bits in der kritischen, hochoptimierten arithmetischen Schaltung für die Matrixmultiplikation entfernte. Dieser Vorschlag wurde durch strenge Validierung verifiziert, die bestätigte, dass die modifizierte Schaltung die funktionale Korrektheit beibehielt, und wurde in die kommende Tensor Processing Unit (TPU) integriert.

Durch das Vorschlagen von Änderungen in der Standardsprache der Chipdesigner (Verilog) fördert AlphaEvolve die Zusammenarbeit zwischen KI- und Hardware-Ingenieuren, um das Design zukünftiger dedizierter Chips zu beschleunigen.

Steigerung der Effizienz von KI-Training und -Inferenz

AlphaEvolve beschleunigt die KI-Leistung und den Forschungsprozess signifikant. Durch das Finden intelligenterer Wege zur Zerlegung großer Matrixmultiplikationsoperationen erhöhte es die Geschwindigkeit dieses kritischen Kernels in der Gemini-Architektur um 23 %, was wiederum die Trainingszeit von Gemini um 1 % reduzierte.

Neben Leistungssteigerungen reduzierte AlphaEvolve den erforderlichen Ingenieuraufwand für die Kerneloptimierung erheblich, von wochenlanger Arbeit von Experten auf nur wenige Tage mit automatisierten Experimenten.

AlphaEvolve ist auch in der Lage, Low-Level-GPU-Anweisungen zu optimieren. Bei Transformer-basierten KI-Modellen erzielte es eine Geschwindigkeitssteigerung von bis zu 32,5 % bei der Implementierung des FlashAttention-Kernels. Diese Optimierung hilft Experten, Leistungsengpässe präzise zu identifizieren und Verbesserungen einfach zu integrieren.

Fortschritt an der Grenze der Mathematik und Algorithmenentdeckung

Schnellere Matrixmultiplikationsalgorithmen

AlphaEvolve kann auch neue Methoden für komplexe mathematische Probleme vorschlagen, wie z. B. die Matrixmultiplikation – ein grundlegendes Problem in der Informatik. Durch ein gradientenbasiertes Optimierungsprogramm entwarf und entdeckte AlphaEvolve einen Algorithmus, der 48 skalare Multiplikationen verwendet, um 4x4 komplexe Matrizen zu multiplizieren.

Diese Entdeckung verbessert den Strassen-Algorithmus von 1969 und markiert die erste bekannte Verbesserung in dieser Einstellung seit 56 Jahren. Sie zeigt auch einen signifikanten Sprung über die frühere Arbeit von DeepMind, AlphaTensor, hinaus.

Lösung offener Probleme

Um die Breite von AlphaEvolve zu erkunden, wandte DeepMind das System auf über 50 offene Probleme in der mathematischen Analyse, Geometrie, Kombinatorik und Zahlentheorie an. Die Flexibilität des Systems ermöglichte es, die meisten Experimente innerhalb weniger Stunden einzurichten.

In etwa 75 % der Fälle entdeckte es den Stand der Technik wieder; in 20 % der Fälle verbesserte AlphaEvolve die zuvor bekannten besten Lösungen und erzielte Fortschritte bei den entsprechenden offenen Problemen.

Zum Beispiel fand AlphaEvolve beim Kissing Number Problem, das Mathematiker seit über 300 Jahren interessiert, eine Konfiguration von 593 äußeren Kugeln und etablierte neue untere Schranken in 11 Dimensionen.

Hauptkategorie:Künstliche Intelligenz

Unterkategorien:CodegenerierungGoogleDeepMindAlgorithmen


Vorheriger:Interpretation des technischen Berichts zu Qwen3

Nächster:Stirbt die Menschheit ohne AGI aus?

Kurz-URL teilen