Die Programmier-Revolution bricht los! OpenAI's leistungsstärkster Agent gerade auf ChatGPT gestartet

Xinzhiyuan Bericht

Redakteur: Redaktionsabteilung YXH

【Xinzhiyuan Einführung】OpenAIs stärkster KI-Programmieragent ist wirklich da! Codex wurde spektakulär gestartet, angetrieben von codex-1, einer optimierten Version von o3, mit paralleler Multitasking-Verarbeitung, die Softwareentwicklungsaufgaben von mehreren Tagen in einer halben Stunde erledigt.

Ab heute beginnt offiziell eine neue Ära der KI-Programmierung!

Vor kurzem führte Greg Brockman ein sechsköpfiges Team von OpenAI in einem Online-Livestream an und stellte den cloudbasierten KI-Programmieragenten Codex beeindruckend vor.

Mit Altmans Worten ist die Ära angebrochen, in der eine einzelne Person unzählige erfolgreiche Anwendungen erstellen kann!

Codex wird vom neuen Modell codex-1 angetrieben, einer speziell auf Softwareentwicklung zugeschnittenen Version von o3.

Es kann nicht nur sicher mehrere Aufgaben parallel in einer Cloud-Sandbox-Umgebung verarbeiten, sondern auch direkt auf Ihre Codebasis zugreifen, dank der nahtlosen Integration mit GitHub.

Es ist nicht nur ein Werkzeug, sondern ein "10x-Ingenieur", der gleichzeitig Folgendes leisten kann:

Schnelles Erstellen von Funktionsmodulen

Tiefgehende Beantwortung von Codebasisfragen

Genaue Behebung von Code-Schwachstellen

PRs einreichen

Automatische Ausführung von Testvalidierungen

Früher hätten diese Aufgaben Entwickler Stunden oder sogar Tage gekostet, doch nun kann Codex sie in höchstens 30 Minuten effizient erledigen.

Klicken Sie auf die ChatGPT-Seitenleiste, geben Sie Eingabeaufforderungen ein und klicken Sie dann direkt auf "Code", um Aufgaben zuzuweisen, oder auf "Fragen", um Fragen zur Codebasis zu stellen.

Durch verstärkendes Lernen wird Codex auf realen Codierungsaufgaben und vielfältigen Umgebungen trainiert. Der generierte Code entspricht nicht nur menschlichen Präferenzen, sondern lässt sich auch nahtlos in Standard-Workflows integrieren.

Benchmark-Tests zeigen, dass codex-1 auf SWE-bench einen hohen Wert von 72,1% erreichte und damit Claude 3.7 sowie o3-high übertraf.

Ab heute steht Codex allen ChatGPT Pro-, Enterprise- und Team-Benutzern weltweit offiziell zur Verfügung, und Plus- und Edu-Benutzer erhalten bald Zugriff.

Man kann sagen, dass das Aufkommen des KI-Programmieragenten Codex die zugrundeliegende Logik der Softwareentwicklung neu gestalten und den Funken der Programmierrevolution vollständig entzünden wird.

Codex Multi-Task-Parallelisierung, KI-Programmierung Superbeschleuniger

Bereits im Jahr 2021 veröffentlichte OpenAI erstmals das CodeX-Modell und leitete damit die Ära des „Vibe Coding“ (intuitive Codierung) ein.

Diese Programmiermethode ermöglicht Entwicklern die Zusammenarbeit mit KI, wodurch die Codeerstellung intuitiver und effizienter wird.

Vor einigen Wochen veröffentlichte OpenAI auch CodeX CLI, einen Agenten, der im lokalen Terminal ausgeführt werden kann.

Aber das ist erst der Anfang!

OpenAI bringt heute einen völlig neuen Codex-Agenten auf den Markt und hebt die Softwareentwicklung erneut auf ein neues Niveau.

Sehen wir uns nun die beeindruckende Codierungsleistung von Codex an.

Nachdem er sein GitHub-Konto verbunden hatte, wählte der OpenAI-Forscher Thibault Sottiaux ein Open-Source-Repository, das Preparedness-Repository.

Dann erhielt er drei Aufgaben:

Die erste war eine Frage: Bitten Sie den Code-Agenten Codex, die Codebasis zu erklären und die Gesamtstruktur zu beschreiben.

Die zweite war eine Code-Aufgabe: Bitten Sie ihn, einen Fehler irgendwo in der Codebasis zu finden und zu beheben.

Die dritte Aufgabe war eine Frage: Iterieren Sie durch die Codebasis und schlagen Sie proaktiv Aufgaben vor, die er ausführen könnte.

In der folgenden Demo gab Thibault Codex mehrere Aufgaben, wie z. B. Rechtschreib- und Grammatikkorrektur, intelligente Aufgabenübertragung und Anpassung an mehrere Repositories.

Bei der Korrektur fügte er absichtlich Rechtschreibfehler in die Anweisungen ein. Codex verstand nicht nur die Absicht, sondern suchte auch proaktiv nach Rechtschreib- und Grammatikproblemen in der Codebasis und behob diese mit erstaunlicher Detailgenauigkeit.

Als Thibault das Ziel vorschlug, die Codebasis "wartungsfreundlich und fehlerfrei" zu gestalten, iterierte Codex durch die Codebasis und entdeckte proaktiv Probleme wie mutable Default-Werte und inkonsistente Timeout-Einstellungen und generierte automatisch Korrekturaufgaben.

Diese Fähigkeit zur "Selbstdelegation" ist eine Spitzenleistung für einen Agenten.

Es ist erwähnenswert, dass der Codex-Agent auf der Computing-Infrastruktur von OpenAI läuft und dasselbe bewährte System wie das Reinforcement Learning nutzt.

Jede Aufgabe wird in einer unabhängigen virtuellen Sandbox ausgeführt, ausgestattet mit einem eigenen Dateisystem, CPU, Speicher und Netzwerkrichtlinien, was Effizienz und Sicherheit gewährleistet.

Zusätzlich zum Preparedness-Repository bearbeitete Codex auch die CodeX CLI-Bibliothek nahtlos und demonstrierte damit seine Fähigkeit zur Verallgemeinerung über verschiedene Projekte hinweg.

Ob es sich um ein Open-Source-Projekt oder eine interne Codebasis handelt, Codex meistert es mit Leichtigkeit.

Codex erhielt Feedback zu einem Bug von einem Benutzer, bei dem ein Sonderzeichen im Dateinamen einen Fehler beim diff-Befehl verursachte.

Während des Lösungsprozesses konnte es das Problem nicht nur reproduzieren, sondern auch Testskripte schreiben, Linter-Überprüfungen durchführen und eine PR generieren, wobei der gesamte Prozess nur wenige Minuten dauerte.

Thibault sagte direkt: "Das hätte mich ursprünglich 30 Minuten oder sogar mehrere Stunden gekostet."

Darüber hinaus betonte die OpenAI-Forscherin Katy Shi in der Demo, dass der PR von Codex eine detaillierte Zusammenfassung enthält, die die Änderungen und den referenzierten Code klar erläutert und die Testergebnisse auf einen Blick sichtbar macht.

Nach einer Reihe von Demonstrationen sagte Greg, dass Codex ihm ein tiefes Gefühl von AGI vermittelt habe!

Angleichung an menschliche Präferenzen

Praxistests mit 4 Open-Source-Bibliotheken

Ein Hauptziel des Trainings von codex-1 durch OpenAI ist es, sicherzustellen, dass seine Ausgabe in hohem Maße menschlichen Codierungspräferenzen und -standards entspricht.

Verglichen mit OpenAI o3 generiert codex-1 konsistent präzisere Code-Modifikations-Patches, die direkt von Menschen überprüft und in Standard-Workflows integriert werden können.

Um die Präzision und Effizienz des von Codex generierten Codes zu demonstrieren, stellte OpenAI 4 Praxisbeispiele zum Vergleich von Codex und o3 an Open-Source-Bibliotheken bereit:

astropy

astropy ist eine Open-Source-Python-Bibliothek für die Astronomie.

Das erste Problem im astropy/astropy-Repository war, dass die separability_matrix im Modeling-Modul die Trennbarkeit verschachtelter CompoundModels nicht korrekt berechnen konnte.

Wie in der Code-Versionsvergleichung vor und nach der Modifikation zu sehen ist, führte die Verwendung von Codex zu sehr präzisen Codeänderungen.

Im Gegensatz dazu war der von o3 modifizierte Code etwas wortreich und fügte sogar einige "unnötige" Kommentare zum Quellcode hinzu.

matplotlib

Matplotlib ist eine umfassende Python-Bibliothek zur Erstellung statischer, animierter und interaktiver Visualisierungen.

Dieses Problem bestand darin, einen Fehler zu beheben: die falsche Fensterkorrektur (windows correction) in mlab._spectral_helper.

Ebenso war der Code-Modifikationsprozess von Codex präziser.

django

Django ist ein Python-basiertes Web-Framework. Dieses Problem bestand darin, den Fehler zu beheben, bei dem Ausdrücke, die nur die Dauer (duration) enthielten, auf SQLite und MySQL nicht korrekt funktionierten.

Der Reparaturprozess von Codex war weiterhin elegant und fügte im Vergleich zu o3 zunächst die fehlenden Abhängigkeitsaufrufe hinzu.

expensify

expensify ist eine Open-Source-Software für die Finanzzusammenarbeit, die auf Chats basiert.

Das von OpenAI angegebene Problem lautete: "dd [HOLD for payment 2024-10-14] [$250] LHN - Name des Mitglieder-Chatrooms wird nach Löschen des Caches in LHN nicht aktualisiert".

Ebenso waren die Problemidentifizierung und -änderung durch Codex präziser und effektiver. o3 führte sogar eine ineffektive Codeänderung durch.

OpenAI-Team nutzt es bereits

Das technische Team von OpenAI hat begonnen, Codex als Teil ihres täglichen Werkzeugkastens zu integrieren.

Die Ingenieure von OpenAI nutzen Codex am häufigsten für repetitive und klar definierte Aufgaben wie Refactoring, Umbenennung und Testschreiben, Aufgaben, die ihre Konzentration unterbrechen würden.

Es eignet sich auch zum Erstellen neuer Funktionen, zum Verbinden von Komponenten, zum Beheben von Fehlern und zum Entwerfen von Dokumentationen.

Teams entwickeln neue Gewohnheiten rund um Codex: Bearbeitung von Bereitschaftsproblemen, Planung von Aufgaben zu Beginn des Tages und Durchführung von Hintergrundarbeiten zur Aufrechterhaltung des Fortschritts.

Durch die Reduzierung des Kontextwechsels und die Erinnerung an vergessene Aufgaben hilft Codex Ingenieuren, schneller zu liefern und sich auf das Wichtigste zu konzentrieren.

Vor der offiziellen Einführung arbeitete OpenAI mit wenigen externen Testern zusammen, um die tatsächliche Leistung von Codex in verschiedenen Codebasen, Entwicklungsprozessen und Teamumgebungen zu bewerten:

Cisco erkundete als früher Designpartner das Potenzial von Codex zur Beschleunigung der Ideenfindung und Implementierung von Ingenieurteams und lieferte OpenAI Feedback durch die Bewertung realer Anwendungsfälle, um die Modelloptimierung zu unterstützen.

Temporal nutzte Codex zur Beschleunigung der Funktionsentwicklung, Problembehebung, Testschreiben und -ausführung und verwendete es zur Refaktorierung großer Codebasen. Codex bearbeitete auch komplexe Aufgaben im Hintergrund, wodurch die Ingenieure konzentriert und effizient iterieren konnten.

Superhuman nutzte Codex zur Automatisierung kleiner repetitiver Aufgaben, wie der Verbesserung der Testabdeckung und der Behebung von Integrationsfehlern; es ermöglichte Produktmanagern auch, leichte Codeänderungen ohne Eingriff der Ingenieure (außer Code-Reviews) vorzunehmen, was die Effizienz des Pairings verbesserte.

Kodiak beschleunigte die Entwicklung von Debugging-Tools, die Testabdeckung und das Code-Refactoring mit Codex-Unterstützung und trieb die Forschung und Entwicklung seines autonomen Fahrsystems Kodiak Driver voran. Codex diente auch als Referenzwerkzeug, das Ingenieuren half, unbekannte Code-Stacks zu verstehen und relevanten Kontext und historische Änderungen bereitzustellen.

Basierend auf der aktuellen Nutzungserfahrung empfiehlt OpenAI: Es können klar definierte Aufgaben gleichzeitig mehreren Agenten zugewiesen und verschiedene Aufgabentypen und Prompting-Methoden ausprobiert werden, um die Fähigkeiten des Modells umfassender zu erschließen.

Modell-Systemnachricht

Durch die folgende Systemnachricht können Entwickler das Standardverhalten von codex-1 verstehen und es an ihren Workflow anpassen.

Zum Beispiel weist die Systemnachricht Codex an, alle im AGENTS.md-Datei erwähnten Tests auszuführen, aber wenn die Zeit knapp ist, können Entwickler Codex bitten, diese Tests zu überspringen.

# Instructions - The user will provide a task. - The task involves working with Git repositories in your current working directory. - Wait for all terminal commands to be completed (or terminate them) before finishing. # Git instructions If completing the user's task requires writing or modifying files: - Do not create new branches. - Use git to commit your changes. - If pre-commit fails, fix issues and retry. - Check git status to confirm your commit. You must leave your worktree in a clean state. - Only committed code will be evaluated. - Do not modify or amend existing commits. # AGENTS.md spec - Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/` , `~` , and in various places inside of Git repos. - These files are a way for humans to give you (the agent) instructions or tips for working within the container. - Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code. - AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected. - Instructions in AGENTS.md files: - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it. - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file. - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise. - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions. - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions. - AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory. - If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made. - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks. # Citations instructions - If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats: 1) `【F:†L(-L)?】` - File path citations must start with `F:` . `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text. - `line_start` is the 1-indexed start line number of the relevant output within that file. 2) `【†L(-L)?】` - Where `chunk_id` is the chunk _id of the terminal output, `line_`start `and `line _end` are the 1-indexed start and end line numbers of the relevant output within that chunk. - Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited. - Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation. - Do not cite completely empty lines inside the chunk, only cite lines that have content. - Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids. - Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output. - Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results. - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section. - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Codex CLI Update

Letzten Monat veröffentlichte OpenAI ein leichtgewichtiges Open-Source-Tool – Codex CLI, das es leistungsstarken Modellen wie o3 und o4-mini ermöglicht, direkt im lokalen Terminal ausgeführt zu werden und Entwicklern hilft, Aufgaben schneller zu erledigen.

Diesmal veröffentlichte OpenAI auch eine kleinere Modellversion, die für Codex CLI optimiert ist – die o4-mini-Version von codex-1.

Es bietet geringe Latenz, starkes Anweisungsverständnis und Code-Editierungsfunktionen. Es ist jetzt das Standardmodell für Codex CLI und auch über API verfügbar (Name: codex-mini-latest) und wird kontinuierlich iteriert und aktualisiert.

Zusätzlich wurde die Anmeldemethode für Codex CLI vereinfacht. Entwickler können sich jetzt direkt mit ihrem ChatGPT-Konto anmelden, die API-Organisation auswählen, und das System generiert und konfiguriert den API-Schlüssel automatisch.

Um die Nutzung zu fördern, erhalten Benutzer, die sich ab heute innerhalb von 30 Tagen mit ihrem ChatGPT-Konto bei Codex CLI anmelden, kostenlose Credits: Plus-Benutzer erhalten 5 USD API-Nutzungsguthaben; Pro-Benutzer erhalten 50 USD.

Ist Codex teuer?

In den kommenden Wochen können alle Nutzer die Codex-Funktion ausgiebig testen.

Anschließend wird OpenAI Drosselungsmechanismen und flexible Preise einführen, die den On-Demand-Kauf zusätzlicher Nutzung unterstützen.

Für Entwickler ist das Modell codex-mini-latest auf der Responses API zu folgenden Preisen verfügbar:

Pro Million Eingabetoken: 1,50 USD

Pro Million Ausgabetoken: 6,00 USD

Und profitiert von einem 75%igen Prompt-Caching-Rabatt

Codex befindet sich derzeit noch im Forschungs-Preview-Stadium und unterstützt noch keine Frontend-Funktionen wie Bildeingaben und verfügt auch nicht über die Möglichkeit zur Echtzeit-Korrektur während der Aufgabenausführung.

Darüber hinaus ist die Reaktionszeit für die Delegation von Aufgaben an den Codex-Agenten relativ lang, und Benutzer müssen sich möglicherweise an diese Art des asynchronen Kollaborations-Workflows gewöhnen.

Mit fortschreitender Verbesserung der Modellfähigkeiten wird Codex in der Lage sein, komplexere und anhaltendere Entwicklungsaufgaben zu bewältigen und sich allmählich zu einem eher "entfernten Entwicklungspartner" entwickeln.

Was kommt als Nächstes?

Das Ziel von OpenAI ist, dass sich Entwickler auf das konzentrieren, was sie gut können, und die restlichen Aufgaben an KI-Agenten delegieren, um so Effizienz und Produktivität zu steigern.

Codex wird Echtzeit-Zusammenarbeit und asynchrone Aufgabenübertragung unterstützen, und diese beiden Arbeitsmodi werden schrittweise verschmelzen.

Tools wie Codex CLI sind bereits zum Standard für Entwickler geworden, um die Codierung zu beschleunigen, während der von Codex in ChatGPT angeführte asynchrone, Multi-Agenten-Kollaborations-Workflow voraussichtlich ein neues Paradigma für Ingenieure wird, um effizient qualitativ hochwertigen Code zu produzieren.

Zukünftig werden Entwickler in der Lage sein, in IDEs und täglichen Werkzeugen mit KI zusammenzuarbeiten – Fragen stellen, Vorschläge erhalten, komplexe Aufgaben delegieren, alles integriert in einen einheitlichen Workflow.

OpenAI plant, Interaktivität und Flexibilität weiter zu verbessern:

Unterstützung bei der Bereitstellung von Anleitung während der Aufgaben

Zusammenarbeit mit KI zur Umsetzung von Strategien

Empfang proaktiver Fortschrittsaktualisierungen

Tiefe Integration mit gängigen Werkzeugen (wie GitHub, CLI, Issue-Trackern, CI-Systemen) für eine bequeme Aufgabenvergabe.

Software-Engineering gehört zu den ersten Branchen, deren Effizienz durch KI stark gesteigert wird, was das enorme Potenzial von Einzelpersonen und kleinen Teams voll entfalten wird.

Gleichzeitig untersucht OpenAI gemeinsam mit Partnern, wie sich die weit verbreitete Anwendung von Agenten auf Entwicklungsprozesse, Kompetenzentwicklung und die globale Talentverteilung auswirken wird.

Referenzen:

https://www.youtube.com/watch?v=hhdpnbfH6NU

https://openai.com/index/introducing-codex/

Die Programmier-Revolution bricht los! OpenAI's leistungsstärkster Agent gerade auf ChatGPT gestartet

Kurz-URL teilen