新智元レポート
編集:編集部 YXH
【新智元導読】OpenAI最強のAIプログラミングエージェントがついに登場!Codexが衝撃的にリリースされ、o3最適化版であるcodex-1によって強化されています。複数のタスクを並列処理し、数日かかるソフトウェアエンジニアリングタスクを30分で完了させます。
今日から、AIプログラミングは正式に新時代を迎えます!
先ほど、Greg Brockmanが率いるOpenAIの6人チームは、オンラインライブ配信を開始し、クラウドベースのAIプログラミングエージェント「Codex」を衝撃的に発表しました。
オルトマンの言葉を借りれば、一人で無数の人気アプリケーションを作成できる時代が到来しました!
Codexは、新しいモデルであるcodex-1によって強化されています。これは、ソフトウェアエンジニアリング向けに特別に調整されたo3のバージョンです。
クラウドサンドボックス環境で複数のタスクを安全に並列処理できるだけでなく、GitHubとのシームレスな統合により、コードベースを直接呼び出すことも可能です。
これは単なるツールではなく、「10倍のエンジニア」であり、同時に次のことを行うことができます。
機能モジュールの迅速な構築
コードベースの問題への深い回答
コードの脆弱性の正確な修復
PRの提出
テスト検証の自動実行
これらのタスクは、これまでは開発者に数時間から数日かかることがありましたが、現在Codexは最大30分で効率的に完了できます。
ChatGPTサイドバーをクリックし、プロンプトを入力後、直接「コード」をクリックしてタスクを割り当てるか、「質問」をクリックしてコードベース関連の問題を問い合わせます。
強化学習を通じて、Codexは現実世界のコーディングタスクと多様な環境で訓練されており、生成されるコードは人間の好みに適合するだけでなく、標準的なワークフローにシームレスに統合されます。
ベンチマークテストでは、codex-1はSWE-benchで72.1%の高得点を獲得し、Claude 3.7およびo3-highを凌駕しました。
今日から、Codexは世界のChatGPT Pro、Enterprise、およびTeamユーザーに正式に公開され、PlusおよびEduユーザーもすぐに利用できるようになります。
AIプログラミングエージェントCodexの登場は、ソフトウェア開発の根幹を再構築し、プログラミング革命の火種を完全に点火すると言えるでしょう。
Codexのマルチタスク並列処理、AIプログラミングの超高速化
2021年早くも、OpenAIはCodeXモデルを初めて発表し、「雰囲気プログラミング」(vibe coding)の時代を切り開きました。
このプログラミング方法は、開発者がAIと協力して作業することを可能にし、コード生成をより直感的かつ効率的にしました。
数週間前、OpenAIはローカルターミナルで実行できるエージェント、CodeX CLIもリリースしました。
しかし、これは始まりにすぎません!
OpenAIは本日、全く新しいCodexエージェントをリリースし、ソフトウェアエンジニアリングを再び新しい高みに押し上げました。
次に、Codexのコーディングにおける驚くべきパフォーマンスをご覧ください。
GitHubアカウントを接続した後、OpenAIの研究員Thibault Sottiauxはオープンソースリポジトリであるpreparedness repoを選択しました。
その後、彼は3つのタスクを受け取りました。
1つ目は質問:コードエージェントCodexにコードベースを説明させ、全体構造を説明する。
2つ目はコードタスク:コードベースのどこかのバグを見つけて修正するように要求する。
3つ目のタスクは質問:コードベースを走査し、自身が実行できるタスクの提案を積極的に行う。
続くデモでは、ThibaultはCodexにスペルと文法の修正、インテリジェントなタスク委任、複数リポジトリへの適応など、複数のタスクを指示しました。
修正においては、彼は意図的に指示にスペルミスを含めましたが、Codexは意図を理解しただけでなく、コードベース内のスペルや文法問題を積極的に探し出して修正し、驚くほど詳細でした。
Thibaultがコードベースを「保守しやすく、バグがない」という目標を提示したとき、Codexはコードベースを走査した後、可変のデフォルト値、不一致なタイムアウト設定などの問題を自律的に発見し、自動的に修正タスクを生成しました。
この「自己委任」能力は、エージェントの最高のパフォーマンスと言えるでしょう。
特筆すべきは、CodexエージェントはOpenAIの計算インフラストラクチャ上で実行され、強化学習と同じ検証済みのシステムを共有していることです。
各タスクは独立した仮想サンドボックス内で実行され、専用のファイルシステム、CPU、メモリ、およびネットワークポリシーを備えており、効率と安全性を確保しています。
preparednessリポジトリに加え、CodexはCodeX CLIライブラリもシームレスに処理し、異なるプロジェクト間での汎化能力を示しました。
オープンソースプロジェクトであっても、内部コードベースであっても、Codexは自在に対応します。
Codexはユーザーから報告されたバグを受け付けました。特殊文字を含むファイル名が原因でdiffコマンドがエラーになった問題です。
解決過程では、問題を再現できるだけでなく、テストスクリプトを記述し、リンターチェックを実行し、PRを生成することも可能で、全過程は数分しかかかりませんでした。
Thibaultは、「これは本来、私に30分、あるいは数時間かかっていたかもしれない」と率直に語りました。
さらに、OpenAIの研究員Katy Shiはデモで、CodexのPRには詳細な要約が含まれており、変更内容と参照コードが明確に説明されており、テスト結果も一目瞭然であると強調しました。
一連のデモを経て、GregはCodexが自分にAGIを深く感じさせた、と述べました!
人間の好みに合わせる
4つのオープンソースライブラリでの実戦
OpenAIがcodex-1を訓練した主な目的の一つは、その出力が人間のコーディングの好みと標準に高度に適合することを保証することです。
OpenAI o3と比較して、codex-1はより簡潔なコード修正パッチを安定して生成でき、人間のレビューに直接提供され、標準的なワークフローに統合できます。
Codexが生成するコードの簡潔さと効率性を実証するために、OpenAIはCodexとo3を4つのオープンソースライブラリの実戦例で比較しました。
astropy
astropyは天文学のためのPythonオープンソースライブラリです。
最初の問題はastropy/astropyのリポジトリで、Modelingモジュール内のseparability_matrixがネストされたCompoundModelsの分離性を正しく計算できないことでした。
修正前後のコードバージョンの比較からわかるように、Codexを使用した修正は非常に簡潔なコードを生成しました。
対照的に、o3が修正したコードはやや冗長で、「不必要な」コメントさえソースコードに加えていました。
matplotlib
Matplotlibは静的、アニメーション、およびインタラクティブな視覚化を作成するための包括的なPythonライブラリです。
今回の問題は、mlab._spectral_helperにおけるウィンドウ補正(windows correction)が不正確であるバグを修正することでした。
同様に、Codexのコード修正プロセスはより簡潔でした。
django
DjangoはPythonベースのWebフレームワークです。この問題は、duration(期間)のみを含む式がSQLiteおよびMySQLで正しく機能しないバグを修正することでした。
Codexの修正プロセスは依然としてエレガントであり、o3と比較して、不足している依存関係の呼び出しを最初に追加しました。
expensify
expensifyはチャットを中心とした財務コラボレーションのためのオープンソースソフトウェアです。
OpenAIが提示した問題は「dd [HOLD for payment 2024-10-14] [$250] LHN - キャッシュをクリアした後、メンバーチャットルーム名がLHNで更新されない」というものでした。
同様に、Codexの問題特定と修正はより正確かつ効果的でした。o3は無効なコード修正さえ行いました。
OpenAIチームはすでに利用している
OpenAIの技術チームはすでにCodexを日々のツールキットの一部として使用を開始しています。
OpenAIのエンジニアは、リファクタリング、名前変更、テスト作成など、集中を妨げる反復的で明確な範囲のタスクを実行するためにCodexを最も頻繁に使用しています。
これは、新しい機能の構築、コンポーネントの接続、バグの修正、ドキュメントの下書きにも同様に適しています。
チームはCodexを中心に新しい習慣を構築しています:オンコール問題の処理、一日の始まりにタスクを計画すること、そして進行状況を維持するためのバックグラウンド作業の実行。
コンテキストスイッチングを減らし、忘れられたやることリストを思い出させることで、Codexはエンジニアがより迅速に提供し、最も重要なことに集中するのを助けます。
正式リリースに先立ち、OpenAIは少数の外部テスターと協力し、異なるコードベース、開発プロセス、およびチーム環境におけるCodexの実際のパフォーマンスを評価しました:
Ciscoは初期のデザインパートナーとして、エンジニアリングチームのアイデアの具体化を加速するCodexの可能性を探求し、実際のユースケースを評価することでOpenAIにフィードバックを提供し、モデルの最適化を支援しました。
TemporalはCodexを活用して、機能開発、問題デバッグ、テストの記述と実行を加速し、大規模なコードベースのリファクタリングにも使用しました。Codexはバックグラウンドで複雑なタスクを処理し、エンジニアが集中力と効率的なイテレーションを維持するのを助けました。
SuperhumanはCodexを使用して、テストカバレッジの向上や統合障害の修正など、小さな反復タスクを自動処理しました。また、プロダクトマネージャーがエンジニアの介入なしに(コードレビューを除く)軽量なコード変更を完了できるようにし、ペアリング効率を向上させました。
KodiakはCodexのサポートの下で、デバッグツール開発、テストカバレッジ、およびコードリファクタリングを加速し、自動運転システムKodiak Driverの研究開発を進めました。Codexは参照ツールとしても機能し、エンジニアが慣れないコードスタックを理解し、関連するコンテキストと履歴変更を提供しました。
現在の使用経験に基づき、OpenAIは次のように推奨しています:複数のエージェントに境界が明確なタスクを同時に割り当て、さまざまなタスクタイプとプロンプト方法を試すことで、モデルの能力をより包括的に引き出すことができます。
モデルシステムメッセージ
以下のシステムメッセージを通じて、開発者はcodex-1のデフォルトの動作を理解し、自身のワークフローに合わせて調整できます。
例えば、システムメッセージはCodexにAGENTS.mdファイルに記載されているすべてのテストを実行するように誘導しますが、時間がない場合は、これらのテストをスキップするようにCodexに要求できます。
# Instructions - The user will provide a task. - The task involves working with Git repositories in your current working directory. - Wait for all terminal commands to be completed (or terminate them) before finishing. # Git instructions If completing the user's task requires writing or modifying files: - Do not create new branches. - Use git to commit your changes. - If pre-commit fails, fix issues and retry. - Check git status to confirm your commit. You must leave your worktree in a clean state. - Only committed code will be evaluated. - Do not modify or amend existing commits. # AGENTS.md spec - Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/` , `~` , and in various places inside of Git repos. - These files are a way for humans to give you (the agent) instructions or tips for working within the container. - Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code. - AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected. - Instructions in AGENTS.md files: - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it. - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file. - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise. - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions. - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions. - AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory. - If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made. - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks. # Citations instructions - If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats: 1) `【F:
Codex CLIアップデート
先月、OpenAIは軽量なオープンソースツールCodeX CLIをリリースしました。これにより、o3やo4-miniなどの強力なモデルをローカルターミナルで直接実行でき、開発者のタスク完了を加速します。
今回、OpenAIはCodex CLI向けに最適化された小規模モデルバージョン、つまりcodex-1のo4-miniバージョンを同時にリリースしました。
低遅延、強力な指示理解力、およびコード編集能力を備えており、現在CodeX CLIのデフォルトモデルとなっており、API経由でも利用可能(名前はcodex-mini-latest)で、継続的にイテレーション更新される予定です。
さらに、Codex CLIのログイン方法も簡素化されました。開発者は現在、ChatGPTアカウントで直接ログインし、API組織を選択するだけで、システムが自動的にAPIキーを生成および設定します。
利用を促進するため、本日より30日間以内、ChatGPTアカウントでCodeX CLIにログインしたユーザーには無料枠が提供されます:PlusユーザーはAPI使用額5ドル、Proユーザーは50ドルを獲得します。
Codexは高価か?
今後数週間で、すべてのユーザーはCodex機能を「たっぷり」と試用できます。
その後、OpenAIはレート制限メカニズムと柔軟な価格設定を導入し、追加使用量のオンデマンド購入をサポートします。
開発者向けには、codex-mini-latestモデルはResponses APIで利用可能で、価格は以下の通りです。
入力トークン100万あたり:$1.50
出力トークン100万あたり:$6.00
そして75%のプロンプトキャッシュ割引を享受できます
Codexは現在まだ研究プレビュー段階にあり、画像入力などのフロントエンド機能はサポートされておらず、タスク実行中のリアルタイム修正能力もまだ備えていません。
また、Codexエージェントへのタスク委任の応答時間は比較的長く、ユーザーはこの非同期コラボレーションの作業方法に適応する必要があるかもしれません。
モデルの能力が継続的に向上するにつれて、Codexはより複雑で持続的な開発タスクを処理できるようになり、「リモート開発パートナー」のような存在に徐々になっていくでしょう。
次のステップは?
OpenAIの目標は、開発者が得意な作業に集中し、残りのタスクはAIエージェントに任せることで、効率と生産性を向上させることです。
Codexはリアルタイムコラボレーションと非同期タスク委任をサポートし、この2つの作業モードは徐々に融合していきます。
CodeX CLIなどのツールは、開発者がコーディングを加速するための標準装備となっており、ChatGPTのCodexが主導する非同期、マルチエージェントコラボレーションワークフローは、エンジニアが高品質なコードを効率的に生産するための新しいパラダイムとなることが期待されています。
将来的には、開発者はIDEや日常ツールでAIと協力して作業できるようになります。質問したり、提案を受けたり、複雑なタスクを委任したりするすべての操作が、統一されたワークフローに統合されます。
OpenAIは、インタラクティブ性と柔軟性をさらに向上させる計画です。
タスク実行中にガイダンスを提供するサポート
AIと協力して戦略を実行する
積極的な進捗更新を受け取る
一般的なツール(GitHub、CLI、課題追跡システム、CIシステムなど)との深い統合により、タスク割り当てを便利に行う
ソフトウェアエンジニアリングは、AIによって大幅に効率化される最初の産業の一つとなっており、個人および小規模チームの計り知れない潜在能力を完全に解放するでしょう。
同時に、OpenAIはパートナーと協力して、エージェントの広範なアプリケーションが開発プロセス、スキル開発、およびグローバルな人材分布にどのように影響するかについても研究しています。
参考資料:
https://www.youtube.com/watch?v=hhdpnbfH6NU
https://openai.com/index/introducing-codex/