初のコードワールドモデルがAI界を席巻、エージェントに「真の推論」を可能に、Metaがオープンソース化

マシンインテリジェンスニュース

編集者:澤南、冷猫

大規模モデルのアーキテクチャは、完全に進化するのでしょうか?

昨晩から、AI界ではCode World Model(CWM)という驚くべき新種の研究が進められています。

画像

Metaの再編されたAI部門が発表した初の重要な研究は、コードを書くためのワールドモデルです。

これは「従来型」の大規模言語モデル(LLM)のアプローチとは異なり、その理論は次の通りです。

人間が計画を立てるとき、私たちは頭の中で異なる行動がもたらすであろう結果を想像します。コードについて推論するとき、私たちは心の中でその一部の実行プロセスをシミュレートします。現在の世代の大規模言語モデルは、この点で性能が不十分であり、真の推論やシミュレーションを行うことが困難な場合が多いです。では、明示的に訓練されたコードワールドモデル(Code World Model)は、新たな研究方向を切り開くことができるでしょうか?

画像

Metaが発表したばかりのこのCWMは、320億パラメータを持つオープンウェイトLLMであり、ワールドモデルに基づくコード生成研究を推進することを目的としています。

CWMは、密なデコーダーのみのアーキテクチャを持つLLMで、最大131kトークンのコンテキスト長をサポートしています。そのワールドモデリング能力とは別に、CWMは汎用プログラミングおよび数学タスクで強力な性能を発揮します。

  • SWE-bench Verified(テスト時拡張を含む):pass@1 65.8%

  • LiveCodeBench:68.6%

  • Math-500:96.6%

  • AIME 2024:76.0%

画像

CWMの絶対的な性能はまだそれほど高くありませんが、30Bレベルのモデルとの横比較ではかなり優れた性能を示しています。

画像

SWE-bench Verified pass@1 スコア

コード理解能力を向上させるため、静的コード訓練からの学習に限定されず、Meta FAIR CodeGenチームはPythonインタプリタとエージェント型Docker環境で大量の観測-行動軌跡を使用して中間訓練(mid-train)を行い、検証可能なコーディング、数学、および多段階のソフトウェアエンジニアリング環境で大規模な多タスク推論強化学習(RL)を実施しました。

さらなるコードワールドモデリング研究を支援するため、Metaは中間訓練(mid-training)、SFT、およびRL段階におけるモデルのチェックポイントを公開しました。

画像

CWMを活用することで、Metaはコード生成における推論と計画能力の向上におけるワールドモデリングの可能性を探るための強力なテストプラットフォームを提案しています。

この研究は、ワールドモデルがエージェント型コーディングにどのように有益であるかを示し、Pythonコードの実行を段階的にシミュレートできるようにし、このシミュレーションから推論がいかに恩恵を受けるかについての初期結果を示しています。

この研究において、Metaは伝統的な開発プロセスからインスピレーションを得たようです。優れたプログラマーは、コードを書き始める前に頭の中で推論を行いますが、現在のLLMに基づくコード生成ツールは、大量のデータに基づいて関連コードの「模倣」を生成しています。これは正しいように見えますが、生成されたコードを真に理解することとの間には常にギャップが存在します。

明示的に訓練されたコードワールドモデルは、自身の行動の結果を予測し、それによって効果的な意思決定を行うための判断を下せるはずです。

興味深い例として、大規模モデルは、「strawberry」の中に「r」がいくつあるか数えられないなど、初歩的な間違いを犯すことがあります。

画像

CWMを使用することで、「strawberry」内の文字「r」を統計するコードの実行プロセスを追跡できます。これはニューラル版のpdbに例えることができ、任意に初期フレーム状態を設定し、トークン空間でこのツールを呼び出してクエリを実行することで推論プロセスを進めることができます。

画像

CWMのPythonトレース形式。ソースコードのコンテキストとトレース開始点マーカーが与えられた場合、CWMは一連の呼び出しスタックフレームを予測し、プログラムの状態と対応する実行アクションを表します。

CWMモデルは、大量のコーディングデータとカスタマイズされたPython + Bashワールドモデリングデータに基づいて訓練され、Python関数の実行やBash環境でのエージェントの相互作用をシミュレートできるようにしています。

画像

Metaが実施したさらなる実験では、CWMはテスト時拡張(tts)の有無にかかわらず、それぞれ65.8%と53.9%の同クラス最高性能を達成しました。GPT-ossのスコアは、500問中477問のサブセットに基づいて計算されていることに注意が必要です。

画像

Aider PolyglotにおけるCWMとベースラインモデルの結果。公式リーダーボードより。

画像

Terminal-BenchにおけるCWMと各ベースラインモデルの結果。公式リーダーボードより。

画像

BigOBenchの結果

時間的および空間的複雑性の予測と生成の2種類のタスクにおいて、CWMをQwen3-32B(推論能力付き)、Qwen3-coder-30B、およびGemma-3-27Bと比較しました。時間的複雑性の予測と生成のすべての指標において、CWMはベースラインモデルを上回りました。空間的複雑性の生成においては、CWMはコードのみのモードでのpass@1で最高成績を収め、その他の指標では2位となりました。

Metaチームのビジョンは、コードワールドモデルが言語レベルの推論と実行可能なセマンティクスとの間のギャップを埋めることです。

アブレーション実験により、ワールドモデリングデータ、Python実行軌跡、および実行可能なDocker環境が下流タスクのパフォーマンスを直接向上させることが示されています。より広範に言えば、CWMは強力な実験プラットフォームを提供し、ゼロショット計画、身体化された連鎖的思考、およびスパースで検証可能な報酬による強化学習といった将来の研究方向を支援します。

ワールドモデルは強化学習を改善するはずです。なぜなら、環境のダイナミクスにすでに精通しているエージェントは、どの行動が報酬につながるかを学習することにより集中できるからです。それにもかかわらず、事前訓練段階でタスクを横断してワールドモデルの利点を継続的に活用するには、さらなる研究が必要です。最終的に、自身の行動の結果を推論できるモデルは、環境との相互作用においてより効率的になり、処理できるタスクの複雑さを拡張できると期待されます。

詳細については、元の論文を参照してください。

メインタグ:人工知能

サブタグ:大規模言語モデルオープンソースワールドモデルコード生成


前の記事:AnthropicがClaudeの最近の3つの障害について再度説明し、Claude Codeが完全に復旧したと発表

短いURLをシェア