ファインチューニングを放棄：スタンフォードがAgentic Context Engineering（ACE）を共同発表、モデル性能を10%向上させ、トークンコストを83%削減

スタンフォード大学、SambaNova Systems、およびUCバークレーが協力し、「Agentic Context Engineering (ACE)」と呼ばれる新しいフレームワークを発表しました。ACEは、モデルが人間のように、振り返り（復盤）と反復を通じて自己進化することを可能にします。重要なのは、このプロセスがモデルの重みを変更せずに行われ、コストが劇的に削減される点です。

この性能向上をご覧ください：

これは非常に革新的な出来事です。

モデル性能を強化する従来のファインチューニング手法

大規模言語モデル（LLM）がトレーニングされた後、特定の領域でより良いパフォーマンスを発揮させるための従来の手法は、ファインチューニング（微調整）でした。

これは、特定のドメインデータを使用して、モデルのパラメータの一部を再訓練することです。この方法は効果的ですが、欠点も利点と同じくらい際立っています。

一度のファインチューニングには、膨大な計算リソースと長い反復サイクルが必要です。市場の変化に迅速に対応する必要がある企業にとって、このペースは遅すぎます。

それはブラックボックスのようなものです。パラメータが調整された後、なぜモデルのパフォーマンスが向上したのか、あるいはなぜ特定の場所で失敗したのかを明確に説明するのは困難です。金融や医療などのハイリスク分野では、この説明不可能性は致命的です。

ファインチューニングされたモデルは、「破滅的忘却」（catastrophic forgetting）を起こしやすく、新しい知識を学ぶと、元のスキルを忘れてしまうことがあります。

そのため、業界関係者は常に新しい道を探していました。

そうして「コンテキスト適応」（context adaptation）技術が登場しました。モデルの数千億ものパラメータに触れるのではなく、モデルへの入力（つまり「コンテキスト」）に直接工夫を凝らす方法です。

人間とのコミュニケーションにおいて、相手にタスクをより良く理解してもらうためには、タスクの要件、背景資料、注意事項を明確に記述して伝え、複数回のやり取りを行うのが最善です。

このコンテキストも同様に、システムプロンプトであったり、成功事例（証拠）であったり、モデルが以前犯した間違いから学んだ経験（記憶体）であったりします。

その利点は明らかです。内容が理解可能で、変更やデバッグができ、異なるモデル間で共有も可能です。さらに、現在のLLMはコンテキストウィンドウが急速に拡大し、数十万、さらには数百万語のトークンを詰め込めるようになりました。これにKVキャッシュ再利用（KV cache reuse）のような、長文推論を高速化する技術が組み合わさることで、コンテキスト適応は新時代の寵児となっています。

コンテキスト手法の二つの欠陥

もちろん、成功への道は常に平坦ではありません。

これまでのコンテキスト適応手法は、方向性は正しかったものの、概ね二つの行き詰まりに陥っていました。

一つ目は「簡潔性バイアス」（brevity bias）です。多くの自動コンテキスト最適化手法は、指示をできるだけ短く、汎用的にしようと考えます。たとえば、GEPAというフレームワークは、簡潔さが利点であると見なしていました。

これは単純なタスクでは問題ありませんが、大量のドメイン知識や詳細な操作が必要な複雑なシナリオ、例えば、エージェントがさまざまなツールを呼び出して多段階のタスクを完了させる場合、この「少ないことは豊かである」という哲学は通用しません。

二つ目は「コンテキスト崩壊」（context collapse）です。これは、LLM自身にコンテキスト全体を反復・書き換えさせるときに発生します。経験を要約して改善させたいのに、要約するたびに情報が少しずつ失われ、まるでコピー機のように、コピーを繰り返すほどにぼやけていきます。数回の反復を経て、モデルのパフォーマンスは急激に低下します。

高い信頼性、高い詳細性が要求されるシナリオでは、知識の蓄積と充実が必要であり、際限のない圧縮ではありません。

ACEフレームワーク：コンテキストを「生きたもの」に

この二つの大きな落とし穴に直面し、スタンフォード、SambaNova、バークレーの共同チームが提案したACEフレームワークは、全く新しい解決策を提供します。

ACEの核となる考え方は、コンテキストを静的な「説明書」から、動的に進化する「プレイブック」（戦術マニュアル）へと変えることです。このプレイブックは毎回書き直されるのではなく、増分更新（インクリメンタルアップデート）方式を採用し、新たな経験と教訓を絶えず補足していきます。

このプロセスは、3つの役割が協調して機能するパイプラインとして巧みに設計されており、しかもこれら3つの役割はすべて同じ基盤LLM（実験では非推論強化版のDeepSeek-V3.1を使用）によって演じられます。これにより、性能の向上はモデル自体の能力差からではなく、完全にコンテキストの最適化に由来することが保証されます。

3つの役割は以下の通りです。

ジェネレーター（Generator）：その役割は実行です。新米エージェントのように、ツールを呼び出したり、推論を行ったりといった具体的なタスクを実行します。成功した操作だけでなく、失敗の記録を含む完全な操作ログを生成します。
リフレクター（Reflector）：これは事後分析者です。ジェネレーターが残した操作ログを分析し、具体的で実行可能な教訓を抽出します。例えば、「Aタイプのファイルを処理するとき、ツールBは常にエラーを出すため、ツールCを使うべきだ」とか、「Xという状況に遭遇した際は、まず問い合わせるよりもYステップを直接実行する方が効率的だ」といった教訓です。これを構造化されたテキストに変換します。
キュレーター（Curator）：これは戦術マニュアルの総編集者です。リフレクターが抽出した経験を受け取り、それを標準形式の「増分項目」（delta items）に変換し、決定論的な方法で既存の戦術マニュアルに統合します。この統合プロセスには、重複排除、剪定、整理が含まれ、マニュアルの内容がますます豊かでターゲットを絞ったものになりつつ、明確さと管理性を保つことを保証します。

この「生成—反省—キュレーション」のサイクルは、トップクラスのスポーツチームに似ています。

ジェネレーターは試合に出る選手であり、すべての成功とミスがビデオに記録されます。リフレクターは試合後にビデオを見るコーチ陣であり、コマ送りで分析し、問題点を見つけ出し、戦術的な要点をまとめます。キュレーターは戦術ボードを更新するアシスタントコーチであり、コーチ陣の新しい戦術を明確かつ正確にボードに描き込み、次の試合で使用できるようにします。

この増分更新の「成長と洗練」（Grow-and-Refine）原則を採用することで、ACEはコンテキスト崩壊を完全に回避します。知識は蓄積され最適化されるだけで、忘れられたり単純化されたりすることはありません。さらに、このプロセス全体は教師なし（unsupervised）であり、人手によるアノテーションデータは必要なく、タスク実行そのもののフィードバック（成功または失敗のシグナルなど）のみで自己駆動することができます。

ACEのテスト結果

ACEフレームワークは、スマートエージェントとドメイン固有ベンチマークの2種類のタスクで厳密にテストされました。

AppWorldスマートエージェントタスクは、シミュレートされたモバイルアプリケーションの世界で日常業務を完了するAIエージェントの能力を評価するために特別に設計されたベンチマークです。タスクは非常に複雑で、モデルが指示を理解し、APIを呼び出し、環境と多段階で対話する必要があります。

結果はどうだったでしょうか？

選択されたベースラインモデルと比較して、平均性能は10.6%向上しました。「GTラベル」（データやタスク結果の真実の注釈であり、モデル性能評価の参照基準）が入手できない場合でも、この手法は良好な性能を達成できました。

さらに驚くべきことに、2025年9月20日のAppWorld公開リーダーボードにおいて、ReAct+ACEのスコアは59.4%であり、当時トップに立っていた、より強力なGPT-4.1モデルに基づく商用エージェントIBM CUGA（60.3%）とほぼ同等でした。難易度の高い「チャレンジ」サブセットでは、ACEはCUGAを上回ることさえありました。ACEがより小さなオープンソースモデルを使用していることを考えると、これは注目に値します。

金融分野の専門タスクには、金融固有表現認識（FiNER）とXBRL数式数値推論が含まれます。これらのタスクは、正確なドメイン知識と専門的な戦略を必要とします。

結果はここでも際立っていました。ACEはこれらのタスクでベースラインと比較して平均8.6%の性能向上を達成しました。人手による正解のアノテーションがない場合でも、プログラム実行のフィードバックのみに頼って、ACEは効果的に自己最適化を行うことができました。

コスト面では、ACEは従来の手法を大きく引き離しました。

同じくコンテキストを自動最適化するGEPA手法と比較して、オフライン適応タスクでは、ACEは遅延を82.3%削減し、API呼び出し回数を75.1%削減しました。

Dynamic Cheatsheetと比較して、オンライン適応タスクでは、遅延を91.5%削減し、トークンコストを83.6%削減しました。

なぜこれほど節約できるのでしょうか？それは、LLMが成長し続けるコンテキスト全体を繰り返し書き直すことを回避しているからです。キュレーターによる統合操作は決定論的であり、LLMベースではないため、オーバーヘッドが極めて小さいのです。

ACEフレームワークが発表されるやいなや、学術界と産業界で大きな反響を呼びました。

ACEは、コンテキストエンジニアリングを通じてLLMの自己改善を実現し、低コストで高解釈性なAIシステム構築のための新しい道を切り開きました。

商業的価値の面では、ACEのロングコンテキストと増分更新メカニズムは、企業向けAIアプリケーションの迅速な反復とデプロイに不可欠な技術サポートを提供します。

モデルの性能がボトルネックに近づいたとき、Agentic Context Engineeringは、より柔軟な適応性、より高い実行効率、そしてより強力な解釈性をもって、エージェント能力の向上に全く新しい空間を開き、性能の上限を大幅に引き上げました。

参考文献：

https://arxiv.org/abs/2510.04618

https://www.marktechpost.com/2025/10/10/agentic-context-engineering-ace-self-improving-llms-via-evolving-contexts-not-fine-tuning

https://X.com/omarsar0/status/1976746822204113072

https://X.com/rohanpaul_ai/status/1975732878739665393

https://X.com/DataScienceDojo/status/1976407325180117284

ファインチューニングを放棄：スタンフォードがAgentic Context Engineering（ACE）を共同発表、モデル性能を10%向上させ、トークンコストを83%削減

モデル性能を強化する従来のファインチューニング手法

コンテキスト手法の二つの欠陥

ACEフレームワーク：コンテキストを「生きたもの」に

ACEのテスト結果

短いURLをシェア