捨棄微調！史丹佛聯合發表「智能體情境工程」（ACE），模型效能提升 10%、Token 成本降低 83%

史丹佛大學（Stanford）、桑巴諾瓦系統公司（SambaNova Systems）和柏克萊大學（Berkeley）聯手推出了一套新框架，名為「智能體情境工程」（Agentic Context Engineering, ACE）。它讓模型能像人類一樣，透過回顧與迭代來自我演進。關鍵在於，這個過程無需動到模型的權重，且成本大幅下降。

請看這效能提升的表現：

這項成果可謂相當顛覆。

增強模型效能的傳統路徑：微調

大型模型訓練完成後，若要讓它在特定領域表現得更出色，傳統的做法是「微調」（Fine-tuning）。

也就是利用一批特定領域的資料，重新訓練模型的一部分參數。這個方法有效，但缺點和優點一樣明顯。

每一次微調都會消耗大量的運算資源，且迭代週期很長。對於需要快速應對市場變化的企業而言，這個步調太慢了。

微調就像個黑箱作業。參數調整完畢後，模型表現變好的原因，或者為何在某些地方失誤，你很難說清楚。這種缺乏可解釋性在金融、醫療等高風險領域是致命的。

經過微調的模型很容易產生「災難性遺忘」（catastrophic forgetting），學了新知識，卻忘了老本行。

因此，業界一直在尋找新的出路。

「情境適應」（Context Adaptation）技術因此誕生：別再去動模型那幾千億個參數了，我們直接從給模型的輸入（也就是「情境/上下文」）上做文章。

跟人溝通時，若想讓對方更好地理解任務，最好將任務要求、背景資料、注意事項清清楚楚地交代給他，並進行多輪溝通。

這個情境類似於此，它可以是系統提示（system prompt）、一些成功的案例（證據），也可以是模型先前犯錯後總結的經驗（記憶體）。

它的好處顯而易見：內容可讀、可修改、可除錯，還能在不同模型之間共享。加上現在大型語言模型（LLM）的情境視窗（context window）越來越長，像打了雞血一樣能塞進幾十萬甚至上百萬個詞彙，再配合像是 KV 快取重複使用（KV cache reuse）這種能加快長文本推論的技術，情境適應儼然成了新時代的寵兒。

情境方法的兩個缺陷

當然，通往成功的路上總是崎嶇不平。

過去的情境適應方法，雖然方向正確，但普遍陷入了兩個瓶頸。

第一個稱為「簡潔性偏誤」（brevity bias）。許多自動優化情境的方法，總是想著把指令寫得越短越好、越通用越好。例如，一個名為 GEPA 的框架就認為簡潔是優點。

這對於一些簡單任務沒問題，但在需要大量領域知識和細節操作的複雜情境，例如讓一個智能代理（Agent）去呼叫各種工具完成一個多步驟任務時，這種「少即是多」的哲學就行不通了。

第二個稱為「情境崩塌」（context collapse）。這個問題發生在讓 LLM 自己去迭代和重寫整個情境內容時。你希望它總結經驗，變得更好，結果它每總結一次，資訊就丟失一點，就像影印機一樣，影印越多次越模糊。經過幾輪迭代下來，模型的表現會斷崖式下跌。

在高可靠性、高細節要求的場景中，我們需要的是知識的累積與豐富，而不是無止盡的壓縮。

ACE 框架：讓情境「活」起來

面對這兩個大難題，史丹佛、SambaNova 和柏克萊的聯合團隊提出的 ACE 框架，給出了一個全新的解決方案。

ACE 的核心思想，是將情境從一張靜態的「說明書」，轉變為一本動態演進的「戰術手冊」（playbook）。這本手冊不是每次都重新編寫，而是採用增量更新的方式，不斷將新的經驗教訓補充進去。

這個過程被巧妙地設計成了一個由三個角色協同合作的流程，而且這三個角色都由同一個基礎 LLM（實驗中使用的是非推論增強版的 DeepSeek-V3.1）扮演，這樣就能確保效能的提升完全來自於情境的優化，而非模型本身能力的差異。

這三個角色分別是：

生成器（Generator）：它的任務是執行工作。就像一個初出茅廬的代理，去執行具體的任務，例如呼叫工具、進行推論。它會生成一串完整的操作紀錄，裡面包含成功的操作，也有失敗的嘗試記錄。
反思器（Reflector）：這是個事後諸葛亮。它會分析生成器留下的操作紀錄，從中提煉出具體、可操作的經驗教訓。例如，「在處理 A 類檔案時，使用 B 工具總是會出錯，應該改用 C 工具」，或者「當遇到 X 情況時，直接執行 Y 步驟會比先詢問更有效率」。它將這些零散的體悟，轉換成結構化的文字。
策展人（Curator）：這是戰術手冊的總編輯。它接收反思器提煉出的經驗，將其轉換成標準格式的「增量項目」（delta items），然後用一種確定性的方式合併到現有的戰術手冊裡。這個合併過程包括了去重複、修剪和整理，確保手冊內容越來越豐富、有針對性，同時又保持清晰和可管理。

這個「生成—反思—策展」的循環，有點像一個頂尖的運動隊伍。

生成器是場上比賽的球員，負責打比賽，所有的成功和失誤都會被錄影記錄下來。反思器是賽後看錄影帶的教練組，逐格分析，找出問題所在，總結出戰術要點。策展人是負責更新戰術板的助理教練，把教練組的新戰術清晰、準確地畫到板上，供下一場比賽使用。

透過這種增量更新的「成長與精煉」（Grow-and-Refine）原則，ACE 徹底避免了情境崩塌。知識只會被累積和優化，不會被遺忘和簡化。而且整個過程是無監督的，它不需要人工標註的資料，只需要任務本身的執行回饋（例如成功或失敗的訊號）就能自我驅動。

ACE 的測試表現

ACE 框架在兩類任務上進行了嚴格的測試：智能代理與領域專用基準。

AppWorld 智能代理任務，是一個專門用來評測 AI 代理在模擬的手機應用程式世界裡完成日常任務能力的基準。任務非常複雜，需要模型能理解指令、呼叫 API，並與環境進行多輪互動。

結果如何？

相較於所選的基準模型，平均效能提升了 10.6%；即使在無法獲取「GT 標籤」（Ground Truth，對資料或任務結果的真實標註，是評估模型效能的參考標準）的情況下，該方案仍能實現良好效能。

更令人驚訝的是，在 2025 年 9 月 20 日的 AppWorld 公開排行榜上，ReAct+ACE 的成績是 59.4%，與當時排名第一、基於更強大 GPT-4.1 模型、商業級代理 IBM CUGA（60.3%）幾乎持平。在難度更高的「挑戰」子集上，ACE 甚至還超越了 CUGA。要知道，ACE 使用的是一個較小的開源模型。

金融領域的專業任務，包括金融命名實體識別（FiNER）和 XBRL 公式數值推論。這類任務需要精準的領域知識和專門的策略。