捨棄微調!史丹佛聯合發表「智能體情境工程」(ACE),模型效能提升 10%、Token 成本降低 83%

史丹佛大學(Stanford)、桑巴諾瓦系統公司(SambaNova Systems)和柏克萊大學(Berkeley)聯手推出了一套新框架,名為「智能體情境工程」(Agentic Context Engineering, ACE)。它讓模型能像人類一樣,透過回顧與迭代來自我演進。關鍵在於,這個過程無需動到模型的權重,且成本大幅下降。

圖片

請看這效能提升的表現:

圖片

這項成果可謂相當顛覆。

增強模型效能的傳統路徑:微調

大型模型訓練完成後,若要讓它在特定領域表現得更出色,傳統的做法是「微調」(Fine-tuning)。

也就是利用一批特定領域的資料,重新訓練模型的一部分參數。這個方法有效,但缺點和優點一樣明顯。

每一次微調都會消耗大量的運算資源,且迭代週期很長。對於需要快速應對市場變化的企業而言,這個步調太慢了。

微調就像個黑箱作業。參數調整完畢後,模型表現變好的原因,或者為何在某些地方失誤,你很難說清楚。這種缺乏可解釋性在金融、醫療等高風險領域是致命的。

經過微調的模型很容易產生「災難性遺忘」(catastrophic forgetting),學了新知識,卻忘了老本行。

因此,業界一直在尋找新的出路。

「情境適應」(Context Adaptation)技術因此誕生:別再去動模型那幾千億個參數了,我們直接從給模型的輸入(也就是「情境/上下文」)上做文章。

跟人溝通時,若想讓對方更好地理解任務,最好將任務要求、背景資料、注意事項清清楚楚地交代給他,並進行多輪溝通。

這個情境類似於此,它可以是系統提示(system prompt)、一些成功的案例(證據),也可以是模型先前犯錯後總結的經驗(記憶體)。

它的好處顯而易見:內容可讀、可修改、可除錯,還能在不同模型之間共享。加上現在大型語言模型(LLM)的情境視窗(context window)越來越長,像打了雞血一樣能塞進幾十萬甚至上百萬個詞彙,再配合像是 KV 快取重複使用(KV cache reuse)這種能加快長文本推論的技術,情境適應儼然成了新時代的寵兒。

情境方法的兩個缺陷

當然,通往成功的路上總是崎嶇不平。

過去的情境適應方法,雖然方向正確,但普遍陷入了兩個瓶頸。

第一個稱為「簡潔性偏誤」(brevity bias)。許多自動優化情境的方法,總是想著把指令寫得越短越好、越通用越好。例如,一個名為 GEPA 的框架就認為簡潔是優點。

這對於一些簡單任務沒問題,但在需要大量領域知識和細節操作的複雜情境,例如讓一個智能代理(Agent)去呼叫各種工具完成一個多步驟任務時,這種「少即是多」的哲學就行不通了。

第二個稱為「情境崩塌」(context collapse)。這個問題發生在讓 LLM 自己去迭代和重寫整個情境內容時。你希望它總結經驗,變得更好,結果它每總結一次,資訊就丟失一點,就像影印機一樣,影印越多次越模糊。經過幾輪迭代下來,模型的表現會斷崖式下跌。

在高可靠性、高細節要求的場景中,我們需要的是知識的累積與豐富,而不是無止盡的壓縮。

ACE 框架:讓情境「活」起來

面對這兩個大難題,史丹佛、SambaNova 和柏克萊的聯合團隊提出的 ACE 框架,給出了一個全新的解決方案。

圖片

ACE 的核心思想,是將情境從一張靜態的「說明書」,轉變為一本動態演進的「戰術手冊」(playbook)。這本手冊不是每次都重新編寫,而是採用增量更新的方式,不斷將新的經驗教訓補充進去。

這個過程被巧妙地設計成了一個由三個角色協同合作的流程,而且這三個角色都由同一個基礎 LLM(實驗中使用的是非推論增強版的 DeepSeek-V3.1)扮演,這樣就能確保效能的提升完全來自於情境的優化,而非模型本身能力的差異。

這三個角色分別是:

  • 生成器(Generator):它的任務是執行工作。就像一個初出茅廬的代理,去執行具體的任務,例如呼叫工具、進行推論。它會生成一串完整的操作紀錄,裡面包含成功的操作,也有失敗的嘗試記錄。

  • 反思器(Reflector):這是個事後諸葛亮。它會分析生成器留下的操作紀錄,從中提煉出具體、可操作的經驗教訓。例如,「在處理 A 類檔案時,使用 B 工具總是會出錯,應該改用 C 工具」,或者「當遇到 X 情況時,直接執行 Y 步驟會比先詢問更有效率」。它將這些零散的體悟,轉換成結構化的文字。

  • 策展人(Curator):這是戰術手冊的總編輯。它接收反思器提煉出的經驗,將其轉換成標準格式的「增量項目」(delta items),然後用一種確定性的方式合併到現有的戰術手冊裡。這個合併過程包括了去重複、修剪和整理,確保手冊內容越來越豐富、有針對性,同時又保持清晰和可管理。

這個「生成—反思—策展」的循環,有點像一個頂尖的運動隊伍。

生成器是場上比賽的球員,負責打比賽,所有的成功和失誤都會被錄影記錄下來。反思器是賽後看錄影帶的教練組,逐格分析,找出問題所在,總結出戰術要點。策展人是負責更新戰術板的助理教練,把教練組的新戰術清晰、準確地畫到板上,供下一場比賽使用。

透過這種增量更新的「成長與精煉」(Grow-and-Refine)原則,ACE 徹底避免了情境崩塌。知識只會被累積和優化,不會被遺忘和簡化。而且整個過程是無監督的,它不需要人工標註的資料,只需要任務本身的執行回饋(例如成功或失敗的訊號)就能自我驅動。

ACE 的測試表現

ACE 框架在兩類任務上進行了嚴格的測試:智能代理與領域專用基準。

AppWorld 智能代理任務,是一個專門用來評測 AI 代理在模擬的手機應用程式世界裡完成日常任務能力的基準。任務非常複雜,需要模型能理解指令、呼叫 API,並與環境進行多輪互動。

結果如何?

圖片

相較於所選的基準模型,平均效能提升了 10.6%;即使在無法獲取「GT 標籤」(Ground Truth,對資料或任務結果的真實標註,是評估模型效能的參考標準)的情況下,該方案仍能實現良好效能。

更令人驚訝的是,在 2025 年 9 月 20 日的 AppWorld 公開排行榜上,ReAct+ACE 的成績是 59.4%,與當時排名第一、基於更強大 GPT-4.1 模型、商業級代理 IBM CUGA(60.3%)幾乎持平。在難度更高的「挑戰」子集上,ACE 甚至還超越了 CUGA。要知道,ACE 使用的是一個較小的開源模型。

金融領域的專業任務,包括金融命名實體識別(FiNER)和 XBRL 公式數值推論。這類任務需要精準的領域知識和專門的策略。

圖片

結果同樣亮眼。ACE 在這些任務上平均效能比基準提升了 8.6%。就算沒有人工標註的正確答案,只靠程式執行的回饋,ACE 也能有效地進行自我優化。

成本方面,ACE 更是把前輩們遠遠拋在後頭。

圖片

與同樣是自動優化情境的 GEPA 方法相比,在離線適應任務上,ACE 將延遲降低了 82.3%,API 呼叫次數減少了 75.1%。

與 Dynamic Cheatsheet 相比,在線上適應任務上,延遲降低了 91.5%,Token 成本降低了 83.6%。

為何能如此節省?因為它避免了讓 LLM 去反覆重寫整個不斷增長的情境內容,策展人的合併操作是確定性的、非 LLM 的,開銷極小。

ACE 框架一經發布,立刻在學術界和工業界引起了不小的震動。

ACE 透過情境工程實現 LLM 的自我提升,為建構低成本、高可解釋性的 AI 系統開闢了新道路。

在商業價值上,ACE 的長情境和增量更新機制,為企業級 AI 應用的快速迭代和部署提供了關鍵技術支援。

當模型效能逼近瓶頸時,智能體情境工程憑藉更靈活的適配性、更高的運行效率與更強的可解釋性,為智能體能力的提升打開了全新空間,顯著拉高了效能上限。

參考資料:

https://arxiv.org/abs/2510.04618

https://www.marktechpost.com/2025/10/10/agentic-context-engineering-ace-self-improving-llms-via-evolving-contexts-not-fine-tuning

https://X.com/omarsar0/status/1976746822204113072

https://X.com/rohanpaul_ai/status/1975732878739665393

https://X.com/DataScienceDojo/status/1976407325180117284

主標籤:AI技術

次標籤:情境工程無監督學習效能優化大型語言模型


上一篇:谷歌揭密:多代理人(Multi-Agent)推論才是擴展的未來。

下一篇:OpenAI共同創辦人罕見曝光公司「痛苦與困境」:我們正走向運算稀缺世界!內部GPU分配如玩俄羅斯方塊,Sora 2實為被弱化的原始模型

分享短網址