大模型 Agent 的賽道,已經發展到新高度。
從軟體工程到科研輔助,從日常生活到商業決策,一個無所不能的 AI 智能體,似乎已成為通往 AGI 的必經之路。各大巨頭紛紛展現實力,但大多仍停留在單體智能的範式裡。
然而,就在今天,Anthropic 發表了一篇萬字長文,首次將其內部孵化已久的多智能體研究系統(Multi-agent Research System)的設計原理、架構細節和工程實踐經驗,悉數公諸於世。
這套系統,正是其王牌模型 Claude 最新「研究」能力的幕後功臣。
核心數據更是驚人:在一個由 Claude Opus 擔任「領導」,多個 Claude Sonnet 擔任「下屬」的多智能體系統中,其在內部研究評估基準上的效能,比最強的單體 Claude Opus 4 高出 90.2%。
這不僅僅是量變,更是質變。
Anthropic 團隊在文中提出了一個振聾發聵的觀點:一旦智能達到某個閾值,多智能體系統將成為擴展能力的關鍵。正如人類社會近十萬年來的指數級發展,靠的不是個體智力的飛躍,而是集體智慧和協作能力的湧現。
他們坦言,這套系統的本質,就是透過架構設計,來「複刻」人類社會的集體智慧。
更令人意外的是,他們發現了一個反常識的結論:在他們的基準測試中,AI 智能體效能方差的 80%,竟然是由一個簡單粗暴的因素解釋的——token 消耗量。
換言之,「大力出奇蹟」在智能體領域或許真的有效。而多智能體系統,正是一種在經濟成本可控的前提下,聰明地「燒掉」足夠多 token 以解決複雜問題的最佳方式。
這篇文章資訊量巨大,從架構設計、提示工程、工具選擇,到評估方法、工程挑戰,幾乎涵蓋了建構一個生產級多智能體系統的所有關鍵環節。
話不多說,我們直接來看 Anthropic 的這篇一手分享,全是硬核乾貨。
為何要使用多智能體?單體大型模型還不夠用嗎?
在深入架構之前,一個根本性問題必須回答:我們為什麼需要多智能體?像 Claude Opus 或 GPT-4o 這樣強大的單體模型,難道還不夠用嗎?
Anthropic 的答案是:對於開放式研究(open-ended research)這類任務,真的不夠用。
研究工作的本質是非線性的、路徑依賴的。人類專家在探索一個複雜課題時,會根據新發現不斷調整方向,隨時可能深入一個意想不到的切入點。你無法用一個固定的、線性的流程去硬編碼這種探索過程。
這恰恰是單體 LLM 的軟肋。它們擅長「一步到位」的問答,卻難以駕馭需要持續自主決策、多輪探索的複雜任務。
而多智能體系統,則完美契合了這種需求。
並行壓縮與關注點分離
研究的精髓是從海量資訊中提煉洞見,本質上是一個壓縮過程。
多智能體系統透過並行化,極大地加速了這一過程。系統可以派出多個「子智能體」(subagent),每個子智能體都有自己獨立的上下文視窗、工具集和探索軌跡,就像一個研究小組裡的不同成員,同時從不同角度切入問題。
它們各自完成資訊蒐集和初步分析,將最重要的 token「壓縮」提煉出來,最後彙報給「領導智能體」。
這種關注點分離的設計,不僅效率更高,還減少了單一途徑依賴的風險,使得研究更加全面和深入。
效能暴漲 90% 的實證
口說無憑,數據為證。
Anthropic 的內部評估顯示,在處理那些需要同時探索多個獨立方向的廣度優先(breadth-first)查詢時,多智能體系統展現出壓倒性優勢。
一個由 Claude Opus 4 擔任領導、Claude Sonnet 4 擔任子智能體的系統,在內部研究評估中的表現,比單獨使用 Claude Opus 4 的單智能體系統高出 90.2%。
一個經典的例子是:「找出標準普爾 500 資訊技術板塊所有公司的董事會成員」。
• 單智能體系統:陷入了緩慢的、連續的搜尋循環,最終未能找到完整答案。
• 多智能體系統:領導智能體迅速將任務分解,為每家公司或每組公司指派一個子智能體去並行查找,最終成功彙總了所有正確答案。
成功的秘密:「大力出奇蹟」
最令人驚訝的發現,來自於 Anthropic 對其 BrowseComp 評估基準的分析。該基準專門測試智能體在網路上定位難尋資訊的能力。
他們發現,模型效能方差的 95% 可以由三個因素解釋。而其中,僅僅是 token 的使用量,就解釋了 80% 的方差! 另外兩個因素是工具呼叫次數和模型選擇。
這一發現,從根本上驗證了他們架構設計的正確性:透過將工作分配給擁有獨立上下文視窗的多個智能體,系統能夠有效地擴展 token 的使用規模,以應對單智能體無法處理的複雜任務。這相當於為解決問題投入了更多的「算力」和「思考深度」。
當然,這也帶來了顯而易見的代價:燒錢。
數據顯示,智能體交互消耗的 token 大約是普通聊天的 4 倍,而多智能體系統更是高達 15 倍。
這意味著,多智能體系統在經濟上只適用於那些任務價值足夠高,能夠覆蓋其效能成本的場景。
同時,並非所有任務都適合多智能體。例如,大多數程式設計任務的並行性遠低於研究任務,且 LLM 智能體目前還不太擅長即時協調和委派編碼工作。
總而言之,多智能體系統最擅長的領域是:高價值、可大規模並行、資訊量超出單個上下文視窗、且需要與眾多複雜工具交互的任務。
架構揭密:指揮官 + 工人,三步驟研究流程
Anthropic 的研究系統採用了一種經典的指揮官-工人(orchestrator-worker)模式。一個領導智能體負責協調整個流程,並將具體任務委派給並行的專業子智能體。
下面這張官方架構圖,清晰地展示了其工作流程:
我們可以將其分解為以下幾個關鍵步驟:
1. 啟動與規劃 當用戶提交一個查詢(例如,「2025 年 AI 智能體領域的頂尖公司有哪些?」),系統會創建一個 LeadResearcher(領導研究員)智能體。它首先進入一個迭代式的研究流程,第一步是思考,並將其制定的研究計畫保存到「記憶」(Memory)中。 這是一個至關重要的細節。因為智能體的上下文視窗(即使是 200K token)也可能被填滿,將核心計畫保存在外部記憶中,可以確保智能體在長期任務中不會「失憶」。
2. 任務分解與授權 LeadResearcher 根據計畫,創建出多個專業的 Subagent(子智能體)。圖示中展示了兩個,但實際數量可以動態調整。每個 Subagent 都會被賦予一個非常具體的研究任務,例如「研究 A 公司的最新動態」或「查找 B 公司的融資歷史」。
3. 並行執行與動態調整 每個 Subagent 獨立工作,利用搜尋等工具進行資訊蒐集。一個關鍵的設計是交錯式思考(interleaved thinking):在每次工具呼叫後,Subagent 都會停下來思考,評估結果的品質,發現資訊缺口,並規劃下一步的查詢。這使得子智能體能夠動態適應任務。
4. 結果合成與迭代 子智能體完成任務後,將發現返回給 LeadResearcher。LeadResearcher 綜合所有子智能體的報告,並判斷是否需要進一步的研究。如果需要,它可以創建更多的子智能體,或調整現有策略,形成一個研究循環。
5. 引用與歸因 一旦 LeadResearcher 認為蒐集到的資訊足夠充分,研究循環就會退出。此時,系統會將所有的研究報告和原始文件傳遞給一個專門的 CitationAgent(引用智能體)。 這個智能體的唯一職責是,精確地將報告中的每一項聲明,都與其原始來源進行匹配和標註。這極大地保證了最終答案的事實準確性和可追溯性。
6. 最終交付 最後,一份帶有完整、精確引用的研究報告將呈現給使用者。
整個架構與傳統的檢索增強生成(RAG)有著本質區別。傳統 RAG 是靜態的,它一次性檢索與查詢最相似的文本塊,然後生成答案。而 Anthropic 的這套系統是動態的、多步驟的,它能主動發現、適應並分析資訊,從而生成品質遠超 RAG 的答案。
Prompt 工程的「八大心法」
如果說架構是骨架,那麼 Prompt 就是注入智能體靈魂的咒語。
Anthropic 團隊坦言,在系統早期,智能體們行為混亂:會為簡單查詢生成 50 個子智能體,會為了一個不存在的來源無休止地搜尋,甚至會互相干擾。
Prompt 工程是他們馴服這些「野馬」的核心槓桿。他們總結了八條黃金法則:
1. 像智能體一樣思考:要寫好 Prompt,你必須先成為智能體。團隊建構了模擬環境,一步步觀察智能體的行為,這讓他們立刻發現了失敗模式:比如,已經找到答案卻仍在搜尋;搜尋查詢過於冗長;選錯工具等。建立對智能體行為的準確心智模型,是進行有效迭代的前提。
2. 教會指揮官如何授權:領導智能體需要向子智能體下達清晰的指令。簡單的指令如「研究半導體短缺」是遠遠不夠的,這會導致子智能體任務重疊或遺漏關鍵資訊。 例如,一個子智能體可能在研究 2021 年的汽車晶片危機,而另外兩個卻在重複研究 2025 年的供應鏈現狀。 好的指令必須包含:明確的目標、輸出格式、使用的工具和數據源建議,以及清晰的任務邊界。
3. 根據複雜性調整工作量:智能體很難自行判斷應該為不同任務付出多少努力。因此,團隊直接在 Prompt 中嵌入了伸縮規則。
• 簡單事實查找:需要 1 個智能體,呼叫 3-10 次工具。
• 直接比較:需要 2-4 個子智能體,每個呼叫 10-15 次工具。
• 複雜研究:可能需要超過 10 個子智能體,並有明確分工。 這些明確的指導方針,幫助領導智能體高效分配資源,避免在簡單問題上過度投入。
4. 工具設計至關重要:智能體與工具的接口,和人機介面一樣重要。用對工具,事半功倍。如果讓智能體在網頁上搜尋一個只存在於 Slack 內部的資訊,那它從一開始就注定失敗。 糟糕的工具描述會把智能體引向完全錯誤的方向。因此,每個工具都需要有獨特的目標和清晰的描述。團隊甚至在 Prompt 中為智能體提供了選擇工具的啟發式規則:先檢查所有可用工具,將工具用途與使用者意圖匹配,優先選擇專用工具等。
5. 讓智能體自我改進:這是一個堪稱「元認知」的洞見,Claude 4 模型本身就是出色的 Prompt 工程師。 當給模型一個失敗的 Prompt 和失敗案例時,它能準確診斷問題所在並提出改進建議。 團隊甚至創造了一個「工具測試智能體」。當給它一個有缺陷的工具時,它會嘗試使用該工具,然後重寫工具的描述以避免未來的失敗。透過數十次測試,這個智能體發現了許多細微的差別和 bug。這個自我改進的過程,最終使得未來使用新描述的智能體,任務完成時間減少了 40%。
6. 先廣撒網,再精準聚焦:搜尋策略應當模仿人類專家研究方式,先全面探索領域,再深入細節。智能體常會預設使用過於冗長具體的查詢,導致返回結果稀少。我們透過提示智能體從簡短寬泛的查詢開始,評估可用資訊,再逐步縮小關注範圍,來糾正這種傾向。
7. 引導思考過程:Claude 的「擴展思考模式」(在標籤內輸出思考過程)可以作為一個可控的草稿紙。 領導智能體用它來規劃方法、評估工具,確定子智能體數量和角色。子智能體則用它來規劃查詢,並在工具呼叫後評估結果品質。測試表明,這種方法顯著提高了指令遵循、推理和效率。
8. 嘗試並行執行:早期的智能體是串行搜尋的,速度慢得令人痛苦。團隊引入了兩種並行化:
• 宏觀並行:領導智能體一次性啟動 3-5 個子智能體,而不是串行啟動。
• 微觀並行:每個子智能體可以一次性並行呼叫 3+ 個工具。 這兩項改變,對於複雜查詢,將研究時間縮短了高達 90%,讓系統能在幾分鐘內完成過去需要數小時的工作。
如何有效評估?從 LLM-as-Judge 到人工紅隊
評估是建構可靠 AI 應用的基石,但評估多智能體系統尤其困難。
傳統評估假設,對於輸入 X,系統應遵循路徑 Y,得到輸出 Z。但智能體是非確定性的,它們可能透過完全不同的有效路徑,達到相同的正確目標。
因此,評估方法必須足夠靈活,既要判斷結果的正確性,也要評估過程的合理性。
1. 立即開始,小樣本評估 這是給所有 AI 開發團隊的寶貴建議。很多人認為,只有包含數百個案例的大型評估集才有價值,因此遲遲不動手。Anthropic 的經驗是:立即用小樣本開始評估。 在早期開發階段,一個小的 Prompt 調整,可能讓成功率從 30% 飆升到 80%。這種巨大的效應量,用 20 個左右的代表性查詢就足以發現。
2. 精心設計的 LLM-as-Judge 研究報告是自由格式的文本,很難用程式化方法評估。LLM 自然成了最佳「考官」。 Anthropic 使用一個 LLM 評委,根據一個詳細的評分標準來打分:
• 事實準確性:聲明是否與來源匹配?
• 引用準確性:引用的來源是否支持聲明?
• 完整性:是否覆蓋了所有被要求的內容?
• 來源品質:是否使用了高品質的一手來源,而非 SEO 農場?
• 工具效率:是否以合理的次數使用了正確的工具? 他們發現,使用單個 LLM 呼叫,根據單一 Prompt 輸出 0.0-1.0 的分數和通過/失敗的等級,這種方式最穩定,且與人類判斷最一致。
3. 人工評估不可或缺 自動化評估總有盲點。人類測試員(紅隊)能發現那些意想不到的邊緣案例。 例如,人類測試員發現,早期的智能體總是傾向於選擇經過 SEO 優化的內容農場,而不是更權威但排名較低的來源,如學術 PDF 或個人部落格。團隊透過在 Prompt 中增加關於來源品質的啟發式規則,解決了這個問題。
從原型到產品:工程上的慘痛教訓
將一個在開發機上運行良好的智能體原型,變成一個可靠的生產級系統,中間的鴻溝遠比想像中要寬。Anthropic 將其稱為「最後一哩路至關重要」。
1. 狀態化與錯誤疊加:智能體是長時間運行的狀態化進程。傳統軟體中的一個小 bug,在智能體系統中可能會被無限放大,導致整個任務脫軌。 因此,簡單的「出錯後從頭再來」是不可接受的,這既昂貴又讓使用者沮喪。 他們的解決方案是:
• 可恢復性:透過設置檢查點,讓系統能從發生錯誤的地方恢復,而不是重新啟動。
• 讓智能體適應錯誤:當工具失敗時,直接告知智能體,讓它利用自己的智能去適應和尋找替代方案。這種方法出奇地有效。
2. 調試非確定性:由於智能體的非確定性,重現 bug 變得極其困難。使用者的報告常常是「智能體沒找到明顯的資訊」,但原因卻難以追溯。 解決方案是全鏈路生產追蹤(full production tracing)。這讓他們能診斷失敗的根本原因,並系統性地修復。更進一步,他們會監控智能體的決策模式和交互結構(在保護使用者隱私的前提下,不監控具體內容),從而發現意想不到的行為。
3. 小心翼翼的部署:智能體系統是一個由 Prompt、工具和執行邏輯構成的、幾乎持續運行的高度狀態化網路。部署更新時,不能簡單地中斷正在運行的智能體。 他們採用了「彩虹部署」(rainbow deployments)策略,新舊版本的系統會同時運行,流量被逐漸地從舊版本遷移到新版本,從而避免了對正在執行任務的智能體的干擾。
4. 未來:非同步執行:目前,系統是同步的:領導智能體必須等待一批子智能體全部完成後才能進行下一步。這簡化了協調,但也造成了瓶頸。 未來的方向是非同步執行,智能體可以並發工作,並根據需要隨時創建新的子智能體。儘管這在結果協調、狀態一致性方面帶來了巨大挑戰,但隨著模型能處理更長、更複雜的任務,這種效能提升將是值得的。
總結與展望:AI「虛擬公司」的雛形
Anthropic 的這篇文章,揭示了一個深刻的現實:建構生產級的 AI 智能體,最後一哩路至關重要。 從原型到產品的鴻溝,源於智能體系統中錯誤會不斷疊加的特性。
儘管挑戰重重,但多智能體系統已經展現出巨大的價值。使用者回饋,Claude 的研究功能幫助他們發現了未曾考慮過的商業機會,導航了複雜的醫療保健選項,解決了棘手的技術 bug,透過揭示研究間的深層聯繫,節省了數天的工作量。
透過對使用者使用情況的分析,Anthropic 發現,目前該功能最常見的用例包括:
• 開發特定領域的軟體系統
• 開發和最佳化專業技術內容
• 制定業務增長和創收策略
• 輔助學術研究和教育材料開發
• 研究和核實人物、地點或組織的資訊
這背後需要的是精心的工程設計、全面的測試、細緻入微的 Prompt 和工具打磨、穩健的維運實踐,以及研究、產品和工程團隊之間對智能體當前能力的深刻理解和緊密協作。
智能體的「iPhone 時刻」或許尚未到來,但 Anthropic 的探索無疑為我們指明了那座燈塔的方向。一個由領導智能體(CEO)、子智能體(專家員工)、工具(部門能力)和記憶(知識庫)組成的「AI 虛擬公司」,正在地平線上冉冉升起。
人類的集體智慧,正在以一種全新的數位形式,被「複刻」和「加速」。這,或許才是多智能體系統最激動人心的未來。
參考連結:https://www.anthropic.com/engineering/built-multi-agent-research-system