Anthropic 首次揭密多智能體系統細節：Claude 複刻人類集體智慧，效能超越單體 Opus 90%！

大模型 Agent 的賽道，已經發展到新高度。

從軟體工程到科研輔助，從日常生活到商業決策，一個無所不能的 AI 智能體，似乎已成為通往 AGI 的必經之路。各大巨頭紛紛展現實力，但大多仍停留在單體智能的範式裡。

然而，就在今天，Anthropic 發表了一篇萬字長文，首次將其內部孵化已久的多智能體研究系統（Multi-agent Research System）的設計原理、架構細節和工程實踐經驗，悉數公諸於世。

這套系統，正是其王牌模型 Claude 最新「研究」能力的幕後功臣。

核心數據更是驚人：在一個由 Claude Opus 擔任「領導」，多個 Claude Sonnet 擔任「下屬」的多智能體系統中，其在內部研究評估基準上的效能，比最強的單體 Claude Opus 4 高出 90.2%。

這不僅僅是量變，更是質變。

Anthropic 團隊在文中提出了一個振聾發聵的觀點：一旦智能達到某個閾值，多智能體系統將成為擴展能力的關鍵。正如人類社會近十萬年來的指數級發展，靠的不是個體智力的飛躍，而是集體智慧和協作能力的湧現。

他們坦言，這套系統的本質，就是透過架構設計，來「複刻」人類社會的集體智慧。

更令人意外的是，他們發現了一個反常識的結論：在他們的基準測試中，AI 智能體效能方差的 80%，竟然是由一個簡單粗暴的因素解釋的——token 消耗量。

換言之，「大力出奇蹟」在智能體領域或許真的有效。而多智能體系統，正是一種在經濟成本可控的前提下，聰明地「燒掉」足夠多 token 以解決複雜問題的最佳方式。

這篇文章資訊量巨大，從架構設計、提示工程、工具選擇，到評估方法、工程挑戰，幾乎涵蓋了建構一個生產級多智能體系統的所有關鍵環節。

話不多說，我們直接來看 Anthropic 的這篇一手分享，全是硬核乾貨。

為何要使用多智能體？單體大型模型還不夠用嗎？

在深入架構之前，一個根本性問題必須回答：我們為什麼需要多智能體？像 Claude Opus 或 GPT-4o 這樣強大的單體模型，難道還不夠用嗎？

Anthropic 的答案是：對於開放式研究（open-ended research）這類任務，真的不夠用。

研究工作的本質是非線性的、路徑依賴的。人類專家在探索一個複雜課題時，會根據新發現不斷調整方向，隨時可能深入一個意想不到的切入點。你無法用一個固定的、線性的流程去硬編碼這種探索過程。

這恰恰是單體 LLM 的軟肋。它們擅長「一步到位」的問答，卻難以駕馭需要持續自主決策、多輪探索的複雜任務。

而多智能體系統，則完美契合了這種需求。

並行壓縮與關注點分離

研究的精髓是從海量資訊中提煉洞見，本質上是一個壓縮過程。

多智能體系統透過並行化，極大地加速了這一過程。系統可以派出多個「子智能體」（subagent），每個子智能體都有自己獨立的上下文視窗、工具集和探索軌跡，就像一個研究小組裡的不同成員，同時從不同角度切入問題。

它們各自完成資訊蒐集和初步分析，將最重要的 token「壓縮」提煉出來，最後彙報給「領導智能體」。

這種關注點分離的設計，不僅效率更高，還減少了單一途徑依賴的風險，使得研究更加全面和深入。

效能暴漲 90% 的實證

口說無憑，數據為證。

Anthropic 的內部評估顯示，在處理那些需要同時探索多個獨立方向的廣度優先（breadth-first）查詢時，多智能體系統展現出壓倒性優勢。

一個由 Claude Opus 4 擔任領導、Claude Sonnet 4 擔任子智能體的系統，在內部研究評估中的表現，比單獨使用 Claude Opus 4 的單智能體系統高出 90.2%。

一個經典的例子是：「找出標準普爾 500 資訊技術板塊所有公司的董事會成員」。

• 單智能體系統：陷入了緩慢的、連續的搜尋循環，最終未能找到完整答案。

• 多智能體系統：領導智能體迅速將任務分解，為每家公司或每組公司指派一個子智能體去並行查找，最終成功彙總了所有正確答案。

成功的秘密：「大力出奇蹟」

最令人驚訝的發現，來自於 Anthropic 對其 BrowseComp 評估基準的分析。該基準專門測試智能體在網路上定位難尋資訊的能力。

他們發現，模型效能方差的 95% 可以由三個因素解釋。而其中，僅僅是 token 的使用量，就解釋了 80% 的方差！另外兩個因素是工具呼叫次數和模型選擇。

這一發現，從根本上驗證了他們架構設計的正確性：透過將工作分配給擁有獨立上下文視窗的多個智能體，系統能夠有效地擴展 token 的使用規模，以應對單智能體無法處理的複雜任務。這相當於為解決問題投入了更多的「算力」和「思考深度」。

當然，這也帶來了顯而易見的代價：燒錢。

數據顯示，智能體交互消耗的 token 大約是普通聊天的 4 倍，而多智能體系統更是高達 15 倍。

這意味著，多智能體系統在經濟上只適用於那些任務價值足夠高，能夠覆蓋其效能成本的場景。

同時，並非所有任務都適合多智能體。例如，大多數程式設計任務的並行性遠低於研究任務，且 LLM 智能體目前還不太擅長即時協調和委派編碼工作。

總而言之，多智能體系統最擅長的領域是：高價值、可大規模並行、資訊量超出單個上下文視窗、且需要與眾多複雜工具交互的任務。

架構揭密：指揮官 + 工人，三步驟研究流程

Anthropic 的研究系統採用了一種經典的指揮官-工人（orchestrator-worker）模式。一個領導智能體負責協調整個流程，並將具體任務委派給並行的專業子智能體。

下面這張官方架構圖，清晰地展示了其工作流程：

我們可以將其分解為以下幾個關鍵步驟：

1. 啟動與規劃當用戶提交一個查詢（例如，「2025 年 AI 智能體領域的頂尖公司有哪些？」），系統會創建一個 LeadResearcher（領導研究員）智能體。它首先進入一個迭代式的研究流程，第一步是思考，並將其制定的研究計畫保存到「記憶」（Memory）中。這是一個至關重要的細節。因為智能體的上下文視窗（即使是 200K token）也可能被填滿，將核心計畫保存在外部記憶中，可以確保智能體在長期任務中不會「失憶」。

2. 任務分解與授權 LeadResearcher 根據計畫，創建出多個專業的 Subagent（子智能體）。圖示中展示了兩個，但實際數量可以動態調整。每個 Subagent 都會被賦予一個非常具體的研究任務，例如「研究 A 公司的最新動態」或「查找 B 公司的融資歷史」。

3. 並行執行與動態調整每個 Subagent 獨立工作，利用搜尋等工具進行資訊蒐集。一個關鍵的設計是交錯式思考（interleaved thinking）：在每次工具呼叫後，Subagent 都會停下來思考，評估結果的品質，發現資訊缺口，並規劃下一步的查詢。這使得子智能體能夠動態適應任務。

4. 結果合成與迭代子智能體完成任務後，將發現返回給 LeadResearcher。LeadResearcher 綜合所有子智能體的報告，並判斷是否需要進一步的研究。如果需要，它可以創建更多的子智能體，或調整現有策略，形成一個研究循環。

5. 引用與歸因一旦 LeadResearcher 認為蒐集到的資訊足夠充分，研究循環就會退出。此時，系統會將所有的研究報告和原始文件傳遞給一個專門的 CitationAgent（引用智能體）。這個智能體的唯一職責是，精確地將報告中的每一項聲明，都與其原始來源進行匹配和標註。這極大地保證了最終答案的事實準確性和可追溯性。

6. 最終交付最後，一份帶有完整、精確引用的研究報告將呈現給使用者。

整個架構與傳統的檢索增強生成（RAG）有著本質區別。傳統 RAG 是靜態的，它一次性檢索與查詢最相似的文本塊，然後生成答案。而 Anthropic 的這套系統是動態的、多步驟的，它能主動發現、適應並分析資訊，從而生成品質遠超 RAG 的答案。

Prompt 工程的「八大心法」

如果說架構是骨架，那麼 Prompt 就是注入智能體靈魂的咒語。

Anthropic 團隊坦言，在系統早期，智能體們行為混亂：會為簡單查詢生成 50 個子智能體，會為了一個不存在的來源無休止地搜尋，甚至會互相干擾。

Prompt 工程是他們馴服這些「野馬」的核心槓桿。他們總結了八條黃金法則：

1. 像智能體一樣思考：要寫好 Prompt，你必須先成為智能體。團隊建構了模擬環境，一步步觀察智能體的行為，這讓他們立刻發現了失敗模式：比如，已經找到答案卻仍在搜尋；搜尋查詢過於冗長；選錯工具等。建立對智能體行為的準確心智模型，是進行有效迭代的前提。

2. 教會指揮官如何授權：領導智能體需要向子智能體下達清晰的指令。簡單的指令如「研究半導體短缺」是遠遠不夠的，這會導致子智能體任務重疊或遺漏關鍵資訊。例如，一個子智能體可能在研究 2021 年的汽車晶片危機，而另外兩個卻在重複研究 2025 年的供應鏈現狀。好的指令必須包含：明確的目標、輸出格式、使用的工具和數據源建議，以及清晰的任務邊界。

3. 根據複雜性調整工作量：智能體很難自行判斷應該為不同任務付出多少努力。因此，團隊直接在 Prompt 中嵌入了伸縮規則。

• 簡單事實查找：需要 1 個智能體，呼叫 3-10 次工具。

• 直接比較：需要 2-4 個子智能體，每個呼叫 10-15 次工具。

• 複雜研究：可能需要超過 10 個子智能體，並有明確分工。這些明確的指導方針，幫助領導智能體高效分配資源，避免在簡單問題上過度投入。

4. 工具設計至關重要：智能體與工具的接口，和人機介面一樣重要。用對工具，事半功倍。如果讓智能體在網頁上搜尋一個只存在於 Slack 內部的資訊，那它從一開始就注定失敗。糟糕的工具描述會把智能體引向完全錯誤的方向。因此，每個工具都需要有獨特的目標和清晰的描述。團隊甚至在 Prompt 中為智能體提供了選擇工具的啟發式規則：先檢查所有可用工具，將工具用途與使用者意圖匹配，優先選擇專用工具等。

5. 讓智能體自我改進：這是一個堪稱「元認知」的洞見，Claude 4 模型本身就是出色的 Prompt 工程師。當給模型一個失敗的 Prompt 和失敗案例時，它能準確診斷問題所在並提出改進建議。團隊甚至創造了一個「工具測試智能體」。當給它一個有缺陷的工具時，它會嘗試使用該工具，然後重寫工具的描述以避免未來的失敗。透過數十次測試，這個智能體發現了許多細微的差別和 bug。這個自我改進的過程，最終使得未來使用新描述的智能體，任務完成時間減少了 40%。

6. 先廣撒網，再精準聚焦：搜尋策略應當模仿人類專家研究方式，先全面探索領域，再深入細節。智能體常會預設使用過於冗長具體的查詢，導致返回結果稀少。我們透過提示智能體從簡短寬泛的查詢開始，評估可用資訊，再逐步縮小關注範圍，來糾正這種傾向。

7. 引導思考過程：Claude 的「擴展思考模式」（在標籤內輸出思考過程）可以作為一個可控的草稿紙。領導智能體用它來規劃方法、評估工具，確定子智能體數量和角色。子智能體則用它來規劃查詢，並在工具呼叫後評估結果品質。測試表明，這種方法顯著提高了指令遵循、推理和效率。

8. 嘗試並行執行：早期的智能體是串行搜尋的，速度慢得令人痛苦。團隊引入了兩種並行化：

• 宏觀並行：領導智能體一次性啟動 3-5 個子智能體，而不是串行啟動。

• 微觀並行：每個子智能體可以一次性並行呼叫 3+ 個工具。這兩項改變，對於複雜查詢，將研究時間縮短了高達 90%，讓系統能在幾分鐘內完成過去需要數小時的工作。

如何有效評估？從 LLM-as-Judge 到人工紅隊

評估是建構可靠 AI 應用的基石，但評估多智能體系統尤其困難。

傳統評估假設，對於輸入 X，系統應遵循路徑 Y，得到輸出 Z。但智能體是非確定性的，它們可能透過完全不同的有效路徑，達到相同的正確目標。

因此，評估方法必須足夠靈活，既要判斷結果的正確性，也要評估過程的合理性。

1. 立即開始，小樣本評估這是給所有 AI 開發團隊的寶貴建議。很多人認為，只有包含數百個案例的大型評估集才有價值，因此遲遲不動手。Anthropic 的經驗是：立即用小樣本開始評估。在早期開發階段，一個小的 Prompt 調整，可能讓成功率從 30% 飆升到 80%。這種巨大的效應量，用 20 個左右的代表性查詢就足以發現。

2. 精心設計的 LLM-as-Judge 研究報告是自由格式的文本，很難用程式化方法評估。LLM 自然成了最佳「考官」。 Anthropic 使用一個 LLM 評委，根據一個詳細的評分標準來打分：

• 事實準確性：聲明是否與來源匹配？

• 引用準確性：引用的來源是否支持聲明？

• 完整性：是否覆蓋了所有被要求的內容？

• 來源品質：是否使用了高品質的一手來源，而非 SEO 農場？

• 工具效率：是否以合理的次數使用了正確的工具？他們發現，使用單個 LLM 呼叫，根據單一 Prompt 輸出 0.0-1.0 的分數和通過/失敗的等級，這種方式最穩定，且與人類判斷最一致。

3. 人工評估不可或缺自動化評估總有盲點。人類測試員（紅隊）能發現那些意想不到的邊緣案例。例如，人類測試員發現，早期的智能體總是傾向於選擇經過 SEO 優化的內容農場，而不是更權威但排名較低的來源，如學術 PDF 或個人部落格。團隊透過在 Prompt 中增加關於來源品質的啟發式規則，解決了這個問題。

從原型到產品：工程上的慘痛教訓

將一個在開發機上運行良好的智能體原型，變成一個可靠的生產級系統，中間的鴻溝遠比想像中要寬。Anthropic 將其稱為「最後一哩路至關重要」。

1. 狀態化與錯誤疊加：智能體是長時間運行的狀態化進程。傳統軟體中的一個小 bug，在智能體系統中可能會被無限放大，導致整個任務脫軌。因此，簡單的「出錯後從頭再來」是不可接受的，這既昂貴又讓使用者沮喪。他們的解決方案是：

• 可恢復性：透過設置檢查點，讓系統能從發生錯誤的地方恢復，而不是重新啟動。

• 讓智能體適應錯誤：當工具失敗時，直接告知智能體，讓它利用自己的智能去適應和尋找替代方案。這種方法出奇地有效。

2. 調試非確定性：由於智能體的非確定性，重現 bug 變得極其困難。使用者的報告常常是「智能體沒找到明顯的資訊」，但原因卻難以追溯。解決方案是全鏈路生產追蹤（full production tracing）。這讓他們能診斷失敗的根本原因，並系統性地修復。更進一步，他們會監控智能體的決策模式和交互結構（在保護使用者隱私的前提下，不監控具體內容），從而發現意想不到的行為。

3. 小心翼翼的部署：智能體系統是一個由 Prompt、工具和執行邏輯構成的、幾乎持續運行的高度狀態化網路。部署更新時，不能簡單地中斷正在運行的智能體。他們採用了「彩虹部署」（rainbow deployments）策略，新舊版本的系統會同時運行，流量被逐漸地從舊版本遷移到新版本，從而避免了對正在執行任務的智能體的干擾。

4. 未來：非同步執行：目前，系統是同步的：領導智能體必須等待一批子智能體全部完成後才能進行下一步。這簡化了協調，但也造成了瓶頸。未來的方向是非同步執行，智能體可以並發工作，並根據需要隨時創建新的子智能體。儘管這在結果協調、狀態一致性方面帶來了巨大挑戰，但隨著模型能處理更長、更複雜的任務，這種效能提升將是值得的。

總結與展望：AI「虛擬公司」的雛形

Anthropic 的這篇文章，揭示了一個深刻的現實：建構生產級的 AI 智能體，最後一哩路至關重要。從原型到產品的鴻溝，源於智能體系統中錯誤會不斷疊加的特性。

儘管挑戰重重，但多智能體系統已經展現出巨大的價值。使用者回饋，Claude 的研究功能幫助他們發現了未曾考慮過的商業機會，導航了複雜的醫療保健選項，解決了棘手的技術 bug，透過揭示研究間的深層聯繫，節省了數天的工作量。

透過對使用者使用情況的分析，Anthropic 發現，目前該功能最常見的用例包括：

• 開發特定領域的軟體系統

• 開發和最佳化專業技術內容

• 制定業務增長和創收策略

• 輔助學術研究和教育材料開發

• 研究和核實人物、地點或組織的資訊

這背後需要的是精心的工程設計、全面的測試、細緻入微的 Prompt 和工具打磨、穩健的維運實踐，以及研究、產品和工程團隊之間對智能體當前能力的深刻理解和緊密協作。

智能體的「iPhone 時刻」或許尚未到來，但 Anthropic 的探索無疑為我們指明了那座燈塔的方向。一個由領導智能體（CEO）、子智能體（專家員工）、工具（部門能力）和記憶（知識庫）組成的「AI 虛擬公司」，正在地平線上冉冉升起。

人類的集體智慧，正在以一種全新的數位形式，被「複刻」和「加速」。這，或許才是多智能體系統最激動人心的未來。

參考連結：https://www.anthropic.com/engineering/built-multi-agent-research-system

Anthropic 首次揭密多智能體系統細節：Claude 複刻人類集體智慧，效能超越單體 Opus 90%！

分享短網址