HALO,基於MCTS的層次化動態提示框架,讓Agent總能找到最優路徑 | 最新

導讀:HALO框架透過三大創新機制重塑多Agent(MAS)協作方式:層次化推理架構克服了認知過載問題,讓智能體各司其職;動態角色實例化能針對不同任務匹配專業智能體;基於MCTS的搜尋引擎自動探索最優推理路徑。它能將模糊的用戶查詢轉化為專業提示,分解複雜任務並動態調整執行計畫。(https://arxiv.org/pdf/2505.13516)實驗表明,HALO在程式碼生成、通用推理和算術推理任務上平均提升14.4%,特別在處理高度專業化任務時表現卓越。這一框架讓AI Agent系統能如同導航衛星,總能找到解決複雜問題的最佳路徑。

HALO框架概述

來自南京郵電大學和重慶大學的研究者指出,當前Agent框架常常受限於預定義的角色設計和靜態通信結構,難以應對複雜交互環境和專家級任務的挑戰。為此研究者提出了HALO(Hierarchical Autonomous Logic-Oriented Orchestration)分層自主式邏輯導向的協調框架,透過三階段範式徹底改變了這一現狀,使多智能體系統能夠在沒有人工干預的情況下自組織和協調。HALO是一個基於層次化推理架構的多智能體協作框架,它不僅能夠動態實例化智能體角色,還能自適應構建最優通信工作流,為複雜問題解決提供了新思路。

圖片圖片

HALO框架概述。HALO由三個模塊組成:(1)自適應提示優化,將用戶查詢優化為高品質可理解的提示;(2)層次化推理堆疊,負責任務分解、角色實例化和子任務執行;(3)工作流搜尋引擎,探索多智能體協作並構建最優工作流。綠色路徑表示最優推理軌跡,紅色路徑在搜尋過程中被剪枝。

Agent難以應對複雜任務的原因

傳統多Agent系統在處理複雜任務時常常陷入兩大困境:

1. 缺乏靈活性:依賴預定義的智能體角色設計空間

2. 不適應性:通信結構過於靜態,無法適應動態變化的任務環境

這些局限性使得現有系統在面對高度專業化和專家級任務時表現不佳,例如複雜數學問題或道德倫理分析等需要深度專業知識的領域。更令人擔憂的是,大多數用戶缺乏提示工程的專業知識,無法有效引導智能體系統,導致任務執行效率低下,這一問題在現有框架中幾乎無解。

HALO框架的三大核心組件

HALO框架透過三個相互協作的核心組件解決了上述挑戰,為多智能體系統注入了前所未有的靈活性和適應性:

• 自適應提示優化模塊:將原始用戶查詢轉化為高品質、結構化的提示,解決了用戶提示工程能力不足的問題

• 層次化推理堆疊:由高層規劃智能體、中層角色設計智能體和低層推理智能體組成,形成了完整的任務分解和執行鏈條

• 工作流搜尋引擎:基於蒙特卡洛樹搜索(MCTS)技術,系統地探索多智能體協作空間,構建最優推理軌跡

這些組件協同工作,使整個系統能夠自適應地找到解決問題的最佳路徑。

自適應提示優化

自適應提示優化模塊是HALO框架的第一道防線,它透過四個協作智能體將模糊不清的用戶查詢轉化為清晰、結構化的提示:

1. 任務解析智能體:分析原始查詢,提取核心意圖、任務類型和關鍵細節,形成全局語義上下文

2. 提示模板智能體:構建初始提示框架,包括任務描述、推理目標、輸入條件和輸出格式

3. 提示優化智能體:引入慢思維提示策略和工具調用指令,進一步完善提示結構

4. 提示生成智能體:將優化後的結構綜合為最終提示,為下游推理鋪平道路

這一過程確保了即使是非專業用戶也能獲得專業級的提示引導。

圖片

自適應提示優化模塊中使用的系統提示:優化過程透過四個專門智能體進行:任務解析智能體從用戶查詢中提取任務語義;提示模板智能體構建結構化提示模板;提示優化智能體增強清晰度和可用性;提示生成智能體生成最終提示。

層次化推理堆疊

層次化推理堆疊是HALO框架的核心引擎,它透過三層智能體協作完成從任務分解到執行的全過程:

• 高層規劃智能體:接收優化後的提示,將整體任務分解為一系列子任務,並基於前序子任務的執行歷史迭代更新分解策略

• 中層角色設計智能體:為每個子任務動態實例化專門的智能體,確保每個生成的智能體都與子任務需求高度匹配

• 低層推理智能體:負責執行具體子任務,透過協作機制產生中間輸出

系統還引入了早停機制,當66%的已完成子任務產生一致答案時終止推理過程,大幅提高了系統效率。

基於MCTS的最優路徑探索者

工作流搜尋引擎是HALO框架最具創新性的組件,它將子任務執行重新表述為結構化的工作流搜索問題。透過蒙特卡洛樹搜索(MCTS)技術,系統能夠系統地探索智能體行動空間,構建最優推理軌跡。在這個過程中:

• 每個節點代表一個智能體生成的響應或中間推理步驟

• 邊表示推理狀態之間可能的轉換

MCTS透過四個標準階段指導搜索:

1. 選擇階段:使用UCT演算法選擇最佳智能體

2. 擴展階段:實例化新的角色特定智能體

3. 模擬階段:從當前狀態開始模擬一系列智能體協作步驟,透過評判智能體和打分智能體評估品質

4. 反向傳播階段:將模擬結果沿搜索路徑回傳,更新所有相關節點的評估分數

這種設計使HALO能夠在大量可能的多智能體協作方式中找到最有效的路徑,特別適合處理複雜推理任務。

圖片

蒙特卡洛樹搜索(MCTS)如何透過選擇、擴展、模擬和反向傳播階段指導多智能體推理。每個節點代表一個Agent,邊緣轉換由執行結果和評估回饋引導。

MCTS如何引導多Agent協作?

蒙特卡洛樹搜索在HALO框架中扮演著核心引導角色,將複雜的多智能體協作問題轉化為結構化搜索過程:

MCTS階段

在HALO中的實現

選擇階段

使用UCT公式遞歸選擇最佳智能體,平衡探索與利用的權衡

擴展階段

為選定智能體添加未嘗試的行動,增加搜索樹的廣度

模擬階段

從當前狀態開始模擬一系列智能體協作步驟,透過評判智能體和打分智能體評估品質

反向傳播階段

將模擬結果沿搜索路徑回傳,更新所有相關節點的評估分數

這種方法引入了基於判斷結果的獎勵訊號調整機制,強化成功路徑並懲罰失敗路徑,確保系統能夠找到最優解決方案。

HALO賦能商業戰略制定

為了展示HALO框架在實際業務場景中的強大能力,我根據HALO寫了一個餐飲業商業戰略制定的示例。這個示例完整實現了HALO框架的三大核心組件,將用戶的簡單查詢轉化為全面、專業的商業戰略報告。當用戶提出"我是一家中型連鎖餐廳的CEO,我們主要經營中式快餐,如何提高營業額和利潤率"之類的問題時,系統能夠自動進行任務分解、專家角色匹配和最優工作流構建,生成遠超過普通提示詞交互的深入分析和建議。

圖片圖片圖片

上下滑動查看更多

Slide left and right to see more

在實現中,我們透過:

• PromptAgent類構建自適應提示優化模塊

• TaskDecompositionAgent類實現高層規劃智能體

• RoleGenerationAgent類執行中層角色設計

• MCTSWorkflowSearch類實現基於MCTS的工作流搜索

系統運行時,首先提取用戶查詢的核心問題類型("競爭策略與利潤提升")、目標("提高營業額和利潤率")和關鍵細節(餐飲業背景、競爭環境等)。然後,高層規劃智能體將問題分解為一系列子任務,例如"分析顧客群體數據"、"分析競爭對手戰略"和"評估菜單利潤率結構"等。對於每個子任務,角色設計智能體會選擇最合適的專家角色組合,如市場分析師、競爭對手分析師、財務分析師等。MCTS工作流搜尋引擎透過多次迭代探索,嘗試不同專家組合的執行路徑,並根據執行結果評估每條路徑的品質,最終找到最優推理軌跡,生成高品質的戰略建議。關於MCTS您還可以看下之前的文章《MultiOn和斯坦福最新發布: Agent Q用POMDP和MCTS將真實預訂率提高到95.4%》

HALO框架的突破性優勢

HALO框架相比現有方法具有顯著優勢,實驗結果證明了其卓越性能:

1. 克服認知過載:層次化推理架構將規劃、推理和反思等責任分配給專門的智能體層,使各智能體能夠專注於特定任務

2. 提高任務執行粒度:自適應智能體實例化和基於搜索的工作流探索使系統能夠實時適應任務需求

3. 擅長處理專家級任務:HALO在處理高度複雜和專家級推理任務方面表現卓越,特別是在需要深度專業知識的領域

這些優勢使HALO成為解決複雜問題的強大工具。

三大基準測試中的卓越表現

專案作者透過三個基準測試驗證了HALO框架的有效性,結果令人印象深刻:

基準測試

HALO成績

提升幅度

特殊亮點

程式碼生成 (HumanEval)

95.2% (pass@1)

+12.8%

一次性生成正確程式碼的能力顯著提升

通用推理 (MMLU)

81.6% (準確率)

+8.8%

在道德場景主題上提高了13.3%

算術推理 (MATH)

58.9% (準確率)

+22.0%

在代數子領域上提高了19.6%

平均而言,HALO比現有方法提高了14.4%的性能,充分證明了HALO在處理高度專業化和專家級任務方面的卓越能力。

圖片

MATH數據集上三個計算密集型子領域的性能比較。指標報告為經過三次運行的平均準確率(%)。

HALO各組件的貢獻分析

專案作者透過消融實驗證明了HALO各組件的重要性,結果顯示每個組件都對整體性能有顯著貢獻:

• 移除自適應提示優化模塊:系統性能平均下降5.3%,其中MMLU測試受影響最大(從81.6%降至75.4%)

• 移除高層規劃智能體:性能平均下降11.3%,HumanEval從95.2%降至83.8%,MATH從58.9%降至44.7%

這些實驗結果明確表明,HALO的每個組件都是不可或缺的,它們協同工作,共同提升系統的整體性能。

圖片

移除自適應提示優化模塊和高層規劃智能體對GPT-4o在三個基準測試上的性能影響。

解決實際應用問題

HALO框架能夠解決或顯著改進多種實際應用問題,為AI Agent產品開發提供了全新思路:

應用領域

HALO的優勢

典型應用場景

專家級複雜推理任務

透過層次化分解複雜問題由不同專業智能體處理子任務

高級科學研究問題、複雜法律案例分析、醫療診斷

用戶提示工程問題

自動將原始查詢轉化為高品質結構化提示

教育輔助系統、客戶服務機器人、公共信息查詢系統

動態適應變化環境

透過動態實例化專門智能體和實時調整協作策略

軟體開發中的需求變更、動態資源調度、實時決策支持系統

HALO實施的實用建議

對於有意實施HALO框架的開發者和產品主理人,有幾點實用建議值得考慮:

1. 從痛點出發:識別需要高度專業知識、複雜推理或動態適應能力的場景,這些是HALO能夠帶來顯著提升的領域

2. 關注角色設計:儘管HALO可以動態實例化智能體,但初始的角色設計仍然很重要,需要考慮領域特性和任務需求

3. 合理配置資源:特別是工作流搜尋引擎部分,MCTS需要一定的計算資源來探索可能的協作路徑

4. 建立評估機制:透過具體指標監控HALO的性能,不斷優化系統配置

這些建議將幫助您充分發揮HALO框架的潛力,為用戶提供卓越的AI Agent產品。

寫在最後

HALO框架代表了多智能體協作系統的重要里程碑,它透過層次化推理架構、自適應提示優化和基於MCTS的工作流搜索,解決了現有系統的核心局限性。實驗結果充分證明了HALO在程式碼生成、通用推理和算術推理等任務上的卓越性能,特別是在高度專業化和專家級任務方面的顯著優勢。對於AI Agent產品的開發者而言,HALO提供了一個強大的框架,使您能夠構建更加智能、靈活和高效的多智能體系統。

未來已來,公眾號後台發送"群"

有緣一起同行

圖片

<本文完結,作者:修貓>

轉載請與我聯繫

🎉讓我們一起創造更多美好!🎉

如果您覺得這篇文章對您有幫助

感謝您為我【點贊】、【在看】

<您為我點贊在看,只有我能看到>

👉微信号:xiumaoprompt

添加請註明來意!

主標籤:AI Agent 框架

次標籤:多智能體系統提示工程分層AI蒙特卡洛樹搜索


上一篇:Gemini Diffusion:1500 token/秒,快如閃電!

下一篇:「從零開始,僅需8元+9小時!完整Tiny LLM訓練教程,包含推理、MoE等」

分享短網址