建構無所不能、無需人類、完全自主行動的 AI 代理人,是當前大型模型產業的熱門研究方向。
主流觀點認為,更高的自主性代表了更好的系統——減少人類介入本身就具有內在價值,而完全的獨立性則應成為最終目標。
然而,華人學者 Philip S. Yu(伊利諾伊大學芝加哥分校傑出教授、ACM Fellow、IEEE Fellow)、李東遠(東京大學助理教授)團隊卻有著不一樣的看法:
應當將進步的評判標準從「自主智能」轉向「協作智能」,即發展以人機協作為核心的 LLM-HAS(基於 LLM 的人-代理人系統)。
在這種範式下,AI 不再是孤立運作的「操作員」,而是人類的積極協作夥伴;在增強人類能力的同時,也保留了關鍵的人類判斷與監管職責。
相關研究論文以「A Call for Collaborative Intelligence: Why Human-Agent Systems Should Precede AI Autonomy」為題,已發表在預印本網站 arXiv 上。
論文連結:
https://arxiv.org/pdf/2506.09420
在他們看來,AI 的進步不應以系統獨立程度來衡量,而應以它們與人類協作的有效性來評判;AI 最值得期待的未來,不在於取代人類角色的系統,而是在於透過有意義的合作來提升人類能力的系統。
他們呼籲,業界和學界應從當前對完全自主代理人的追逐,根本性地轉向以人機協作為核心的 LLM-HAS。
為什麼完全自主代理人「不行」?
基於 LLM 的自主代理人是一種能夠在開放、真實世界環境中獨立運行的系統,透過「感知-推理-行動」的循環完成任務,且無需人為干預。
與 Human-in-the-loop 系統不同,基於 LLM 的自主代理人能夠獨立地解析目標、規劃行為、呼叫工具,並透過基於語言的推理和記憶進行適應。
例如,在軟體工程領域,GitHub Copilot 可以自主生成、測試並重構程式碼,幾乎不需要開發者干預,加速了常規開發流程;在客戶支援領域,AutoGLM、Manus 和 Genspark 等系統能夠在無需人工干預的情況下,完成複雜的行程規劃、自動預訂以及解決服務問題,在動態環境中展現出優秀的感知-動作循環能力。
然而,當前基於 LLM 的自主代理人在真實世界的部署仍面臨以下三方面挑戰:
1.缺乏可靠性、信任與安全
LLM 容易生成看似可信但實則虛假的「幻覺」內容。幻覺問題的普遍存在,直接削弱了人們對完全自主系統的信任。如果系統無法持續且可靠地提供準確的資訊,它在高風險場景下(如醫療診斷、金融決策或關鍵基礎設施控制)將極為危險。
2.處理複雜與模糊任務的能力不足
這類代理人在需要深度推理的任務中表現不佳,尤其當目標本身含糊不清時更是如此。人類的指令往往並不明確;缺乏常識背景的 LLM 可能會誤解任務,進而採取錯誤行為。因此,在如科學研究等目標開放、動態調整的複雜領域,它們並不可靠。
3.法規與法律責任問題
儘管這類系統具備「行動能力」,但在現有法律體系下,它們並不具備正式的法律責任主體資格。這就導致了責任與透明度之間存在巨大鴻溝:當系統造成傷害或做出錯誤決策時,很難釐清責任應由誰承擔——是開發者、部署者,還是演算法本身?隨著代理人能力的增強,這種「能力」與「責任」之間的法律鴻溝只會愈加嚴重。
LLM-HAS:以人機協作為核心的
與基於 LLM 的完全自主代理人不同,LLM-HAS 是一種協作框架,其中人類與由 LLM 驅動的代理人協同工作,共同完成任務。
LLM-HAS 在運行過程中始終保持人類參與,以提供關鍵資訊和澄清說明,透過評估輸出結果並指導調整來提供回饋,並在高風險或敏感場景中接管控制權。這種人類參與,確保了 LLM-HAS 在性能、可靠性、安全性和明確的責任歸屬方面的提升,尤其是在人類判斷仍不可或缺的領域。
推動 LLM-HAS 的根本動因,在於它具備解決自主代理人系統所面臨關鍵局限和風險的潛力。
1.增強的信任與可靠性
LLM-HAS 的互動性特徵,使人類能夠即時提供回饋、糾正潛在幻覺輸出、驗證資訊,並引導代理人產生更準確、可靠的結果。這種協同驗證機制是建立信任的關鍵,尤其在高錯誤代價場景下至關重要。
2.更好地處理複雜性與模糊性
相較於在面對模糊指令時容易迷失方向的自主代理人,LLM-HAS 借助人類持續的澄清能力而表現出色。人類提供關鍵的上下文、領域知識,並能逐步細化目標——這是處理複雜任務所不可或缺的能力。當目標表達不明確時,系統可以請求澄清,而不是在錯誤假設下繼續操作。特別適用於目標動態演變的開放式研究或創造性工作。
3.更明確的責任歸屬
由於人在決策流程中持續參與,特別是在監督或干預環節,更容易建立明確的責任邊界。在這種模式下,通常可以明確指定某個人類操作員或監督者為責任主體,從而在法律與監管上更具可解釋性,遠比一個完全自主的系統在出錯後追責要清晰得多。
研究團隊表示,LLM-HAS 的迭代式溝通機制有助於代理人行為更好地對齊人類意圖,從而實現比傳統的基於規則或端到端系統更靈活、透明且高效的協作,從而廣泛地應用於高度依賴人類輸入、情境推理與即時互動的各類場景,涉及具身智能、自動駕駛、軟體開發、對話系統以及遊戲、金融、醫療等。
在上述領域中,LLM-HAS 將人類與 AI 的互動重新定義為基於語言的協作過程,該過程受回饋塑造並由適應性推理驅動。
五大挑戰與潛在解決方案
1.初始設置:仍聚焦於代理人本身
目前關於 LLM-HAS 的大部分研究採用以代理人為中心的視角,其中人類主要評估代理人的輸出並提供糾正回饋,這種單向互動主導了現有範式,重新塑造這種動態關係存在巨大潛力。
若使代理人能夠主動監控人類表現、識別低效環節並及時提供建議,將使代理人的智能得到有效利用並減輕人類工作負荷。當代理人轉變為指導性角色,提出替代策略、指出潛在風險並即時強化最佳實踐時,人類與代理人的性能均會提升。研究團隊認為,轉向更以人為本或更平衡的 LLM-HAS 設計,是實現真正人-代理人協作的關鍵。
2.人類數據:人類回饋的差異性
人類在 LLM-HAS 中的回饋在角色、時機和表達方式上差異巨大。由於人類具有主觀性,受個性等因素影響,同一系統在不同人手中可能產生完全不同的結果。
另外,很多實驗中使用 LLM 模擬「偽人類」回饋。這類模擬數據往往無法真實反映人類行為差異,從而造成性能失真,削弱比較的有效性。
高品質人類數據的獲取、處理與使用,是建構對齊良好、協作高效的 LLM-HAS 的基礎。人類生成數據能夠幫助代理人獲得更細緻的理解,提升其協作能力,並確保其行為符合人類的偏好與價值觀。
3.模型工程:缺乏適應性與持續學習能力
在 LLM-HAS 的開發中,打造真正「適應性強、可持續學習」的 AI 合作者仍是核心難題。
目前主流方法將 LLM 視為靜態的預訓練工具,導致「未能有效吸收人類洞見」、「缺乏持續學習與知識保持能力」和「缺乏即時最佳化機制」等問題,
要充分釋放 LLM-HAS 的潛力,必須透過「人類回饋融合、終身學習機制和動態最佳化策略」的整合方式,突破上述瓶頸。
4.後期部署:尚未解決的安全脆弱性
部署後的 LLM-HAS 仍在安全性、穩健性和責任歸屬方面面臨挑戰。目前業界往往更關注性能指標,然而在人機互動中的可靠性、隱私與安全等問題尚未得到充分研究。確保可靠的人機協作需要持續監控、嚴格監督以及整合負責的人工智慧實踐。
5.評估:評估方法不充分
當前針對 LLM-HAS 的評估體系存在根本缺陷。它們通常偏重代理人的準確性與靜態測試,往往完全忽略人類協作者所承擔的真實負擔。
因此,我們迫切需要一套新的評估體系,從(1)任務效果與效率、(2)人機互動品質、(3)信任、透明度與可解釋性、(4)倫理對齊與安全性、(5)用戶體驗與認知負擔,多維度綜合量化人類與代理人在協作中的「貢獻」與「成本」,從而真正實現高效、可靠且負責的人-代理人協作。
更多內容,詳見論文。
整理:學術君
如需轉載或投稿,請直接在公眾號內留言