阿里巴巴深夜開源「王牌」Agent!硬槓OpenAI,性能全面超越SOTA!

過去半年來,人工智慧代理(AI Agent)一直有個令人頭痛的問題:為什麼開源的AI代理在解決真正複雜的難題時,總是會被OpenAI的DeepResearch徹底擊敗?儘管我們看到了WebDancer、R1-Searcher等無數優秀的開源專案,但在OpenAI提出的那個極度困難的BrowseComp榜單上,大家的得分基本上都是零分。這道鴻溝,似乎難以跨越。昨天,阿里巴巴通義開源了他們最新的網路代理模型——WebSailor。除了開源模型、程式碼和論文,它還透過一套完整且可重現的方法論,告訴了所有人:開源AI代理也能實現超凡的推理能力,挑戰閉源的霸權!

圖片

首先,我們必須搞清楚,為什麼以前的開源AI代理不行?論文指出,問題出在訓練資料的難度上。之前的訓練方法,基本上都圍繞著兩類任務:

Level 1: 低不確定性任務,例如單次搜尋就能找到答案的問題。

Level 2: 路徑明確的多跳任務,例如「阿里巴巴現任CEO的母校的第一位中科院院士是誰?」這類問題。雖然複雜,但推理路徑是固定的、線性的。

然而,現實中許多挑戰,屬於Level 3:極高的不確定性 + 極其複雜的探索路徑。它沒有標準的答案路徑,需要AI代理像一個真正的研究員一樣,在資訊的海洋裡不斷探索、篩選、整合與推理。用Level 1和Level 2的資料去訓練模型,然後讓它去解決Level 3的問題,這無異於只教了加減法,就讓學生去解微積分。結果自然是慘不忍睹。

那麼,如何創造出足夠困難的Level 3訓練資料呢?WebSailor開源了SailorFog-QA,它的生成方式非常巧妙:

圖片

1. 建構複雜知識圖譜:從真實世界的網站出發,透過隨機遊走的方式,建構出一個包含大量實體和複雜關係的高度互聯知識圖譜。這確保了問題的來源是真實的,結構是非線性的。

2. 採樣+提問:從這個複雜的圖中,隨機採樣出一個子圖,然後基於這個子圖生成問題和答案。

3. 製造難度(關鍵步驟):在生成問題時,故意對資訊進行模糊化處理。這招非常高明。

精確的日期,變成「21世紀初」

清晰的名字,變成「一個由F開頭的人創立的機構」

具體的數值,變成「市場份額不到1%」

這種遮蔽處理直接將任務的初始不確定性拉到極致,迫使AI代理必須學會比較、推理、整合資訊,而不是簡單地執行查找。

圖片

從上圖可知,SailorFog-QA所要求的工具呼叫次數分佈與BrowseComp-en基準測試(橙線)驚人地相似,並且遠超其他資料集。用這種高難度資料訓練出來的模型,實戰能力自然非常強悍。

有了高品質的QA資料後,下一步就是生成解題過程的軌跡,讓模型去學習。

傳統方法是找一個更強的專家模型(例如QwQ-32B),讓它生成完整的思考和動作軌跡,然後讓我們的模型去模仿。但這裡有個大問題:專家模型通常非常囉嗦!它們的思考過程充滿了冗長、風格化的「廢話」。直接學習這些,不僅會污染我們模型的思考風格,限制其靈活性,更致命的是,在需要數十步工具呼叫的長任務中,這些廢話很快就會將上下文窗口(Context)塞爆!

WebSailor的做法堪稱教科書級別的「取其精華,去其糟粕」:

1. 讓專家模型生成完整軌跡,但只保留動作-觀察序列(action-observation序列)。這相當於只看大師的操作,而不聽他的碎碎念。

2. 然後,再用另一個強大的指令追蹤模型,為每一步成功的動作反向生成一個簡潔、凝練、直指目標的「思考」。

這樣得到的訓練軌跡,既保留了專家解決問題的核心邏輯,又乾淨俐落,沒有多餘的廢話,非常適合長任務的訓練。

最後是訓練環節。WebSailor採用了「兩步走」策略。

第一步:RFT冷啟動。

他們發現,直接採用強化學習(RL)效果很差,因為任務太難,獎勵太稀疏,模型一開始根本不知道該往哪走。因此,需要先用少量(僅2k)經過篩選的高品質SFT資料進行「冷啟動」,讓模型先掌握基本的工具使用和長鏈推理的「骨架」。

第二步:DUPO演算法強化。

這是他們提出的一個更高效的強化學習(RL)演算法——Duplicating Sampling Policy Optimization (DUPO)。相較於之前的DAPO等方法,它最大的優勢是快速。在AI代理的強化學習訓練中,與環境互動的「rollout」過程非常耗時。DUPO透過一個聰明的技巧——在訓練中,優先複製(duplicate)那些表現出多樣性(部分rollout成功,部分失敗)的樣本來填滿一個批次(batch),而不是從環境中擷取新樣本——極大地提升了訓練效率,實現了約2-3倍的加速。

圖片

從上圖可以看出,強化學習(RL)階段(綠色部分)對模型的性能,尤其是在BrowseComp這種高難度任務上,帶來了巨大的提升。

資料仍然是AI代理時代的護城河。真正的壁壘不在於模型結構,而是在於創造高難度、高不確定性訓練資料的能力。隨著開源AI代理的逐步探索,可以一定程度上降低工程壓力。在複雜的AI代理任務上,基礎模型就能追趕甚至媲美頂級的閉源系統。

開源,未來可期!

paper: https://arxiv.org/pdf/2507.02592

code: https://github.com/Alibaba-NLP/WebAgent

model: https://huggingface.co/Alibaba-NLP/WebDancer-32B

data: https://huggingface.co/datasets/callanwu/WebWalkerQA

主標籤:人工智慧代理

次標籤:開源AI強化學習深度學習機器學習


上一篇:RAG開發者必看Google新論文MUVERA:讓多向量檢索與單向量搜尋一樣快

下一篇:持續強化學習技術最新綜述

分享短網址