阿里巴巴深夜開源「王牌」Agent！硬槓OpenAI，性能全面超越SOTA！

過去半年來，人工智慧代理（AI Agent）一直有個令人頭痛的問題：為什麼開源的AI代理在解決真正複雜的難題時，總是會被OpenAI的DeepResearch徹底擊敗？儘管我們看到了WebDancer、R1-Searcher等無數優秀的開源專案，但在OpenAI提出的那個極度困難的BrowseComp榜單上，大家的得分基本上都是零分。這道鴻溝，似乎難以跨越。昨天，阿里巴巴通義開源了他們最新的網路代理模型——WebSailor。除了開源模型、程式碼和論文，它還透過一套完整且可重現的方法論，告訴了所有人：開源AI代理也能實現超凡的推理能力，挑戰閉源的霸權！

首先，我們必須搞清楚，為什麼以前的開源AI代理不行？論文指出，問題出在訓練資料的難度上。之前的訓練方法，基本上都圍繞著兩類任務：

Level 1: 低不確定性任務，例如單次搜尋就能找到答案的問題。

Level 2: 路徑明確的多跳任務，例如「阿里巴巴現任CEO的母校的第一位中科院院士是誰？」這類問題。雖然複雜，但推理路徑是固定的、線性的。

然而，現實中許多挑戰，屬於Level 3：極高的不確定性 + 極其複雜的探索路徑。它沒有標準的答案路徑，需要AI代理像一個真正的研究員一樣，在資訊的海洋裡不斷探索、篩選、整合與推理。用Level 1和Level 2的資料去訓練模型，然後讓它去解決Level 3的問題，這無異於只教了加減法，就讓學生去解微積分。結果自然是慘不忍睹。

那麼，如何創造出足夠困難的Level 3訓練資料呢？WebSailor開源了SailorFog-QA，它的生成方式非常巧妙：

1. 建構複雜知識圖譜：從真實世界的網站出發，透過隨機遊走的方式，建構出一個包含大量實體和複雜關係的高度互聯知識圖譜。這確保了問題的來源是真實的，結構是非線性的。

2. 採樣+提問：從這個複雜的圖中，隨機採樣出一個子圖，然後基於這個子圖生成問題和答案。

3. 製造難度（關鍵步驟）：在生成問題時，故意對資訊進行模糊化處理。這招非常高明。

精確的日期，變成「21世紀初」。

清晰的名字，變成「一個由F開頭的人創立的機構」。

具體的數值，變成「市場份額不到1%」。

這種遮蔽處理直接將任務的初始不確定性拉到極致，迫使AI代理必須學會比較、推理、整合資訊，而不是簡單地執行查找。

從上圖可知，SailorFog-QA所要求的工具呼叫次數分佈與BrowseComp-en基準測試（橙線）驚人地相似，並且遠超其他資料集。用這種高難度資料訓練出來的模型，實戰能力自然非常強悍。

有了高品質的QA資料後，下一步就是生成解題過程的軌跡，讓模型去學習。

傳統方法是找一個更強的專家模型（例如QwQ-32B），讓它生成完整的思考和動作軌跡，然後讓我們的模型去模仿。但這裡有個大問題：專家模型通常非常囉嗦！它們的思考過程充滿了冗長、風格化的「廢話」。直接學習這些，不僅會污染我們模型的思考風格，限制其靈活性，更致命的是，在需要數十步工具呼叫的長任務中，這些廢話很快就會將上下文窗口（Context）塞爆！

WebSailor的做法堪稱教科書級別的「取其精華，去其糟粕」：

1. 讓專家模型生成完整軌跡，但只保留動作-觀察序列（action-observation序列）。這相當於只看大師的操作，而不聽他的碎碎念。

2. 然後，再用另一個強大的指令追蹤模型，為每一步成功的動作反向生成一個簡潔、凝練、直指目標的「思考」。

這樣得到的訓練軌跡，既保留了專家解決問題的核心邏輯，又乾淨俐落，沒有多餘的廢話，非常適合長任務的訓練。

最後是訓練環節。WebSailor採用了「兩步走」策略。

第一步：RFT冷啟動。

他們發現，直接採用強化學習（RL）效果很差，因為任務太難，獎勵太稀疏，模型一開始根本不知道該往哪走。因此，需要先用少量（僅2k）經過篩選的高品質SFT資料進行「冷啟動」，讓模型先掌握基本的工具使用和長鏈推理的「骨架」。

第二步：DUPO演算法強化。

這是他們提出的一個更高效的強化學習（RL）演算法——Duplicating Sampling Policy Optimization (DUPO)。相較於之前的DAPO等方法，它最大的優勢是快速。在AI代理的強化學習訓練中，與環境互動的「rollout」過程非常耗時。DUPO透過一個聰明的技巧——在訓練中，優先複製（duplicate）那些表現出多樣性（部分rollout成功，部分失敗）的樣本來填滿一個批次（batch），而不是從環境中擷取新樣本——極大地提升了訓練效率，實現了約2-3倍的加速。

從上圖可以看出，強化學習（RL）階段（綠色部分）對模型的性能，尤其是在BrowseComp這種高難度任務上，帶來了巨大的提升。

資料仍然是AI代理時代的護城河。真正的壁壘不在於模型結構，而是在於創造高難度、高不確定性訓練資料的能力。隨著開源AI代理的逐步探索，可以一定程度上降低工程壓力。在複雜的AI代理任務上，基礎模型就能追趕甚至媲美頂級的閉源系統。

開源，未來可期！

paper: https://arxiv.org/pdf/2507.02592

code: https://github.com/Alibaba-NLP/WebAgent

model: https://huggingface.co/Alibaba-NLP/WebDancer-32B

data: https://huggingface.co/datasets/callanwu/WebWalkerQA

阿里巴巴深夜開源「王牌」Agent！硬槓OpenAI，性能全面超越SOTA！

分享短網址