ZeroSearch：<阿里技術> 無需瀏覽器，大型語言模型自己獎勵學習

又來學技術了，這回是阿里做的框架技術，這個方向又是做通用 AGI 能力了，如果能做到自助學習，大型語言模型確實一統全知識領域不是問題。於是阿里團隊提 ZeroSearch，激勵 LLM 的搜索能力，而無需與真實的搜索引擎交互，將 LLM 轉換為一個檢索模塊，該模塊能夠根據查詢生成相關文檔和噪音文檔。

強化學習（RL）是當前對大型語言模型訓練最好的方案，也是一種有前途的策略。通過增強推理和決策能力來進一步提高 LLM 的性能。值得注意的是，OpenAI-o1 和 DeepSeek-R1 等基於 RL 的模型已在邏輯推理和迭代推理方面取得了顯著進步（DeepSeek-R1：深度分析，國產 AGI 的第一步），這些純粹是通過獎勵驅動的學習實現的，而無需依賴明確的逐步監督。

在此範式下，一些研究探索了使用強化學習來訓練能夠更有效地搜索相關信息的策略模型。DeepResearcher 引入了與谷歌等商業搜索引擎的實時交互，使模型能夠在與現實世界網絡搜索非常相似的環境中進行訓練（Magentic-One：AI 聯網搜索的實現，多智能體通用方案）。儘管取得了這些進步，但將 RL 與現實世界的搜索場景相結合仍面臨重大挑戰：

文檔質量不受控制：從實時搜索引擎檢索到的文檔質量通常難以預測，從而給訓練過程帶來了噪音和不穩定性。

API 成本過高：RL 訓練需要頻繁部署和大量人工標記，可能涉及數十萬次 API 調用，這會產生巨大的財務成本並嚴重限制可擴展性。

本文重點：

科普 ZeroSearch 架構 & 技術原理

科普 AI 知識

ZeroSearch

ZeroSearch 是一個強化學習框架，使 LLM 無需與真實搜索引擎交互即可學習搜索策略。核心來說就是 LLM 在大規模預訓練過程中獲得了廣泛的世界知識，能夠根據搜索查詢生成相關文檔（自己搞一個小抄歸納課本是吧）。

其中搜索引擎和模擬 LLM 之間的主要區別在於返回內容的文本樣式。通過輕量級監督微調或者 prompt 限定，就能有效地模擬真實搜索引擎的行為。除了消除 API 成本之外，使用 LLM 進行文檔生成的一個重要優勢是能夠控制文檔質量。

怎麼說呢，就是在監督微調期間，通過提示設計來區分導致正確或錯誤答案的文檔，使模擬 LLM 能夠通過調整提示中的幾個詞來學習生成相關或嘈雜的文檔。在此基礎上，在訓練期間引入了一種課程推出機制，其中生成文檔的質量會隨著時間的推移逐漸降低，以模擬越來越具有挑戰性的檢索場景。這使得策略模型能夠首先學習基本的輸出格式和任務要求，然後逐步適應更具挑戰性和噪音的檢索場景。

另外關於 ZeroSearch 可擴展性，增加 GPU 數量可以加快模擬 LLM 的生成吞吐量，從而實現高效的大規模推出。其中使用 3B 的 LLM 作為模擬搜索引擎，也能有效激勵策略模型的搜索能力。7B 的檢索模塊實現了與谷歌搜索相當的性能，而 14B 的檢索模塊甚至超越了谷歌搜索。

ZeroSearch 兼容各種參數大小的基礎模型和指令調整模型，無需單獨的監督預熱階段（預填充也不用？小編覺得阿里有點吹牛逼啊）。此外，它還能與廣泛使用的強化學習算法無縫集成，包括近端策略優化 (PPO)、群體相對策略優化（GRPO）和 Reinforce++。

架構 & 背後原理

介紹核心技術點之前，先來了解下什麼 LLM 檢索, 大家都知道 LLM 推理也是一種檢索過程，類似調用專家系統（瀏覽器）找到一個預測最大的正太分佈概率值（softmax）去預測總結，當然檢索還有更佳完善的外掛（RAG）和強化思維鏈的形勢，

RAG 是通過將相關的外部知識集成到生成流程中來增強生成性能。引導 LLM 完成查詢生成、查詢分解和多輪信息檢索等過程。儘管這些方法有效，但它們通常需要複雜的快速工程，並對模型的推理能力提出了很高的要求。為了提高效率並減少對強黑盒 LLM 的依賴，後續研究提出了針對較小 LLM 的監督微調策略。但是這些增強同時帶來部署的性能消耗和時長消耗。

Self-RAG 採用自我反思機制，通過預測的反射標記迭代地完善模型輸出。

RetroLLM 通過使模型能夠通過約束解碼直接從語料庫生成細粒度證據，從而集成檢索和生成功能。

RAG-star 將檢索到的信息整合到基於蒙特卡洛樹搜索 (MCTS) 的推理過程中，它在推理過程中動態擴展搜索空間。

AirRAG 採用蒙特卡洛樹搜索（MCTS）來激活內在推理能力並擴展解空間。

強化思維鏈就是很簡單了，利用 DeepResearcher 類似框架設置 agent 檢索所需要知識。

零檢索

回到正文零檢索定義，阿里團隊給出這樣的描述，利用 LLM 來模擬搜索引擎，從而消除了對真實搜索引擎的需求。如下圖

團隊展示了兩種強化學習算法（PPO 和 GRPO）在 ZeroSearch 框架中的應用流程。其中 rollout 序列包含策略模型生成的 token 和模擬 LLM 返回的文檔 token。

這裡有一個問題，對兩種類型的 token 統一應用相同的優化程序可能會導致訓練不穩定，因為檢索到的內容是外部生成的，不受策略模型直接控制。

為了緩解這個問題，團隊為檢索到的 token 引入了損失掩蔽機制，確保梯度僅針對模型自身的輸出進行計算。此策略能夠穩定強化學習的訓練過程，同時保持檢索增強生成的有效性。

整體交互分為三個不同的階段：首先，模型在 ... 標籤中清晰地表達其內部推理。其次，如果需要更多證據，它會在標籤內發出搜索查詢

...。最後，一旦檢索到足夠的信息，模型就會在 ... 標籤中提供答案。

（圖片來自附錄）

先看 PPO，它是一種策略梯度算法，旨在最大化期望獎勵，同時通過限制策略更新的幅度來確保訓練穩定性。其核心思想是：策略模型的更新不能過於激進，避免因單次更新導致性能崩潰。從策略模型開始，π(θ) 也就是基本 value model 根據輸入問題生成軌跡，需要考慮幾個標籤問題，如推理（），需要分析是否需要搜索信息，搜索（

）生成查詢 prompt，檢索（）模擬搜索引擎返回相關或噪音文檔，最終答案（）生成最終答案。然後根據從獎勵模型和參照模型得到 r，通過下面計算公式得到 A, 然後更新策略模型。

而 RPO 通過組內相對獎勵比較優化策略，減少對絕對獎勵值的依賴，從而提升訓練效率和穩定性。策略模型會產生多條鏈路（O(1)...O(g)）每組軌跡對應不同的搜索查詢和答案生成嘗試。然後根據 r 集合結果，對獎勵排名調整策略概率，鼓勵高獎勵行為，抑制低獎勵行為。最後反饋策略模型更新。

PPO 像“嚴格教練”：要求學生在每次考試中分數提升，但禁止突然改變學習方法（如從死記硬背轉向發散思維）。

GRPO 像“競爭票選”：學生通過組內排名知道哪些方法更有效（如 A 方法得分高於 B 方法），從而自主調整策略。

有點懵是吧，白話總結下上述 case，假設有個策略模型收到“誰是小編？他的生活的城市在哪？”模型會模擬“自言自語”分析問題也就是，如：“我需要先找到這篇文章的作者，再查他的生活的城市。” 然後生成搜索查詢

，如：“小編生活的城市”。模擬搜索引擎（更新後的策略模型，也就是降噪的）根據查詢返回文檔拿到。最終生成答案，如：“湖南長沙”。

為此阿里提出一個公式來做到在最大化獎勵（答案準確性）的同時，通過 KL 散度約束策略模型 π(θ) 與參考模型 π(ref) 的差異，確保策略更新穩定可控。

其中 π(θ）表示待優化的策略模型，負責生成搜索查詢和最終答案。而反之 π(ref) 就是參考模型（通常為初始策略模型），用於約束策略更新，防止過大的偏離。r(ϕ) 一眼能看出來是一個獎勵函數，基於答案的準確性提供反饋，主要在π(ref) 和π(θ）得出 y 的最優解。π(ψ) 表示模擬搜索引擎的LLM，參數固定，根據查詢生成文檔。β 表示KL散度的權重係數，平衡獎勵最大化與策略穩定性。

另外重點是這個獎勵函數的設計，這個獎勵函數是核心機制，第一獎勵函數能指導模型學習方向，根據生成的答案 y 與標準答案的匹配程度，獎勵函數量化模型的正確性。如：若答案完全正確，則獎勵值高，反之則獎勵值低。第二能避免獎勵劫持（Reward Hacking），這裡使用嚴格匹配（Exact Match, EM）能避免模型通過生成冗長答案“碰運氣”包含正確答案，而分數綜合考慮精確率（答案中正確部分的比例）和召回率（標準答案被覆蓋的比例），促使模型生成簡潔且準確的答案。最後就是動態調整，獎勵值的高低直接影響策略模型 π(θ) 的參數更新方向，使其逐步偏向高獎勵的檢索或者推理。

微調

團隊提出了一種輕量級監督微調 (SFT) 程序。具體來說通過促使 LLM 以多輪方式與真實搜索引擎交互，直至得出最終答案來收集交互軌跡。產生正確答案的軌跡被標記為正向，表示檢索到的文檔有用。反之導致錯誤答案的軌跡被標記為負向，表示檢索結果存在噪音。

然後，團隊從正向和負向軌跡中提取查詢-文檔對，並執行輕量級的 SFT，以提高 LLM 模擬真實搜索引擎的能力。如下面所示，通過調整提示中的幾個詞語，可以區分有用檢索和噪音檢索。此外還將輸入問題及其對應的答案合併到提示中，以拓寬LLM的知識邊界。經過微調後，LLM 能夠生成有用文檔和噪音文檔，從而實現在部署過程中的動態文檔質量控制。

（圖片來自附錄）

自動化學習機制

通過上述策略模型設計與 prompt，團隊部署了一個全自動的 agent 來實現自我學習。這個過程中，策略模型進行交互式推理並生成搜索查詢，這些查詢會被輸入到模擬 LLM 中以生成相應的文檔。為了逐步提高訓練難度，引入了一種基於課程學習的部署機制，其中生成文檔的質量會隨著時間的推移逐漸降低。由一個概率函數控制。

這裡，p(s) 和 p(e) 表示初始和最終噪音概率，i 和 m 表示當前訓練步數和總訓練步數，b是指數底數，默認值為 4。隨著訓練的進行，比率 i/m 增加，導致更高的 p(i) 價值產生即，一開始生成噪音文檔的可能性更大。但這使得策略模型能夠首先學習基本的輸出結構和任務要求，然後逐步適應更具挑戰性和噪音更大的檢索場景。

其中獎勵信號在強化學習過程中充當主要監督作用。在本研究中，團隊採用了基於規則的獎勵函數，該函數僅關注答案的準確性。在初步實驗中，團隊觀察到使用完全匹配 (EM) 作為獎勵指標經常導致獎勵作弊，策略模型傾向於生成過長的答案，以增加包含正確答案的概率（搞一堆花裡胡哨的來作弊是吧）。為了緩解這個問題，團隊採用了基於 F1 分數的獎勵函數，該函數在準確率和召回率之間取得平衡，其計算方式如下：

其中 IN 表示預測結果與真實結果重疊的詞數，PN 表示預測結果的詞數，RN 表示真實結果的詞數。

效果對比

為了評估 ZeroSearch 的有效性，團隊方法利用開放模型（Qwen）不同尺寸與以下基線進行了比較。

原始提示方法：此類別包括直接提示、思路鏈 (CoT) 和標準檢索增強生成 (RAG)。

高級 RAG 方法：考慮 RAgent 和 Search-o1，迭代地搜索相關信息。

強化學習調優方法：這類方法包括 R1 和 Search-R1 在 R1 中，策略模型僅基於其內部知識進行訓練，進行深度推理。

（圖片來自附錄）

ZeroSearch 的表現始終優於所有基線方法。這一性能優勢在領域內數據集（例如NQ 和 HotpotQA）和領域外數據集（例如 TriviaQA、PopQA、2WikiMultiHopQA、Musique 和 Bamboogle）中均有體現，充分證明了團隊方法的穩健性。

另外 ZeroSearch 超越了依賴真實搜索引擎的方法。與使用真實搜索引擎的 Search-R1 相比，ZeroSearch 取得了更佳的性能，凸顯了其在大規模強化學習中作為真實搜索引擎有效替代方案的潛力。並且 ZeroSearch 展現出強大的泛化能力。在不同的模型系列、參數大小和類型（例如，基礎模型或指令調整模型）中，ZeroSearch 的表現始終優於基準模型。此外，隨著模型規模的擴大，其性能進一步提升，凸顯了其可擴展性。

結論

ZeroSearch，這是一個新穎的強化學習框架，它無需與真實搜索引擎交互即可增強 LLM 的搜索能力。通過監督式微調，LLM 被轉換為一個能夠生成相關文檔和噪音文檔的檢索模塊。整體設計採用課程推廣機制，通過將模型暴露於越來越具有挑戰性的檢索場景來逐步提升推理能力。實驗結果表明，ZeroSearch 的性能優於基於真實搜索的模型，在不同規模的基礎 LLM 和指令調整的 LLM 上均具有良好的泛化能力，並且支持多種強化學習算法。

附錄：

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://arxiv.org/html/2505.04588v1

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://github.com/Alibaba-NLP/ZeroSearch/blob/main/llm_agent/generation.py

ZeroSearch：<阿里技術> 無需瀏覽器，大型語言模型自己獎勵學習

分享短網址