ZeroSearch:零搜索強化激勵模型潛能,LLM 搜索能力開啟新紀元

图片

目前主流的大语言模型厂商,甚至是做Agent智能体的公司都在使用外部的联网搜索API接口和功能获取数据,无一例外的都使用到了真实的搜索引擎或者联网搜索API接口,传统搜索引擎的调用,往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题,阿里巴巴通义团队开源了一套全新的解决方案ZeroSearch,ZeroSearch 引入了一种全新的强化学习框架——在不与真实搜索引擎交互的前提下训练出“搜索能力”。以下是论文《ZeroSearch: Incentivize the Search Capability of LLMs without Searching》完整的译文,Enjoy。

图片

简介

有效的信息搜索对于增强大型语言模型 (LLM) 的推理和生成能力至关重要。近期研究探索了利用强化学习 (RL),通过在现实环境中与实时搜索引擎交互来提升 LLM 的搜索能力。虽然这些方法取得了令人鼓舞的成果,但它们面临两大挑战:(1) 文档质量失控:搜索引擎返回的文档质量通常难以预测,从而给训练过程带来了噪音和不稳定性。(2) API 成本过高:RL 训练需要频繁Rollout,可能涉及数十万个搜索请求,这会产生大量的 API 开销,并严重限制可扩展性。为了应对这些挑战,我们引入了 ZS,这是一个强化学习框架,它可以在不与真实搜索引擎交互的情况下激励 LLM 的搜索能力。我们的方法首先是轻量级的监督微调,将 LLM 转换为一个能够响应查询生成相关文档和噪声文档的检索模块。在强化学习训练过程中,我们采用基于课程的推出策略,逐步降低生成文档的质量,并通过将模型暴露于越来越具有挑战性的检索场景来逐步提升其推理能力。大量实验表明,ZS 能够有效地激励使用 3B LLM 作为检索模块的 LLM 的搜索能力。值得注意的是,7B 检索模块的性能与真实搜索引擎相当,而 14B 检索模块的性能甚至超越了真实搜索引擎。 此外,它在各种参数大小的基础模型和指令调整模型中都有很好的推广,并且与各种 RL 算法兼容。

1、介绍

大型语言模型 (LLM)在一系列下游任务中展现出卓越的性能,包括数学推理、问答和代码生成。然而,这些模型中编码的知识本质上是静态的,受限于预训练期间所接触数据的范围。因此,LLM 仍然容易生成虚假内容或过时信息,这削弱了它们在实际应用中的可靠性。因此,让 LLM 能够访问外部信息源,以生成更准确、更扎实的响应至关重要。

解决该问题的一种广泛采用的方法是检索增强生成(RAG),它将外部知识纳入生成流程。早期该领域的工作侧重于基于提示的策略,这些策略指导 LLM 完成查询生成、查询分解和多轮信息检索。虽然这些策略有效,但它们通常需要细致的提示工程,并对模型的推理能力提出很高的要求。为了提高效率,后续研究探索了监督微调 (SFT),以增强较小 LLM 的性能。进一步的进展集中在测试时间扩展技术(Test-Time Scaling),例如蒙特卡洛树搜索 (MCTS),它可以在推理过程中动态扩展搜索空间。尽管这种方法很有前景,但它们会产生大量的计算开销,对实际Rollout构成了挑战。

最近,强化学习 (RL) 已成为一种有前途的策略,可通过增强其推理和决策能力来进一步提高 LLM 的性能。值得注意的是,基于 RL 的模型(例如 OpenAI-o1 和 DeepSeek-R1)已在逻辑推理和迭代推理方面取得了显著的进步——这完全是通过奖励驱动的学习实现的,而无需依赖于明确的逐步监督。在此范式下,一些研究探索了使用 RL 来训练可以更有效地搜索相关信息的策略模型。代表性示例包括 Search-R1、R1-Searcher和 ReSearch。值得注意的是,DeepResearcher引入了与 Google 等商业搜索引擎的实时交互,使模型能够在与现实世界网络搜索非常相似的环境中进行训练。尽管取得了这些进步,将 RL 与现实世界的搜索场景相结合仍然面临着重大挑战:(1)不受控制的文档质量:从实时搜索引擎检索到的文档质量通常无法预测,从而给训练过程带来了噪音和不稳定性。(2)过高的 API 成本:RL 训练需要频繁推出,可能涉及数十万次 API 调用,这会产生巨大的财务成本并严重限制可扩展性。

为了应对这些挑战,我们提出了 ZS——一个强化学习框架,它使 LLM 能够在不与真实搜索引擎交互的情况下学习搜索策略。我们的关键洞察其关键优势在于,LLM 在大规模预训练过程中获得了广泛的世界知识,能够根据搜索查询生成相关文档。真实搜索引擎与模拟 LLM 的主要区别在于返回内容的文本风格。

然而,通过轻量级监督微调,即使是相对较小的 LLM 也能有效地模拟真实搜索引擎的行为。除了消除 API 成本外,使用 LLM 进行文档生成的一个重要优势是能够控制文档质量。具体来说,在监督微调过程中,通过提示设计区分导致正确或错误答案的文档,使模拟 LLM 能够通过调整提示中的几个单词来学习生成相关或嘈杂的文档。在此基础上,我们在训练过程中引入了一种课程推出机制(Curriculum Rollout),其中生成文档的质量会随着时间的推移逐渐降低,以模拟越来越具有挑战性的检索场景。这使得策略模型能够首先学习基本的输出格式和任务要求,然后再逐步适应更具挑战性和噪声更大的检索场景。更重要的是,ZS 展现出强大的可扩展性:增加 GPU 数量可以显著加速模拟 LLM 的生成吞吐量,从而实现高效的大规模推出。实证结果表明,即使使用 3B 的 LLM 作为模拟搜索引擎,也能有效激励策略模型的搜索能力。7B 的检索模块性能堪比谷歌搜索,而 14B 的检索模块甚至超越了谷歌搜索。ZS 兼容各种参数大小的基础模型和指令调优模型,无需单独的监督预热阶段。此外,它还能与广泛使用的强化学习算法无缝集成,包括近端策略优化 (PPO)、组相对策略优化 (GRPO)和 Reinforce++ 。

我们的贡献可以概括如下:

  • 我们提出了 ZS,一种新颖的强化学习框架,它无需与真实的搜索引擎交互即可激励 LLM 的搜索能力。

  • 通过监督微调,我们将 LLM 转换为一个检索模块,能够根据查询生成相关文档和噪声文档。我们进一步引入了课程推出机制,通过让模型接触越来越具有挑战性的检索场景,逐步提升其推理能力。

  • 我们对域内和域外数据集进行了广泛的实验。结果表明,ZS 的表现优于基于真实搜索引擎的模型,同时无需任何 API 成本。此外,它在各种参数大小的基础 LLM 和指令调优的 LLM 上均表现出色,并支持不同的强化学习算法。

2、相关工作

2.1检索增强生成

检索增强生成 (RAG) 通过将相关的外部知识集成到生成流程中来增强生成性能。早期研究主要采用基于提示的方法,引导 LLM 完成查询生成、查询分解和多轮信息检索等过程。尽管这些方法有效,但它们通常需要复杂的提示工程,并对模型的推理能力提出了很高的要求。为了提高效率并减少对强黑盒 LLM 的依赖,后续研究提出了针对较小 LLM 的监督微调策略。例如,Self-RAG采用自反射机制,通过预测的反射标记迭代地细化模型输出。RetroLLM通过约束解码使模型能够直接从语料库中生成细粒度证据,从而将检索和生成集成在一起。最近的进展还包括测试时间扩展技术,尤其是蒙特卡洛树搜索 (MCTS),它可以在推理过程中动态扩展搜索空间。例如,RAG-star将检索到的信息集成到基于树的推理过程中,而 AirRAG则采用 MCTS 来激活内在推理能力并扩展解决方案空间。尽管取得了令人鼓舞的成果,但这些方法引入了显著的计算开销,限制了其实际应用。

2.2 通过强化学习进行搜索学习

近年来,强化学习 (RL) 已成为提升法学硕士 (LLM) 推理能力的有前景的范例。OpenAI-o1 和 DeepSeekR1 等基于 RL 的著名模型已展现出卓越的逻辑推理和迭代推理能力,这些模型纯粹由奖励信号驱动,无需明确的逐步监督。一些研究还探索了专门用于训练模型进行有效信息检索的 RL 技术。例如,Search-R1利用强化学习在逐步推理过程中自主生成多个搜索查询。同样,R1-Searcher提出了一种两阶段、基于结果的 RL 方法,旨在增强搜索能力。ReSearch 利用 RL 教模型通过搜索进行推理,完全无需对中间推理步骤进行监督。然而,这些方法通常使用静态的本地文本语料库(例如维基百科),无法捕捉现实世界交互的复杂性。为了弥补这一差距,DeepResearcher引入了与谷歌等商业搜索引擎的直接交互,从而允许训练环境与现实世界的搜索场景紧密贴合。虽然这些实时检索方法取得了卓越的性能,但也面临着诸多挑战,例如文档质量难以预测、API 成本过高(这些因素会对系统的可扩展性产生不利影响)。为了突破这些限制,我们提出了 ZS,一种利用 LLM 模拟实时搜索的方法,有效地消除了对成本高昂、速率受限的真实搜索 API 的依赖。通过轻量级的监督式微调,ZS 可以明确控制文档质量,并实现课程推出机制,从而增强训练的稳定性。鲁棒性。

3、ZeroSearch

在本节中,我们首先形式化地阐述了不使用搜索引擎的强化学习目标。然后,我们详细介绍了 ZS 的设计,涵盖训练模板、搜索模拟调优、基于课程的Rollout策略、奖励设计和训练算法。

3.1 无搜索引擎的强化学习

我们提出了一个强化学习框架,通过利用 LLM 来模拟搜索引擎,从而消除了对真实搜索引擎的需求。优化目标公式如下:

图片

其中 πθ 是待优化的策略模型,πref 是参考模型,rϕ 表示奖励函数。πψ 表示模拟 LLM,其参数在整个训练过程中保持不变。

图 1:不使用搜索引擎的 PPO 和 GRPO 训练演示。

图 1:不使用搜索引擎的 PPO 和 GRPO 训练演示。

3.2 训练模版

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

表 1:训练模板。在训练和推理过程中,问题会被附加在最后。

在 ZS 中,我们并不依赖监督微调进行生成,而是遵循并应用多轮交互模板,该模板引导策略模型进行迭代推理和信息检索,直到得出最终答案。

如表 1 所示,交互分为三个不同的阶段:首先,模型在<think>…<think>标签。其次,如果需要额外的证据,它会在<search>…<search>标签。最后,一旦检索到足够的信息,模型就会在<answer>……<answer>标签。这种推理、搜索和回答的明确分离强制了结构化的决策过程,增强了模型的透明度和可靠性。

3.3 搜索模拟调优

在Rollout过程中,我们使用 LLM 来模拟真实的搜索引擎,根据查询生成文档。一种简单的方法是直接提示 LLM 生成文档。然而,与真实搜索引擎的输出相比,这通常会导致明显的风格差距。

为了弥补这一差距,我们提出了一种轻量级监督微调 (SFT) 程序。具体来说,我们首先通过促使 LLM 以多轮方式与真实搜索引擎交互,直至得出最终答案来收集交互轨迹。产生正确答案的轨迹被标记为正向,表示检索到的文档有用;而导致错误答案的轨迹被标记为负向,表示检索结果存在噪声。

然后,我们从正向和负向轨迹中提取查询-文档对,并执行轻量级的 SFT,以提高 LLM 模拟真实搜索引擎的能力。如表 2 所示,通过调整提示中的几个词语,可以区分有用检索和噪声检索。此外,我们还将输入问题及其对应的答案合并到提示中,以拓宽 LLM 的知识边界。经过微调后,LLM 能够生成有用文档和噪声文档,从而实现在Rollout过程中进行动态文档质量控制。

3.4 Rollout with Curriculum Search Simulation

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

在Rollout过程中,策略模型执行交互式推理并生成搜索查询,这些查询会被输入到模拟 LLM 中以生成相应的文档。为了逐步提高训练难度,我们引入了一种基于课程学习的Rollout机制,其中生成文档的质量会随着时间的推移逐渐下降。这由一个概率函数 pi 控制,该函数控制着在步骤 i 生成噪声文档的可能性:

其中,ps 和 pe 分别表示初始和最终的噪声概率,i 和 m 分别表示当前和总的训练步数,b 是指数基数,默认值为 4。随着训练的进行,i/m 的比率会增加,导致 pi 值更高,即产生噪声文档的概率更大。这使得策略模型能够首先学习基本的输出结构和任务要求,然后再逐步适应更具挑战性和噪声更大的检索场景。

3.5 奖励设计

奖励信号在强化学习过程中充当主要监督作用。在本研究中,我们采用了基于规则的奖励函数,该函数仅关注答案的准确性。在初步实验中,我们观察到使用完全匹配 (EM) 作为奖励指标经常导致奖励作弊:策略模型倾向于生成过长的答案,以增加包含正确答案的概率。为了缓解这个问题,我们采用了基于 F1 分数的奖励函数,该函数在准确率和召回率之间取得平衡,其计算方式如下:

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

其中 IN 表示预测结果与真实结果重叠的词数,PN 表示预测结果的词数,RN 表示真实结果的词数。我们没有针对输出格式加入额外的奖励,因为我们观察到该模型在没有明确监督的情况下始终能够生成格式良好的响应。

3.6 训练算法

我们的方法与各种强化学习算法兼容,包括近端策略优化 (PPO)、组相对策略优化 (GRPO) 和 Reinforce++,每种算法在优化检索增强推理方面都具有独特的优势。

在 ZS 中,rollout 序列包含策略模型生成的 token 和模拟 LLM 返回的文档 token。对两种类型的 token 统一应用相同的优化程序可能会导致训练不稳定,因为检索到的内容是外部生成的,不受策略模型直接控制。

为了缓解这个问题,我们为检索到的 token 引入了损失掩蔽机制,确保梯度仅针对模型自身的输出进行计算。此策略能够稳定强化学习的训练过程,同时保持检索增强生成的有效性。

4 主要结果

4.1 数据集和评估指标

我们在一系列不同的问答基准上评估了 ZS:(1)单跳问答,包括 NQ、TriviaQA 和 PopQA。(2)多跳问答,包括 HotpotQA、2WikiMultiHopQA、Musique和 Bamboogle。

我们遵循,采用精确匹配(EM)作为评估指标。如果预测的归一化形式与任何一个归一化的真实答案完全匹配,则该预测被视为正确。

4.2 基线

为了评估 ZS 的有效性,我们将我们的方法与以下基线方法进行了比较。(1)原始提示方法:此类别包括直接提示、思维链 (CoT) 和标准检索增强生成 (RAG)。(2)高级 RAG 方法:我们考虑 RAgent 和 Search-o1,它们迭代地搜索相关信息。(3)RL 调优方法:此类别包括 R1 和 Search-R1。在 R1 中,策略模型经过训练,可以仅基于其内部知识执行深度推理。相比之下,Search-R1 使策略模型能够在推理过程中与真实搜索引擎进行多次交互。

为了确保公平比较,我们采用 F1 分数作为所有 RL 方法的奖励指标。值得注意的是,在基于强化学习的搜索基线中,我们仅与 Search-R1 进行比较,因为它避免了复杂的奖励设计、数据选择或繁琐的训练流程。这种设置允许在真实搜索引擎和我们的模拟搜索引擎之间进行直接且公平的比较。

4.3 实验设置

我们使用三个模型系列进行实验:Qwen-2.5-7B (Base/Instruct) 和 Qwen-2.5-3B (Base/Instruct),以及 LLaMA-3.2-3B (Base/Instruct)。为了模拟真实的检索场景,我们通过 SerpAPI 使用 Google Web Search 作为外部搜索引擎。为了确保公平比较,所有方法的检索文档数量均固定为 5。

对于数据集,我们按照Search-R1中的设置,合并了 NQ 和 HotpotQA 的训练集,从而为所有基于微调的方法创建了一个统一的数据集。我们在七个数据集上进行了评估,以评估域内和域外的性能。对于基于提示的基线模型,我们使用 Instruct 模型,因为 Base 模型通常难以遵循任务指令。对于基于强化学习的方法,我们同时评估 Base 和 Instruct 的变体,以评估跨模型类型的通用性。

为了训练模拟 LLM,我们使用 Qwen-2.5-3B、Qwen-2.5-7B 和 Qwen-2.5-14B 作为主干网络进行了轻量级 SFT。学习率设为 1e-6。为了训练 ZS,我们采用了两种强化学习算法:GRPO 和 PPO。在 GRPO 设置中,策略 LLM 以 1e-6 的学习率进行训练,每个提示采样 5 个响应。在 PPO 设置中,策略 LLM 以 1e-6 的学习率进行训练,而价值模型则以单独的 1e-5 的学习率进行训练。我们应用广义优势估计 (GAE),超参数为 λ = 1 和 γ = 1。除非另有说明,否则在所有实验中,GRPO 均用作默认强化学习算法,Qwen-2.5-14B 均用作默认模拟 LLM。

4.4 性能

下表 3 展示了 ZS 与几种基线方法在 7 个数据集上的比较。根据结果,可以得出几个关键的观察结果:

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

ZS 始终优于所有基线方法。这一性能优势对于领域内数据集(例如 NQ 和 HotpotQA)和领域外数据集(例如 TriviaQA、PopQA、2WikiMultiHopQA、Musique 和 Bamboogle)均有效,证明了我们方法的稳健性。

ZS 超越了依赖真实搜索引擎的方法。与使用真实搜索引擎的 Search-R1 相比,ZS 取得了更佳的性能,凸显了其在大规模强化学习中作为真实搜索引擎有效替代方案的潜力。

ZS 展现出强大的泛化能力。在不同的模型系列、参数大小和类型(例如,基础模型或指令调整模型)中,ZS 的表现始终优于基线模型。此外,随着模型的增大,其性能得到进一步提升,凸显了其可扩展性。

5 进一步分析

5.1 ZS 与真实搜索引擎的比较

我们比较了 ZSand Search-R1(使用真实搜索引擎)在 LLaMA-3.2-3B 上的奖励曲线,如下图 2a 和 2b 所示。我们可以得出几个关键的观察结果:

两种方法的总体奖励趋势相似。随着训练的进行,奖励ZS 和 Search-R1 的得分都在稳步提高,表明两种设置中的策略模型都能有效地学习与搜索引擎交互并产生正确的答案。

ZS 实现了更稳定、更平滑的学习曲线。如图 2b 所示,ZS 最初落后于 Search-R1,但最终以更小的波动超越了 Search-R1,这得益于课程机制帮助模型逐步掌握搜索工具的使用方法。

ZS 在基础模型和指令调整模型上都有很好的泛化能力。在两种模型类型下,ZEROSEARCH 均稳步提升了奖励表现,凸显了其普遍性

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

图 2:(a-b):使用 LLaMA-3.23B 对 ZSand Search-R1 进行奖励曲线比较。 (c):LLaMA-3.2-3B-base 训练期间的互动轮次和奖励进展。

表 4:使用不同 LLM 配置的模拟搜索引擎的性能。我们将基于提示和经过微调的模拟 LLM(3B 至 14B)与 Google 搜索进行了比较。

表 4:使用不同 LLM 配置的模拟搜索引擎的性能。我们将基于提示和经过微调的模拟 LLM(3B 至 14B)与 Google 搜索进行了比较。

5.2 大语言模型的选择

在本节中,我们将研究不同的模拟引擎配置如何影响性能,包括基于提示的 LLM 和经过微调的 LLM,参数范围从 3B 到 14B。基于表 4 中的结果,我们得出以下观察结果:

首先,经过微调的 7B 模拟引擎 (SFT-7B) 的性能与谷歌搜索相当,而 14B 版本 (SFT-14B) 的性能甚至超越了谷歌搜索。这证明了在强化学习环境中使用训练有素的 LLM 替代真实搜索引擎的可行性。

其次,经过微调的模拟引擎的性能显著优于基于提示的引擎。尽管基于提示的方法明确地模拟了真实搜索引擎的响应风格,但仍然存在巨大的分布差距,导致性能较差。

第三,性能随着模型规模的增加而持续提升。更大的模拟 LLM 不仅展现出更强的模拟能力,而且能够更准确地区分相关文档和不相关文档,从而能够在训练过程中实现更有效的课程学习。

5.3 互动轮次研究

在本节中,我们将使用 LLaMA3.2-3BBase 模型,通过考察奖励进程和训练过程中的交互次数,分析 ZS 的训练动态。结果如上图 2c 所示。

在训练初期,交互次数急剧下降,而奖励增加缓慢。这主要是因为策略模型最初缺乏如何正确调用搜索引擎的知识,导致交互冗余。然而,它很快就学会了正确的格式,并开始有效地消除不必要的步骤。

随着训练的进行,交互次数和奖励曲线都会急剧增加,然后趋于稳定。这主要是因为策略模型能够有效地检索相关文档并最终获得正确答案,从而获得更高的奖励。值得注意的是,尽管奖励在训练后期看似稳定,但由于课程机制的影响,底层任务难度会持续上升。因此,必须不断改进策略并提升推理能力,才能保持稳定的性能。

表 6:逆向课程研究。我们使用 Qwen-2.5-3B-Base 和 Qwen-2.5-3B-Instruct 模型比较了标准课程和逆向课程推广设置的表现。

表 5:ZS 在不同 RL 算法下的性能。我们使用 Qwen2.5-3B-Base 和 LLaMA-3.2-3B-Base 模型比较了 PPO 和 GRPO。

表 6:逆向课程研究。我们使用 Qwen-2.5-3B-Base 和 Qwen-2.5-3B-Instruct 模型比较了标准课程和逆向课程推广设置的表现。

表 6:逆向课程研究。我们使用 Qwen-2.5-3B-Base 和 Qwen-2.5-3B-Instruct 模型比较了标准课程和逆向课程推广设置的表现。

5.4 不同的 RL 算法:PPO 与 GRPO

在本节中,我们将使用 Qwen2.5-3B-Base 和 LLaMA-3.2-3B-Base 模型,评估 ZS 框架下两种广泛采用的强化学习 (RL) 训练算法 PPO 和 GRPO 的性能。比较结果如上表 5 所示。

经观察,GRPO 和 PPO 均成功激励了我们框架内的搜索能力,展现了我们方法的多功能性。其中,GRPO 在两种模型中均表现出更稳定的性能,凸显了其在训练稳定性方面的优势。值得注意的是,GRPO 中的重复 rollout 机制在与真实搜索引擎交互时会产生更高的 API 成本,这进一步凸显了我们模拟搜索设置的实用性。

5.5 逆向课程研究

在本节中,我们将课程推广策略与逆向课程设置进行比较,以分析其有效性。在逆向课程设置中,通过逐步提高检索到的文档质量,训练难度会随着时间的推移而降低。结果如上表 6 所示。

结果清晰地表明,在两个模型中,标准“由易到难”的课程模式始终优于反向“由难到易”的课程模式,这证明了我们框架中课程学习的有效性。从更优的搜索结果入手,可以让策略模型首先学习如何调用搜索引擎并理解基本的输出格式。随着训练的进行,模型会接触到越来越具有挑战性的场景,从而培养出更强大的推理能力。

6 结论

在本文中,我们提出了一种新颖的强化学习 (RL) 框架 ZS,它无需与真实搜索引擎交互即可增强 LLM 的搜索能力。通过监督式微调,LLM 被转换为一个能够生成相关文档和噪声文档的检索模块。我们采用课程推广 (curriculum rollout) 机制,通过将模型暴露于越来越具有挑战性的检索场景来逐步提升推理能力。实验结果表明,ZS 的表现优于真实的基于搜索的模型,在不同规模的基础 LLM 和指令调整的 LLM 上均具有良好的泛化能力,并且支持多种强化学习算法。

然而,我们的方法存在一些局限性。Rollout模拟搜索 LLM 需要访问 GPU 服务器。虽然比使用商业 API 更经济高效,但这会带来额外的基础设施成本。我们将在下图附录中详细讨论这些成本。

表 8:真实搜索引擎和我们的模拟搜索方法之间的成本比较。

表 8:真实搜索引擎和我们的模拟搜索方法之间的成本比较。

以下是该论文的深层思考:

ZeroSearch,这标志着语言模型检索增强训练的一项关键技术进步。该框架引入了一种自监督范式,大型语言模型 (LLM) 可以模拟搜索引擎行为,从而消除了对谷歌搜索等商业 API 的依赖。这一转变不仅降低了基于强化学习的训练的财务负担,还提供了一个可控的环境来塑造检索过程。ZeroSearch 挑战了现代 LLM 训练中的一个核心假设:高质量的外部搜索查询对于有效的信息检索和问答至关重要。

ZeroSearch 的一项关键技术优势在于它能够将检索质量与搜索引擎输出噪声分离开来。传统方法会继承商业引擎的可变性和偏差,而 ZeroSearch 能够对检索数据进行细粒度控制。这为 LLM 训练引入了新的优化维度,可以系统地调整检索文档的质量和多样性,以支持特定任务的功能,例如事实验证、基于基础的生成或多跳推理。同时开发者和研究人员现在可以将 ZeroSearch 集成到他们自己的训练流程中,从而能够以经济高效的方式进行大规模 RLHF 和检索条件反射实验,而无需任何外部 API 的限制。

ZeroSearch 为检索增强生成的未来开创了先例。它提供了一种可靠的替代方案,可以替代基于网络的搜索作为训练信号,对降低成本、提高模型对齐和安全性具有重要意义。对于专注于可扩展训练机制、强化学习和搜索增强推理的 AI 开发者来说,ZeroSearch 提供了一种技术严谨且开放的替代方案,重新定义了如何将检索功能集成到基础模型开发中。

主標籤:人工智慧

次標籤:大型語言模型搜尋能力檢索增強生成強化學習


上一篇:強迫模型自我爭論,遞歸思考版CoT熱度飆升!網友:這不就是大多數推理模型的套路嗎?

下一篇:雙方都賺錢的交易,為什麼有可能做不成?| 聶輝華

分享短網址