ZeroSearch：「Alibaba Technology」ブラウザ不要、大規模言語モデルが自己報酬学習

また技術を学びに来ました。今回はアリババが開発したフレームワーク技術で、汎用AGI能力を目指す方向です。もし自己学習が可能になれば、大規模言語モデルが全ての知識領域を統合するのは問題ないでしょう。そこでアリババチームはZeroSearchを提案しました。これは、実際の検索エンジンと相互作用することなくLLMの検索能力を促進し、LLMを、クエリに基づいて関連文書とノイズ文書を生成できる検索モジュールに変換します。

強化学習（RL）は現在、大規模モデルのトレーニングに最適なソリューションであり、有望な戦略です。推論能力と意思決定能力を強化することで、LLMの性能をさらに向上させます。注目すべきは、OpenAI-o1やDeepSeek-R1などのRLベースのモデルが、論理推論と反復推論において顕著な進歩を遂げていることです（DeepSeek-R1：詳細分析、国産AGIの第一歩）。これらは、明確な段階的監督に頼ることなく、報酬駆動型学習のみによって達成されています。

このパラダイムの下で、いくつかの研究は、関連情報をより効果的に検索できる戦略モデルをトレーニングするために強化学習を使用することを模索しています。DeepResearcherは、Googleなどの商用検索エンジンとのリアルタイムインタラクションを導入し、モデルが現実世界のウェブ検索に非常によく似た環境でトレーニングできるようにしました（Magentic-One：AIネットワーク検索の実装、多エージェント汎用ソリューション）。これらの進歩にもかかわらず、RLを現実世界の検索シナリオと組み合わせることは、依然として重大な課題に直面しています。

文書の品質管理ができない：リアルタイム検索エンジンから取得される文書の品質は予測が難しいことが多く、トレーニングプロセスにノイズと不安定性をもたらします。

APIコストが高すぎる：RLトレーニングには頻繁な展開と大量の手動ラベリングが必要であり、数十万回のAPI呼び出しを伴う可能性があり、巨大な経済的コストが発生し、スケーラビリティが深刻に制限されます。

この記事のポイント：

ZeroSearchのアーキテクチャと技術原理の解説

AI知識の解説

ZeroSearch

ZeroSearchは、LLMが実際の検索エンジンと相互作用することなく検索戦略を学習できる強化学習フレームワークです。核心的には、LLMは大規模な事前トレーニングプロセス中に広範な世界知識を獲得し、検索クエリに基づいて関連文書を生成できます（自分で教科書を要約したカンニングペーパーを作るってことか）。

検索エンジンとシミュレートされたLLMの主な違いは、返されるコンテンツのテキストスタイルです。軽量な教師ありファインチューニングまたはプロンプト制約により、実際の検索エンジンの振る舞いを効果的にシミュレートできます。APIコストを排除することに加えて、文書生成にLLMを使用する重要な利点は、文書の品質を制御できることです。

どう言うかというと、教師ありファインチューニング中に、正しい答えまたは間違った答えにつながる文書を区別するためのプロンプト設計が行われ、シミュレートされたLLMがプロンプト内のいくつかの単語を調整することで、関連文書またはノイズ文書を生成することを学習できるようになります。これに基づいて、トレーニング中にカリキュラムロールアウトメカニズムが導入され、生成される文書の品質が時間とともに徐々に低下し、ますます挑戦的な検索シナリオをシミュレートします。これにより、戦略モデルはまず基本的な出力形式とタスク要件を学習し、次に徐々により挑戦的でノイズの多い検索シナリオに適応することができます。

ZeroSearchのスケーラビリティについては、GPUの数を増やすことでシミュレートされたLLMの生成スループットを加速でき、効率的な大規模ロールアウトが可能になります。3BのLLMをシミュレートされた検索エンジンとして使用しても、戦略モデルの検索能力を効果的に促進できます。7Bの検索モジュールはGoogle検索と同等の性能を達成し、14Bの検索モジュールはGoogle検索さえも凌駕しました。

ZeroSearchは、様々なパラメータサイズの基盤モデルおよびインストラクション調整モデルに対応しており、別途の教師ありウォームアップフェーズは必要ありません（事前入力も不要？筆者はアリババが少し大げさに言っている気がします）。さらに、近接ポリシー最適化（PPO）、グループ相対ポリシー最適化（GRPO）、Reinforce++など、広く使用されている強化学習アルゴリズムとシームレスに統合できます。

アーキテクチャと背後にある原理

コア技術ポイントを紹介する前に、まずLLM検索とは何かを理解しましょう。皆さんもご存知のように、LLMの推論もまた検索プロセスの一種であり、エキスパートシステム（ブラウザ）を呼び出して最大の正規分布確率値（softmax）を予測し要約するのに似ています。もちろん、検索にはさらに洗練された外部機能（RAG）や強化学習された思考チェーンの形態があります。

RAGは、関連する外部知識を生成フローに統合することで、生成性能を強化します。LLMにクエリ生成、クエリ分解、複数ターンの情報検索などのプロセスをガイドします。これらの方法は効果的ですが、通常、複雑なプロンプトエンジニアリングが必要であり、モデルの推論能力に高い要求を課します。効率を向上させ、強力なブラックボックスLLMへの依存を減らすために、その後の研究ではより小さなLLM向けの教師ありファインチューニング戦略が提案されました。しかし、これらの強化は展開時に性能コストと時間コストを同時に伴います。

Self-RAGは自己反省メカニズムを採用し、予測された反射トークンを通じてモデル出力を反復的に洗練させます。

RetroLLMは、モデルが制約付きデコーディングを通じてコーパスから直接細かい粒度の証拠を生成できるようにすることで、検索機能と生成機能を統合します。

RAG-starは、モンテカルロ木探索（MCTS）ベースの推論プロセスに取得した情報を統合し、推論中に検索空間を動的に拡張します。

AirRAGは、モンテカルロ木探索（MCTS）を採用して内的な推論能力を活性化し、解空間を拡張します。

強化学習された思考チェーンは非常にシンプルで、DeepResearcherのようなフレームワークを使用して、必要な知識を検索するエージェントを設定します。

ゼロ検索

本文のゼロ検索の定義に戻ると、アリババチームは次のように説明しています。LLMを利用して検索エンジンをシミュレートすることで、実際の検索エンジンの必要性を排除します。以下の図に示すように

チームは、ZeroSearchフレームワークにおける2つの強化学習アルゴリズム（PPOとGRPO）の適用プロセスを示しています。ロールアウトシーケンスには、ポリシーモデルによって生成されたトークンと、シミュレートされたLLMによって返された文書トークンが含まれます。

ここで問題があります。取得されたコンテンツは外部で生成され、ポリシーモデルによって直接制御されないため、2種類のトークンに統一された最適化手順を適用すると、トレーニングが不安定になる可能性があります。

この問題を緩和するために、チームは取得されたトークンに対して損失マスキングメカニズムを導入し、勾配がモデル自身の出力に対してのみ計算されるようにしました。この戦略は、強化学習のトレーニングプロセスを安定させつつ、検索拡張生成の効果を維持できます。

全体の相互作用は3つの異なる段階に分かれています。まず、モデルは<think>...</think>タグ内で内的な推論を明確に表現します。次に、さらなる証拠が必要な場合、<search>...</search>タグ内で検索クエリを発行します。最後に、十分な情報が取得されると、モデルは<answer>...</answer>タグ内で回答を提供します。

（付録より画像を引用）

まずPPOを見てみましょう。これは、期待報酬を最大化しつつ、ポリシ更新の大きさを制限することでトレーニングの安定性を確保することを目的としたポリシー勾配アルゴリズムです。その核となる考え方は、単一の更新による性能崩壊を防ぐため、ポリシーモデルの更新は過度に積極的であってはならないということです。ポリシーモデルπ(θ)、すなわち基本的な価値モデルから始まり、入力問題に基づいて軌跡を生成します。推論（<think>）、情報検索が必要かどうかの分析、検索（<search>）による検索プロンプト生成、取得（<information>）によるシミュレートされた検索エンジンからの関連またはノイズ文書の返却、そして最終的な回答（<answer>）の生成といった、いくつかのタグ関連問題を考慮する必要があります。その後、報酬モデルと参照モデルから得られた報酬rに基づいて、以下の計算式でAを算出し、ポリシーモデルを更新します。

一方、RPOは、グループ内の相対報酬比較を通じてポリシーを最適化し、絶対報酬値への依存を減らすことで、トレーニングの効率と安定性を向上させます。ポリシーモデルは複数のリンク（O(1)...O(g)）を生成します。各軌跡のグループは、異なる検索クエリと回答生成試行に対応します。そして、rの集合結果に基づいて、報酬ランキングに従ってポリシー確率を調整し、高報酬行動を奨励し、低報酬行動を抑制します。最後に、ポリシーモデルの更新にフィードバックします。

PPOは「厳格なコーチ」のようです：学生に毎回テストでスコアを向上させることを求めますが、学習方法の突然の変更（例えば、丸暗記から発想転換へ）を禁止します。

GRPOは「競争的な人気投票」のようです：学生はグループ内ランキングを通じて、どの方法がより効果的であるか（例えば、方法Aが方法Bより高得点である）を知り、自主的に戦略を調整します。

少し混乱しますよね、上記のケースを平たくまとめますと、もしポリシーモデルが「筆者は誰ですか？彼の住んでいる都市はどこですか？」という質問を受けたとします。モデルは<think>内で「独り言」のように問題を分析します。例えば、「まずこの記事の著者を見つけて、次に彼の住んでいる都市を調べる必要がある」。そして<search>内で検索クエリを生成します。例えば、「筆者の住んでいる都市」。シミュレートされた検索エンジン（更新されたポリシーモデル、つまりノイズが除去されたもの）がクエリに基づいて文書を返却し、<information>を取得します。最後に、例えば「湖南省長沙市」のような回答を生成します。

このために、アリババは、報酬（回答の正確性）を最大化すると同時に、KLダイバージェンスを通じてポリシーモデルπ(θ)と参照モデルπ(ref)の差異を制約し、ポリシー更新の安定性と制御可能性を確保するための公式を提案しました。

ここで、π(θ）は最適化対象のポリシーモデルを表し、検索クエリと最終回答の生成を担当します。逆にπ(ref)は参照モデル（通常は初期ポリシーモデル）であり、ポリシー更新を制約し、過度な逸脱を防ぐために使用されます。r(ϕ)は一見してわかるように報酬関数であり、回答の正確性に基づいてフィードバックを提供します。主にπ(ref)とπ(θ）からyの最適解を導き出します。π(ψ)はシミュレートされた検索エンジンのLLMを表し、パラメータは固定されており、クエリに基づいて文書を生成します。βはKLダイバージェンスの重み係数であり、報酬最大化とポリシー安定性のバランスを取ります。

もう一つの重要なポイントは、この報酬関数の設計です。この報酬関数は核心的なメカニズムです。第一に、報酬関数はモデルの学習方向をガイドします。生成された回答yと標準回答との一致度に基づいて、報酬関数はモデルの正確性を定量化します。例えば、回答が完全に正しい場合は報酬値が高く、そうでない場合は低くなります。第二に、報酬ハッキング（Reward Hacking）を回避できます。ここで厳密一致（Exact Match, EM）を使用することで、モデルが長すぎる回答を生成して正しい答えを含む「運試し」をするのを防ぎます。その代わりに、スコアは正確性（予測結果中の正しい部分の割合）と再現率（標準回答がカバーされている割合）を総合的に考慮し、モデルに簡潔かつ正確な回答を生成するように促します。最後に、動的な調整があります。報酬値の高低は、ポリシーモデルπ(θ)のパラメータ更新方向を直接影響し、高報酬をもたらす検索または推論に徐々に偏るようにします。

ファインチューニング

チームは軽量な教師ありファインチューニング（SFT）手順を提案しました。具体的には、LLMに実際の検索エンジンと複数ターンで相互作用させ、最終的な回答が得られるまで相互作用の軌跡を収集しました。正しい回答を生成した軌跡は正としてラベル付けされ、取得された文書が有用であることを示します。逆に、間違った回答につながった軌跡は負としてラベル付けされ、検索結果にノイズがあることを示します。

次に、チームは正と負の軌跡からクエリ-文書ペアを抽出し、軽量なSFTを実行して、LLMが実際の検索エンジンをシミュレートする能力を向上させました。以下に示すように、プロンプト内のいくつかの単語を調整することで、有用な検索とノイズのある検索を区別できます。さらに、入力問題とその対応する回答をプロンプトに組み込むことで、LLMの知識境界を広げました。ファインチューニング後、LLMは有用な文書とノイズのある文書を生成できるようになり、展開プロセス中の動的な文書品質制御が可能になります。

（付録より画像を引用）

自動学習メカニズム

上記のポリシーモデル設計とプロンプトを通じて、チームは自己学習を実現するために完全自動化されたエージェントを展開しました。このプロセスでは、ポリシーモデルが対話的な推論を行い、検索クエリを生成します。これらのクエリはシミュレートされたLLMに入力され、対応する文書を生成します。トレーニングの難易度を徐々に高めるために、カリキュラムベースの展開メカニズムが導入され、生成される文書の品質が時間とともに徐々に低下します。これは確率関数によって制御されます。

ここで、p(s)とp(e)は初期および最終ノイズ確率、iとmは現在のトレーニングステップ数および総トレーニングステップ数、bは指数底数でデフォルト値は4です。トレーニングが進むにつれて、比率i/mが増加し、p(i)の値が高くなります。つまり、最初はノイズ文書を生成する可能性が高くなります。しかし、これによりポリシーモデルはまず基本的な出力構造とタスク要件を学習し、次に徐々により挑戦的でノイズの多い検索シナリオに適応できるようになります。

強化学習プロセスにおいて、報酬信号は主要な監督として機能します。本研究では、回答の正確性のみに焦点を当てるルールベースの報酬関数を採用しました。予備実験では、厳密一致（EM）を報酬指標として使用すると、ポリシーモデルが正しい答えを含む可能性を高めるために、長すぎる回答を生成する報酬不正行為（Reward Hacking）につながることがしばしば観察されました（たくさんの派手なことをして不正行為をするってことか）。この問題を緩和するために、チームは正確性と再現率のバランスを取るF1スコアベースの報酬関数を採用しました。計算方法は以下の通りです。

ここでINは予測結果と真の結果が重複する単語数、PNは予測結果の単語数、RNは真の結果の単語数を表します。

効果比較

ZeroSearchの有効性を評価するために、チームの方法は、オープンモデル（Qwen）の異なるサイズを以下のベースラインと比較しました。

元のプロンプト手法：このカテゴリには、直接プロンプト、思考連鎖（CoT）、および標準的な検索拡張生成（RAG）が含まれます。

高度なRAG手法：関連情報を反復的に検索するRAgentとSearch-o1を考慮します。

強化学習チューニング手法：このカテゴリには、R1とSearch-R1が含まれます。R1では、ポリシーモデルはその内部知識のみに基づいてトレーニングされ、深い推論を実行します。

（付録より画像を引用）

ZeroSearchは常にすべてのベースライン手法を上回る性能を示しました。この性能上の優位性は、ドメイン内データセット（例：NQおよびHotpotQA）とドメイン外データセット（例：TriviaQA、PopQA、2WikiMultiHopQA、Musique、およびBamboogle）の両方で明らかであり、チームの手法の堅牢性を十分に証明しています。

さらに、ZeroSearchは実際の検索エンジンに依存する手法を凌駕しました。実際の検索エンジンを使用するSearch-R1と比較して、ZeroSearchはより優れた性能を達成し、大規模な強化学習において実際の検索エンジンの有効な代替となる可能性を強調しています。また、ZeroSearchは強力な汎化能力を示しました。異なるモデルファミリー、パラメータサイズ、およびタイプ（例：基盤モデルまたはインストラクション調整モデル）において、ZeroSearchは常にベースラインモデルを上回る性能を示しました。さらに、モデルスケールの拡大とともに、その性能はさらに向上し、そのスケーラビリティを強調しています。

結論

ZeroSearchは、実際の検索エンジンと相互作用することなくLLMの検索能力を強化する新しい強化学習フレームワークです。教師ありファインチューニングを通じて、LLMは関連文書とノイズ文書を生成できる検索モジュールに変換されます。全体設計は、モデルをますます挑戦的な検索シナリオにさらすことで推論能力を段階的に向上させるカリキュラムロールアウトメカニズムを採用しています。実験結果は、ZeroSearchの性能が実際の検索に基づいたモデルよりも優れていること、異なるスケールの基盤LLMおよびインストラクション調整LLM全体で良好な汎化能力を示すこと、および様々な強化学習アルゴリズムをサポートすることを示しています。

付録：

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://arxiv.org/html/2505.04588v1

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

https://github.com/Alibaba-NLP/ZeroSearch/blob/main/llm_agent/generation.py

ZeroSearch：「Alibaba Technology」ブラウザ不要、大規模言語モデルが自己報酬学習

短いURLをシェア