ZeroSearch:ゼロ検索でLLMの潜在能力を促進、LLM検索能力の新時代を切り拓く

画像

現在主流の大規模言語モデル(LLM)ベンダーや、Agentインテリジェントエージェントを開発する企業さえも、外部のオンライン検索APIインターフェースや機能を使用してデータを取得しており、例外なく実際の検索エンジンまたはオンライン検索APIインターフェースを利用しています。従来の検索エンジンの呼び出しは、しばしば制御不能なドキュメント品質と高額なAPIコストを意味します。これらの問題を解決するため、アリババの通義チームは全く新しいソリューションであるZeroSearchをオープンソース化しました。ZeroSearchは、実際の検索エンジンとインタラクトすることなく「検索能力」を訓練するという、革新的な強化学習フレームワークを導入しています。以下は、論文「ZeroSearch: Incentivize the Search Capability of LLMs without Searching」の完全な翻訳です。どうぞお楽しみください。

画像

はじめに

効果的な情報検索は、大規模言語モデル(LLM)の推論および生成能力を高めるために不可欠です。最近の研究では、現実世界の環境でリアルタイムの検索エンジンとインタラクトすることで、強化学習(RL)を利用してLLMの検索能力を向上させることが探求されています。これらの方法は有望な結果を達成していますが、2つの大きな課題に直面しています:(1)ドキュメント品質の制御不能:検索エンジンが返すドキュメントの品質は予測が難しく、トレーニングプロセスにノイズと不安定性をもたらします。(2)過剰なAPIコスト:RLトレーニングには頻繁なロールアウトが必要であり、数十万回の検索リクエストが発生する可能性があり、これにより多大なAPI費用が発生し、スケーラビリティが著しく制限されます。これらの課題に対処するため、我々はZSを導入します。これは、実際の検索エンジンとインタラクトすることなくLLMの検索能力を促進できる強化学習フレームワークです。我々のアプローチはまず、軽量な教師付きファインチューニングから始め、LLMをクエリに応答して関連ドキュメントとノイズドキュメントの両方を生成できる検索モジュールに変換します。強化学習トレーニングプロセスでは、カリキュラムベースのロールアウト戦略を採用し、生成されるドキュメントの品質を徐々に低下させ、ますます困難な検索シナリオにモデルを晒すことで推論能力を徐々に向上させます。広範な実験は、ZSが3B LLMを検索モジュールとして使用しても、LLMの検索能力を効果的に促進できることを示しています。特筆すべきは、7B検索モジュールのパフォーマンスが実際の検索エンジンに匹敵し、14B検索モジュールは実際の検索エンジンを凌駕していることです。さらに、様々なパラメータサイズのベースモデルおよびインストラクションチューニングモデルで良好な汎化性を示し、様々なRLアルゴリズムと互換性があります。

1. 序論

大規模言語モデル(LLM)は、数学的推論、質問応答、コード生成など、幅広い下流タスクで卓越したパフォーマンスを示しています。しかし、これらのモデルにエンコードされた知識は本質的に静的であり、事前学習中に接触したデータの範囲に限定されます。したがって、LLMは誤ったまたは古い情報を生成しやすく、実際のアプリケーションにおける信頼性を損なう可能性があります。そのため、LLMが外部情報源にアクセスし、より正確で根拠のある応答を生成できるようにすることは不可欠です。

この問題に対処するための広く採用されているアプローチは、検索拡張生成(RAG)です。これは、関連する外部知識を生成プロセスに組み込みます。この分野の初期の研究は、クエリ生成、クエリ分解、多ターン情報検索などのプロセスを通じてLLMをガイドするプロンプトベースの戦略に焦点を当てていました。これらの戦略は効果的ですが、しばしば綿密なプロンプトエンジニアリングが必要であり、モデルの推論能力に高い要求を課します。効率を向上させるため、その後の研究では、より小さなLLMのパフォーマンスを向上させるための教師付きファインチューニング(SFT)が探求されました。さらなる進歩は、推論中​​に検索空間を動的に拡張できるモンテカルロ木探索(MCTS)などのテスト時間スケーリング技術に焦点を当てています。これらは有望ですが、実用的なロールアウトには課題となる大きな計算オーバーヘッドを導入します。

近年、強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させるための有望なパラダイムとして浮上しています。OpenAI-o1やDeepSeekR1のようなRLベースの著名なモデルは、明確な段階的な監督なしに、報酬信号のみによって駆動される卓越した論理的推論および反復推論能力を示しています。いくつかの研究では、効果的な情報検索を実行するためにモデルを訓練するためのRL技術も探求しています。例えば、Search-R1は、強化学習を利用して、段階的な推論プロセス中に複数の検索クエリを自律的に生成します。同様に、R1-Searcherは、検索能力を向上させることを目的とした2段階の結果ベースのRLアプローチを提案しています。ReSearchは、中間推論ステップの監督を完全に必要とせず、検索を通じて推論することをRLに教えます。しかし、これらの方法は通常、静的なローカルテキストコーパス(例:Wikipedia)を使用しており、現実世界のインタラクションの複雑さを捉えることができません。このギャップを埋めるために、DeepResearcherはGoogleのような商用検索エンジンとの直接インタラクションを導入し、トレーニング環境が現実世界の検索シナリオと密接に整合することを可能にしました。これらのリアルタイム検索方法が優れたパフォーマンスを達成していますが、ドキュメント品質の予測不可能性や過剰なAPIコスト(システムの拡張性に悪影響を及ぼす要因)など、依然としていくつかの課題に直面しています。これらの制限を克服するため、我々はZSを提案します。これは、LLMを使用してリアルタイム検索をシミュレートする方法であり、高価でレート制限のある実際の検索APIへの依存を効果的に排除します。軽量な教師付きファインチューニングを通じて、ZSはドキュメント品質を明示的に制御し、カリキュラムロールアウトメカニズムを可能にし、トレーニングの安定性と堅牢性を高めます。

3. ZeroSearch

本セクションではまず、検索エンジンを使用しない強化学習の目標を正式に述べます。次に、トレーニングテンプレート、検索シミュレーションチューニング、カリキュラムベースのロールアウト戦略、報酬設計、およびトレーニングアルゴリズムを網羅するZSの設計について詳しく説明します。

3.1 検索エンジンなしの強化学習

LLMを利用して検索エンジンをシミュレートすることにより、実際の検索エンジンの必要性を排除する強化学習フレームワークを提案します。最適化目標の式は次のとおりです。

表 3:使用異なる LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

ここで、πθ は最適化されるポリシーモデル、πref は参照モデル、rϕ は報酬関数を表します。πψ はシミュレートされたLLMを表し、そのパラメータはトレーニングプロセス全体を通じて固定されます。

図1:検索エンジンを使用しないPPOおよびGRPOトレーニングデモ。

図1:検索エンジンを使用しないPPOおよびGRPOトレーニングデモ。

3.2 トレーニングテンプレート

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

表1:トレーニングテンプレート。トレーニングおよび推論中に、問題が最後に付加されます。

ZSでは、生成のために教師付きファインチューニングに依存するのではなく、最終的な答えに到達するまで、ポリシーモデルを反復的な推論と情報検索に導く多ターン相互作用テンプレートに従い、適用します。

表1に示すように、相互作用は3つの異なるフェーズに分かれています。まず、モデルは<think>...<think>タグ内で考えます。次に、追加の証拠が必要な場合は、<search>...<search>タグ内で検索します。最後に、十分な情報が取得されたら、モデルは<answer>...<answer>タグ内で回答します。思考、検索、回答のこの明確な分離は、構造化された意思決定プロセスを強制し、モデルの透明性と信頼性を高めます。

3.3 検索シミュレーションチューニング

ロールアウトプロセス中、我々はLLMを使用して実際の検索エンジンをシミュレートし、クエリに基づいてドキュメントを生成します。簡単なアプローチは、LLMに直接ドキュメントを生成するように促すことです。しかし、これはしばしば実際の検索エンジンの出力と比較して、顕著なスタイルギャップをもたらします。

このギャップを埋めるために、軽量な教師付きファインチューニング(SFT)手順を提案します。具体的には、まずLLMに多ターン方式で実際の検索エンジンとインタラクトさせ、最終的な答えに到達するまでインタラクション軌跡を収集します。正しい答えをもたらす軌跡は正としてラベル付けされ、取得されたドキュメントが有用であることを示します。誤った答えにつながる軌跡は負としてラベル付けされ、取得結果にノイズがあることを示します。

次に、正と負の軌跡からクエリ-ドキュメントペアを抽出し、軽量なSFTを実行して、LLMが実際の検索エンジンをシミュレートする能力を向上させます。表2に示すように、プロンプト内の数語を調整することで、有用な取得とノイズのある取得を区別できます。さらに、入力された質問とそれに対応する答えをプロンプトに組み込み、LLMの知識境界を広げます。ファインチューニング後、LLMは有用なドキュメントとノイズドキュメントの両方を生成でき、ロールアウトプロセス中の動的なドキュメント品質制御を可能にします。

3.4 カリキュラム検索シミュレーションによるロールアウト

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

ロールアウトプロセス中、ポリシーモデルは対話型推論を実行し、検索クエリを生成します。これらのクエリは、対応するドキュメントを生成するためにシミュレートされたLLMに入力されます。トレーニング難易度を徐々に上げるため、生成されるドキュメントの品質が時間とともに徐々に低下するカリキュラムベースのロールアウトメカニズムを導入します。これは、ステップiでノイズドキュメントを生成する可能性を制御する確率関数piによって制御されます。

ここで、psとpeはそれぞれ初期と最終のノイズ確率、iとmはそれぞれ現在のトレーニングステップ数と合計トレーニングステップ数、bは指数底であり、デフォルトは4です。トレーニングが進むにつれて、i/mの比率が増加し、piの値が高くなります。つまり、ノイズドキュメントを生成する確率が高くなります。これにより、ポリシーモデルはまず基本的な出力構造とタスク要件を学習し、その後、より困難でノイズの多い検索シナリオに徐々適応することができます。

3.5 報酬設計

報酬信号は、強化学習プロセスにおいて主要な監督として機能します。本研究では、回答の正確性のみに焦点を当てたルールベースの報酬関数を採用しています。予備実験では、報酬指標として完全一致(EM)を使用すると、しばしば報酬チートを引き起こすことが観察されました。すなわち、ポリシーモデルは、正しい答えを含む確率を増やすために、過度に長い答えを生成する傾向がありました。この問題を軽減するために、精度と再現率のバランスをとるF1スコアベースの報酬関数を採用し、次のように計算します。

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

ここで、INは予測結果と真の結果の間に重複する単語数、PNは予測結果の単語数、RNは真の結果の単語数を表します。出力形式に関する追加の報酬は含みませんでした。これは、モデルが明示的な監督なしに一貫して適切にフォーマットされた応答を生成することを観察したためです。

3.6 トレーニングアルゴリズム

我々の手法は、近接ポリシー最適化(PPO)、グループ相対ポリシー最適化(GRPO)、およびReinforce++を含む様々な強化学習アルゴリズムと互換性があり、それぞれが検索拡張推論を最適化する上で独自の利点を提供します。

ZSでは、ロールアウトシーケンスにはポリシーモデルによって生成されたトークンとシミュレートされたLLMによって返されたドキュメントトークンが含まれます。両方のタイプのトークンに同じ最適化手順を均一に適用すると、取得されたコンテンツは外部で生成され、ポリシーモデルによって直接制御されないため、トレーニングが不安定になる可能性があります。

この問題を軽減するために、取得されたトークンに対して損失マスキングメカニズムを導入し、モデル自身の出力に対してのみ勾配が計算されるようにします。この戦略は、検索拡張生成の有効性を維持しながら、強化学習トレーニングプロセスを安定させます。

4 主要な結果

4.1 データセットと評価指標

我々は、ZSを一連の異なる質問応答ベンチマークで評価しました。(1)シングルホップQA、NQ、TriviaQA、PopQAを含む。(2)マルチホップQA、HotpotQA、2WikiMultiHopQA、Musique、Bamboogleを含む。

我々はフォローし、評価指標として完全一致(EM)を使用します。予測の正規化された形式が、正規化された真の回答のいずれかと完全に一致する場合、その予測は正しいと見なされます。

4.2 ベースライン

ZSの有効性を評価するために、我々の手法を以下のベースライン手法と比較しました。(1)元のプロンプト手法:このカテゴリには、直接プロンプト、思考連鎖(CoT)、標準的な検索拡張生成(RAG)が含まれます。(2)高度なRAG手法:我々はRAgentとSearch-o1を考慮します。これらは関連情報を繰り返し検索します。(3)RLファインチューニング手法:このカテゴリには、R1とSearch-R1が含まれます。R1では、ポリシーモデルは内部知識のみに基づいて深い推論を実行するように訓練されます。対照的に、Search-R1は、ポリシーモデルが推論中に実際の検索エンジンと複数回インタラクトできるようにします。

公平な比較を確保するため、すべてのRL手法の報酬指標としてF1スコアを使用しました。特筆すべきは、RLベースの検索ベースラインの中で、Search-R1と比較しただけであることです。これは、複雑な報酬設計、データ選択、または面倒なトレーニング手順を回避しているためです。この設定により、実際の検索エンジンと我々のシミュレートされた検索エンジンとの間で直接的かつ公平な比較が可能になります。

4.3 実験設定

我々は、3つのモデルファミリーを使用して実験を行いました。Qwen-2.5-7B(Base/Instruct)およびQwen-2.5-3B(Base/Instruct)、そしてLLaMA-3.2-3B(Base/Instruct)です。実際の検索シナリオをシミュレートするため、SerpAPI経由でGoogle Web Searchを外部検索エンジンとして使用しました。公平な比較を確保するため、すべての手法で取得されるドキュメント数は5に固定しました。

データセットについては、Search-R1の設定に従い、NQとHotpotQAのトレーニングセットをマージし、すべてのファインチューニングベース手法のために統一されたデータセットを作成しました。ドメイン内およびドメイン外のパフォーマンスを評価するために、7つのデータセットで評価を行いました。プロンプトベースのベースラインモデルについては、Baseモデルはタスク指示に従うのに苦労することが多いため、Instructモデルを使用しました。RLベースの手法については、モデルタイプ全体の汎化性を評価するために、BaseおよびInstructの両方のバリアントを評価しました。

シミュレートされたLLMをトレーニングするため、Qwen-2.5-3B、Qwen-2.5-7B、およびQwen-2.5-14Bをバックボーンネットワークとして使用して、軽量なSFTを実行しました。学習率は1e-6に設定しました。ZSをトレーニングするため、2つの強化学習アルゴリズム、GRPOとPPOを採用しました。GRPO設定では、ポリシーLLMは1e-6の学習率でトレーニングされ、プロンプトごとに5つの応答をサンプリングしました。PPO設定では、ポリシーLLMは1e-6の学習率でトレーニングされ、一方、価値モデルは別途1e-5の学習率でトレーニングされました。超パラメータλ=1およびγ=1で Generalized Advantage Estimation (GAE) を適用しました。特に明記しない限り、すべての実験で、GRPOがデフォルトの強化学習アルゴリズムとして使用され、Qwen-2.5-14BがデフォルトのシミュレートされたLLMとして使用されました。

4.4 パフォーマンス

以下の表3は、7つのデータセットにおけるZSといくつかのベースライン手法の比較を示しています。結果に基づいて、いくつかの重要な観察を行うことができます。

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

表3:異なるLLMをバックボーンモデルとして使用した主要な結果。最高のパフォーマンスは太字で表示されています。

ZSは、すべてのベースライン手法を常に上回っています。このパフォーマンスの優位性は、ドメイン内データセット(例:NQ、HotpotQA)とドメイン外データセット(例:TriviaQA、PopQA、2WikiMultiHopQA、Musique、Bamboogle)の両方で有効であり、我々の手法の堅牢性を示しています。

ZSは、実際の検索エンジンに依存する手法を凌駕します。実際の検索エンジンを使用するSearch-R1と比較して、ZSはより良いパフォーマンスを達成しており、大規模強化学習における実際の検索エンジンの有効な代替となる可能性を強調しています。

ZSは強力な汎化能力を示しています。異なるモデルファミリー、パラメータサイズ、およびタイプ(例:ベースモデルまたはインストラクションチューニングモデル)において、ZSは一貫してベースラインモデルを上回っています。さらに、モデルサイズが増加するにつれてパフォーマンスがさらに向上し、その拡張性を示しています。

5 さらなる分析

5.1 ZSと実際の検索エンジンの比較

LLaMA-3.2-3BにおけるZSとSearch-R1(実際の検索エンジンを使用)の報酬曲線を以下の図2aおよび2bに示します。いくつかの重要な観察を行うことができます。

両方の手法の全体的な報酬トレンドは似ています。トレーニングが進むにつれて、ZSとSearch-R1の両方の報酬スコアは着実に増加しており、両方の設定におけるポリシーモデルが検索エンジンと効果的にインタラクトし、正しい答えを生成することを効果的に学習できることを示しています。

ZSは、より安定したより滑らかな学習曲線を実現しています。図2bに示すように、ZSは当初Search-R1に遅れをとっていましたが、カリキュラムメカニズムがモデルが検索ツールの使用法を徐々に習得するのに役立つため、より小さな変動で最終的にSearch-R1を上回りました。

ZSは、ベースモデルとインストラクションチューニングモデルの両方で良好な汎化性を示しています。両方のモデルタイプにおいて、ZEROSEARCHは着実に報酬パフォーマンスを向上させており、その普遍性を強調しています。

表 3:使用不同 LLM 作为骨干模型的主要结果。最佳性能以粗体显示。

図2:(a-b):LLaMA-3.23Bを使用したZSとSearch-R1の報酬曲線の比較。(c):LLaMA-3.2-3B-baseトレーニング中の相互作用ターンと報酬の進捗。

表4:異なるLLM構成を使用したシミュレートされた検索エンジンのパフォーマンス。プロンプトベースおよびファインチューニングされたシミュレートされたLLM(3Bから14B)とGoogle検索を比較しました。

表4:異なるLLM構成を使用したシミュレートされた検索エンジンのパフォーマンス。プロンプトベースおよびファインチューニングされたシミュレートされたLLM(3Bから14B)とGoogle検索を比較しました。

5.2 大規模言語モデルの選択

本セクションでは、プロンプトベースのLLMとファインチューニングされたLLMを含む、パラメータ範囲3Bから14Bの異なるシミュレートされたエンジン構成がパフォーマンスにどのように影響するかを調査します。表4の結果に基づいて、以下の観察を得ました。

まず、ファインチューニングされた7Bシミュレートエンジン(SFT-7B)のパフォーマンスはGoogle検索に匹敵し、14Bバージョン(SFT-14B)はGoogle検索を凌駕しています。これは、強化学習環境で実際の検索エンジンの代替としてトレーニングされたLLMを使用することの実現可能性を示しています。

第二に、ファインチューニングされたシミュレートエンジンのパフォーマンスは、プロンプトベースのエンジンよりも著しく優れています。プロンプトベースの手法は実際の検索エンジンの応答スタイルを明示的にシミュレートしていますが、パフォーマンス低下につながるsignificantな分布ギャップが残っています。

第三に、モデルサイズが増加するにつれてパフォーマンスは継続的に向上します。より大きなシミュレートされたLLMは、より強力なシミュレーション能力を示すだけでなく、関連ドキュメントと無関連ドキュメントをより正確に区別できるため、トレーニング中のより効果的なカリキュラム学習が可能になります。

5.3 相互作用ターンの研究

本セクションでは、LLaMA3.2-3BBaseモデルを使用して、報酬の進捗とトレーニング中の相互作用回数を調べることにより、ZSのトレーニングダイナミクスを分析します。結果は上の図2cに示されています。

トレーニングの初期段階では、相互作用回数が急激に減少し、報酬はゆっくりと増加します。これは主に、ポリシーモデルが当初、検索エンジンを正しく呼び出す方法の知識を欠いており、冗長な相互作用を引き起こすためです。しかし、それはすぐに正しい形式を学習し、不要なステップを効果的に排除し始めます。

トレーニングが進むにつれて、相互作用回数と報酬曲線の両方が急激に増加し、その後安定します。これは主に、ポリシーモデルが関連ドキュメントを効果的に取得し、最終的に正しい答えを得ることができるため、より高い報酬が得られるためです。トレーニングの後半では報酬が安定しているように見えますが、カリキュラムメカニズムの影響により、基となるタスクの難易度は継続的に上昇していることに注意することが重要です。したがって、安定したパフォーマンスを維持するためには、ポリシーの継続的な改善と推論能力の向上が必要です。

表 6:逆向课程研究。我们使用 Qwen-2.5-3B-Base 和 Qwen-2.5-3B-Instruct 模型比较了标准课程和逆向课程推广设置的表现。

表5:異なるRLアルゴリズム下のZSのパフォーマンス。Qwen2.5-3B-BaseおよびLLaMA-3.2-3B-Baseモデルを使用してPPOとGRPOを比較しました。

表 6:逆向课程研究。我们使用 Qwen-2.5-3B-Base 和 Qwen-2.5-3B-Instruct 模型比较了标准课程和逆向课程推广设置的表现。

表6:逆カリキュラム研究。Qwen-2.5-3B-BaseおよびQwen-2.5-3B-Instructモデルを使用して、標準カリキュラムと逆カリキュラムプロモーション設定のパフォーマンスを比較しました。

5.4 異なるRLアルゴリズム:PPO vs GRPO

本セクションでは、Qwen2.5-3B-BaseおよびLLaMA-3.2-3B-Baseモデルを使用して、ZSフレームワーク下で広く採用されている2つの強化学習(RL)トレーニングアルゴリズム、PPOとGRPOのパフォーマンスを評価します。比較結果は上の表5に示されています。

観察によると、GRPOとPPOの両方とも我々のフレームワーク内で検索能力を成功裏に促進しており、我々のアプローチの多様性を示しています。その中で、GRPOは両方のモデルでより安定したパフォーマンスを示しており、トレーニングの安定性におけるその利点を強調しています。特筆すべきは、GRPOにおける繰り返しのロールアウトメカニズムが、実際の検索エンジンとインタラクトする場合に高いAPIコストを発生させることであり、これは我々のシミュレートされた検索設定の実用性をさらに強調しています。

5.5 逆カリキュラム研究

本セクションでは、カリキュラムプロモーション戦略と逆カリキュラム設定を比較し、その有効性を分析します。逆カリキュラム設定では、取得されたドキュメントの品質を徐々に向上させることにより、トレーニング難易度が時間とともに低下します。結果は上の表6に示されています。

結果は、両方のモデルにおいて、標準の「易から難へ」のカリキュラムモードが逆の「難から易へ」のカリキュラムモードを常に上回っていることを明確に示しており、我々のフレームワークにおけるカリキュラム学習の有効性を証明しています。より良い検索結果から始めることで、ポリシーモデルはまず検索エンジンの呼び出し方法と基本的な出力形式の理解を学習できます。トレーニングが進むにつれて、モデルはますます困難なシナリオに晒され、より強力な推論能力を育成します。

6 結論

本論文では、実際の検索エンジンとインタラクトすることなくLLMの検索能力を強化する、新しい強化学習(RL)フレームワークであるZSを提案します。教師付きファインチューニングを通じて、LLMは関連ドキュメントとノイズドキュメントの両方を生成できる検索モジュールに変換されます。我々は、ますます困難な検索シナリオにモデルを晒すことにより推論能力を徐々に向上させるカリキュラムロールアウトメカニズムを採用します。実験結果は、ZSが実際の検索ベースのモデルを上回り、異なるスケールのベースLLMおよびインストラクションチューニングされたLLMで良好な汎化能力を示し、複数の強化学習アルゴリズムをサポートしていることを示しています。

しかし、我々の手法にはいくつかの制限があります。ロールアウトで検索LLMをシミュレートするにはGPUサーバーへのアクセスが必要です。商用APIを使用するよりも費用対効果は高いですが、これは追加のインフラストラクチャコストをもたらします。これらのコストについては、以下の付録で詳しく説明します。

表8:実際の検索エンジンと我々のシミュレートされた検索手法間のコスト比較。

表8:実際の検索エンジンと我々のシミュレートされた検索手法間のコスト比較。

本論文に関するより深い考察:

ZeroSearchは、言語モデルの検索拡張トレーニングにおける重要な技術的進歩を示しています。このフレームワークは、大規模言語モデル(LLM)が検索エンジンの振る舞いをシミュレートできる自己教師学習パラダイムを導入し、Google検索のような商用APIへの依存を排除します。このシフトは、強化学習ベースのトレーニングの経済的負担を軽減するだけでなく、検索プロセスを形成するための制御可能な環境を提供します。ZeroSearchは、現代のLLMトレーニングにおける核心的な仮説、つまり効果的な情報検索と質問応答には高品質の外部検索クエリが不可欠であるという仮説に挑戦します。

ZeroSearchの重要な技術的利点は、検索品質と検索エンジンの出力ノイズを分離できる能力です。従来の手法は商用エンジンの変動性とバイアスを継承しますが、ZeroSearchは取得されたデータを細かく制御できます。これにより、LLMトレーニングに新しい最適化次元が導入され、事実検証、根拠のある生成、マルチホップ推論などの特定のタスク機能をサポートするために、取得されたドキュメントの品質と多様性を体系的に調整できます。開発者や研究者は、ZeroSearchを独自のトレーニングパイプラインに統合できるようになり、外部APIの制限なしに、コスト効率の良い大規模なRLHFおよび検索条件付け実験が可能になります。

ZeroSearchは、検索拡張生成の将来の先例を設定します。トレーニング信号としてウェブベースの検索の信頼性の高い代替手段を提供し、コスト削減、モデルアラインメントの向上、および安全性に重要な影響を及ぼします。スケーラブルなトレーニングメカニズム、強化学習、および検索拡張推論に焦点を当てているAI開発者にとって、ZeroSearchは技術的に厳密でオープンな代替手段を提供し、基盤モデル開発に検索機能を統合する方法を再定義します。

メインタグ:人工知能

サブタグ:大規模言語モデル検索能力検索拡張生成強化学習


前の記事:連続思考マシンが登場!Transformer「八子のひとり」のスタートアップが発表、AIが「ワンステップ」で即断することをなくす

次の記事:Anthropic共同創設者ジャック・クラーク氏がAGIを語る:AIはすでに私たちの経済成長に影響を与えている

短いURLをシェア