はじめに
現在、推論と検索が深く融合したモデルパラダイムは、AI研究の最先端のホットトピックとなっています。大規模モデルは、推論プロセス中に検索ツールを柔軟に呼び出すことで、重要な情報を正確に取得し、その後の推論を駆動し、複雑なタスクを克服するための新しい道を開きます。
通義実験室の検索チームによるこれまでのZeroSearch、OmniSearchなどの研究は、強化学習を用いて特定のダウンストリームタスクで大規模モデルが検索エンジンを使用するように訓練してきましたが、実践では、この単一タスク訓練モードには明らかな限界があり、モデルの汎化能力が不十分で、多様なシナリオにおける検索推論の要求に対応することが難しいことが判明しました。
このボトルネックを打破するため、通義実験室は「事前学習-ファインチューニング」の理念に基づき、MaskSearch汎用事前学習フレームワークを大々的に発表しました。このフレームワークは、BERTのマスキングメカニズムに触発された検索拡張型マスク予測タスクを革新的に導入し、モデルが検索ツールを利用してテキストのマスクされた内容を予測できるようにします。これにより、事前学習段階でタスク分解、推論戦略、検索エンジン操作スキルを同時に習得し、多領域への適応の基盤を固めます。
MaskSearchは教師ありファインチューニングと強化学習に対応しており、2段階の訓練検証を経て、従来の訓練方法と比較して、複数のオープンエンド質問応答データセットで性能の大幅な向上が実現されました。
論文タイトル:MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability
論文リンク:https://arxiv.org/abs/2505.20285
コードリンク:https://github.com/Alibaba-NLP/MaskSearch
MaskSearch
次に、MaskSearchのコアアーキテクチャと動作メカニズムについて詳しく見ていきましょう。
2.1 タスク定義
検索拡張型マスク予測(RAMP)はMaskSearchの事前学習タスクであり、その核心は、入力されたテキストシーケンス中の重要な情報をマスキングし、モデルが外部知識ベースを積極的に利用し、検索ツールを呼び出してこれらのマスクされたテキスト断片を予測することにあります。
マスクされた部分の難易度を高めるため、従来のマスク予測タスクでよく遮蔽されていた固有名詞(人名、地名、組織名など)、日付、数字に加えて、MaskSearchは以下のいくつかの重要な情報も考慮しています。
1. オントロジー知識:テキスト内で言及されている分類システムや知識システムにおける重要な概念;
2. 特定用語:特定の分野や主題に特化した専門用語;
3. 数値:テキストに含まれる具体的な数値、例えば統計データや測定値など。
これはタスクの難易度を上げるだけでなく、モデルが検索と推論の過程で情報をより詳細に処理することを促し、その結果、多領域タスクにおける適応能力と汎化能力を向上させます。
2.2 訓練方法
教師ありファインチューニング
教師ありファインチューニング(Supervised Finetuning, SFT)のための思考連鎖(CoT)データを生成するために、著者らは(1)エージェント合成と(2)蒸留(Distillation)を組み合わせたデータ生成方法を提案しており、具体的には以下の通りです。
エージェント合成:まず、計画、検索書き換え、観察分析などの役割を担うマルチエージェントシステムを構築し、思考連鎖の生成タスクを共同で実行します。最終的には、あるLLMが回答の判断を担当し、正解の思考連鎖のみを保持します。
蒸留:データセットを迅速に拡張し、高品質を維持するために、既存のデータで訓練された教師モデルを使用し、直接推論軌跡を生成し、段階的に教師モデルを反復することで、データの品質を徐々に向上させます。
強化学習
強化学習の部分では、著者らは動的サンプリング方策最適化(DAPO)アルゴリズムを採用し、ルール駆動のフォーマット報酬とモデル駆動の回答報酬を組み合わせて、ハイブリッド報酬システムを構築しました。フォーマット報酬はモデルの出力が指定されたフォーマットに適合しているかをチェックし、回答報酬は生成された回答と標準回答との整合性を評価します。
著者らは複数の回答報酬関数を探索し、最終的にモデルベースの報酬関数を選択しました。Qwen2.5-72B-Instructモデルを評価者として使用し、生成された回答と標準回答の一貫性に対してスコアを付けました。
カリキュラム学習
簡単なものから難しいものへと順に学習を支援するため、著者らはマスクの数に基づいて訓練サンプルを難易度別に分類することを提案しています。これにより、モデルはまず簡単なサンプルを通して基礎的な推論スキルを学び、その後、より挑戦的なシナリオに対応できるように能力を徐々に向上させます。
実験
3.1 主要結果
著者らは、異なるサイズのQwenおよびLLaMAモデルに基づく実験を通じて、2段階のMaskSearch訓練フレームワークが大規模モデルの検索および推論能力を著しく向上させることを証明しました。
RAMPを事前学習タスクとし、HotpotQAデータセットをダウンストリームタスクとする訓練プロセスに従い、MaskSearchはドメイン内(in-domain)データセットでモデルの再現率を着実に向上させました。また、Bamboogleなどのドメイン外データセットでは、性能向上がさらに顕著であり、小規模モデルでさえ大規模モデルの性能に匹敵し、RAMPがスケーラブルな学習信号として有効であることを検証しました。
実験は、教師あり学習(SFT)と強化学習(RL)の両訓練方法がMaskSearchフレームワークと互換性があることをさらに検証しました。特に、RLはRAMPタスクでより高い性能上限を示し、HotpotQAなどのドメイン内タスクでは、すべてのサイズのQwenモデルで最適な効果を達成しました。
これは、RLが動的サンプリング戦略と混合報酬メカニズムを通じて、モデルの多段階検索および推論プロセスをより正確に最適化でき、検索拡張モデルの適応性を向上させるためにより強力な訓練パラダイムを提供することを示しています。
3.2 スケーリング性能
教師あり学習のシナリオにおいて、著者らは異なる訓練ステップ数を用いた実験でMaskSearchのスケーラビリティを検証しました。小規模モデル(例:1B)は事前学習後に性能が著しく向上しましたが、大規模モデル(例:7B)は自己進化データの多様性によって性能向上が比較的緩やかでした。しかし、召回率のスコアはファインチューニングのみのモデルと比較して依然として増加しました。
これは、RAMPが異なる規模のモデルに対して持続的な改善の可能性を秘めていることを証明しており、また、データ品質と多様性がSFT方法のモデル性能上限を決定する主要な要因であることを示しています。
3.3 教師ありカリキュラム学習の効果
さらに、マスク数に基づいたカリキュラム学習訓練戦略が実験で検証されました。具体的な方法として、訓練時にマスク数に応じてデータを層別サンプリングし、各数に対して10Kの訓練サンプルを割り当て、6KのHotpotQAデータと組み合わせてタスクバランスを維持します。
マスクの数が1から4へと段階的に増加するにつれて、Qwen2.5-7Bモデルの検証セットでのスコアは著しく増加し、異なる数のマスクデータを混合して訓練した場合のパフォーマンスを大きく上回りました。さらに、ダウンストリームタスクにおいてもカリキュラム学習はモデルの訓練後のパフォーマンスをさらに向上させる効果があり、難易度勾配設計が推論能力の構築に促進的な役割を果たすことを検証しました。
さらなる分析
4.1 マスク戦略の影響
マスク戦略は、RAMP事前学習タスクの難易度に影響を与えるもう一つの重要な要因です。著者らは、ランダムマスキングと、パープレキシティ(PPL)に基づく難易度指向マスキング戦略を比較しました。後者は、モデルがマスクを復元する際の損失値(つまりパープレキシティ)を計算することで、復元難易度が高い部分を優先的に遮蔽します。
実験の結果、PPL戦略はFanoutQAデータセットでモデルの再現率を向上させましたが、他のデータセットでは難易度を過度に追求することで性能が低下する可能性があり、タスクの難易度はモデルの現在の検索および推論能力に適合している必要があることを示しています。したがって、カリキュラム学習の訓練戦略を組み合わせて難易度のバランスを取ることで、全体的に優れた効果を得ることができます。
4.2 RL報酬関数の影響
強化学習の訓練プロセスにおいて、異なる報酬関数はモデルの性能に様々な影響を与えます。Qwen-7bモデルを例にとると、トークンレベルの再現率に基づく報酬関数は、再現率を高めるために回答に大量の無関係な情報を詰め込むことをモデルに促し、その結果、回答の長さが大幅に増加し、他のRL報酬関数と比較して実際の性能が著しく低下しました。
回答の長さを抑制するために罰則項を導入することで、ある程度情報の冗長性を減らすことができますが、モデルは限られた長さ内で列挙方式を通じて規則の抜け穴を悪用する可能性があります。
対照的に、モデルベースの報酬関数が最高の性能を示し、モデルが生成した回答の長さ、トークンレベルの再現率、およびQwen72bモデルによる評価スコアのいずれにおいても、他の2つの報酬方法よりも優れていました。これにより、報酬の欺瞞問題を効果的に回避でき、RL訓練全体で優れた安定性と効率性を示しました。
結論
MaskSearchは、大規模言語モデル(LLM)のエージェント推論+検索能力の向上を目指しています。このフレームワークは、検索拡張型マスク予測(RAMP)事前学習タスクに依拠しており、モデルが自律的に多段階の検索と推論を実行し、テキスト中のマスクされた空白を埋め、外部知識の深い統合を実現することを可能にします。
教師ありファインチューニング(SFT)と強化学習(RL)の二重訓練経路で磨かれ、カリキュラム学習戦略を導入することで、MaskSearchはドメイン内およびクロスドメインのオープンエンド質問応答タスクの両方で、ベースライン方法と比較して顕著な性能向上を達成しました。
さらに読む
投稿チャンネル あなたの文章をもっと多くの人に見てもらいましょう
あなたの文章をもっと多くの人に見てもらいましょう
より質の高いコンテンツが読者層に最短で届き、読者が質の高いコンテンツを探すコストを短縮するにはどうすればよいでしょうか?答えは、「あなたが知らない人」です。
あなたが知らない人の中には、あなたが知りたいことを知っている人が常にいます。PaperWeeklyは、異なる背景や方向性を持つ学者や学術的なインスピレーションが互いにぶつかり合い、より多くの可能性を創出するための架け橋となるかもしれません。
PaperWeeklyは、大学の研究室や個人が、最新の論文解説、学術ホットトピックの分析、研究のヒント、競技会経験の解説など、さまざまな質の高いコンテンツを当プラットフォームで共有することを奨励しています。私たちの唯一の目的は、知識を真に循環させることです。
原稿の基本要件:
• 記事は個人のオリジナル作品であり、公開チャネルで発表されていないことを確認してください。他のプラットフォームで公開済みまたは公開予定の記事の場合は、明確に記載してください。
• 原稿はマークダウン形式で記述し、添付ファイルとして画像を送信することをお勧めします。画像は鮮明で、著作権の問題がないことを要求します。
• PaperWeeklyは原著者の署名権を尊重し、採用されたオリジナル初出原稿ごとに、記事の閲覧数と品質に応じた段階制で、業界で競争力のある報酬を提供します。
投稿用メールアドレス:hr@paperweekly.site
• 投稿の際は、速やかに連絡が取れる方法(WeChatなど)を明記してください。これにより、原稿が採用された場合に速やかに著者と連絡を取ることができます。
• 編集者のWeChat(pwbot02)を直接追加して迅速に投稿することも可能です。その際、「氏名-投稿」と備考に記載してください。
△長押しでPaperWeekly編集者を追加
🔍
現在、「知乎」でも私たちを見つけることができます。
知乎のホームページで「PaperWeekly」を検索し、
「フォロー」をクリックして私たちのコラムを購読してください。
·