RAGも推論思考が可能に！多源異種知識の難題を徹底解決

現在のRAG（検索拡張生成）システムは、シンプルで直接的な質問にはきちんと答えられますが、質問が少し回りくどかったり、知識源が複雑になると、すぐに機能不全に陥り、無関係な情報を大量に返すか、もっともらしくでたらめを言い始めます。本日、ラトガース大学の研究者たちがDeepSieveを発表しました。これは異種知識源の処理に特化したRAGフレームワークであり、RAGシステムが真に「思考することを学ぶ」ことを可能にします。

従来のRAGの「限界」

なぜ現在の従来のRAG手法はこれほど「脆弱」なのでしょうか？根本的な原因は、それらのほとんどがシングルホップ（single-hop）検索モデルであることにあります。このモデルは、現実世界の複雑な情報要求に直面した際に、2つの致命的な根本的欠陥を抱えています。

欠陥一：マルチホップ（Multi-hop）問題の内的論理を理解できない

多くの価値ある問題は、一度で解決できるものではなく、玉ねぎの皮をむくように段階的に進む必要があり、これが「マルチホップ」推論です。しかし、従来のRAGはマルチホップ問題を受け取ると、その論理的な連鎖を分解しようとせず、一度の曖昧な意味的マッチングで答えを見つけようとします。

論文の例を挙げると、「ナイジェリアで『フライングドクター』サービスを設立した女性の夫は誰ですか？」という質問に対し、従来のRAGは「夫」、「創設者」、「フライングドクター」といった言葉を一緒にして一度に曖昧な検索を行います。その結果、すべての情報に完璧に一致する文書が見つからず、完全に混乱してしまう可能性が高いです。なぜなら、この問題が実は2つのステップを必要としていることを根本的に理解していないからです。第一ステップ：創設者が誰であるかを見つける。第二ステップ：その創設者の夫が誰であるかを見つける。

欠陥二：「異種情報フォレスト」を操縦できない

現実世界の知識ベースは、SQLテーブル、プライベートなJSONログ、リアルタイムで呼び出す必要のあるAPIインターフェース、膨大な百科事典のコーパスなど、多源、多形式、多モーダルです。この「異種情報フォレスト」に直面すると、従来のRAG手法は、盲目的に一つずつ検索するか、すべてのものを「ごちゃ混ぜに詰め込んで」同じベクトルインデックスに無理やり入れようとします。その結果、しばしば重要な証拠を見落とし、コンテキストの衝突を引き起こし、大量のトークンを浪費します。

図1：DeepSieveの動機と概要。左側は従来のRAGが直面する課題を示し、右側はDeepSieveの解決策です。

DeepSieve：RAGに「マルチコアの脳」を搭載

従来のRAGの窮地に対し、DeepSieveのアプローチはまさに「根本的な解決策」と言えます。研究者たちはLLMを単なる検索後の「仕上げツール」としてではなく、ワークフロー全体の「総司令官」に昇格させ、「階層的な選別」モジュール型フレームワークを提案しました。これにより、大規模言語モデル自身がすべての重要なステップを決定します。

革新的なメカニズム：LLMを「知識のふるい」にする

上記の問題に直面し、DeepSieveのアプローチは、実際には人間の専門家の働き方に似ています。まず計画し、次に段階的に実行し、問題が発生したら調整する、というものです。研究者たちは巧妙なプロンプトエンジニアリングを通じて、LLMを受動的な「回答者」としてだけでなく、能動的な「指揮官」として機能させました。このプロセスは概ね4つのステップに分かれ、まるでAIに「プランニングの脳」と「スマートGPS」を搭載したかのようです。

図2：DeepSieveの詳細なワークフロー図。問題の分解からルーティング、検索、リフレクション、そして最終的な統合までの全過程を示します。

ステップ1：分解（Decomposition） — これは「プランニングの脳」です。複雑な問題を受け取った後、DeepSieveが最初に行うのは、急いで検索することではなく、LLMに「チーフプランナー」の役割を担わせることです。入念に設計されたプロンプトを通じて、LLMに元の問題を論理的に明確で依存関係のあるサブタスクリストに分解し、プログラムが読み取れるJSON形式で出力するように要求します。例えば、大きな問題を「q1」、「q2」などの複数のステップに分割し、「q2」の実行には「q1」の答えを変数として使用する必要があることを明確に示します。これにより、先を見越した戦略的計画が完了します。

ステップ2：ルーティング（Routing） — これは「スマートGPS」です。ロードマップが計画されたら、次のステップは、各ステップがどのパスを辿り、どの交通手段を使用するかを決定することです。DeepSieveはLLMに「スマートGPS」の役割を担わせます。LLMは現在のサブタスクを見て、手元にある利用可能な知識源（例えば「ローカル個人データベース」、「グローバルWikipedia」）を確認し、各知識源の「概要」に基づいて、そのサブタスクに最適なツールを動的に選択します。このステップのコストは非常に低く、LLMは「local」または「global」という単語を返すだけで、膨大な知識体系の正確なナビゲーションを実現します。

ステップ3：実行とリフレクション（Execution & Reflexion） — これは「エラー訂正と学習」です。しかし、万が一GPSが道を間違えたらどうなるでしょうか？これこそがDeepSieveの最も輝かしい点であり、「リフレクション」というメカニズムを持っています。各サブタスクを実行する際、LLMには回答と同時に、「success」が1または0であるかを判断するフラグを出すように要求します。これは、今回の検索が本当に信頼できる情報を見つけたかどうかを判断するためです。失敗した場合（successが0）、システムはそこで諦めず、その失敗した試み（例えば「先ほど『local』ライブラリを選択しましたが、情報が見つかりませんでした」）を記録し、次回の再試行時にLLMに伝え、それによって「別の方法を試す」よう誘導します。例えば、今回は「global」ライブラリを検索するといった具合です。

ステップ4：融合（Fusion） — これは「要約レポート」です。最後に、すべての小さな問題が上記の手順で答えを見つけた後、システムは推論チェーン全体、つまりすべてのサブ問題の「質問-回答-理由」をすべて集約します。これらの完全な「証拠」を一度にLLMに提出し、LLMに「要約者」の役割を担わせ、これらの堅牢で信頼できる中間ステップに基づいて、論理的で一貫性のある、根拠のある最終的な回答を生成します。

手法のハイライト：LLM駆動の計画と実行

サブ問題レベルの正確なルーティング：単に大量のドキュメントを呼び出すのではなく、「どこを調べるか＋何を調べるか＋何回調べるか」という完全な計画を実現します。

異種知識源のネイティブサポート：SQLデータベース内の構造化データであろうと、Wikipedia内の非構造化テキストであろうと、あるいはユーザー行動のJSONログであろうと、すべて同じクエリシステムにシームレスに組み込むことができます。

強力な自己修正能力：独自の「リフレクション」（Reflexion）メカニズムにより、システムは一度の試行が失敗した後、失敗原因を能動的に分析し、クエリ戦略を再計画することができます。単に諦めたりエラーを返すだけではありません。

DeepSieveのエンジニアリング実装のハイライト

理論の優雅さは最終的に堅実なエンジニアリング実装によって支えられる必要があり、この点は研究者たちがオープンソース化したプロジェクトに余すところなく示されています。エンジニアにとって、このコードは単なるアルゴリズムの再現だけでなく、優れたAIシステム設計の模範であり、特に注目すべき点がいくつかあると私は思います。

https://github.com/MinghoKwok/DeepSieve

実験結果

研究者たちはDeepSieveが本当に有効であるかを検証するため、非常に厳密な一連の実験を設計しました。

実験設計：最もハードコアなシナリオでのテスト

データセット：研究者たちは、マルチホップ質問応答能力をテストするために特別に設計された、業界で認められた「難関」ベンチマークであるMuSiQue、2WikiMultiHopQA、HotpotQAの3つを選択しました。

シナリオシミュレーション：「情報サイロ」という現実世界の課題をシミュレートするため、彼らは各データセットの知識ベースを人工的に「local」（ローカル/プライベート）と「global」（グローバル/パブリック）の2つの部分に分割しました。これにより、システムは統一されたライブラリを盲目的に検索するのではなく、正しい情報をどこで探すべきかをインテリジェントに判断せざるを得なくなりました。

直接対決の相手

DeepSieveの比較対象は、現在のRAGおよびエージェント分野のトップレベルの手法を網羅しています。

古典的なRAGの代表：ColBERTv2、HippoRAG、RAPTORといった有名フレームワークが含まれます。

最先端のエージェント手法：ReAct、ReWOO、Reflexionといった著名なエージェントフレームワークも網羅しています。

精度と効率の二重の収穫

実験結果は本当に強力で、DeepSieveはすべての側面でその優位性を示しました。

精度：すべてのベンチマークテストにおいて、DeepSieveの平均F1スコアとEM（Exact Match）スコアは、これらすべての強力な競合を顕著に上回りました。

効率：さらに、より高い精度を達成しながらも、トークン消費量（つまり計算コスト）はReActやReflexionのような複雑なエージェント手法よりもはるかに低く、時には後者の10分の1以下でした。

図3：性能比較レーダーチャート。面積が大きいほど総合性能が優れていることを示します。DeepSieveは精度（F1、EM）と効率（トークン逆比）で最高のバランスを達成しました。

モジュールの価値：「部品分解」的なアブレーション実験を通じて、研究者たちはフレームワーク内の各モジュールの不可欠性を証明しました。「分解」と「リフレクション」は高精度を保証する絶対的な核であり、「ルーティング」は複雑なシナリオでシステム堅牢性を向上させる鍵です。

「データ運び屋」から「タスク司令官」へ

DeepSieveは、マルチホップ質問応答のベンチマークで卓越した性能を示すだけでなく、より重要なことに、複雑なAIアプリケーションの実装に新たな道を開きました。複数の内部システム（ERP、CRM、ドキュメントリポジトリなど）と連携して回答する必要がある複雑なビジネス問題に直面した場合、企業の多源データを統合し、深いビジネス洞察を提供するインテリジェントアシスタントの構築であろうと、個人にとって異種知識を統合し、効率的な情報マイニングを実現する次世代パーソナル知識ベースの構築であろうと、DeepSieveは強固なアーキテクチャサポートを提供します。

RAGも推論思考が可能に！多源異種知識の難題を徹底解決

短いURLをシェア