論文:RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning
リンク:https://arxiv.org/pdf/2506.11555
なぜ従来のナレッジベースは賢くないのか?
モデルに数学の問題を解かせるところを想像してください。モデルはナレッジベースから公式を見つけ出すものの、その公式を適用できずに誤った答えを出してしまいます。これが現在の検索拡張生成(RAG)技術の致命的な欠点です!既存のRAGは「レシピは与えるが、実践的なデモンストレーションはしない」ようなもので、数学、法律、医療など複雑な推論を必要とする分野で頻繁に失敗しています。
RAG+の核となるコンセプト:「取扱説明書」を添える
画期的な設計:従来の「ナレッジベース」の隣に、新たに「アプリケーションケースベース」を追加し、二重構造のデータベースを構築します。
• ナレッジベース:定義や定理などの「理論知識」を格納。
• アプリケーションベース:問題解決の手順や判決ロジックなどの「実践ガイド」を付帯。
これはAIの参照回答に詳細な解説版を加えるようなものです!例えば、法律条文 + 実際の判例 数学公式 + 段階的な解答例
技術的な工夫:二重構造のデータベースはいかにして作られるか?
構築方法:
• 自動生成(データが少ない分野向け):大規模モデルを使って知識点に対する「応用問題」を作成します。例えば、GPTに数学問題の段階的な解法を生成させるなど。
• 現実とのマッチング(ケースが多い分野向け):法律条文と実際の判例をペアリングし、まるで法条に「使用タグ」を付けるようにします。
実験結果:実際のシナリオで従来のソリューションを圧倒
数学、法律、医療という3つの主要なシナリオでのテストにおいて、RAG+は全面的に優位性を示しました。
• 法律判決予測:Qwen2.5-72Bモデルの精度が10%急上昇(76.5%→87.5%)。
• 医療Q&A:LLaMA3.3-70Bの成績が85.6%を突破(ベースラインより4.6%向上)。
• 数学推論:小型モデルDS-Qwen-7Bの性能が6.5%急増。
モデルが大きいほど恩恵が大きいことを示す
ケーススタディ:
発見:
• 小型モデルの逆襲:7Bパラメーターモデル + アプリケーションベース ≈ 70B大規模モデルの単独性能
• 見かけ倒しではない:純粋なアプリケーションケースだけでは純粋な知識に比べて向上が限定的であり、「知識 + アプリケーション」の組み合わせが必須です。
今後の展望
チームは以下の方向性を明らかにしました。
• 動的なアプリケーションベース:クエリに基づいてリアルタイムでケースを生成し、固定テンプレートから脱却。
• 誤り訂正メカニズム:AIに「品質検査官」を設け、信頼性の低い知識をフィルタリング。
• モデル間の連携:大規模モデルが小型モデルを指導し、低コストでの導入を実現。
「RAG+のブレイクスルーは、知識の検索は単なる出発点であり、AIに知識の使い方を教えることが最終目標であるという認識にあります。」