Metaが発見:RAGシステムの遅延は無駄な作業が多すぎることが原因

あなたのRAGシステムが遅いのは、無駄な作業が多すぎるからかもしれません。

最近、Metaの研究チームはREFRAGフレームワークを発表し、RAGシステムにおいて99%の段落間アテンション計算が無駄であるという重要な発見を証明しました。

コンテキストウィンドウが拡大し続けるにつれて、最初のトークンの生成遅延が二次関数的に増加し、これがRAGシステムのパフォーマンスボトルネックとなっています。REFRAGは、新しい圧縮戦略により、最初のトークン生成を30.85倍高速化し、モデルの精度を維持しています。

コア技術ソリューション

画像

従来のRAGプロセスは非常にシンプルです。クエリが来て、ベクトルにエンコードされ、ベクトルデータベースから類似するテキストブロックが見つけ出され、それらがまとめてLLMに与えられます。この方法は機能しますが、代償も大きいです。ほとんどの取得されたブロックには無関係なテキストが含まれており、LLMは必要以上に多くのトークンを処理する必要があるため、計算能力、遅延、コンテキストにおいて無駄なコストがかかります。

REFRAGの核心的な考え方は、取得された生トークンを直接生成モデルに入力するのではなく、以下の戦略を採用することです。

  1. コンテキストを固定サイズのブロックに分割します。

  2. 軽量エンコーダ(例:RoBERTa)を使用して、圧縮されたブロック埋め込みを生成します。

  3. これらの埋め込みをクエリトークンとともにデコーダに入力します。

  4. 強化学習戦略により、重要なブロックを選択的に展開します。

この設計により、アテンション計算の複雑さがトークン数からブロック数に削減されます。16倍の圧縮率で、システムは16.53倍の高速化を達成し、同時に既存の方法よりも9.3%性能を向上させました。

では、これはリランカーとどう違うのでしょうか?

画像

通常のリランカー付きRAGパイプラインでは、リランカーはテキストレベルでブロックを再順序付けまたは剪定するだけであり、LLMへの入力形式を変更することはありません。LLMは引き続き、上位のいくつかのブロックの完全なテキストをトークンごとに受け取ります。

一方、REFRAGは埋め込みレベルで圧縮、フィルタリング、および置換を行います。LLMが各ブロックのすべてのトークン埋め込みを消費するのではなく、圧縮された埋め込みがブロックを表し、RL戦略によってどのブロックを完全な形式に展開する価値があるかを決定します。さらに重要なのは、REFRAGが関連性フィルタリングを検索空間だけでなく、LLMの表現空間に移したことです。LLM自体は、圧縮された埋め込みを理解し、それに基づいて推論を行うように訓練されています。

イノベーション

研究チームはRAGシステムの重要な特徴を発見しました。取得された段落間のアテンションは「ブロック対角構造」を示します。段落内のトークン同士は高い相互アテンションを示しますが、段落間のアテンションはほぼゼロです。このスパース性が圧縮最適化の理論的根拠を提供します。

トレーニング方法については、チームは「カリキュラム学習」(Curriculum learning)戦略を採用しました。モデルはまず単一のブロックを再構築することを学習し、その後徐々に複数のブロックに増やしていきます。この漸進的なトレーニングは、モデルが圧縮能力を習得するために不可欠です。さらに、強化学習戦略により、どのコンテンツブロックを完全に展開する必要があるかを動的に決定でき、圧縮率の適応的調整を実現します。

実験的検証

画像画像

複数のベンチマークテストにおいて、REFRAGは安定したパフォーマンス向上を示しました。

  • RAGタスク:同じ遅延条件下で、LLaMAと比較して、性能が1.22%(強力な検索器)から1.93%(弱い検索器)向上しました。

  • 多ターン対話:圧縮によりより多くの過去のコンテキストを保持できるため、対話ターン数が増えるにつれて優位性が顕著になりました。

  • 文書要約:長文書処理タスクにおいて、REFRAGは同等の計算予算でより多くのコンテンツを処理できました。

画像

まとめ

実際のエンジニアリング実装の側面でも、いくつかの作業が必要です。例えば:

クロス・クエリ再利用を増やすために、圧縮されたブロック埋め込みは事前に計算され、ベクトルデータベースに保存されることで、クロス・クエリ再利用をサポートできます。この「どこでも圧縮」機能は、多ターン対話やエージェントアプリケーションのシナリオに特に適しています。

解釈可能性を高めるために、どの圧縮されたコンテキストが回答に影響を与えたかを説明する必要があります。圧縮パイプラインは、検索と同様のトレーサビリティメカニズムを持ち、ブロックのハッシュとバージョン情報を保存する必要があります。

同時に、強化学習戦略はより優れたパフォーマンスを提供しますが、固定圧縮率のバージョンは実際の展開においてより安定して信頼できる可能性があります。

全体として、REFRAGの成功は、特定のアプリケーションシナリオに合わせた最適化が非常に重要であることを示しています。RAGシステムに関しては、その特有の「アテンションのスパース性」を理解し利用することが、漠然とコンテキストウィンドウを拡大するよりも効果的です。

論文:https://arxiv.org/abs/2509.01092

メインタグ:人工知能

サブタグ:RAG機械学習最適化大規模言語モデル


前の記事:AIは本当に癌を克服しようとしているのか?Googleが2日間で2つのブレークスルーを発表

次の記事:おっしゃる通り、AGIは1年以内には現れない!27機関によるAGIの学術的定義が発表

短いURLをシェア