Meta 發現：RAG 系統過慢是因為做了太多無用功

您的 RAG 系統執行緩慢，可能是因為做了太多不必要的工作。

近期，Meta 的研究團隊發布了 REFRAG 框架，揭示了一項關鍵發現：在 RAG 系統中，99% 的跨段落注意力計算都是浪費的。

隨著上下文視窗不斷擴大，第一個 token 的生成延遲呈二次方增長，這成為了 RAG 系統的效能瓶頸。REFRAG 透過一種新的壓縮策略，實現了第一個 token 生成加速 30.85 倍，同時仍維持了模型的準確性。

核心技術方案

傳統的 RAG 流程相當簡單：當查詢進來時，會被編碼成向量，從向量資料庫中尋找相似的文本塊，然後全部丟給大型語言模型 (LLM)。這種方法雖然可行，但代價不菲。大多數檢索到的區塊都包含不相關的文字，迫使 LLM 處理遠超所需的 token 數量，這在運算能力、延遲和上下文消耗上都是一種浪費。

REFRAG 的核心理念是，不直接將檢索到的原始 token 輸入生成模型，而是採用以下策略：

將上下文劃分為固定大小的區塊。
使用輕量級編碼器 (例如 RoBERTa) 生成壓縮的區塊嵌入。
將這些嵌入與查詢 token 一起輸入解碼器。
透過強化學習策略選擇性地展開重要的區塊。

這項設計使得注意力計算的複雜度從 token 數量降低到區塊數量。在 16 倍壓縮率下，系統實現了 16.53 倍的加速，同時效能比現有方法提升了 9.3%。

那麼這與重排序器有何不同呢？

一般的 RAG 管線若帶有重排序功能，重排序器僅在文本層面對區塊進行重新排序或修剪，並不會改變輸入大型語言模型的表示形式。大型語言模型仍會逐個 token 地接收前幾個區塊的完整文字。

然而，REFRAG 是在嵌入層面進行壓縮、過濾與替換。它不讓大型語言模型消耗每個區塊所有的 token 嵌入，而是用一個壓縮嵌入來代表一個區塊，讓強化學習 (RL) 策略決定哪些區塊值得擴展成完整形式。更重要的是，REFRAG 將相關性過濾移至大型語言模型的表示空間，而不僅僅是檢索空間。大型語言模型本身被訓練來理解壓縮後的嵌入，並基於其進行推論。

創新點

研究團隊發現 RAG 系統的一個重要特性：檢索段落之間的注意力呈現「區塊對角結構」。段落內部的 token 相互關注度高，但跨段落的注意力幾乎為零。這種稀疏性為壓縮最佳化提供了理論基礎。

在訓練方法上，團隊採用了「課程學習」(Curriculum learning) 策略。模型首先學習重建單個區塊，然後逐步增加到多個區塊。這種漸進式訓練對於模型掌握壓縮能力至關重要。此外，強化學習策略能夠動態決定哪些內容區塊需要完整展開，實現了壓縮率的自適應調整。

實驗驗證

在多項基準測試中，REFRAG 展現了穩定的效能提升：

RAG 任務：在相同延遲條件下，相較於 LLaMA，效能提升了 1.22% (強檢索器) 到 1.93% (弱檢索器)。
多輪對話：由於能夠透過壓縮保留更多歷史上下文，在對話輪數增加時，其優勢更加明顯。
文件摘要：在長文件處理任務中，REFRAG 能夠在相同的運算預算下處理更多內容。

總結

在實際的工程實作層面，也需要一些額外工作。例如：

為了增加跨查詢重複使用，壓縮後的區塊嵌入可以預先計算並儲存在向量資料庫中，以支援跨查詢重複使用。這種「隨處壓縮」的能力使其特別適用於多輪對話和智能體應用場景。

為了增加可解釋性，需要解釋哪些壓縮上下文影響了答案。壓縮管線需要具備像檢索一樣的溯源機制，儲存區塊的哈希值和版本資訊。

同時，雖然強化學習策略提供了更好的效能，但固定壓縮率的版本在實際部署中可能更為穩定可靠。

總體而言，REFRAG 的成功表明，針對特定應用情境進行最佳化是十分必要的。就 RAG 系統而言，理解並利用其特有的「注意力稀疏性」，比籠統地擴大上下文視窗更為有效。

論文：https://arxiv.org/abs/2509.01092

Meta 發現：RAG 系統過慢是因為做了太多無用功

分享短網址