Meta 發現:RAG 系統過慢是因為做了太多無用功

您的 RAG 系統執行緩慢,可能是因為做了太多不必要的工作。

近期,Meta 的研究團隊發布了 REFRAG 框架,揭示了一項關鍵發現:在 RAG 系統中,99% 的跨段落注意力計算都是浪費的。

隨著上下文視窗不斷擴大,第一個 token 的生成延遲呈二次方增長,這成為了 RAG 系統的效能瓶頸。REFRAG 透過一種新的壓縮策略,實現了第一個 token 生成加速 30.85 倍,同時仍維持了模型的準確性。

核心技術方案

圖片

傳統的 RAG 流程相當簡單:當查詢進來時,會被編碼成向量,從向量資料庫中尋找相似的文本塊,然後全部丟給大型語言模型 (LLM)。這種方法雖然可行,但代價不菲。大多數檢索到的區塊都包含不相關的文字,迫使 LLM 處理遠超所需的 token 數量,這在運算能力、延遲和上下文消耗上都是一種浪費。

REFRAG 的核心理念是,不直接將檢索到的原始 token 輸入生成模型,而是採用以下策略:

  1. 將上下文劃分為固定大小的區塊。

  2. 使用輕量級編碼器 (例如 RoBERTa) 生成壓縮的區塊嵌入。

  3. 將這些嵌入與查詢 token 一起輸入解碼器。

  4. 透過強化學習策略選擇性地展開重要的區塊。

這項設計使得注意力計算的複雜度從 token 數量降低到區塊數量。在 16 倍壓縮率下,系統實現了 16.53 倍的加速,同時效能比現有方法提升了 9.3%。

那麼這與重排序器有何不同呢?

圖片

一般的 RAG 管線若帶有重排序功能,重排序器僅在文本層面對區塊進行重新排序或修剪,並不會改變輸入大型語言模型的表示形式。大型語言模型仍會逐個 token 地接收前幾個區塊的完整文字。

然而,REFRAG 是在嵌入層面進行壓縮、過濾與替換。它不讓大型語言模型消耗每個區塊所有的 token 嵌入,而是用一個壓縮嵌入來代表一個區塊,讓強化學習 (RL) 策略決定哪些區塊值得擴展成完整形式。更重要的是,REFRAG 將相關性過濾移至大型語言模型的表示空間,而不僅僅是檢索空間。大型語言模型本身被訓練來理解壓縮後的嵌入,並基於其進行推論。

創新點

研究團隊發現 RAG 系統的一個重要特性:檢索段落之間的注意力呈現「區塊對角結構」。段落內部的 token 相互關注度高,但跨段落的注意力幾乎為零。這種稀疏性為壓縮最佳化提供了理論基礎。

在訓練方法上,團隊採用了「課程學習」(Curriculum learning) 策略。模型首先學習重建單個區塊,然後逐步增加到多個區塊。這種漸進式訓練對於模型掌握壓縮能力至關重要。此外,強化學習策略能夠動態決定哪些內容區塊需要完整展開,實現了壓縮率的自適應調整。

實驗驗證

圖片圖片

在多項基準測試中,REFRAG 展現了穩定的效能提升:

  • RAG 任務:在相同延遲條件下,相較於 LLaMA,效能提升了 1.22% (強檢索器) 到 1.93% (弱檢索器)。

  • 多輪對話:由於能夠透過壓縮保留更多歷史上下文,在對話輪數增加時,其優勢更加明顯。

  • 文件摘要:在長文件處理任務中,REFRAG 能夠在相同的運算預算下處理更多內容。

圖片

總結

在實際的工程實作層面,也需要一些額外工作。例如:

為了增加跨查詢重複使用,壓縮後的區塊嵌入可以預先計算並儲存在向量資料庫中,以支援跨查詢重複使用。這種「隨處壓縮」的能力使其特別適用於多輪對話和智能體應用場景。

為了增加可解釋性,需要解釋哪些壓縮上下文影響了答案。壓縮管線需要具備像檢索一樣的溯源機制,儲存區塊的哈希值和版本資訊。

同時,雖然強化學習策略提供了更好的效能,但固定壓縮率的版本在實際部署中可能更為穩定可靠。

總體而言,REFRAG 的成功表明,針對特定應用情境進行最佳化是十分必要的。就 RAG 系統而言,理解並利用其特有的「注意力稀疏性」,比籠統地擴大上下文視窗更為有效。

論文:https://arxiv.org/abs/2509.01092

主標籤:人工智慧

次標籤:RAG機器學習最佳化大型語言模型


上一篇:癌症真的快被 AI 突破了嗎?Google 兩天內發布兩項重大進展

下一篇:您說得對,AGI一年內不會出現!學術界對通用人工智慧的最新定義,由27家機構聯合發佈

分享短網址