最新12種GraphRAG技術全面評估

最新評測：GraphRAG，整理：PaperAgent

6月有兩篇關於GraphRAG技術評估的最新論文，涉及12種GraphRAG技術：HippoRAG、HippoRAG2、LightRAG、Fast-GraphRAG、RAPTOR、MGraphRAG、KGP、GraphRAG 、G-Retriever、DALK、ToG、GFM-RAG

論文1：When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation

論文地址：https://arxiv.org/pdf/2506.05690

論文2：GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation

論文地址：https://arxiv.org/pdf/2506.02404

GraphRAG 是一種擴展的 RAG 範式，透過建構圖形結構來組織背景知識，其中節點代表實體、事件或主題，邊代表它們之間的邏輯、因果或關聯關係。它不僅檢索直接相關的節點，還會遍歷圖形以擷取相互連接的子圖，從而發現隱藏的模式。

GraphRAG vs RAG

GraphRAG 是否真的有效，以及在哪些情境下圖形結構能為 RAG 系統帶來可衡量的好處？

廈門大學和香港理工大學提出的GraphRAG-Bench基準測試框架，旨在全面評估 GraphRAG 模型在分層知識檢索和深度上下文推理中的表現：

實驗部分對 GraphRAG 和傳統 RAG 進行了全面比較，得出以下結論：

1. 生成準確性（Generation Accuracy）：GraphRAG 在複雜推理、上下文總結和創造性生成任務中表現優於 RAG，但在簡單事實檢索任務中，RAG 的表現更好或相當。

2. 檢索效能（Retrieval Performance）：GraphRAG 在複雜問題上顯示出優勢，能夠連接分散在不同文本片段中的資訊，這對於多跳推理和全面總結至關重要。

3. 圖形複雜度（Graph Complexity）：不同的 GraphRAG 實作生成的索引圖形在結構上存在顯著差異，例如 HippoRAG2 生成的圖形更為密集，節點和邊的數量遠超其他框架。

香港理工大學和騰訊優圖提出的GraphRAG-Bench更側重於評估 GraphRAG 在特定領域推理中的表現。該基準測試包含 1018 個涵蓋 16 個學科的學士班程度問題，涉及多跳推理、複雜演算法程式設計和數學計算等多種任務類型。

評估了九種最先進的 GraphRAG 方法，包括 RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP 和 ToG，得出關鍵結論：

1. GraphRAG 的優勢：在複雜推理和多跳任務中，GraphRAG 顯著優於傳統 RAG 方法，尤其是在需要深度上下文理解和邏輯推理的任務中。

2. 任務類型的影響：GraphRAG 在不同任務類型中的表現存在差異。例如，在數學和倫理學領域，其表現不如在電腦科學領域。

3. 推理能力的提升：GraphRAG 方法不僅提高了生成的準確性，還顯著提升了模型的推理能力，使其能夠生成更符合邏輯的解釋。

GraphRAG技術的圖形建構評估

RAPTOR 的圖形建構時間最長，但詞元消耗最少，因為它僅透過 LLM 生成總結。

KGP 的圖形建構時間較短，但詞元消耗較高。

GraphRAG 和 LightRAG 的圖形建構時間較長，且詞元消耗最多，因為它們生成了額外的描述資訊。

G-Retriever 和 HippoRAG 的圖形建構時間最短，且非孤立節點比例最高（約 90%），表明它們在圖形建構品質上表現最佳。

GraphRAG技術知識檢索評估

GFM-RAG 的索引時間最短，因為它不建構傳統的向量資料庫。

RAPTOR 的平均檢索時間最快，因為其樹狀結構能夠快速定位資訊。

HippoRAG 和 GFM-RAG 的檢索時間較短，分別利用了 GNN 和 PageRank 演算法。

GraphRAG 的檢索時間較長，因為它需要利用社群資訊進行檢索