最新評測:GraphRAG,整理:PaperAgent
6月有兩篇關於GraphRAG技術評估的最新論文,涉及12種GraphRAG技術:HippoRAG、HippoRAG2、LightRAG、Fast-GraphRAG、RAPTOR、MGraphRAG、KGP、GraphRAG 、G-Retriever、DALK、ToG、GFM-RAG
論文1:When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation
論文地址:https://arxiv.org/pdf/2506.05690
論文2:GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation
論文地址:https://arxiv.org/pdf/2506.02404
GraphRAG 是一種擴展的 RAG 範式,透過建構圖形結構來組織背景知識,其中節點代表實體、事件或主題,邊代表它們之間的邏輯、因果或關聯關係。它不僅檢索直接相關的節點,還會遍歷圖形以擷取相互連接的子圖,從而發現隱藏的模式。
GraphRAG vs RAG
GraphRAG 是否真的有效,以及在哪些情境下圖形結構能為 RAG 系統帶來可衡量的好處?
廈門大學和香港理工大學提出的GraphRAG-Bench基準測試框架,旨在全面評估 GraphRAG 模型在分層知識檢索和深度上下文推理中的表現:
實驗部分對 GraphRAG 和傳統 RAG 進行了全面比較,得出以下結論:
1. 生成準確性(Generation Accuracy):GraphRAG 在複雜推理、上下文總結和創造性生成任務中表現優於 RAG,但在簡單事實檢索任務中,RAG 的表現更好或相當。
2. 檢索效能(Retrieval Performance):GraphRAG 在複雜問題上顯示出優勢,能夠連接分散在不同文本片段中的資訊,這對於多跳推理和全面總結至關重要。
3. 圖形複雜度(Graph Complexity):不同的 GraphRAG 實作生成的索引圖形在結構上存在顯著差異,例如 HippoRAG2 生成的圖形更為密集,節點和邊的數量遠超其他框架。
香港理工大學和騰訊優圖提出的GraphRAG-Bench更側重於評估 GraphRAG 在特定領域推理中的表現。該基準測試包含 1018 個涵蓋 16 個學科的學士班程度問題,涉及多跳推理、複雜演算法程式設計和數學計算等多種任務類型。
評估了九種最先進的 GraphRAG 方法,包括 RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP 和 ToG,得出關鍵結論:
1. GraphRAG 的優勢:在複雜推理和多跳任務中,GraphRAG 顯著優於傳統 RAG 方法,尤其是在需要深度上下文理解和邏輯推理的任務中。
2. 任務類型的影響:GraphRAG 在不同任務類型中的表現存在差異。例如,在數學和倫理學領域,其表現不如在電腦科學領域。
3. 推理能力的提升:GraphRAG 方法不僅提高了生成的準確性,還顯著提升了模型的推理能力,使其能夠生成更符合邏輯的解釋。
GraphRAG技術的圖形建構評估
RAPTOR 的圖形建構時間最長,但詞元消耗最少,因為它僅透過 LLM 生成總結。
KGP 的圖形建構時間較短,但詞元消耗較高。
GraphRAG 和 LightRAG 的圖形建構時間較長,且詞元消耗最多,因為它們生成了額外的描述資訊。
G-Retriever 和 HippoRAG 的圖形建構時間最短,且非孤立節點比例最高(約 90%),表明它們在圖形建構品質上表現最佳。
GraphRAG技術知識檢索評估
GFM-RAG 的索引時間最短,因為它不建構傳統的向量資料庫。
RAPTOR 的平均檢索時間最快,因為其樹狀結構能夠快速定位資訊。
HippoRAG 和 GFM-RAG 的檢索時間較短,分別利用了 GNN 和 PageRank 演算法。
GraphRAG 的檢索時間較長,因為它需要利用社群資訊進行檢索