清華大學新RAG架構：DO-RAG 準確率飆升33%！

發布時間：2025年05月17日

RAG

若無法新增，請加微信: iamxxn886

添加註明 DORAG

1、RAG研究現況

問答系統（QA）讓使用者能以自然語言從海量資料中精準獲取資訊，主要分為兩類：

開放領域QA依賴常識應答

封閉領域QA則需專業資料支援

隨著DeepSeek-R1、Grok-3等大型語言模型（LLM）的突破，文字流暢度和語義理解顯著提升。但這些模型依賴參數記憶，遇到專業術語或複雜推論時，仍可能"胡言亂語"或答非所問。

檢索增強生成（RAG）透過在應答前抓取相關片段提升準確性-，知識圖譜（KG）則用結構化關係網路支援多步推論。

但現有方案存在明顯缺陷：

複雜關聯常被切割檢索，導致答案支離破碎；

建構高品質領域圖譜費時費力，與向量搜尋結合又帶來巨大工程負擔。

為此，清華大學團隊推出DO-RAG架構，實現三大創新：

建構動態知識圖譜：透過多級智慧體管線，自動從文字、表格等多模態資料中提取實體關係

雙軌檢索整合：結合圖譜推論與語義搜尋，生成資訊豐富的提示範本

幻覺修正機制：對照知識庫驗證答案，疊代修正邏輯漏洞

在資料庫等專業領域測試中，DO-RAG以94%的準確率碾壓主流方案，最高領先33個百分點。模組化設計支援隨插即用，無需重新訓練即可遷移到新領域。

二、什麼是DO-RAG？

2.1 系統架構全景

如上圖所示，DO-RAG系統由四大核心模組構成：

多模態文件解析與分塊處理

知識圖譜(KG)建構中的多層級實體關係提取

圖遍歷與向量搜尋的混合檢索機制

面向精準回答的多階段生成引擎

系統首先對日誌、技術文件、圖表等異構資料進行智慧分塊，並將文字片段與其向量化表示同步儲存於pgvector增強的PostgreSQL資料庫。

透過思維鏈驅動的智慧體流程，將文件內容轉化為結構化的多模態知識圖譜(MMKG)，精準捕捉系統參數、行為特徵等多維關聯。

當使用者發起查詢時，意圖解析模組會將其拆解為若干子查詢。系統首先在知識圖譜中定位相關實體節點，透過多跳推論擴展檢索邊界，獲取富含領域特性的結構化上下文。

隨後，系統運用圖譜感知的提示範本對原始查詢進行語義精煉，將其轉化為無歧義的精準表達。最佳化後的查詢透過向量化檢索，從資料庫中召回最相關的文字片段。

最終，系統整合原始查詢、最佳化語句、圖譜上下文、檢索結果及對話歷史，建構統一提示輸入生成引擎。

答案生成經歷三階段打磨：首輪生成、事實驗證與語義最佳化、最終凝練。系統還會智慧預測後續問題，實現自然流暢的多輪對話體驗。

2.2 知識庫建構

文件處理從多模態輸入開始，文字、表格和圖片經過標準化處理，分割為語義連貫的片段，同時保留原始文件結構、章節層級等中介資料以確保可追溯性。

採用多智慧體分層管線並行提取結構化知識。如上圖所示，四個專用智慧體各司其職：

高層智慧體：解析文件骨架（章節/段落）

中層智慧體：抓取領域實體（系統元件/API/參數）

底層智慧體：挖掘細粒度操作邏輯（執行緒行為/錯誤連結）

協變量智慧體：標註節點屬性（預設值/效能影響）

最終生成動態知識圖譜，以節點代表實體、邊代表關聯、權重代表置信度。透過餘弦相似度比對實體嵌入向量實現去重，並聚合相似實體為摘要節點以簡化圖譜。

2.3 混合檢索與查詢分解

如上圖所示，當使用者提問時，DO-RAG會透過基於大型語言模型的意圖分析器對問題進行結構化拆解，生成指導知識圖譜（KG）和向量庫檢索的子查詢。

系統首先根據語義相似度從KG中提取相關節點，透過多跳遍歷建構富含上下文的子圖。藉助圖感知提示，這些圖譜證據會最佳化查詢表述並消除歧義。最佳化後的查詢透過向量化檢索，從資料庫中召回最相關的文字片段。

最終，DO-RAG會將原始查詢、最佳化查詢、圖譜上下文、向量檢索結果及使用者對話歷史等所有資訊，整合成統一的提示框架。

2.4 答案的生成與交付

如上圖所示，最終答案透過分階段提示策略生成。

首先，基礎提示要求大型語言模型僅依據檢索到的證據應答，避免無依據內容。

然後透過最佳化提示對答案進行結構調整和驗證。

最後凝練階段確保回答的語氣、語言和風格與問題保持一致。

為提升互動體驗，DO-RAG還會基於最佳化後的答案生成後續問題。最終交付內容包括：

(1) 精煉可驗證的答案，

(2) 標註來源的引用，

(3) 針對性後續問題。

若證據不足，系統會如實返回"我不知道"，確保可靠性和準確性。

3. 效果比較

選用Client Service國際公司(CSII)研發的SunDB分散式關係資料庫作為測試平台。其技術手冊、系統日誌和規範說明構成的異構資料集，為驗證DO-RAG的多模態處理、實體關係挖掘和混合檢索能力提供了理想場景。

3.1 實驗配置

3.1.1 硬體環境

64GB記憶體+NVIDIA A100顯示卡的Ubuntu工作站

3.1.2 軟體棧

追蹤系統：LangFuse(v3.29.0)

快取管理：Redis(v7.2.5)

文件儲存：MinIO(最新版)

分析引擎：ClickHouse(穩定版)

向量資料庫：PostgreSQL+pgvector組合

3.1.3 測試資料

SunDB核心資料集：含嵌入式程式碼的技術文件

電氣工程輔助集：帶電路圖的技術手冊

每組245道專業題庫均標註標準答案及精確出處

3.1.4 評估體系

四大核心指標(達標線0.7分)：

答案相關性(Answer Relevancy, AR) - 語義匹配度

上下文召回(Contextual Recall, CR) - 資訊完整度

檢索精確度(Contextual Precision, CP) - 結果純淨度

內容忠實度(Faithfulness, F) - 答案可信度

3.1.5 評估工具鏈

RAGAS負責指標計算

DeepEval進行端到端驗證

LangFuse實現全連結追蹤

3.1.6 比較方案

橫向比較：FastGPT/TiDB.AI/Dify.AI三大主流架構

縱向比較：知識圖譜增強版vs純向量檢索版

3.2 外部基準測試

如上表所示，在跨模型測試中，SunDB.AI的綜合評分全面超越FastGPT、TiDB.AI和Dify.AI三大基準系統。

圖透過視覺化比較，直觀呈現了SunDB.AI的持續領先優勢。

3.3 內部最佳化驗證

上表表明整合知識圖譜後，DeepSeek-V3的答案相關性提升5.7%，上下文精確度提高2.6%，雙模型均實現100%上下文召回。

未啟用圖譜時，召回率下滑至96.4%-97.7%，且因依賴非結構化搜尋導致可信度降低。

DeepSeek-R1在啟用圖譜後出現5.6%的可信度微降，推測源於其創造性輸出特性

3.4 領域專項表現

SunDB與電氣領域測試資料（表III/IV）顯示，各模型上下文召回率均逼近滿分。答案相關性、精確度與可信度的差異化表現，折射出不同模型的特長所在。

小仙女評論：

略微有點噱頭的意味，測試基準沒有包括GraphRAG、lightRAG等經典Graph+RAG架構。但多Agent設計用於圖譜建構的思路可供借鑒。但專案未開源，有點可惜。

論文原文: https://arxiv.org/abs/2505.17058

獲取更多最新ArXiv論文更新: https://github.com/HuggingAGI/HuggingArxiv!

加入社群，+v: iamxxn886

清華大學新RAG架構：DO-RAG 準確率飆升33%！

分享短網址