清華大學新RAG架構:DO-RAG 準確率飆升33%!

發布時間:2025年05月17日

RAG

圖片

若無法新增,請加微信: iamxxn886

添加註明 DORAG

1、RAG研究現況

問答系統(QA)讓使用者能以自然語言從海量資料中精準獲取資訊,主要分為兩類:

開放領域QA依賴常識應答

封閉領域QA則需專業資料支援

隨著DeepSeek-R1、Grok-3等大型語言模型(LLM)的突破,文字流暢度和語義理解顯著提升。但這些模型依賴參數記憶,遇到專業術語或複雜推論時,仍可能"胡言亂語"或答非所問。

檢索增強生成(RAG)透過在應答前抓取相關片段提升準確性-,知識圖譜(KG)則用結構化關係網路支援多步推論。

但現有方案存在明顯缺陷:

複雜關聯常被切割檢索,導致答案支離破碎;

建構高品質領域圖譜費時費力,與向量搜尋結合又帶來巨大工程負擔。

為此,清華大學團隊推出DO-RAG架構,實現三大創新:

建構動態知識圖譜:透過多級智慧體管線,自動從文字、表格等多模態資料中提取實體關係

雙軌檢索整合:結合圖譜推論與語義搜尋,生成資訊豐富的提示範本

幻覺修正機制:對照知識庫驗證答案,疊代修正邏輯漏洞

在資料庫等專業領域測試中,DO-RAG以94%的準確率碾壓主流方案,最高領先33個百分點。模組化設計支援隨插即用,無需重新訓練即可遷移到新領域。

二、什麼是DO-RAG?

2.1 系統架構全景

圖片

如上圖所示,DO-RAG系統由四大核心模組構成:

多模態文件解析與分塊處理

知識圖譜(KG)建構中的多層級實體關係提取

圖遍歷與向量搜尋的混合檢索機制

面向精準回答的多階段生成引擎

系統首先對日誌、技術文件、圖表等異構資料進行智慧分塊,並將文字片段與其向量化表示同步儲存於pgvector增強的PostgreSQL資料庫。

透過思維鏈驅動的智慧體流程,將文件內容轉化為結構化的多模態知識圖譜(MMKG),精準捕捉系統參數、行為特徵等多維關聯。

當使用者發起查詢時,意圖解析模組會將其拆解為若干子查詢。系統首先在知識圖譜中定位相關實體節點,透過多跳推論擴展檢索邊界,獲取富含領域特性的結構化上下文。

隨後,系統運用圖譜感知的提示範本對原始查詢進行語義精煉,將其轉化為無歧義的精準表達。最佳化後的查詢透過向量化檢索,從資料庫中召回最相關的文字片段。

最終,系統整合原始查詢、最佳化語句、圖譜上下文、檢索結果及對話歷史,建構統一提示輸入生成引擎。

答案生成經歷三階段打磨:首輪生成、事實驗證與語義最佳化、最終凝練。系統還會智慧預測後續問題,實現自然流暢的多輪對話體驗。

2.2 知識庫建構

文件處理從多模態輸入開始,文字、表格和圖片經過標準化處理,分割為語義連貫的片段,同時保留原始文件結構、章節層級等中介資料以確保可追溯性。

圖片

採用多智慧體分層管線並行提取結構化知識。如上圖所示,四個專用智慧體各司其職:

高層智慧體:解析文件骨架(章節/段落)

中層智慧體:抓取領域實體(系統元件/API/參數)

底層智慧體:挖掘細粒度操作邏輯(執行緒行為/錯誤連結)

協變量智慧體:標註節點屬性(預設值/效能影響)

最終生成動態知識圖譜,以節點代表實體、邊代表關聯、權重代表置信度。透過餘弦相似度比對實體嵌入向量實現去重,並聚合相似實體為摘要節點以簡化圖譜。

2.3 混合檢索與查詢分解

圖片

如上圖所示,當使用者提問時,DO-RAG會透過基於大型語言模型的意圖分析器對問題進行結構化拆解,生成指導知識圖譜(KG)和向量庫檢索的子查詢。

系統首先根據語義相似度從KG中提取相關節點,透過多跳遍歷建構富含上下文的子圖。藉助圖感知提示,這些圖譜證據會最佳化查詢表述並消除歧義。最佳化後的查詢透過向量化檢索,從資料庫中召回最相關的文字片段。

最終,DO-RAG會將原始查詢、最佳化查詢、圖譜上下文、向量檢索結果及使用者對話歷史等所有資訊,整合成統一的提示框架。

2.4 答案的生成與交付

圖片

如上圖所示,最終答案透過分階段提示策略生成。

首先,基礎提示要求大型語言模型僅依據檢索到的證據應答,避免無依據內容。

然後透過最佳化提示對答案進行結構調整和驗證。

最後凝練階段確保回答的語氣、語言和風格與問題保持一致。

為提升互動體驗,DO-RAG還會基於最佳化後的答案生成後續問題。最終交付內容包括:

(1) 精煉可驗證的答案,

(2) 標註來源的引用,

(3) 針對性後續問題。

若證據不足,系統會如實返回"我不知道",確保可靠性和準確性。

3. 效果比較

選用Client Service國際公司(CSII)研發的SunDB分散式關係資料庫作為測試平台。其技術手冊、系統日誌和規範說明構成的異構資料集,為驗證DO-RAG的多模態處理、實體關係挖掘和混合檢索能力提供了理想場景。

3.1 實驗配置

3.1.1 硬體環境

64GB記憶體+NVIDIA A100顯示卡的Ubuntu工作站

3.1.2 軟體棧

追蹤系統:LangFuse(v3.29.0)

快取管理:Redis(v7.2.5)

文件儲存:MinIO(最新版)

分析引擎:ClickHouse(穩定版)

向量資料庫:PostgreSQL+pgvector組合

3.1.3 測試資料

SunDB核心資料集:含嵌入式程式碼的技術文件

電氣工程輔助集:帶電路圖的技術手冊

每組245道專業題庫均標註標準答案及精確出處

3.1.4 評估體系

四大核心指標(達標線0.7分):

答案相關性(Answer Relevancy, AR) - 語義匹配度

上下文召回(Contextual Recall, CR) - 資訊完整度

檢索精確度(Contextual Precision, CP) - 結果純淨度

內容忠實度(Faithfulness, F) - 答案可信度

3.1.5 評估工具鏈

RAGAS負責指標計算

DeepEval進行端到端驗證

LangFuse實現全連結追蹤

3.1.6 比較方案

橫向比較:FastGPT/TiDB.AI/Dify.AI三大主流架構

縱向比較:知識圖譜增強版vs純向量檢索版

3.2 外部基準測試

圖片

如上表所示,在跨模型測試中,SunDB.AI的綜合評分全面超越FastGPT、TiDB.AI和Dify.AI三大基準系統。

圖片

圖透過視覺化比較,直觀呈現了SunDB.AI的持續領先優勢。

3.3 內部最佳化驗證

圖片

上表表明整合知識圖譜後,DeepSeek-V3的答案相關性提升5.7%,上下文精確度提高2.6%,雙模型均實現100%上下文召回。

未啟用圖譜時,召回率下滑至96.4%-97.7%,且因依賴非結構化搜尋導致可信度降低。

DeepSeek-R1在啟用圖譜後出現5.6%的可信度微降,推測源於其創造性輸出特性

3.4 領域專項表現

圖片

SunDB與電氣領域測試資料(表III/IV)顯示,各模型上下文召回率均逼近滿分。答案相關性、精確度與可信度的差異化表現,折射出不同模型的特長所在。

小仙女評論:

略微有點噱頭的意味,測試基準沒有包括GraphRAG、lightRAG等經典Graph+RAG架構。但多Agent設計用於圖譜建構的思路可供借鑒。但專案未開源,有點可惜。

論文原文: https://arxiv.org/abs/2505.17058

獲取更多最新ArXiv論文更新: https://github.com/HuggingAGI/HuggingArxiv!

加入社群,+v: iamxxn886圖片

主標籤:檢索增強生成

次標籤:大型語言模型自然語言處理人工智慧知識圖譜


上一篇:LLM 結合 RL 遭質疑:刻意使用錯誤獎勵,數學基準竟也顯著提升,AI 圈為之震驚

下一篇:Andrej Karpathy 盛讚!史丹佛團隊新作,讓 Llama-1B 實現毫秒級推論

分享短網址