發布時間:2025年05月17日
RAG
若無法新增,請加微信: iamxxn886
添加註明 DORAG
1、RAG研究現況
問答系統(QA)讓使用者能以自然語言從海量資料中精準獲取資訊,主要分為兩類:
開放領域QA依賴常識應答
封閉領域QA則需專業資料支援
隨著DeepSeek-R1、Grok-3等大型語言模型(LLM)的突破,文字流暢度和語義理解顯著提升。但這些模型依賴參數記憶,遇到專業術語或複雜推論時,仍可能"胡言亂語"或答非所問。
檢索增強生成(RAG)透過在應答前抓取相關片段提升準確性-,知識圖譜(KG)則用結構化關係網路支援多步推論。
但現有方案存在明顯缺陷:
複雜關聯常被切割檢索,導致答案支離破碎;
建構高品質領域圖譜費時費力,與向量搜尋結合又帶來巨大工程負擔。
為此,清華大學團隊推出DO-RAG架構,實現三大創新:
建構動態知識圖譜:透過多級智慧體管線,自動從文字、表格等多模態資料中提取實體關係
雙軌檢索整合:結合圖譜推論與語義搜尋,生成資訊豐富的提示範本
幻覺修正機制:對照知識庫驗證答案,疊代修正邏輯漏洞
在資料庫等專業領域測試中,DO-RAG以94%的準確率碾壓主流方案,最高領先33個百分點。模組化設計支援隨插即用,無需重新訓練即可遷移到新領域。
二、什麼是DO-RAG?
2.1 系統架構全景
如上圖所示,DO-RAG系統由四大核心模組構成:
多模態文件解析與分塊處理
知識圖譜(KG)建構中的多層級實體關係提取
圖遍歷與向量搜尋的混合檢索機制
面向精準回答的多階段生成引擎
系統首先對日誌、技術文件、圖表等異構資料進行智慧分塊,並將文字片段與其向量化表示同步儲存於pgvector增強的PostgreSQL資料庫。
透過思維鏈驅動的智慧體流程,將文件內容轉化為結構化的多模態知識圖譜(MMKG),精準捕捉系統參數、行為特徵等多維關聯。
當使用者發起查詢時,意圖解析模組會將其拆解為若干子查詢。系統首先在知識圖譜中定位相關實體節點,透過多跳推論擴展檢索邊界,獲取富含領域特性的結構化上下文。
隨後,系統運用圖譜感知的提示範本對原始查詢進行語義精煉,將其轉化為無歧義的精準表達。最佳化後的查詢透過向量化檢索,從資料庫中召回最相關的文字片段。
最終,系統整合原始查詢、最佳化語句、圖譜上下文、檢索結果及對話歷史,建構統一提示輸入生成引擎。
答案生成經歷三階段打磨:首輪生成、事實驗證與語義最佳化、最終凝練。系統還會智慧預測後續問題,實現自然流暢的多輪對話體驗。
2.2 知識庫建構
文件處理從多模態輸入開始,文字、表格和圖片經過標準化處理,分割為語義連貫的片段,同時保留原始文件結構、章節層級等中介資料以確保可追溯性。
採用多智慧體分層管線並行提取結構化知識。如上圖所示,四個專用智慧體各司其職:
高層智慧體:解析文件骨架(章節/段落)
中層智慧體:抓取領域實體(系統元件/API/參數)
底層智慧體:挖掘細粒度操作邏輯(執行緒行為/錯誤連結)
協變量智慧體:標註節點屬性(預設值/效能影響)
最終生成動態知識圖譜,以節點代表實體、邊代表關聯、權重代表置信度。透過餘弦相似度比對實體嵌入向量實現去重,並聚合相似實體為摘要節點以簡化圖譜。
2.3 混合檢索與查詢分解
如上圖所示,當使用者提問時,DO-RAG會透過基於大型語言模型的意圖分析器對問題進行結構化拆解,生成指導知識圖譜(KG)和向量庫檢索的子查詢。
系統首先根據語義相似度從KG中提取相關節點,透過多跳遍歷建構富含上下文的子圖。藉助圖感知提示,這些圖譜證據會最佳化查詢表述並消除歧義。最佳化後的查詢透過向量化檢索,從資料庫中召回最相關的文字片段。
最終,DO-RAG會將原始查詢、最佳化查詢、圖譜上下文、向量檢索結果及使用者對話歷史等所有資訊,整合成統一的提示框架。
2.4 答案的生成與交付
如上圖所示,最終答案透過分階段提示策略生成。
首先,基礎提示要求大型語言模型僅依據檢索到的證據應答,避免無依據內容。
然後透過最佳化提示對答案進行結構調整和驗證。
最後凝練階段確保回答的語氣、語言和風格與問題保持一致。
為提升互動體驗,DO-RAG還會基於最佳化後的答案生成後續問題。最終交付內容包括:
(1) 精煉可驗證的答案,
(2) 標註來源的引用,
(3) 針對性後續問題。
若證據不足,系統會如實返回"我不知道",確保可靠性和準確性。
3. 效果比較
選用Client Service國際公司(CSII)研發的SunDB分散式關係資料庫作為測試平台。其技術手冊、系統日誌和規範說明構成的異構資料集,為驗證DO-RAG的多模態處理、實體關係挖掘和混合檢索能力提供了理想場景。
3.1 實驗配置
3.1.1 硬體環境
64GB記憶體+NVIDIA A100顯示卡的Ubuntu工作站
3.1.2 軟體棧
追蹤系統:LangFuse(v3.29.0)
快取管理:Redis(v7.2.5)
文件儲存:MinIO(最新版)
分析引擎:ClickHouse(穩定版)
向量資料庫:PostgreSQL+pgvector組合
3.1.3 測試資料
SunDB核心資料集:含嵌入式程式碼的技術文件
電氣工程輔助集:帶電路圖的技術手冊
每組245道專業題庫均標註標準答案及精確出處
3.1.4 評估體系
四大核心指標(達標線0.7分):
答案相關性(Answer Relevancy, AR) - 語義匹配度
上下文召回(Contextual Recall, CR) - 資訊完整度
檢索精確度(Contextual Precision, CP) - 結果純淨度
內容忠實度(Faithfulness, F) - 答案可信度
3.1.5 評估工具鏈
RAGAS負責指標計算
DeepEval進行端到端驗證
LangFuse實現全連結追蹤
3.1.6 比較方案
橫向比較:FastGPT/TiDB.AI/Dify.AI三大主流架構
縱向比較:知識圖譜增強版vs純向量檢索版
3.2 外部基準測試
如上表所示,在跨模型測試中,SunDB.AI的綜合評分全面超越FastGPT、TiDB.AI和Dify.AI三大基準系統。
圖透過視覺化比較,直觀呈現了SunDB.AI的持續領先優勢。
3.3 內部最佳化驗證
上表表明整合知識圖譜後,DeepSeek-V3的答案相關性提升5.7%,上下文精確度提高2.6%,雙模型均實現100%上下文召回。
未啟用圖譜時,召回率下滑至96.4%-97.7%,且因依賴非結構化搜尋導致可信度降低。
DeepSeek-R1在啟用圖譜後出現5.6%的可信度微降,推測源於其創造性輸出特性
3.4 領域專項表現
SunDB與電氣領域測試資料(表III/IV)顯示,各模型上下文召回率均逼近滿分。答案相關性、精確度與可信度的差異化表現,折射出不同模型的特長所在。
小仙女評論:
略微有點噱頭的意味,測試基準沒有包括GraphRAG、lightRAG等經典Graph+RAG架構。但多Agent設計用於圖譜建構的思路可供借鑒。但專案未開源,有點可惜。
論文原文: https://arxiv.org/abs/2505.17058
獲取更多最新ArXiv論文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群,+v: iamxxn886