RAG也能推理思考！徹底解決多源異構知識難題

現在的RAG（檢索增強生成）系統。您給它一個簡單直接的問題，它能答得頭頭是道；可一旦問題需要稍微拐個彎，或者知識源一複雜，它就立刻「拉胯」，要麼返回一堆不相干的東西，要麼乾脆就開始一本正經地胡說八道。今天來自羅格斯大學的研究者帶來了DeepSieve，這是一個專為處理異構知識源的RAG框架，讓RAG系統真正「學會思考」。

傳統RAG的「天花板」

為什麼現在傳統的RAG方法會顯得如此「脆弱」？根本原因在於它們大多是單跳（single-hop）檢索模式，這種模式在面對真實世界的複雜資訊需求時，存在兩個致命的底層缺陷。

缺陷一：無法理解多跳（Multi-hop）問題的內在邏輯

很多有價值問題，都不是一步就能解決的，而是需要像剝洋蔥一樣層層遞進，這就是「多跳」推理。但是，傳統RAG拿到一個多跳問題後，並不會去拆解其中的邏輯鏈條，而是試圖用一次模糊的語義匹配就找到答案。

舉個論文裡的例子，問「那個在奈及利亞創立了『飛行醫生』服務的女性，她的丈夫是誰？」，傳統RAG會把「丈夫」、「創辦人」、「飛行醫生」這些詞混在一起進行一次性的模糊搜尋，結果很可能因為找不到完美匹配所有資訊的文檔而徹底懵圈，因為它根本沒理解這個問題其實需要兩步：第一步，找到創辦人是誰；第二步，再去找這位創辦人的丈夫是誰。

缺陷二：無法駕馭「異構資訊森林」

現實中的知識庫往往是多源、多格式、多模態的，比如SQL表格、私有的JSON日誌、需要即時調用的API介面和海量的百科語料。面對這片「異構資訊森林」，傳統RAG方法要麼是盲目地逐個檢索，要麼是試圖把所有東西「一鍋亂燉」塞進同一個向量索引。結果呢？往往是漏檢關鍵證據、導致上下文衝突、還造成了大量的Token浪費。

圖1：DeepSieve動機與概覽。左側展示了傳統RAG面對的挑戰，右側是DeepSieve的解決思路。

DeepSieve：給RAG裝上「多核大腦」

面對傳統RAG的困境，DeepSieve的思路可以說是相當的「釜底抽薪」。研究者們不再把LLM僅僅當作一個檢索後的「潤飾工具」，而是將其提升為整個工作流的「總指揮官」，提出了一套「逐層篩選」的模組化框架，讓大型語言模型自己來決定所有關鍵步驟。

創新機制：讓LLM當「知識篩子」

面對上面這些難題，DeepSieve的思路其實挺像人類專家的工作方式：先規劃，再分步執行，遇到問題再調整。研究者們透過巧妙的Prompt Engineering，讓LLM不再只是一個被動的「回答者」，而是成了一個主動的「指揮官」，整個過程大概分四步，就像給AI裝上了「規劃大腦」和「智慧GPS」。

圖2：DeepSieve的詳細工作流程圖，展示了從問題分解到路由、檢索、反思和最終融合的全過程。

第一步：分解（Decomposition），這是「規劃大腦」拿到一個複雜問題後，DeepSieve做的第一件事不是急著去搜，而是先讓LLM扮演「首席規劃師」的角色。它會透過一個精心設計的Prompt，要求LLM把原始問題拆解成一個邏輯清晰、帶依賴關係的子任務列表，並輸出成一個程式可讀的JSON格式。比如，它會把一個大問題拆成「q1」、「q2」等多個步驟，並明確指出「q2」的執行需要用到「q1」的答案作為變數，這就完成了一次謀定而後動的策略規劃。

第二步：路由（Routing），這是「智慧GPS」規劃好了路線圖，下一步就是決定每個步驟該走哪條路、用什麼交通工具了。DeepSieve會讓LLM扮演「智慧GPS」的角色，它看著當前的子任務，再看看手頭上有哪些可用的知識源（比如「本地個人資料庫」、「全域維基百科」），然後根據每個知識源的「簡介」，動態地為這個子任務選擇最合適的工具。這一步的成本極低，LLM只需要返回一個「local」或「global」的單詞，卻實現了對龐大知識體系的精準導航。

第三步：執行與反思（Execution & Reflexion），這是「糾錯與學習」但萬一GPS指錯了路怎麼辦？這正是DeepSieve最亮眼的地方，它有一個叫「反思」的機制。在執行每個子任務時，它會要求LLM在給出答案的同時，也給出一個「success」為1或0的標誌，來判斷這次檢索是否真的找到了靠譜的資訊。如果失敗了（success為0），系統並不會就此放棄，而是會把這次失敗的嘗試（比如「我剛才選了『local』庫，但沒找到資訊」）記錄下來，在下一次重試時告訴LLM，從而引導它「換條路試試」，比如這次去查「global」庫。

第四步：融合（Fusion），這是「彙總報告」最後，當所有的小問題都透過上述步驟找到了答案後，系統會把整個推理鏈——也就是所有子問題的「問題-答案-理由」——全部彙總起來。它會把這些完整的「證據」一次性提交給LLM，讓它扮演「總結陳詞者」的角色，基於這些堅實可靠的中間步驟，生成一個邏輯連貫、有理有據的最終答案。

方法亮點：LLM驅動的規劃與執行

子問題級別的精準路由：它不是簡單地召回一堆文檔，而是實現了「去哪查+查什麼+查幾次」的完整規劃。

原生支援異構知識源：無論是SQL資料庫裡的結構化資料，還是Wikipedia裡的非結構化文本，甚至是使用者行為的JSON日誌，都能被無縫地納入同一個查詢體系。

強大的自我糾錯能力：獨特的「反思」（Reflexion）機制允許系統在一次嘗試失敗後，主動分析失敗原因，並重新規劃查詢策略，而不是簡單地放棄或返回錯誤。

DeepSieve的工程實作亮點

理論的優雅最終需要靠堅實的工程實作來承載，這一點在研究者們開源的項目中體現得淋漓盡致。對於工程師而言，這份程式碼不僅是一個演算法的復現，更是一個優秀的AI系統設計範本，其中有幾個亮點我覺得特別值得咱們關注。

https://github.com/MinghoKwok/DeepSieve

實驗結果

研究者們設計了一系列非常嚴苛的實驗，來驗證DeepSieve是否真的有效。

實驗設計：在最硬核的場景下進行測試

資料集：研究者選擇了MuSiQue、2WikiMultiHopQA和HotpotQA這三個業界公認的、專門為測試多跳問答能力而設計的「硬骨頭」基準。

場景模擬：為了模擬真實世界的「資訊孤島」挑戰，他們將每個資料集的知識庫都人為地切分成了local（本地/私有）和global（全域/公開）兩部分，這就逼著系統必須智慧地決定去哪裡查找正確的資訊，而不是在一個統一的庫裡瞎找。

正面交鋒的對手

DeepSieve的比較對象，覆蓋了當前RAG和Agent領域的頂尖方法。

經典RAG代表：包括了像ColBERTv2、HippoRAG、RAPTOR這樣的知名框架。

前沿Agent方法：也囊括了ReAct、ReWOO、Reflexion這些大名鼎鼎的智能體框架。

精度、效率雙豐收

實驗結果真的挺猛的，DeepSieve在所有維度上都展現了其優越性。

精度：在所有基準測試中，DeepSieve的平均F1分數和EM（精確匹配）分數，都顯著超越了所有這些強大的對手。

效率：並且在取得更高精度的同時，Token消耗量（也就是計算成本）卻遠低於ReAct和Reflexion這類複雜的Agent方法，有時成本甚至不到後者的十分之一。

圖3：性能對比雷達圖。面積越大代表綜合性能越好，DeepSieve在精度（F1, EM）和效率（Token反比）上取得了最佳平衡。

模組價值：透過「拆零件」式的消融實驗，研究者證明了框架中每一個模組的不可或缺性。「分解」和「反思」是保證高精度的絕對核心，而「路由」則是在複雜場景下提升系統穩健性的關鍵。

從「資料搬運工」到「任務指揮官」

DeepSieve 不僅在多跳問答基準測試中展現出卓越性能，更重要的是，它為複雜 AI 應用的落地開闢了新路徑。面對需要聯動多個內部系統（如ERP、CRM、文件庫）才能回答的複雜業務問題，無論是建構能整合企業多源資料、提供深度業務洞察的智慧助手，還是打造能統一管理個人異構知識、實現高效資訊挖掘的下一代個人知識庫，DeepSieve 都提供了堅實的架構支撐。

RAG也能推理思考！徹底解決多源異構知識難題

分享短網址