清華大学の新しいRAGフレームワーク：DO-RAG、精度が33%向上！

公開日：2025年05月17日

RAG

追加できない場合は、WeChat: iamxxn886 までご連絡ください。

DORAG と明記してください。

1. RAG研究の現状

質問応答（QA）システムは、ユーザーが膨大なデータから自然言語で正確な情報を取得できるようにするもので、主に2種類に分けられます。

オープン領域QAは常識に基づいて回答します。

クローズド領域QAは専門的な資料のサポートが必要です。

DeepSeek-R1、Grok-3などの大規模言語モデル（LLM）のブレイクスルーにより、テキストの流暢さと意味理解が著しく向上しました。しかし、これらのモデルはパラメータ記憶に依存しており、専門用語や複雑な推論に遭遇すると、「でたらめ」を言ったり、質問の意図と異なる回答をしたりすることがあります。

検索拡張生成（RAG）は、回答前にG関連する断片を検索することで精度を向上させ、知識グラフ（KG）は構造化された関係ネットワークを使用して多段階推論をサポートします。

しかし、既存のソリューションには明らかな欠点があります。

技術文書内の複雑な関連性が検索時に分断されがちで、回答が断片化されます。

高品質なドメイングラフの構築は時間と労力がかかり、ベクトル検索との組み合わせは大きなエンジニアリング負担をもたらします。

このため、清華大学の研究チームはDO-RAGフレームワークを発表し、3つの主要なイノベーションを実現しました。

動的知識グラフの構築：多段階エージェントパイプラインを通じて、テキスト、テーブル、その他のマルチモーダルデータからエンティティ関係を自動的に抽出します。

デュアルトラック検索融合：グラフ推論とセマンティック検索を組み合わせ、情報豊富なプロンプトテンプレートを生成します。

ハルシネーション修正メカニズム：知識ベースと照合して回答を検証し、論理的な欠陥を反復的に修正します。

データベースなどの専門分野でのテストでは、DO-RAGは94%の精度で主要なソリューションを圧倒し、最大で33パーセントポイントのリードを記録しました。モジュール設計はプラグアンドプレイをサポートし、再トレーニングなしで新しいドメインに移行できます。

二、DO-RAGとは？

2.1 システムアーキテクチャの全体像

上の図に示すように、DO-RAGシステムは4つのコアモジュールで構成されています。

マルチモーダル文書の解析とチャンク処理

知識グラフ（KG）構築における多層エンティティ関係抽出

グラフ探索とベクトル検索のハイブリッド検索メカニズム

正確な回答のための多段階生成エンジン

システムはまず、ログ、技術文書、チャートなどの異種データをインテリジェントにチャンク化し、テキストセグメントとそのベクトル化された表現をpgvector拡張PostgreSQLデータベースに同期的に保存します。

思考の連鎖駆動型エージェントプロセスを通じて、文書コンテンツは構造化されたマルチモーダル知識グラフ（MMKG）に変換され、システムパラメータ、動作特性などの多次元関連性を正確に捕捉します。

ユーザーがクエリを開始すると、意図解析モジュールはそれをいくつかのサブクエリに分解します。システムはまず知識グラフ内で関連するエンティティノードを特定し、マルチホップ推論によって検索範囲を拡張し、ドメイン固有の特性が豊富な構造化されたコンテキストを取得します。

その後、システムはグラフ認識プロンプトテンプレートを使用して元のクエリをセマンティックに洗練し、曖昧さのない正確な表現に変換します。最適化されたクエリはベクトル化され、データベースから最も関連性の高いテキスト断片を呼び出します。

最終的に、システムは元のクエリ、最適化されたステートメント、グラフコンテキスト、ベクトル検索結果、および会話履歴を統合し、生成エンジンへの統一されたプロンプト入力を構築します。

回答の生成は、最初の生成、事実検証とセマンティック最適化、最終的な要約という3段階の洗練を経ます。システムはまた、後続の質問をインテリジェントに予測し、自然で流暢な多段階の対話体験を実現します。

2.2 知識ベースの構築

文書処理はマルチモーダル入力から始まります。テキスト、テーブル、画像は標準化され、意味的に連続した断片に分割されます。同時に、ソースファイルの構造、章レベルなどのメタデータが保持され、追跡可能性が確保されます。

マルチエージェント階層パイプラインを使用して、構造化された知識を並行して抽出します。上の図に示すように、4つの専門エージェントがそれぞれの役割を果たします。

高レベルエージェント：文書の骨格（章/段落）を解析します。

中レベルエージェント：ドメインエンティティ（システムコンポーネント/API/パラメータ）を抽出します。

低レベルエージェント：きめ細かい操作ロジック（スレッドの動作/エラーパス）をマイニングします。

共変量エージェント：ノード属性（デフォルト値/パフォーマンスへの影響）をアノテーションします。

最終的に動的知識グラフが生成され、ノードはエンティティを表し、エッジは関連性を表し、重みは確信度を表します。エンティティ埋め込みベクトルのコサイン類似度比較により重複排除が行われ、類似エンティティは要約ノードとして集約され、グラフが簡素化されます。

2.3 ハイブリッド検索とクエリ分解

上の図に示すように、ユーザーが質問すると、DO-RAGは大規模言語モデルベースの意図アナライザを使用して質問を構造的に分解し、知識グラフ（KG）とベクトルライブラリの検索をガイドするサブクエリを生成します。

システムはまず、セマンティック類似度に基づいてKGから関連するノードを抽出し、マルチホップ探索を通じてコンテキスト豊富なサブグラフを構築します。グラフ認識プロンプトを活用し、これらのグラフエビデンスはクエリの表現を最適化し、曖昧さを排除します。最適化されたクエリがベクトル化されると、ベクトルライブラリから意味的に類似するコンテンツ断片が取得できます。

最終的に、DO-RAGは元のクエリ、最適化されたステートメント、グラフコンテキスト、ベクトル検索結果、およびユーザーの対話履歴など、すべての情報を統合し、統一されたプロンプトフレームワークを構築します。

2.4 回答の生成と提供

上の図に示すように、最終的な回答は段階的なプロンプト戦略を通じて生成されます。

まず、基本的なプロンプトは、大規模言語モデルが取得されたエビデンスのみに基づいて回答することを要求し、根拠のないコンテンツを回避します。

次に、最適化プロンプトを使用して回答の構造を調整し、検証します。

最終的な要約段階では、回答のトーン、言語、スタイルが質問と一致していることを保証します。

インタラクティブな体験を向上させるために、DO-RAGは最適化された回答に基づいて後続の質問も生成します。最終的に提供されるコンテンツは次のとおりです。

(1) 洗練され、検証可能な回答、

(2) 出典を示す引用、

(3) ターゲットを絞った後続の質問。

エビデンスが不十分な場合、システムは「わかりません」と正直に返し、信頼性と正確性を保証します。

3. 効果比較

Client Service International (CSII) が開発したSunDB分散リレーショナルデータベースをテストプラットフォームとして選択しました。技術マニュアル、システムログ、および仕様書からなる異種データセットは、DO-RAGのマルチモーダル処理、エンティティ関係マイニング、およびハイブリッド検索能力を検証するための理想的なシナリオを提供しました。

3.1 実験設定

3.1.1 ハードウェア環境

64GBメモリ + NVIDIA A100グラフィックカードを搭載したUbuntuワークステーション

3.1.2 ソフトウェアスタック

追跡システム：LangFuse (v3.29.0)

キャッシュ管理：Redis (v7.2.5)

文書ストレージ：MinIO (最新版)

分析エンジン：ClickHouse (安定版)

ベクトルデータベース：PostgreSQL+pgvectorの組み合わせ

3.1.3 テストデータ

SunDBコアデータセット：組み込みコードを含む技術文書

電気工学補助セット：回路図付きの技術マニュアル

各グループ245の専門問題には、標準回答と正確な出典が注釈されています。

3.1.4 評価システム

4つのコア指標（合格ライン0.7点）：

回答関連性(Answer Relevancy, AR) - 意味的一致度

文脈再現率(Contextual Recall, CR) - 情報完全性

検索精度(Contextual Precision, CP) - 結果の純度

忠実度(Faithfulness, F) - 回答の信頼性

3.1.5 評価ツールチェーン

RAGASが指標計算を担当

DeepEvalがエンドツーエンド検証を実行

LangFuseがフルリンク追跡を実現

3.1.6 比較案：

横断比較：FastGPT/TiDB.AI/Dify.AIの3つの主要なフレームワーク

縦断比較：知識グラフ強化版 vs 純粋なベクトル検索版

3.2 外部ベンチマークテスト

上記の表に示すように、モデル間テストでは、SunDB.AIの総合スコアはFastGPT、TiDB.AI、Dify.AIの3つのベースラインシステムを全面的に上回りました。

下の図は、比較視覚化を通じてSunDB.AIの継続的なリード優位性を直感的に示します。

3.3 内部最適化検証

上記の表は、知識グラフを統合した後、DeepSeek-V3の回答関連性が5.7%向上し、文脈精度が2.6%向上し、両モデルが100%の文脈再現率を達成したことを示しています。

グラフを有効にしなかった場合、再現率は96.4%-97.7%に低下し、非構造化検索への依存により信頼性が低下しました。

DeepSeek-R1は、グラフを有効にした後、信頼性が5.6%わずかに低下しましたが、これはその創造的な出力特性に起因すると推測されます。

3.4 ドメイン別パフォーマンス

SunDBと電気ドメインのテストデータ（表III/IV）は、各モデルの文脈再現率がほぼ満点に近づいていることを示しています。回答関連性、精度、信頼性における差別化されたパフォーマンスは、異なるモデルの特性を反映しています。

「小仙女」のコメント：

少しギミックのような感じがします。テストベンチマークにはGraphRAGやlightRAGなどの古典的なGraph+RAGフレームワークが含まれていませんでした。しかし、グラフ構築のためのマルチエージェント設計のアイデアは参考になります。プロジェクトがオープンソースではないのは少し残念です。

論文原文: https://arxiv.org/abs/2505.17058

最新のArXiv論文更新をさらに取得: https://github.com/HuggingAGI/HuggingArxiv!

コミュニティに参加するには、+v: iamxxn886

清華大学の新しいRAGフレームワーク：DO-RAG、精度が33%向上！

短いURLをシェア