Google | RAGシステムのエラーを追跡：選択的生成フレームワークを提案し、RAGの精度を10%向上

以下「AINLPer」をクリックしてフォローし、より多くの役立つコンテンツをいち早く入手してください。

さらにエキサイティングなコンテンツ -> 大規模モデル、エージェント、RAGなどの最先端の共有に焦点を当てています！

はじめに

現在のRAG技術は広く利用されていますが、多くの技術ノードが関与しているため、問題のトラブルシューティングは一般的に非常に困難です。このため、本論文の著者はRAGシステムで発生するエラーを深く分析し、「十分なコンテキスト（Sufficient Context）の概念を導入し、RAGシステムにおけるハルシネーション現象がコンテキスト不足に起因する可能性があることを指摘」しました。そして、RAGシステムの精度を向上させるための選択的生成フレームワークを提案し、実験結果は、この方法がRAGシステムの精度を最大10%向上させることができることを示しています。リンク：https://arxiv.org/pdf/2411.06037

背景

検索拡張生成（Retrieval-Augmented Generation、RAG）は、現在のNLP分野における最も重要な技術的ブレイクスルーの一つです。これは、大規模言語モデル（LLM）と動的な情報検索メカニズムを組み合わせることで、従来の言語モデルの3つの核心的な問題、すなわち知識の固定化、事実に基づくハルシネーション傾向、およびロングテール知識の不足を効果的に解決します。この方法は、検索Q&A、インテリジェントカスタマーサービス、医療補助診断など、オープンソースおよび商用アプリケーションの両方で広く使用されています。

RAGは多くのタスクで優れたパフォーマンスを発揮しますが、不完全または無関係なドキュメントが提供された場合でも、モデルが自信を持って誤った回答を生成する「ハルシネーション」現象が頻繁に発生します。この時点で、あなたは疑問に思うかもしれません。「これらのエラーは、検索システムが十分な情報を提供できなかったためなのか、それともモデル自体がコンテキストを正しく使用できなかったためなのか？」

この問題を分析し解決するために、Googleは「十分なコンテキスト（Sufficient Context）」の概念を提案し、この概念を中心に詳細な研究を行いました。これは、RAGシステムのエラーの責任の所在を明確に区別し、RAG生成品質を向上させるためのいくつかの戦略を提供することを目的としています。

コンテキスト十分性評価ツール

十分なコンテキスト（Sufficient Context）とは何ですか？著者は、「取得されたコンテンツが正しい答えをサポートするために必要なすべての情報を含んでいるかどうか」と定義しています。この基準は、コンテキストが明示的に答えを含むことを要求するものではありませんが、そのタスクに精通したLLMが常識と推論能力に基づいて、合理的に正しい答えを導き出せるようにすべきです。

この概念を定量化するために、著者は新しい評価タスクを構築しました。「質問、答え、およびコンテキストが与えられたとき、そのコンテキストがその答えをサポートするのに十分であるかどうかを判断する」というものです。簡単に言えば、コンテキストがすべての必要な情報を含んでおり、大規模モデルが正しい答えを生成できる場合、「十分」と定義されます。コンテキストが必要な情報を欠いている、不完全である、不確実である、または矛盾する情報を含んでいる場合、「不十分」と定義されます。上記の定義に基づき、著者はまず大規模モデルベースのコンテキスト充足評価器（ここではGemini 1.5 Proをプロンプト構築により使用）を開発し、コンテキストが十分であるかどうかを自動的に判断するために使用しました。コンテキストが十分な場合、「真」を出力し、不足している場合、「偽」を出力します。実験結果は、1ショットのコンテキスト充足評価器がコンテキスト十分性の評価において最大93%の精度を達成したことを示しています。

RAGエラー原因特定分析

本論文の著者は、コンテキスト十分性評価ツールを利用して、さまざまな大規模言語モデル（LLM）とデータセットのパフォーマンスを分析し、以下のいくつかの重要な発見を導き出しました。

最新の大規模モデル（Gemini、GPT、Claudeなど）は、十分なコンテキストが提供された場合、通常は質問に優れた回答をしますが、コンテキストが不足している場合、誤った回答の生成を認識し、回避することができません。

小規模なオープンソースモデルには特定の問題があり、コンテキストが質問に正しく答えるのに十分である場合でも、ハルシネーションが発生しやすいです。

コンテキストが不十分と評価された場合でも、モデルが正しい答えを生成できることがありますが、これは不十分なコンテキストが依然として有用である可能性があることを示しています。例えば、モデルの知識のギャップを埋めたり、クエリの曖昧さを解消したりできます。

これらの発見に基づき、本論文の著者はRAGシステムを改善するための提案を行いました。すなわち、1) 生成前に十分性チェックを追加すること、2) より多くのコンテキストを検索するか、検索されたコンテキストを並べ替えること、3) 信頼度とコンテキスト信号に基づいて棄権閾値を調整することです。

評価ベンチマークにおけるコンテキスト十分性

本論文の著者は、十分なコンテキストの背景にある関連状況を深く研究しました。分析の結果、複数の標準ベンチマークデータセットに多数のコンテキスト不足のケースが存在することがわかりました。本論文の著者は、FreshQA、HotPotQA、MuSiQueの3つのデータセットを検討しました。FreshQAのようにコンテキストが十分なインスタンスの割合が高いデータセットは、多くの場合、コンテキストが手作業で整理されたサポートドキュメントに由来しています。

ハルシネーションを引き起こすコンテキスト

驚くべきことに、検索拡張生成（RAG）は通常、全体的なパフォーマンスを向上させるものの、適切なタイミングで質問に答えないというモデルの能力を低下させました。「追加のコンテキストを導入すると、モデルの自信が高まり、その結果、ハルシネーションが発生しやすくなるようです」。これを理解するために、本論文の著者はGeminiを使用して各モデルの回答を評価し、可能な真の答えと比較しました。本論文の著者は各回答を「正しい」「ハルシネーション」（つまり誤った答え）、または「棄権」（例えば「わからない」と言う）に分類しました。この方法を用いて、例えばGemmaはコンテキストがない場合、10.2%の質問に誤った回答を与えましたが、不十分なコンテキストを使用した場合、この割合は66.1%に上昇したことを発見しました。

選択的生成フレームワーク

上記の分析に基づき、本論文の著者は「選択的生成」フレームワークを提案しました。これは、十分なコンテキスト情報を使用して棄権を導くものです。著者は以下の指標を考慮しました。1)「選択的精度」は、モデルが回答しようとする質問の中で正しい回答の割合を測定します。2)「カバレッジ」は、質問に回答する割合です。

本論文著者の選択的生成方法は、「十分なコンテキスト信号とモデルの自己評価された信頼度スコアを組み合わせることで、いつ棄権すべきかについて情報に基づいた決定を下す」ことができます。これは、コンテキストが不十分な場合に単純に棄権するよりも洗練されています。なぜなら、コンテキストが限られていても、モデルが正しい答えを出すことができる場合があるからです。本論文著者はこれらの信号を使用して、ハルシネーションを予測するためのロジスティック回帰モデルを訓練しました。その後、モデルがいつ回答を放棄すべきかを決定するために、カバレッジと精度のトレードオフ閾値を設定しました。

本論文著者は、棄権するかどうかを決定するために2つの主要な信号を使用しました。

「自己評価信頼度」は、P(True)とP(Correct)の2つの戦略を採用しました。P(True)は、回答を複数回サンプリングし、各サンプルを正しいか誤りかをモデルにラベル付けさせることを含みます。P(Correct)は、クエリコストが高いモデルに使用され、モデルの回答とその正確性の推定確率を取得することを含みます。

「十分なコンテキスト信号」は、自己評価ツールモデル（FLAMe）のバイナリラベルを使用して、コンテキストが十分であるかどうかを示します。重要なのは、本論文著者が十分なコンテキストラベルを決定するために真の答えを必要としないため、質問に回答する際にこの信号を使用できることです。本論文著者の研究結果は、モデルの信頼度のみを使用する場合と比較して、この方法がより良い選択的精度とカバレッジのトレードオフを実現することを示しています。十分なコンテキストラベルを使用することで、モデルが回答する質問の精度を最大10%向上させることができました。

さらにエキサイティングなコンテンツ --> 大規模モデル/AIGC、エージェント、RAGなどの学術最先端に焦点を当てています！

おすすめの読み物

[1]Transformer|フィードフォワードニューラルネットワーク（FFN）

[2]Transformer|MHAからDeepSeek MLAへ！

[3]Transformer|アテンションメカニズム

[4]Transformer|MoEアーキテクチャ（DeepSeekを含む）

[5]Transformer|正規化

[6]Transformer|位置エンコーディング（DeepSeek位置エンコーディング）

投稿または報道の依頼を歓迎します。連絡先：ainlperbot

資料整理は簡単ではありません。いいねと共有をお願いします！

Google | RAGシステムのエラーを追跡：選択的生成フレームワークを提案し、RAGの精度を10%向上

短いURLをシェア