信頼できるAgentはどのモデルを使うべきか?LLMの多ターン会話における「迷子」現象 | Microsoft最新

はじめに:Microsoftは最近Salesforce Researchと共同で「Lost in Conversation」という研究を発表しました。この研究によると、現在の最先端LLMは多ターン会話でパフォーマンスが大幅に低下し、平均低下率は39%に達しています。この現象は会話における「迷子」と呼ばれています。記事では、主要モデル(Claude 3.7-Sonnet、Deepseek-R1など)の多ターン会話におけるパフォーマンスの差異を分析し、モデルが「迷子」になる根本原因と効果的な緩和策も解説しています。これはAgentを開発する上でモデル選択において非常に重要であり、ぜひご一読ください。記事後半には、研究者が研究目的で使用したオープンソースのコードとデータセットへのリンクがあります。

多ターン会話:AI最強モデルも「迷子」になる

图片

15種類のLLMモデルのシングルターン(FULL)と多ターン(SHARDED)会話におけるパフォーマンス比較。多ターン会話での顕著な性能低下を示しています。

最先端の大規模言語モデル(LLM)が多ターン会話に直面すると、そのパフォーマンスは大幅に低下し、平均で最大39%も減少します。Microsoft ResearchとSalesforce Researchの協力による最新の研究「Lost in Conversation」は、15のトップモデルに対して20万回の会話シミュレーションを行い、この広く存在するが注目されにくい問題を明らかにしました。研究によると、商用のクローズドソースモデル(GPT-4.1、Gemini 2.5 Proなど)もオープンソースモデル(Llamaシリーズなど)も、「迷子」の問題から逃れることはできず、これはAgentシステムを開発しているエンジニアにとって深刻な課題を提起しています。

图片

迷子により信頼性が112%暴落

图片

能力(Aptitude)と信頼性(Reliability)の比較分析。多ターン会話での信頼性低下が主な問題であることを示しています。

研究者は革新的な指標分解を通じて、多ターン会話におけるLLMの性能低下を2つの部分に分けました。

• 能力低下(Aptitude):わずか16%の低下

• 信頼性低下(Reliability):112%の暴落

これは、モデルの最高のパフォーマンスと最悪のパフォーマンスの間の差が2倍以上に拡大したことを意味します。この高い非信頼性は、あなたのAIアシスタントが時には優秀に機能するのに、時には訳もなく「忘れっぽい」挙動をする理由を説明しています。同じ質問でも、複数回試行すると結果が大きく異なる可能性があります。

シャーディングシミュレーション:モデルが迷子になる実験設計

图片

研究でカバーされた6つの主要タスクタイプとシャーディングされた指示の例。完全な指示が複数の情報フラグメントに分解される様子を示しています。

图片

研究者は「シャーディングシミュレーション」と呼ばれる革新的な実験フレームワークを設計しました。これにより、完全な指示を複数の情報フラグメント(shards)に分解し、多ターン会話で段階的に開示します。この方法は、ユーザーが多ターン会話で徐々に要件を明確にする現実世界プロセスをシミュレートしており、従来の評価で一度に完全な情報を提供するシナリオとは異なります。研究は以下の6つの主要なタスク領域をカバーしています。

1. プログラミング(Code)

2. データベースクエリ(Database)

3. API呼び出し(Actions)

4. 数学問題(Math)

5. データからテキスト生成(Data-to-text)

6. 多文書要約(Summary)

このように幅広いカバー範囲を持つことで、研究結果の普遍的な適用性が保証されます。

指示のシャーディングと会話シミュレーションタイプ

图片

この図は、研究のコアとなる実験設計手法を示しており、2つの部分に分かれています。

1. 上部分(指示のシャーディング):

• 研究者が完全なシングルターン指示(青い四角)を複数の情報フラグメント(黄色い小さな四角)に分割する方法を示しています。

• これは論文の「シャーディングシミュレーション」実験の基礎であり、多ターン会話でユーザーが情報を段階的に提供するシナリオをシミュレートしています。

2. 下部分(会話シミュレーションタイプ):

• 5つの異なる実験設定とその情報フローを示しています。

• FULL:最初のターンで完全な指示がすべて提供される(ベースラインシナリオ)

• SHARDED:指示が複数のフラグメントに分割され、異なるターンで段階的に提供される(実際の多ターン会話をシミュレート)

• CONCAT:すべてのフラグメントが最初のターンで提供されるが、フラグメント形式を維持する

• RECAP:シャーディングパターンを使用するが、最後に以前のすべての情報をまとめる追加のターンを追加する

• SNOWBALL:各ターンで以前のすべての情報を累積的に言い直す

この図は、なぜ多ターン会話が性能低下を引き起こすのか、そしてRECAPやSNOWBALLといった戦略がどのように機能するのかを直感的に説明しています。

Agentシステムのテストと改善を支援

Microsoftの研究チームは、「Lost in Conversation」研究の完全なコードライブラリとデータセットをオープンソース化しました。これは、独自のAgentシステムをテストし改善するための強力なツールセットを提供します。このコードライブラリには、完全な会話シミュレーションフレームワーク(simulator_full.py、simulator_sharded.pyなど)が含まれており、シングルターンの完全な指示、多ターンのシャーディングされた指示、およびRECAP/SNOWBALL戦略の実装をカバーしています。

Github:https://github.com/Microsoft/lost_in_conversation

HuggingFace:https://huggingface.co/datasets/microsoft/lost_in_conversation

コードライブラリとデータセットの主な特徴:

• 異なるシナリオでのテストをサポートする完全な会話シミュレーションフレームワーク

• 600の人間によって検証された高品質な指示とそのシャーディングバージョン

• プログラミング、数学、データベースクエリなど、6つの主要な実用的なシナリオをカバー

Agent開発者であれば、これらのリソースを使用して3つの側面からテストを行うことができます。

1. 多ターン会話における異なる基礎モデルの実際のパフォーマンス差を評価する

2. あなたが設計した情報統合戦略(RECAPなど)の実際の効果を検証する

3. 自分のAgentシステムがどのタイプのタスクで「迷子」になりやすいかを診断する

研究者は、大規模なテストを行う前に、小規模な実験で設定に誤りがないことを確認することを推奨しており、APIプロバイダーのレート制限に注意するよう促しています。このツールセットは、LLMの情報統合能力評価のための現在最も完全なツールセットである可能性が高く、真に信頼性の高い多ターン会話システムを構築する上で非常に参考になる価値があります。

⚠️ たった2ターンでモデルが崩壊し始める

图片

漸進的シャーディング実験結果。たった2ターンの会話でもモデルの信頼性が著しく低下することを証明しています。

最も憂慮すべき発見は、最も単純な2ターンの会話でさえ、LLMのパフォーマンスが著しく低下することです。研究者は「漸進的シャーディング」実験を通じて、会話が段階的な情報開示の度合いを含む限り(たとえ2つのフラグメントに分割されるだけでも)、モデルの信頼性が崩壊することを示しました。これは、あなたのAgentシステムが、一見単純な多ターン会話を処理する場合でもリスクに直面しており、ユーザーが意図的に複雑な質問をしなくてもAIアシスタントが「方向を見失う」状況に遭遇する可能性があることを意味します。

なぜ最強モデルもつまずくのか

研究は会話ログの詳細な分析を通じて、モデルが「迷子」になる4つの主要な要因を特定しました。

1. 早すぎる仮定:モデルが情報が不完全な段階で質問に答えようとし、多くの仮定をする

2. 回答の膨張:以前の(誤っている可能性のある)回答に過度に依存し、回答が再考されるのではなく徐々に「膨張」する

3. 不均一な注意配分:会話の最初のターンと最後のターンに過度に注意を払い、中間ターンの情報を無視する

4. 回答の冗長性:過度に冗長な回答を生成し、より無関係な仮定を導入し、自身の注意を分散させる

これらの要因が複合的に作用し、最も先進的なモデルでさえ多ターン会話で徐々に脱線する原因となります。

回答の冗長性がパフォーマンスに与える影響

图片

この表は、重要な発見を示しています。簡潔な回答は通常、冗長な回答よりも効果的です。

• 横軸は回答の冗長度を示しており、最も簡潔(0-20%)から最も冗長(80-100%)までです。

• 縦軸は異なるタスクタイプ(コード、数学、データベースなど)を示しています。

• 表中の数値は、そのタスクにおけるモデルのパフォーマンススコアです。

主な発見:

• ほとんどのタスク(特にCode、Database、Summary)で、回答が簡潔であるほどパフォーマンスが良いです。

• 例えば、コードタスクでは、最も簡潔な回答(0-20%)のスコアは55.3ですが、最も冗長な回答(80-100%)はわずか42.5です。

• Actionsタスクのみが、中程度の冗長度(40-60%)で最高のパフォーマンスを示しています。

• 全体平均では、簡潔な回答(0-40%)のパフォーマンスは、冗長な回答(60-100%)よりも顕著に高いです。

これは、モデルが過度に長い回答を生成すると、より不必要な仮定を導入し、「迷子」になる原因となることを示しています。

Claude 3.7とDeepSeekR1

テストされた15モデルの中で、Claude 3.7-Sonnetが最も強力な多ターン会話信頼性を示し、そのパフォーマンス維持率は65.9%に達し、他の競合モデルをリードしました。GPT-4.1はシングルターン会話でより優れたパフォーマンスを示しましたが、Claudeはシングルターンから多ターンへの移行での損失が最も少なく、特にMath(85.4→70.0)およびSummary(29.3→23.6)タスクで高いレベルを維持しました。

適用可能な推奨事項:

• 複雑な多ターンインタラクションを必要とするAgentを開発している場合、Claude 3.7-Sonnetが現在の最良の選択肢となる可能性があります。

• オープンソースモデルに限定される場合、Llama 3.3-70B(パフォーマンス維持率64.2%)が費用対効果の高いソリューションです。

图片

研究でテストされた2つの専門的な推論モデル(reasoning models)の1つとして、Deepseek-R1は非常に鮮明な「二面性」を示しました。

シングルターン会話の利点:

• プログラミング(Code)タスク:99.4点というトップレベルのパフォーマンス

• Actionsタスク:97.0点

• Mathタスク:95.5点

多ターン会話の欠点:

• 多ターンパフォーマンスはわずか31.5%

• 維持率はわずか47.5%

• ほぼすべてのタスクで60%以上の能力損失がありました。

研究者は、Deepseek-R1が追加の思考(test-time compute)能力を持っているにもかかわらず、これが多ターン会話での安定性を維持するのに役立たなかったことを特に指摘し、「思考」だけでは情報統合問題を解決するには不十分であることを示唆しています。

Agent開発者への推奨事項:

• シングルターンインタラクションシナリオ:Deepseek-R1は非常に競争力のある選択肢です。

• 複雑な多ターン会話シナリオ:慎重な評価が必要か、DeepSeekV3を代替として使用することを検討してください。

🌡️ 温度低下は無効:不確実性が主犯ではない

图片

異なる温度設定下でのモデルの非信頼性テスト結果。温度を下げることは多ターン会話における信頼性向上に効果的ではないことを証明しています。

一般的な誤解として、モデルの温度(temperature)パラメータを下げることで多ターン会話の一貫性を高めることができると考えられています。研究者は特に温度実験を設計し、その結果は以下のことを示しています。

• シングルターン会話:温度低下は有効です(1.0から0.0に下げることで非信頼性を50%削減できます)。

• 多ターン会話:温度低下はほぼ無効です(温度が0.0でも、非信頼性は依然として約30%に達します)。

この発見は、問題の根本原因がランダム性ではなく、モデルが多ターンコンテキストで情報を処理する固有の欠陥にあることを示唆しています。エンジニアは注意が必要です:生成パラメータの簡単な調整では、多ターン会話における「迷子」の問題は解決できません。

RECAP戦略:多ターン会話パフォーマンスの向上

图片

RECAPとSNOWBALL戦略のパフォーマンス比較。これらの方法が多ターン会話でのパフォーマンス低下を効果的に緩和できることを示しています。

「迷子」問題に対処するため、研究者は2つの可能な解決策をテストしました。

1. RECAP(最終的な要約):多ターン会話の終了前に、以前にユーザーが提供したすべての情報を要約する追加のターンを追加します。

2. SNOWBALL(累積的な繰り返し):毎ターン、以前の情報すべてを繰り返します。

実験結果は顕著でした。RECAP戦略はGPT-4oの多ターンパフォーマンスを59.1%から76.6%に向上させ、パフォーマンス低下の約40%を緩和しました。

実用的な推奨事項:Agentシステムを設計する際、重要な決定ポイントで情報レビューメカニズムを追加することを検討してください。これは問題を完全に解決することはできませんが、リスクを著しく低減できます。

Agentアーキテクチャ設計に関する5つの実用的な提案

研究結果に基づき、以下の5つの提案は、より信頼性の高いAgentシステム設計に役立ちます。

1. 回答生成を遅延させる:モデルが早すぎる仮定をするのを避け、十分な情報が収集されるまで回答を控えるよう明確に指示します。

2. 回答長さを制御する:研究データは、短い回答の方が長い回答よりも成功率が著しく高いことを示しています。

3. 情報レビューメカニズムを実装する:重要な決定ポイントで既知の情報を要約します。

4. マルチモデルアーキテクチャを活用する:情報統合と意思決定を担当する専門モデルを使用します。

5. ユーザーに完全な情報提供を促す:研究によると、一度に完全な指示を提供する方が、分散された指示よりもはるかに優れたパフォーマンスを示します。

これらの戦略を組み合わせて使用することで、より信頼性の高いAgentシステムを構築できます。

研究者の推奨事項

研究結果はLLM開発者に深刻な課題を提起しています。現在の主流評価方法が、シングルターンで完全に指定されたシナリオにおける能力(Aptitude)に過度に焦点を当てており、多ターンで情報が徐々に明確になるシナリオにおける信頼性(Reliability)を無視しているからです。

研究者はLLM開発者に対し、将来のモデルのイテレーションでこれら両方の側面を同等に重視するよう求め、具体的な基準を提案しています。

• 理想的なLLMは、シングルターンおよび多ターン設定の両方で類似の能力レベルを維持すべきです。

• 多ターン会話における非信頼性は15%未満であるべきです。

• これらの指標は、デフォルトの温度(T=1.0)で達成されるべきです。

この転換は、次世代LLMを真に信頼性の高い会話型Agentシステム構築により適したものにするでしょう。

最後に

「Lost in Conversation」研究は、現在のLLMの重要な限界を明らかにしました。あなたのニーズに最適なモデルを選択し、RECAPなどの情報統合戦略と組み合わせ、論文が提供する実用的な提案に従うことで、多ターン会話におけるAgentシステムの信頼性を著しく向上させることができます。

完璧な解決策はまだ登場していませんが、問題を認識し、ターゲットを絞った対策を講じることは、次世代の信頼性の高いAgentシステム構築に向けた重要な一歩です。ユーザーが「AIは途中でいつも私が言ったことを忘れる」と言うとき、あなたのシステムはその固定観念を打ち破る例外となるかもしれません。

未来はここにあります、公式アカウントのバックエンドで「グループ」と送信

縁があれば一緒に歩みましょう

图片

<記事終わり、著者:修猫>

転載は私にご連絡ください

🎉一緒に素晴らしいものをもっと創造しましょう!🎉

もしこの記事がお役に立ったなら

【いいね】、【既読】を感謝します

<あなたが私にいいねや既読をしても、私にしか見えません>

👉WeChat ID:xiumaoprompt

追加時は意図を明記してください!

メインタグ:LLMの信頼性

サブタグ:マルチターン対話大規模言語モデルMicrosoft ResearchAIエージェント


前の記事:光と影の真実 vs. アルゴリズムの幻想:AI時代の科学写真

次の記事:グーグルCEOピチャイ氏、「Googleは死んだ」論説に反論

短いURLをシェア