大規模モデルに新たな弱点！古い記憶を忘れず、新しい記憶を区別できない、精度が急落 | ICML'25

新智元レポート

編集：LRST

【新智元導読】大規模言語モデルは悩みを抱えている：記憶力が良すぎて古い記憶を忘れられず、新しい記憶を区別できない！ワーキングメモリに基づく認知テストは、LLMの文脈内検索に限界があることを示しています。人間が常に高精度を維持できる単純な検索タスクにおいて、モデルはほぼ確実に無効な情報と正解を混同します。

大規模言語モデル（LLM）における「情報検索」は、単なる辞書を引くようなものではなく、「情報生成」能力と密接に結びついていることが、ますます認識されています。

一般的に、モデルにより長い文脈を与えることで検索精度が向上すると考えられていますが、文脈内部に「相互干渉」が存在するという現象はほとんど研究されていません。

この問題を明らかにするため、バージニア大学とニューヨーク大学神経科学センターの研究者たちは、心理学の「順向性干渉」（proactive interference）の概念を借用しました。これは、先に提示された情報が、後から更新された内容の想起を妨げる現象です。

人間の場合、この干渉が強いほど、ワーキングメモリ容量が小さい傾向があります。

そこで研究チームは、認知科学の古典的なパラダイムを用いて新しいテストPI-LLMを設計しました。連続ドラマを再生するように、意味的に関連する「キーkey—バリューvalue」のペア（例：「キーりんご、バリュー赤」）を順次モデルに与え、これらの値を継続的に更新しました。最後に、モデルには「特定のキーに対応する最新のバリューは何か」とだけ尋ねました。

最新のバリューは質問の直前の文に配置されているにもかかわらず、先行する干渉項目が増えるにつれて、モデルの正答率は対数的に急落し、ほぼゼロに達しました。エラーの主な原因は、モデルが古いバリューを新しい答えとして認識してしまったことでした。

研究者たちは、「これまでの古い情報をすべて無視してください」とモデルに明確に伝えるといったプロンプトエンジニアリングを試みましたが、効果は限定的でした。

これは、LLMが干渉に直面したとき、単に「読み取れる」か「読み取れない」かの問題ではなく、人間と同様に「ワーキングメモリのボトルネック」が存在することを示唆しています。文脈がすぐそこにあるにもかかわらず、LLMは無関係な情報を柔軟に抑制することが困難なのです。

次なるステップとして、モデルが検索時に使用すべきでない内容を積極的に「忘れる」ようにするための新しい方法が必要となるでしょう。

論文リンク： https://arxiv.org/abs/2506.08184

リポジトリリンク： https://github.com/zhuangziGiantfish/Unable-to-Forget

インタラクティブデモ： https://zhuangzigiantfish.github.io/Unable-to-Forget/

この論文は、すべてのD大規模言語モデル（LLM）に影響を与える情報検索の問題を発見しました。

このタスクは人間にとって難易度が低いにもかかわらず、すべてのLLMで顕著なエラーが発生し、全体的な記憶（memory）および長文推論タスク（long reasoning）に著しい損害を与えています。

本論文は、ICML 2025 Workshop on Long Context Foundation Modelsに採択されました。

この研究は、王楚培（バージニア大学物理学士、哲学背景を持つ学際的研究者）と孫嘉秋（ニューヨーク大学神経科学センター博士課程学生、上海ニューヨーク大学神経認知科学助教授・ニューヨーク大学グローバル特別助教授田興氏に師事）が共同で主導しました。彼らは共同筆頭著者であり、共同責任著者です。物理学、建築学、哲学という多様な背景を持つ両著者は、認知システムの崩壊点から知能の本質を探求することに専念しています。

鄭喆陽（フラットアイアン研究所CCN客員研究員、ニューヨーク大学博士課程学生）と鄺一倫（ニューヨーク大学CILVRラボ博士課程学生、指導教員：Yann LeCun）は、プロジェクトの開始と推進において重要な助言を提供しました。

実験の核となる設定

タスクデータの入力

モデルに一般的な動的更新データ（キー-バリューペア）のシーケンスを与えることを想定します。例えば：

「Blood Pressure=120, Bp=135, Bp=119」

LLMタスククエリ

血圧（BP）の最後の数値（バリュー）はいくつですか？

結果

現在、すべての主要なLLM（最新のGPT-4.1、Llama-4、DeepSeek-V3から、Llama-3、Qwen-2.5など、パラメータ規模は0.6Bから600B+まで様々）は、最後の値を安定して抽出することができません。また、エラーパターンは対数的な減少を示す明確な数学的法則性を示しています。

考察

人間にとってこのタスクは非常に単純で、答えが最後の値119であることは明らかです。このタスクには検索の難しさがありません。

このタスクパターンは、金融（口座残高の変化）、医療（生理的指標の追跡）など、動的データの追跡が必要なすべての分野で極めて一般的です。

実験結果

主要な発見：普遍的な減衰曲線

更新回数が増加するにつれて、すべてのモデルの精度は一貫して対数線形に低下（log-linear decline）します。

干渉が増加するにつれて、精度は最終的に安定して0%にまで低下します。この時点で、すべてのモデルは完全に機能不全に陥り、100%の幻覚（hallucination）を生成し、100%正しい答えを提示できません。

この一貫した減衰パターンは、モデルのアーキテクチャ、規模、訓練リソースの違いを超えて観察されており、問題の根本がTransformerアーキテクチャやそれに依存するアテンションメカニズムといった基礎的な層にある可能性を強く示唆しています。

言語モデルが多数のセマンティック的に類似した干渉項の後で特定の目標情報を検索する必要がある場合、その検索精度は顕著かつ継続的に低下します。この対数線形な低下傾向は、すべての主要モデルで観察されています。

LLM-PIテストの基本的な入力例：モデルは、継続的に更新されるキー-バリュー情報ストリーム（例：「visual art」に対応する複数の値）を処理し、更新終了後に各キーに対応する最終値（図中太字で表示）を正確に検索する必要があります。

実験設定

テストでは、モデルに1から46個の異なるキーを処理させ、各キーの更新回数は1から400回の間としました。

これらの更新はランダムかつ無作為に混合され、その後、モデルが各キーの最終値（last value）を正しく抽出する精度が測定されます。

人間との比較

このタスクの設計は本質的に非常に単純です：

（1）複雑な検索は含まれません

（2）論理的な困難は存在しません

人間は簡単に注意を調整し、最新の情報のみに焦点を当てることができ、文脈内容からの干渉は限定的です。

誤答の分析によると、モデルはしばしば無関係な以前の更新値を最終的な答えとして誤って抽出しており、これは現在のLLMがこのような情報ストリームを処理する際に、非ターゲット（古い）情報を効果的に無視したりフィルタリングしたりするのが困難であることを示しています。

さらにエラー分布を分析したところ、LLMは限定されたワーキングメモリ容量に似た行動パターンを示しました。つまり、キーとバリューのペアを有限の表現空間に記録しているようで、更新回数がその容量を超えると、検索性能が完全に機能しなくなります。

研究者たちはまた、検索失敗を引き起こす複数の方法を発見し、いずれも同じ対数的な減衰曲線を示しました：1) 同時に追跡するキーの数を増やす、または2) ペアになっているバリューのトークン長を増やす、というものです。

これらの現象は、LLMの検索タスクの精度に著しい影響を与えます。人間の実験でも同様の現象が発見されていますが、人間のワーキングメモリはこのようなタスクで完全に機能不全に陥ることはありません。

現象の解釈：「忘れられない」

大規模モデルは無関係な情報を無視したり、忘れたりすることができず、その結果、完全な検索失敗を引き起こします：

特に直感に反するのは、入力で答えの領域を明確に示したり、「最新の更新に集中してください」とか「以前の情報を忘れてください」とモデルに直接伝えたりするなど、最も直接的な自然言語による介入戦略を用いた場合でも、モデルのパフォーマンスが顕著に改善しないことです。

これは、干渉効果が明確な自然言語命令を上書きするほど強力であり、モデルが古い情報に注目せざるを得ない状況に追い込まれることを示唆しています。

このことから、干渉に対抗するためには、プロンプトエンジニアリングのみに頼るのではなく、モデルのアーキテクチャ自体や訓練パラダイムに根本的な調整が必要となる可能性が高いと結論付けられます。

なぜLLMは最新情報を安定して抽出できないのか？

エラーの分析によると、LLMの失敗はランダムな間違いではなく、繰り返される更新によって体系的に影響を受けていることが示されています。

干渉量が増加するにつれて、エラーは明確な段階的変化を示します：

初期：近接干渉が支配的であり、検索エラーの主な原因は、末尾に隣接する値でした。

中期：干渉範囲が拡大し、エラーの原因がテキスト全体のどの領域にある値にも顕著に広がりました。

後期：完全に混乱し、モデルの出力は非常に分散し、入力されたことのない値が大量に検索されました。

特定のキーに対するモデルの応答は、更新ストリーム内でのその値の位置（11の区間に分けられ、Bin 1が最も早く、Bin 11が最終）に基づいて統計的に分析されました。

結果：更新回数が増えるにつれて（左→右パネル）、最終値を正確にヒットする割合（黄土色）が急激に低下しました。さらに注目すべきは、誤った応答が主に最終更新付近（例：Bin 10-11、隣接する更新との混同の可能性）に集中していたものから、徐々に早い区間（Bin 1-9）に分散するようになったことです。

加えて、存在しない値を返すエラー（「幻覚」、薄い灰色）や値を返さないエラー（「失効」、濃い灰色）も急増しており、これらが相まって情報過多の下でのモデルの記憶検索システムの崩壊状況を描写しています。

トップダウン制御の完全な失敗

人間とは全く異なり、LLMのこのような抽出タスクにおけるパフォーマンスは、「トップダウン」プロンプトによる示唆にほとんど影響されません。これは、CoT（Chain of Thought）モデルがこの問題で性能改善を示さない理由も説明しています。

自然言語プロンプトの無効性：本論文では、モデルに最新情報に焦点を当てるよう、あるいは過去の干渉を無視するよう明確に誘導する（例：回答領域を明確にマークする、「以下のテキストに集中する」、または「以前の内容を忘れる」と指示する）様々なプロンプトバリアントをテストしました。結果：すべての自然言語介入策は、モデルの抽出精度を顕著に向上させることはできず、対数線形の精度低下パターンも変化させませんでした。干渉が蓄積されると、モデルは頑固に完全なエラー（0%の精度）へと傾倒しました。

CoTモデルに改善は見られませんでした。モデルに推論プロセス（CoT）を制限なく冗長に出力させても、その抽出エラー率曲線はCoTを使用しないベースラインモデルとほぼ完全に一致するか、より悪化しました。これは、推論が文脈情報の干渉に対するモデルの耐性を効果的に向上させられないことを示しています。

このことは、干渉情報がモデルの行動に与える影響が、自然言語命令が誘導または抑制できる範囲を超えていることを示しています。モデルは命令を「理解」している（例えば、最新の値に集中すると主張している）にもかかわらず、実際には効果的に実行できず、歴史的な情報に強く注意を引かれ続けています。

問題はアーキテクチャまたはトレーニングの根本に及ぶ：プロンプトおよびCoTモデルの無効性は、プロンプトエンジニアリング（Prompt Engineering）だけではこの問題を根本的に解決できないことを示唆しています。モデルのアーキテクチャ設計（例：アテンションメカニズム、記憶モジュール）またはトレーニング目標/方法（例：干渉耐性のための明示的なトレーニングシグナルの導入）のレベルで革新的な調整が必要となる可能性が高いです。これは、今後の研究の重要な方向性を示しています。

Chain of Thought (CoT) モデルは、情報検索の耐干渉能力向上にほとんど効果がありません。CoTを有効にしたバージョン（破線）の性能曲線は、そのベースモデル（実線）とほぼ完全に一致するか、または悪化しています。これは、干渉による検索失敗が根底にあるメカニズムの問題であり、追加の「思考」プロセスでは克服できないことを確認しています。

上の図は、5つの異なる自然言語介入戦略（例：モデルに特定のキーの履歴を「忘れる」ように指示する、後続の情報に注目するよう促す、関連性を自己評価する、ソフトな会話リセット、および技術的なMock QAリセット）を示しています。これらは、情報フローの後期に挿入され、干渉に対抗することを目的として設計されました。

しかし、実験は、これらのプロンプトエンジニアリング戦略のすべてが、情報過多に起因する検索性能の崩壊を効果的に軽減できなかったことを示しており、対数的な減衰パターンは依然として存在し、既存の自然言語介入の限界を浮き彫りにしています。

忘れられない

さらに、LLMプロンプトハイジャック（Prompt Hacking）に触発され、研究者たちは非自然言語の敵対的プロンプティング戦略を設計しました。これは、欺瞞的な入力を構築し、モデル自身の返答形式と論理を模倣することによって行われます：

入力内に偽の人とコンピュータの対話が構築され、以前のすべての更新が、すでに回答済みの別の古い質問に属していることを示唆します。

この「欺瞞的な文脈隔離」戦略は部分的に精度を向上させましたが、向上後の精度も依然として対数線形の減衰法則に従いました。

これは、LLMが干渉を引き起こす情報を真に「忘れる」または無視することができず、特定の入力形式を通じてある程度の「マスキング」しかできないことを示しています。

上記の図は主要な結果を示しています：干渉を軽減するための自然言語プロンプト戦略（実線）は、一般的に効果が弱く、高い更新量の下ではベースライン（黒線）の性能曲線とほとんど差がなく、一部の戦略はかえって有害でした。唯一の例外は、構造化されたハックであるMock QAリセット（オレンジ色の破線）で、これは人為的に設計された「ハックメソッド」として実質的な改善をもたらしましたが、情報量の増加に伴う全体的な精度の低下を止めることはできませんでした。

「干渉」を独立変数として

業界で一般的に考えられている入力テキストの長さによる注意の希薄化とは異なり、本論文の制御変数実験はこれに反することを証明しています。

モデルの性能低下は、主に干渉強度によって引き起こされ、単にテキストの長さによるものではありません。

具体的には、入力テキストの長さを固定し、干渉強度を制御した場合でも、LLMのエラー率は対数的に増加することを示しています。

この実験は、LLMのMRCRテストにおける不良なパフォーマンスに対する説明を提供します。

DeepMindのMRCRおよびOpenAIのOpen MRCRは、長文テキストに多数の類似項目を挿入するシミュレーションテストを通じて、LLMが類似情報を区別する弱点を明らかにしました。

この研究は、補完的でより根源的な視点を提供し、膨大な情報がなくても検索エラーが引き起こされることを証明しています。MRCRテストで言及されている共参照解決（coreference）は、人間の認知領域における干渉（interference）現象に対応します。

研究者たちは、「干渉」（Interference）を核心的な独立変数として定量的に分離し、その性能に対する因果的な負の影響を直接証明しました。

結果は、これらのタスク失敗の核となる駆動要因の一つが、モデルの抗干渉能力（Anti-Interference Capacity）の不足にあることを明らかにし、正確な定量的分析フレームワーク（log-linear decay）を提供しています。

OpenAIはGPT-4.1のドキュメントで、顧客（特に法律や金融分野）が頻繁な更新と情報抽出を伴うタスクに高い関心を持っていることを指摘しています。（リンク：Introducing GPT-4.1 in the API）。

研究者たちは、MRCRの根本的な課題の一つが、大量の情報検索によって引き起こされるだけでなく、干渉情報に直面した際のLLMの検索失敗によって引き起こされることを直接的に指摘しました。

実験は同時に認知科学的な視点からも比較を提供しています：

認知科学への橋渡し：このテスト（順向性干渉テスト）は、認知科学分野で人間のワーキングメモリ（Working Memory）容量と抗干渉能力を測定するために広く使用されています。

実験は、認知科学に厳密に対応する実験パラダイムを採用しました。

したがって、この結果は、LLMがワーキングメモリに似た何らかの限定された容量メカニズムを示しており、その「抗干渉能力」（Anti-Interference Capacity）がこのメカニズムの強度を測る重要な指標であると解釈できます。

LLMの一般的な失敗は、現状では人間のような効果的なトップダウン制御を行い、文脈情報を最適に利用する能力が不足していることを強く示唆しています。

タスク要件は非常に明確で、検索難易度は極めて低い（理論的にはLLMにとって最も有利）。この能力を向上させることは、金融、医療モニタリングなど、動的データ追跡に依存するタスクにおけるLLMの基本的な信頼性を高める上で非常に重要であり、長文推論能力の信頼性もサポートします。

核心結論

LLMは現在、人間レベルのトップダウンの情報注意および処理制御能力を欠いており、特にセマンティック的に類似した文脈情報の干渉に抵抗し、正確なデータを抽出する必要があるシナリオでは安定して動作できません。

ICMLの審査員も、この研究がこれまで発見されていなかったLLMの検索失敗現象を明らかにし、認知科学に着想を得たテスト設計方法を採用している点で、顕著な新規性があることを認めました。

参考文献：

https://arxiv.org/abs/2506.08184

大規模モデルに新たな弱点！古い記憶を忘れず、新しい記憶を区別できない、精度が急落 | ICML'25

短いURLをシェア