強化学習+大規模モデルの記憶:Mem-α、エージェントが「記憶する方法」を初めて学ぶ

画像

大規模言語モデルの急速な発展が続く今日、「記憶」はエージェントが真に長期的な知能を獲得できるかどうかの鍵となっています。

100万トークン規模のコンテキストをサポートするGPT-4.1でさえ、インタラクションが増え続けると、コストと遅延は指数関数的に上昇します。そこで、外部記憶システムが登場しましたが、既存のほとんどのソリューションは手動のルールとプロンプト命令に依存しており、モデルはいつ、何を、どのように記憶を更新すべきかを真に「理解」していません。

Mem-αの登場は、この窮状を解決することを目的としています。カリフォルニア大学サンディエゴ校のYu WangがAnuttaconでのインターンシップ中に完成させたこの研究は、強化学習を大規模モデルの記憶管理システムに導入した初の試みであり、モデルがツールを使って記憶を保存、更新、整理する方法を自律的に学習できるようにします。

画像

論文タイトル:Mem-α: Learning Memory Construction via Reinforcement Learning

論文リンク:https://arxiv.org/abs/2509.25911

コードリポジトリ:https://github.com/wangyu-ustc/Mem-alpha

オープンソースモデル:https://huggingface.co/YuWangX/Memalpha-4B

学習データセット:https://huggingface.co/datasets/YuWangX/Memalpha

テストデータセット: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench

記憶のボトルネック:手動ルールの限界

既存の記憶強化エージェント(例:MIRIX、MemGPT)は通常、開発者が事前に設計した命令テンプレートに依存して記憶操作を指示します。しかし、複雑な対話環境では、モデルはしばしば3つの主要な課題に直面します:

どの情報が長期的に保持する価値があるかわからない;

古い記憶をいつ更新すべきかわからない;

複数の種類の記憶間で合理的に割り当てることができない。

その結果、「間違って記憶する」「忘れる」が頻繁に発生します。図に示すように、強化学習による最適化なしでは、Qwen3-4Bモデルはコアメモリを更新できず、セマンティックメモリは断片的な情報しか保存せず、最終的に質問応答の誤りにつながりました。しかし、Mem-αによる学習後、モデルは「能動的な学習」能力を示し始めました:主要なイベントを識別し、それらをそれぞれコアメモリ (Core Memory)、エピソード記憶 (Episodic Memory)、セマンティック記憶 (Semantic Memory) に書き込み、包括的な情報保持と圧縮を実現しました。

画像

ルールから学習へ:Mem-αのコアメカニズム

Mem-αの核心的な貢献は、記憶構築問題を強化学習によって最適化可能なシーケンス決定問題に変換したことです。従来の教師あり学習や手動ルールに依存する方法とは異なり、Mem-αは情報フローの処理中にエージェントが最適な記憶管理戦略を自律的に探索し、下流タスクのパフォーマンスから直接フィードバックを得ることを可能にします。このエンドツーエンドの最適化方法により、モデルは真に効果的な記憶構築戦略を学習できるようになります。

画像

タスク設定(Task Setup)

上図に示すように、Mem-αは記憶構築をシーケンシャルな意思決定プロセスとしてモデル化します。エージェントは情報ブロックを順次処理し、どの記憶操作を実行するかを決定し、処理完了後には構築された記憶システムを利用して質問に答えます。学習プロセス中、複数の報酬シグナル(画像から画像まで)を通じてフィードバックを得ます。学習されるエージェント(🔥)は記憶管理戦略の学習に集中し、固定された大規模言語モデル(❄️)は記憶に基づいて質問に答える役割を担います。

報酬関数設計

Mem-αは、多次元報酬関数を用いて記憶構築を最適化します:

質問応答精度(画像):最も核となるシグナルであり、記憶に基づいた質問応答の精度を直接測定します。

ツール呼び出し形式(画像):エージェントが記憶操作ツールを正しく使用することを保証します。

記憶圧縮(画像):記憶空間の効率的な利用を促進します。

内容の有効性(画像):LLM評価器を通じて記憶の品質を評価します。

最終報酬:画像(実験では画像が最も効果的であることが判明)。

人間の脳に触発された3層記憶システム

Mem-αのアーキテクチャは、認知科学における記憶分類理論を参照し、3層の記憶システムを構築しました:

コア記憶 (Core Memory):ユーザーの長期的なアイデンティティ、目標、嗜好を保存します;

エピソード記憶 (Episodic Memory):タイムライン付きの具体的なイベントを記録します;

セマンティック記憶 (Semantic Memory):構造化された知識と事実を格納します。

エージェントは各タイムステップで、どの記憶タイプを呼び出し、挿入または更新操作を実行するかを決定する必要があります。強化学習による最適化後、モデルは人間のように「異なる記憶システムを柔軟に呼び出す」ことを学習しました。

画像

学習データセットの構築

Mem-αの学習データセットの構築は、MemoryAgentBenchの4つの側面から着想を得ています:

1. 正確な検索(Accurate Retrieval):履歴データから正確な情報を抽出し、クエリに応答します。シングルホップおよびマルチホップ検索シナリオをカバーします。

2. テスト時学習(Test-Time Learning):デプロイ中に新しい行動や能力を獲得します。

3. 長期的な理解(Long-Range Understanding):複数のセグメントに分散した情報を統合し、包括的なシーケンス分析を必要とするクエリに答えます。

4. 競合解決(Conflict Resolution):矛盾する証拠に遭遇した場合、以前に保存された情報を修正、上書き、または削除します。

本研究は、競合解決の側面を除外し、最初の3つの側面に焦点を当てています。これは、現在、真の評価ベンチマークが不足しているためです。既存の競合解決データセットは主に合成であり、現実世界の複雑さを十分に捉えられていません。研究チームは、異なる情報源から8つのデータセットを収集・整理し、統一されたパラダイムに処理した後、MemoryAgentBenchのテストセットと重複がないことを保証しつつ、上記の最初の3つの側面をカバーする完全なデータセットを構築して学習を行いました。

実験結果

主実験:性能と汎化能力

Mem-αは30kトークンで学習され、検証セット(検証セットも30kトークン未満)での効果は以下の通りです:

画像

テストセットでの効果は以下の通りです:

画像

4つの重要な発見:

1. 既存の手法を全面的に凌駕:Mem-αはすべての評価タスクにおいてベースラインモデルを大幅に上回りました。MemoryAgentBenchの正確な検索(Accurate Retrieval)と長期的な理解(Long-Range Understanding)の2つの側面で特に優れたパフォーマンスを示し、未見の分布に対する強力な汎化能力を発揮しました。これは、強化学習によって学習された記憶戦略が「うまく学習する」だけでなく、「広く適用できる」ことを証明しています。

2. 効率と性能を両立した記憶圧縮:Long-ContextおよびRAG-Top2と比較して、Mem-αはより高い性能を維持しつつ、記憶占有量を約50%削減しました。BookSumやInfBench-Sumなどの長文理解タスクでは、セマンティック圧縮メカニズムの利点がさらに拡大され、「忠実度」と「ストレージ効率」の間で理想的なバランスを実現していることが証明されました。

3. 構造化記憶の決定的な役割:実験により、単一の段落で表現されたフラットな記憶ベースライン(MEM1、MemAgent)が複雑なタスクで性能が制限されることが示されました。対照的に、Mem-αの階層的記憶アーキテクチャは、モデルがコア、エピソード、セマンティックの情報階層を区別することを可能にし、強化学習最適化戦略と相まって、複雑な情報の整理と検索能力を大幅に向上させました。

4. 非常に強力な長さ外挿能力:平均長さ30Kトークン未満のサンプルに基づいて学習されたにもかかわらず、Mem-αは400Kトークンを超える超長文(MemoryAgentBenchでは最長474Kトークン)に安定して汎化できます。これは、モデルが「記憶する方法」を学習しただけでなく、極端に長いシーケンスに対する推論の堅牢性も備えていることを意味します。記憶モデリングの分野で、真の意味での長さ外挿を初めて実現しました。

アブレーションスタディ:「記憶を使えない」状態から「記憶を管理する方法を学ぶ」状態へ

画像

アブレーションスタディでは、研究チームは強化学習による学習前後のQwen3-4Bのパフォーマンスを比較しました。結果は、Mem-α導入前、モデルは完全な記憶モジュールを持っていたにもかかわらず、それらを正しく使用する方法をほとんど知らなかったことを示しています。平均精度はわずか38.9%で、ツール呼び出しは頻繁にエラーを起こし、コア記憶とセマンティック記憶の更新は混乱していました。しかし、Mem-αによる学習後、モデルのパフォーマンスは劇的に変化しました。精度は64.2%に跳ね上がり、適切な記憶タイプと操作順序を自律的に選択できるようになり、真に「自律的な記憶管理」を実現しました。この結果は、強化学習がタスクパフォーマンスを向上させるだけでなく、モデルに自身の記憶行動を理解し最適化する能力を与えたことを証明しています。

エンジニアリングから学習へ:エージェントの記憶の未来

Mem-αは、私たちに重要なトレンドを示しています:「記憶管理はもはやエンジニアリング問題ではなく、学習可能な問題である。」

強化学習シグナルを通じて、モデルは手動で設計されたルールに依存するのではなく、インタラクションを通じて効果的な記憶戦略を自律的に進化させます。この研究は、記憶強化エージェントの新たな方向性を開きました。将来、同様のメカニズムは、マルチモーダル記憶(画像、音声)、パーソナライズされた記憶戦略、さらにはマルチエージェント協調記憶システムに拡張される可能性があります。論文著者らが述べたように、Mem-αの意義は、エージェントが初めて自身の記憶を真に理解することを可能にした点にあります。

メインタグ:強化学習

サブタグ:大規模言語モデル人工知能AIエージェントメモリ管理


前の記事:AIの母、李飛飛氏の論文がシリコンバレーを揺るがす!大規模言語モデルの方向性は間違っており、空間知能こそがAGIへの唯一の道

次の記事:AIが18世紀の「謎の帳簿」を瞬時に解読!Googleの新モデルがブラインドテストで話題に

短いURLをシェア