強化學習+大模型記憶：Mem-α，讓智能體第一次學會「如何記憶」

在大語言模型快速發展的今日，「記憶」正成為智能體能否真正具備長期智能的關鍵。

即使是支援百萬級上下文的 GPT-4.1，當互動持續增加時，成本和延遲依然會呈指數級上升。於是，外部記憶系統應運而生——然而，大多數現有方案依賴人工規則與 prompt 指令，模型並不真正「理解」何時該記、記什麼、如何更新。

Mem-α 的出現，正是為了解決這一困境。由加州大學聖地牙哥分校的 Yu Wang 在 Anuttacon 實習期間完成，這項工作是首次將強化學習引入大模型的記憶管理體系，讓模型能夠自主學習如何使用工具去儲存、更新和組織記憶。

論文標題：Mem-α: Learning Memory Construction via Reinforcement Learning

論文連結：https://arxiv.org/abs/2509.25911

程式碼儲存庫：https://github.com/wangyu-ustc/Mem-alpha

開源模型：https://huggingface.co/YuWangX/Memalpha-4B

訓練資料集：https://huggingface.co/datasets/YuWangX/Memalpha

測試資料集: https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench

記憶瓶頸：人工規則的盡頭

現有的記憶增強智能體（如 MIRIX、MemGPT）通常依賴開發者預先設計好的指令模板來指導記憶操作。但在複雜的互動環境中，模型往往面臨三大挑戰：

不知道哪些資訊值得長期保留；

不清楚何時該更新舊記憶；

無法在多類型記憶中進行合理分配。

結果就是「記錯」、「忘記」頻繁發生：如圖所示，在沒有強化學習最佳化前，Qwen3-4B 模型未能更新核心記憶、語義記憶僅保存了片段性資訊，最終導致問答錯誤。而經過 Mem-α 訓練後，模型開始展現出「主動學習」的能力：能識別出關鍵事件，將它們分別寫入核心記憶 (Core Memory)、情景記憶 (Episodic Memory) 和語義記憶 (Semantic Memory) 中，實現全面的資訊保留與壓縮。

從規則到學習：Mem-α 的核心機制

Mem-α 的核心貢獻在於將記憶建構問題轉化為一個可透過強化學習最佳化的序列決策問題。與以往依賴監督學習或手工規則的方法不同，Mem-α 讓智能體在處理資訊流的過程中自主探索最佳的記憶管理策略，並透過下游任務表現直接獲得回饋。這種端到端的最佳化方式使得模型能夠學習到真正有效的記憶建構策略。

任務設定（Task Setup）

如上圖所示，Mem-α 將記憶建構建模為順序決策過程。智能體依序處理資訊塊，決定執行哪些記憶操作，處理完成後利用建構的記憶系統回答問題。訓練過程中透過多個獎勵訊號（到）獲得回饋。被訓練的智能體（🔥）專注學習記憶管理策略，固定的大語言模型（❄️）負責根據記憶回答問題。

獎勵函數設計

Mem-α 採用多維度獎勵函數最佳化記憶建構：

問答準確率（）：最核心的訊號，直接衡量基於記憶回答問題的準確率

工具呼叫格式（）：確保智能體正確使用記憶操作工具

記憶壓縮（）：鼓勵高效利用記憶空間

內容有效性（）：透過 LLM 評估器評估記憶品質

最終獎勵：（實驗發現效果最佳）。

受啟發於人腦的三層記憶系統

Mem-α 的架構參考了認知科學中的記憶分類理論，建構了一個三層記憶體系：

Core Memory（核心記憶）：儲存使用者長期身份、目標與偏好；

Episodic Memory（情景記憶）：記錄帶時間軸的具體事件；

Semantic Memory（語義記憶）：存放結構化的知識與事實。

智能體需要在每個時間步決定呼叫哪種記憶類型、執行插入或更新操作。透過強化學習最佳化後，模型學會了如人類一般「靈活呼叫不同記憶系統」。

訓練資料集建構

Mem-α 的訓練資料集的建構思路來源於 MemoryAgentBench 中的四個維度：

1. 精確檢索（Accurate Retrieval）：從歷史資料中提取正確資訊以回答查詢，涵蓋單跳和多跳檢索場景

2. 測試時學習（Test-Time Learning）:在部署期間獲取新行為或能力

3. 長期理解（Long-Range Understanding）:整合分佈在多個片段中的資訊，回答需要全面序列分析的查詢

4. 衝突解決（Conflict Resolution）: 在遇到矛盾證據時修訂、覆蓋或刪除先前儲存的資訊

本研究聚焦於前三個維度，排除了衝突解決維度。這是因為目前缺乏真實的評估基準——現有的衝突解決資料集主要是合成的，未能充分捕捉真實世界的複雜性。研究團隊收集並整理了來自不同源頭的八個資料集，處理到統一的範式，最後建構了一個完善的資料集並保證與 MemoryAgentBench 的測試集沒有交織，涵蓋了以上的前三個維度進行訓練。

實驗結果

主實驗：效能與泛化能力

Mem-α 在 30k tokens 上訓練，在驗證集（驗證集也是<30k tokens的）上的效果如下：

在測試集上的效果如下：

四個關鍵發現：

1. 全面超越現有方法：Mem-α 在所有評測任務中均顯著領先於基準模型。在 MemoryAgentBench 的精確檢索（Accurate Retrieval）與長期理解（Long-Range Understanding）兩個維度上表現尤為突出，展現出對未見分佈的強泛化能力——證明強化學習訓練出的記憶策略不僅「學得好」，還能「遷得遠」。

2. 效率與效能兼得的記憶壓縮：相較於 Long-Context 與 RAG-Top2，Mem-α 在保持更高效能的同時，記憶佔用減少近 50%。在 BookSum 與 InfBench-Sum 等長文理解任務中，語義壓縮機制的優勢進一步放大，證明其在「保真度」與「儲存效率」之間實現了理想平衡。

3. 結構化記憶的決定性作用：實驗顯示，使用單一段落表示的扁平記憶基準（MEM1、MemAgent）在複雜任務上表現受限。相比之下，Mem-α 的分層記憶架構讓模型能夠區分核心、情景與語義資訊層次，配合強化學習最佳化策略，大幅提升了複雜資訊的組織與檢索能力。

4. 極強的長度外推能力：儘管訓練僅基於平均長度小於 30K tokens 的樣本，Mem-α 卻能穩定泛化至超過 400K tokens 的超長文件（MemoryAgentBench 最長達 474K tokens）。這意味著模型不僅學會了「如何記憶」，還具備了對極端長序列的推理魯棒性——在記憶建模領域首次實現真正意義上的長度外推。

消融實驗：從「不會用記憶」到「學會管理記憶」

在消融實驗中，研究團隊對比了 Qwen3-4B 在強化學習訓練前後的表現。結果顯示，在引入 Mem-α 之前，模型雖然具備完整的記憶模組，卻幾乎不知道如何正確使用它們——平均準確率僅為 38.9%，工具呼叫頻繁出錯，核心與語義記憶更新紊亂。而經過 Mem-α 訓練後，模型的表現出現質變：準確率躍升至 64.2%，能夠主動選擇合適的記憶類型與操作順序，實現了真正意義上的「自主記憶管理」。這一結果證明，強化學習不僅提升了任務表現，更賦予模型理解和最佳化自身記憶行為的能力。

從工程到學習：智能體記憶的未來

Mem-α 讓我們看到一個重要趨勢：「記憶管理不再是工程問題，而是可以被學習的問題。」

透過強化學習訊號，模型不再依賴人工設計的規則，而是透過互動自行演化出有效的記憶策略。這項研究為記憶增強智能體打開了新的方向——未來，類似的機制或許可以擴展到多模態記憶（圖像、音訊）、個性化記憶策略甚至多智能體協作記憶系統。正如論文作者所言，Mem-α 的意義在於讓智能體第一次真正理解自己的記憶。

強化學習+大模型記憶：Mem-α，讓智能體第一次學會「如何記憶」

分享短網址