告別靜態權重！谷歌提出 Nested Learning

❝ 大型模型終於有「海馬體」了！這篇論文提出的 HOPE 架構，讓模型在推理階段不再是查靜態的權重表，而是透過「嵌套學習」機制，把當前的脈絡即時壓縮進參數裡，就像人腦把短期記憶轉化成長期記憶一樣，實現了真正的線上學習。（Nested Learning: The Illusion of Deep Learning Architectures，點擊閱讀原文可直接跳轉至原文連結，Published on arXiv on 13 Nov 2024, by Google Research）

第一階段：識別核心概念

論文的動機分析

目前的深度學習模型，特別是大語言模型（LLM），普遍患有一種「順行性遺忘症」（Anterograde Amnesia）。雖然它們在預訓練階段（很久以前）學到了很多知識，但在部署後，面對新的脈絡輸入，它們只能利用短暫的「工作記憶」（Context Window），而無法真正將新資訊固化為長期記憶。也就是說，模型的權重在推理時是鎖死的。作者認為，现有的解決辦法只是單純地堆疊層數（Deep Learning），但這只是增加了計算的深度，並沒有解決「在不同時間尺度上持續學習」的問題。因此，我們需要一種新的範式，讓模型在推理過程中也能即時自我更新。

論文主要貢獻點分析

• 提出「嵌套學習」（Nested Learning, NL）範式：作者指出，所謂的深度神經網路，本質上是一組嵌套的優化問題。每一層不應該被視為靜態的計算模組，而應該被視為一個擁有獨立更新頻率（Update Frequency）的動態優化系統。

• 重新定義優化器（Deep Optimizers）：這是一個顛覆性的視角。作者證明了我們常用的優化器（如 SGD+Momentum, Adam）本質上就是聯想記憶模組（Associative Memory），它們在試圖壓縮梯度資訊。基於此，作者提出可以用更複雜的神經網路（Deep Network）來替代簡單的動量項，從而建構「深度優化器」。

• 提出 HOPE 架構：基於 NL 理論，作者設計了一個名為 HOPE 的新模型。它結合了「連續記憶系統」（Continuum Memory）和「自我修正機制」（Self-Modifying Titans）。在語言建模和推理任務上，該模型表現優於 Transformer++ 和其他現代 RNN 架構。

理解難點識別

最燒腦的地方在於視角的翻轉。通常我們認為「模型」是儲存知識的，「優化器」是訓練模型的工具。但這篇論文打破了這一界限：

• 優化器本身就是一個記憶模型（它在記憶梯度）。

• 模型的每一層前向傳播，其實是在解一個內部的優化問題。

理解為什麼「梯度下降（Gradient Descent）等價於聯想記憶的更新」是理解整個論文邏輯的基石。

概念依賴關係

要理解 HOPE 架構，必須先接受「優化即記憶」這一設定。邏輯鏈條如下：

1. 聯想記憶（Associative Memory）：這是最基礎的單元，用於映射 Key 到 Value。

2. 優化器視角的轉換：證明 Momentum 其實是在做一個線性回歸（Linear Regression）來記憶梯度。

3. 嵌套結構：將不同頻率的記憶模組（快/中/慢）嵌套在一起，形成 NL。

4. HOPE 實現：用具體的神經網路組件（MLP + Titans）來實現上述理論。

第二階段：深入解釋核心概念

設計生活化比喻

為了理解「嵌套學習」和「多頻率更新」，我們可以想像一家大型跨國公司的決策體系。

這家公司每天要處理海量的客戶回饋（資料）。為了高效運作，公司建立了一套嚴格的層級制度：

1. 一線實習生（Context/Attention）：反應極快。電話一響（輸入），立刻處理。但他們沒有記事本，所有資訊都在腦子裡，放下電話就忘。他們的更新頻率是毫秒級。

2. 部門經理（Weights/Model Layers）：經理不直接接電話，他負責制定「操作手冊」（權重）。如果實習生報錯了，經理會修改手冊。但經理不能聽到一個電話就改一次手冊，他需要觀察一段時間的趨勢。他的更新頻率是分鐘級。

3. 公司元老/顧問（Optimizer/Momentum）：元老手裡拿著一本「備忘錄」（Momentum State）。他看著經理改手冊，心裡想：「這經理怎麼老是改來改去？」元老負責記錄經理的修改路徑，並給出建議：「根據過去一個月的經驗，不要亂改，保持大方向。」元老的更新頻率是天/週級，且他在試圖「記憶」經理的行為模式。

在 Nested Learning 中，這三者（實習生、經理、元老）不再有本質區別，他們都在做同一件事：試圖記住並適應環境，唯一的區別是頻率（Frequency）不同。

建立比喻與實際技術的對應關係

• 一線實習生 → 高頻組件（High-Frequency Component）：對應模型中的 Attention 或快速更新的 Fast Weights。它們捕捉當前的脈絡流（Context Flow），適應速度極快，但容易遺忘。

• 部門經理 → 模型參數（Model Parameters）：對應傳統意義上的神經網路權重。它們透過梯度下降來更新，捕捉中期的資料規律。

• 公司元老 → 優化器狀態（Optimizer State）：對應 Momentum 或 Adam 中的動量項。它們儲存了梯度的歷史資訊，實際上是在更長的時間尺度上對資料進行壓縮和記憶。

• 操作手冊/備忘錄 → 聯想記憶（Associative Memory）：無論是權重還是動量，本質上都是在把「輸入/Key」映射到「期望的輸出/Value」。

深入技術細節

我們來看看最核心的數學轉換：為什麼說梯度下降就是記憶？

1. 原始數學形式（梯度下降）：

自然語言替換：新的權重 = 舊權重 - 學習率 × 當前的錯誤方向（梯度）

2. 論文的轉換視角（聯想記憶優化）：作者證明，上面的更新公式，等價於求解下面這個優化問題：

自然語言替換：新的權重 = 尋找一個W，使得：

1. 它能最大程度地預測當前的錯誤訊號（第一項，顺應當前）。

2. 它不要偏離舊的權重太遠（第二項，保持穩定）。

這不僅僅是數學遊戲。這個轉換揭示了 Momentum（動量）項其實也是在解一個類似的題：

也就是說，Momentum 本質上是一個「線性層」，它在試圖透過最小二乘法（Least Squares）來「擬合」過去的一系列梯度！

既然 Momentum 是一個線性記憶模型，作者問了一個靈魂問題：為什麼不用更強的神經網路來代替這個線性層？這就引出了 Deep Optimizers：用一個 MLP（多層感知機）來充當優化器，去記憶和預測梯度的變化規律。

將技術細節與比喻相互映射

• 公式中的（正則項）：這就是公司元老對部門經理的約束：「雖然你要改手冊，但別把昨天的版本全推翻了，要保持連貫性。」

• 公式中的（擬合項）：這就是「順應當前局勢」。元老記錄下當前的錯誤趨勢，確保下一次決策能修正這個錯誤。

• Deep Optimizers 的意義：如果傳統的 Momentum 是一個只會拿筆記錄線性趨勢的老頭（線性模型），那麼 Deep Optimizer 就是一個裝備了超級電腦的 AI 顧問（非線性神經網路）。這個 AI 顧問不僅能記住簡單的趨勢，還能分析出錯誤背後複雜的非線性規律，從而給出更厲害的更新建議。

總結

Nested Learning 告訴我們，深度學習的架構設計產生了一種錯覺，以為我們在堆疊空間的深度（層數）。實際上，一個真正智能的系統，應該是一個時間上的嵌套系統：從毫秒級的實習生（Attention），到分鐘級的經理（Weights），再到週級的元老（Optimizer），每一層都在用自己的頻率進行「梯度下降」（即記憶更新）。HOPE 模型就是把這套公司制度程式化了。

第三階段：詳細說明流程步驟

基於上述理論，作者提出了 HOPE 架構（Hierarchy of Optimizers and Persistent Experience）。讓我們追蹤一個輸入序列是如何透過 HOPE 被處理的。

具體流程偽程式碼

假設輸入序列是一段長文本，當前時刻的 Token 是。

Step 1: 頻率分解與輸入處理

輸入首先被嵌入為向量。模型並不是將它送入單一的通道，而是將其視為不同頻率訊號的組合。

• High Frequency（高頻通路）：負責處理稍縱即逝的細節（如當前句子中的人名）。

• Low Frequency（低頻通路）：負責處理穩定的語義（如語法規則）。

Step 2: 連續記憶系統（Continuum Memory System）

訊號進入一個由多個 MLP 組成的嵌套鏈條。這與傳統 Transformer 的前饋層（FFN）不同，這裡的 MLP 是動態更新的。

• **Level 1 (Fast MLP)**：

- 輸入：

- 處理：計算輸出。

- 更新： 每一步都更新參數。

- 更新規則：使用類似梯度下降的快速規則，根據當前的局部預測誤差，立刻修改。這就像實習生立刻記住了剛才的電話內容。

• **Level 2 (Mid MLP)**：

- 輸入：（上一級的輸出）

- 處理：計算輸出。

- 更新： 每隔 C 步（例如 C=16）更新一次參數。它從 Fast MLP 那裡彙總了一段時間的資訊，提取出更抽象的模式來更新自己。

• **Level 3 (Slow MLP)**：

- 更新頻率更低，儲存長期固化的知識。

Step 3: 自我修正機制（Self-Referential Mechanism based on Titans）

這是 HOPE 的核心注意力/記憶模組。它不僅僅是查表，而是在預測「如何更新自己」。

• 生成 Q/K/V：輸入經過投影生成 Query , Key , Value 。

• 計算「驚奇」訊號（Surprise Signal）：模型利用當前的記憶狀態去預測。預測誤差被視為「驚奇」訊號（Surprise）。

• 記憶更新（The Nested Update）：使用作者提出的 Deep Optimizer 思想，將這個「驚奇」訊號壓縮進記憶中。這裡的 UpdateFunction 可能是一個神經網路（Deep Memory），不僅僅是簡單的加法。

Step 4: 混合與輸出

• 將 Continuum Memory（各級 MLP）的輸出和 Self-Referential Module（注意力記憶）的輸出進行門控融合（Gating）。

• 最終經過 LayerNorm 和輸出層，預測下一個 Token 。

關鍵點總結：整個過程沒有任何部分是「凍結」的。從 MLP 到注意力矩陣，所有的參數都在根據輸入流（Context Flow）以不同的頻率即時調整。

第四階段：實驗設計與驗證分析

主實驗設計解讀：核心論點的驗證

• 核心主張：基於嵌套優化和動態更新的 HOPE 架構，在處理序列資料時比靜態權重的 Transformer 和單一頻率的 RNN 更高效。

• 資料集選擇：

- 語言建模（Language Modeling）：WikiText-103, The Pile。這是檢驗模型基本功的標準 Benchmark。

- 常識推理（Reasoning）：PIQA, HellaSwag, ARC-e/c 等。這些任務不僅要求死記硬背，還要求模型具備邏輯推理能力。

• 基線方法（Baselines）：

- **Transformer++**：目前最強的 Transformer 變體（Llama 架構基礎）。

- Modern RNNs：RetNet, DeltaNet, Mamba, Titans（Google 自己的上一代模型）。

• 主實驗結論：在 1.3B 參數 規模下，HOPE 在所有測試任務中均取得了 SOTA 性能。

- 平均分對比：HOPE (57.23) vs. Transformer++ (52.25) vs. Titans (56.82)。

- 這直接證明了引入「多頻率更新」和「連續記憶」機制，能顯著提升模型的表達能力和推理能力。

消融實驗分析：內部組件的貢獻

作者透過消融實驗驗證了「多頻率層級」的必要性：

• 實驗設置：

- 變體 A：去掉快速更新層（Only Slow）。

- 變體 B：去掉慢速更新層（Only Fast）。

• 結果分析：

- Only Fast：模型在捕捉短期依賴時很強，但極其不穩定，容易發生災難性遺忘（Catastrophic Forgetting），長期記憶丟光光。

- Only Slow：模型退化為傳統的靜態網路，無法進行有效的脈絡學習（In-context Learning），對新資訊的適應能力大幅下降。

• 結論：這不僅驗證了 HOPE 架構的有效性，也側面印證了人腦記憶機制（海馬體快速編碼 + 大腦皮層慢速鞏固）在人工智慧設計中的普適性。

深度/創新性實驗剖析：洞察方法的內在特性

• 實驗：優化器即記憶（Optimizers as Memory）

- 設計：作者嘗試將不同的優化器演算法（SGD, Momentum, Adam）直接作為模型內部的「記憶更新規則」。

- 發現：使用 Adam 的變體作為內部更新規則時，效果最好。

- 洞察：這解釋了為什麼 Transformer 中的 Attention 如此強大——從數學上看，Attention 的更新公式與預處理梯度下降（Preconditioned Gradient Descent, 類似 Adam）高度一致。這證明了 Nested Learning 理論的統一性：注意力機制本質上就是一種在推理階段運行的先進優化器。

• 視覺化分析：

- 作者視覺化了 HOPE 內部不同頻率模組的啟動模式。

- 結果：低頻模組（Low Frequency）主要對功能詞和常見語義（如 "the", "is"）有反應；而高頻模組（High Frequency）則劇烈回應當前脈絡中的稀有實體（如人名、特定地名）。這直觀地展示了模型學會了自動分層處理資訊。

本文題目：Nested Learning: The Illusion of Deep Learning Architectures

歡迎深度學習同好與我交流、討論、合作！

告別靜態權重！谷歌提出 Nested Learning

分享短網址