Google V2版Attention Is All You Need：嵌套學習

大家好，我是PaperAgent，不是Agent！

最近Google的Gemini 3 Pro與Gemini 3 Pro Image（Nano Banana Pro）風光無限，而OpenAI也在挖掘自家GPT-5的應用價值，發表了長篇89頁的GPT-5用於加速科研的研究報告，值得一看。

今天重點分享Google最新研究成果，網友称之为V2版的Attention is all you need：Nested Learning。

嵌套學習（Nested Learning）是一種全新的機器學習方法，它將模型視為一組更小的、嵌套的優化問題，每個子問題都擁有自己獨立的內部工作流程，從而減輕甚至徹底避免「災難性遺忘」——也就是學習新任務時犧牲舊任務效能的問題。

1 為什麼又要「新範式」？

深度學習舊敘事　把網路「堆深」 → 表達力↑　嵌套學習新敘事　把網路「拆嵌」 → 表達力↑

訓練=整體打補丁　訓練=各層自己打補丁，頻率不同

記憶=attention+FFN　記憶=任意「鍵-值」優化子系統

圖 1 把大腦不同頻段腦電（Δ/Θ/α/β/γ）與 NL 的「多時間尺度更新」做了類比：「早期層高頻刷，後期層低頻整合」——這就是 NL 的核心直覺。

2 嵌套學習的三板斧

2.1 關聯記憶 = 一切

定義：

關聯記憶 ℳ 是一個把鍵 𝒦 映射到值 𝒱 的算子，訓練就是 ℳ* = argmin ℒ(ℳ(𝒦); 𝒱)。

把梯度、token、歷史隱狀態都当成鍵/值，就得到：

• SGD → 1-層記憶（映射 x → 局部驚訝信號 LSS）

• Momentum → 2-層記憶（外層更新 W，內層更新動量 m）

• Linear Attention → 2-層記憶（外層更新投影矩陣，內層更新 Mt）

圖 2 用「俄羅斯套娃」把 Hybrid RNN+Attention 拆成多級梯度流：

2.2 更新頻率 = 層級順序

給出頻率定義：f_A = 單位時間內模組 A 的更新次數。用 f_A 排序，得到「嵌套層級」：高頻 ≻ 低頻。→ 每個層級獨享一條梯度流，互不阻塞。

2.3 優化器即記憶模組

把動量当成「無鍵記憶」後，還能繼續加戲：

擴展　公式　效果

加值參數 P　m ← αm – η P ∇　自動預處理梯度

換 L2 損失　Δ-Rule 更新　容量利用率↑

把 m 換成 MLP　Deep Momentum GD　捕捉非線性梯度動態

再套牛頓-舒爾茨　σ(·)=Newton-Schulz　等價於 Muon 優化器

3 自修改序列模型：Titans

關鍵 idea：

「既然優化器是記憶，那能不能讓模型自己學會寫優化器？」

Titans =

• 慢權重（大 MLP）→ 長期記憶

• 快權重（線性注意力）→ 工作記憶

• 學習器 L(·) → 根據當前上下文即時輸出「如何更新慢權重」的程式碼（即產生 ΔW 規則）。

訓練時，L(·) 的參數也被 SGD 訓練，於是出現「梯度優化梯度優化器」的套娃。

4 HOPE：把記憶做成「頻帶」

Continuum Memory System（CMS）

• 把傳統「長/短期記憶」拆成連續頻帶的一串 MLP：MLP^(f₁), …, MLP^(fₖ)，每個按自己的 chunk 長度 C(ℓ) 更新。

• 越慢頻帶 → 越長上下文 → 越抽象知識。

HOPE = CMS + Titans 自修改核心　圖 3 對比 Transformer 與 HOPE 的更新頻率：

5 實驗速覽

表 1 完整結果：

結論：

• 同等參數下，HOPE 的 perplexity 最低，常识任務平均最高；

• 隨著模型變大，HOPE 與 Titans 差距縮小，但仍穩定壓 Transformer++ 一頭；

• Hope 在長上下文大海撈針 (NIAH) 下游任務中展現出卓越的記憶體管理能力，證明 CMS 提供了一種更高效、更有效的辦法來處理擴展的資訊序列。

不同架構在語言建模（困惑度，左圖）與常識推理（準確率，右圖）任務上的效能對比：HOPE、Titans、Samba 以及 Transformer 基線。

在長上下文任務上，不同難度等級的效能比較（HOPE、Titans、TTT、Mamba2）

• NIAH-PK：needle-in-a-haystack 找回密碼

• NIAH-H：needle-in-a-haystack 找回數字

• NIAH-W：needle-in-a-haystack 找回單詞

最後，一張圖以概之：

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://abehrouz.github.io/files/NL.pdf

Google V2版Attention Is All You Need：嵌套學習

分享短網址