Google V2版Attention Is All You Need:嵌套學習

大家好,我是PaperAgent,不是Agent!

最近Google的Gemini 3 Pro與Gemini 3 Pro Image(Nano Banana Pro)風光無限,而OpenAI也在挖掘自家GPT-5的應用價值,發表了長篇89頁的GPT-5用於加速科研的研究報告,值得一看。

今天重點分享Google最新研究成果,網友称之为V2版的Attention is all you need:Nested Learning。

圖片

嵌套學習(Nested Learning)是一種全新的機器學習方法,它將模型視為一組更小的、嵌套的優化問題,每個子問題都擁有自己獨立的內部工作流程,從而減輕甚至徹底避免「災難性遺忘」——也就是學習新任務時犧牲舊任務效能的問題。

圖片

1 為什麼又要「新範式」?

深度學習舊敘事 把網路「堆深」 → 表達力↑ 嵌套學習新敘事 把網路「拆嵌」 → 表達力↑

訓練=整體打補丁 訓練=各層自己打補丁,頻率不同

記憶=attention+FFN 記憶=任意「鍵-值」優化子系統

圖片圖 1 把大腦不同頻段腦電(Δ/Θ/α/β/γ)與 NL 的「多時間尺度更新」做了類比:「早期層高頻刷,後期層低頻整合」——這就是 NL 的核心直覺。

2 嵌套學習的三板斧

2.1 關聯記憶 = 一切

定義:

關聯記憶 ℳ 是一個把鍵 𝒦 映射到值 𝒱 的算子,訓練就是 ℳ* = argmin ℒ(ℳ(𝒦); 𝒱)。

梯度token歷史隱狀態都当成鍵/值,就得到:

• SGD → 1-層記憶(映射 x → 局部驚訝信號 LSS)

• Momentum → 2-層記憶(外層更新 W,內層更新動量 m)

• Linear Attention → 2-層記憶(外層更新投影矩陣,內層更新 Mt)

圖 2 用「俄羅斯套娃」把 Hybrid RNN+Attention 拆成多級梯度流:圖片

2.2 更新頻率 = 層級順序

給出頻率定義:f_A = 單位時間內模組 A 的更新次數。用 f_A 排序,得到「嵌套層級」:高頻 ≻ 低頻。→ 每個層級獨享一條梯度流,互不阻塞。

2.3 優化器即記憶模組

把動量当成「無鍵記憶」後,還能繼續加戲:

擴展 公式 效果

加值參數 P m ← αm – η P ∇ 自動預處理梯度

換 L2 損失 Δ-Rule 更新 容量利用率↑

把 m 換成 MLP Deep Momentum GD 捕捉非線性梯度動態

再套牛頓-舒爾茨 σ(·)=Newton-Schulz 等價於 Muon 優化器

3 自修改序列模型:Titans

關鍵 idea:

「既然優化器是記憶,那能不能讓模型自己學會寫優化器?」

Titans =

• 慢權重(大 MLP)→ 長期記憶

• 快權重(線性注意力)→ 工作記憶

學習器 L(·) → 根據當前上下文即時輸出「如何更新慢權重」的程式碼(即產生 ΔW 規則)。

訓練時,L(·) 的參數也被 SGD 訓練,於是出現「梯度優化梯度優化器」的套娃。

4 HOPE:把記憶做成「頻帶」

Continuum Memory System(CMS)

• 把傳統「長/短期記憶」拆成連續頻帶的一串 MLP:MLP^(f₁), …, MLP^(fₖ),每個按自己的 chunk 長度 C(ℓ) 更新。

• 越慢頻帶 → 越長上下文 → 越抽象知識。

HOPE = CMS + Titans 自修改核心 圖 3 對比 Transformer 與 HOPE 的更新頻率:圖片

5 實驗速覽

表 1 完整結果:圖片

結論

• 同等參數下,HOPE 的 perplexity 最低,常识任務平均最高;

• 隨著模型變大,HOPE 與 Titans 差距縮小,但仍穩定壓 Transformer++ 一頭

• Hope 在長上下文大海撈針 (NIAH) 下游任務中展現出卓越的記憶體管理能力,證明 CMS 提供了一種更高效、更有效的辦法來處理擴展的資訊序列。

不同架構在語言建模(困惑度,左圖)與常識推理(準確率,右圖)任務上的效能對比:HOPE、Titans、Samba 以及 Transformer 基線。

不同架構在語言建模(困惑度,左圖)與常識推理(準確率,右圖)任務上的效能對比:HOPE、Titans、Samba 以及 Transformer 基線。

在長上下文任務上,不同難度等級的效能比較(HOPE、Titans、TTT、Mamba2)

在長上下文任務上,不同難度等級的效能比較(HOPE、Titans、TTT、Mamba2)

• NIAH-PK:needle-in-a-haystack 找回密碼

• NIAH-H:needle-in-a-haystack 找回數字

• NIAH-W:needle-in-a-haystack 找回單詞

最後,一張圖以概之:圖片

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://abehrouz.github.io/files/NL.pdf

主標籤:嵌套學習

次標籤:連續學習HOPETitans災難性遺忘


上一篇:論文淺嘗 | 利用條件陳述激發並提升大型語言模型的因果推理能力(CL2025)

下一篇:告別靜態權重!谷歌提出 Nested Learning

分享短網址