大家好,我是PaperAgent,不是Agent!
最近Google的Gemini 3 Pro與Gemini 3 Pro Image(Nano Banana Pro)風光無限,而OpenAI也在挖掘自家GPT-5的應用價值,發表了長篇89頁的GPT-5用於加速科研的研究報告,值得一看。
今天重點分享Google最新研究成果,網友称之为V2版的Attention is all you need:Nested Learning。
嵌套學習(Nested Learning)是一種全新的機器學習方法,它將模型視為一組更小的、嵌套的優化問題,每個子問題都擁有自己獨立的內部工作流程,從而減輕甚至徹底避免「災難性遺忘」——也就是學習新任務時犧牲舊任務效能的問題。
1 為什麼又要「新範式」?
深度學習舊敘事 把網路「堆深」 → 表達力↑ 嵌套學習新敘事 把網路「拆嵌」 → 表達力↑
訓練=整體打補丁 訓練=各層自己打補丁,頻率不同
記憶=attention+FFN 記憶=任意「鍵-值」優化子系統
圖 1 把大腦不同頻段腦電(Δ/Θ/α/β/γ)與 NL 的「多時間尺度更新」做了類比:「早期層高頻刷,後期層低頻整合」——這就是 NL 的核心直覺。
2 嵌套學習的三板斧
2.1 關聯記憶 = 一切
定義:
關聯記憶 ℳ 是一個把鍵 𝒦 映射到值 𝒱 的算子,訓練就是 ℳ* = argmin ℒ(ℳ(𝒦); 𝒱)。
把梯度、token、歷史隱狀態都当成鍵/值,就得到:
• SGD → 1-層記憶(映射 x → 局部驚訝信號 LSS)
• Momentum → 2-層記憶(外層更新 W,內層更新動量 m)
• Linear Attention → 2-層記憶(外層更新投影矩陣,內層更新 Mt)
圖 2 用「俄羅斯套娃」把 Hybrid RNN+Attention 拆成多級梯度流:
2.2 更新頻率 = 層級順序
給出頻率定義:f_A = 單位時間內模組 A 的更新次數。用 f_A 排序,得到「嵌套層級」:高頻 ≻ 低頻。→ 每個層級獨享一條梯度流,互不阻塞。
2.3 優化器即記憶模組
把動量当成「無鍵記憶」後,還能繼續加戲:
擴展 公式 效果
加值參數 P m ← αm – η P ∇ 自動預處理梯度
換 L2 損失 Δ-Rule 更新 容量利用率↑
把 m 換成 MLP Deep Momentum GD 捕捉非線性梯度動態
再套牛頓-舒爾茨 σ(·)=Newton-Schulz 等價於 Muon 優化器
3 自修改序列模型:Titans
關鍵 idea:
「既然優化器是記憶,那能不能讓模型自己學會寫優化器?」
Titans =
• 慢權重(大 MLP)→ 長期記憶
• 快權重(線性注意力)→ 工作記憶
• 學習器 L(·) → 根據當前上下文即時輸出「如何更新慢權重」的程式碼(即產生 ΔW 規則)。
訓練時,L(·) 的參數也被 SGD 訓練,於是出現「梯度優化梯度優化器」的套娃。
4 HOPE:把記憶做成「頻帶」
Continuum Memory System(CMS)
• 把傳統「長/短期記憶」拆成連續頻帶的一串 MLP:MLP^(f₁), …, MLP^(fₖ),每個按自己的 chunk 長度 C(ℓ) 更新。
• 越慢頻帶 → 越長上下文 → 越抽象知識。
HOPE = CMS + Titans 自修改核心 圖 3 對比 Transformer 與 HOPE 的更新頻率:
5 實驗速覽
表 1 完整結果:
結論:
• 同等參數下,HOPE 的 perplexity 最低,常识任務平均最高;
• 隨著模型變大,HOPE 與 Titans 差距縮小,但仍穩定壓 Transformer++ 一頭;
• Hope 在長上下文大海撈針 (NIAH) 下游任務中展現出卓越的記憶體管理能力,證明 CMS 提供了一種更高效、更有效的辦法來處理擴展的資訊序列。
不同架構在語言建模(困惑度,左圖)與常識推理(準確率,右圖)任務上的效能對比:HOPE、Titans、Samba 以及 Transformer 基線。
在長上下文任務上,不同難度等級的效能比較(HOPE、Titans、TTT、Mamba2)
• NIAH-PK:needle-in-a-haystack 找回密碼
• NIAH-H:needle-in-a-haystack 找回數字
• NIAH-W:needle-in-a-haystack 找回單詞
最後,一張圖以概之:
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/