告別靜態權重!谷歌提出 Nested Learning

圖片

❝ 大型模型終於有「海馬體」了!這篇論文提出的 HOPE 架構,讓模型在推理階段不再是查靜態的權重表,而是透過「嵌套學習」機制,把當前的脈絡即時壓縮進參數裡,就像人腦把短期記憶轉化成長期記憶一樣,實現了真正的線上學習。(Nested Learning: The Illusion of Deep Learning Architectures,點擊閱讀原文可直接跳轉至原文連結,Published on arXiv on 13 Nov 2024, by Google Research)

第一階段:識別核心概念

論文的動機分析

目前的深度學習模型,特別是大語言模型(LLM),普遍患有一種「順行性遺忘症」(Anterograde Amnesia)。雖然它們在預訓練階段(很久以前)學到了很多知識,但在部署後,面對新的脈絡輸入,它們只能利用短暫的「工作記憶」(Context Window),而無法真正將新資訊固化為長期記憶。也就是說,模型的權重在推理時是鎖死的。作者認為,现有的解決辦法只是單純地堆疊層數(Deep Learning),但這只是增加了計算的深度,並沒有解決「在不同時間尺度上持續學習」的問題。因此,我們需要一種新的範式,讓模型在推理過程中也能即時自我更新。

論文主要貢獻點分析

提出「嵌套學習」(Nested Learning, NL)範式:作者指出,所謂的深度神經網路,本質上是一組嵌套的優化問題。每一層不應該被視為靜態的計算模組,而應該被視為一個擁有獨立更新頻率(Update Frequency)的動態優化系統。

重新定義優化器(Deep Optimizers):這是一個顛覆性的視角。作者證明了我們常用的優化器(如 SGD+Momentum, Adam)本質上就是聯想記憶模組(Associative Memory),它們在試圖壓縮梯度資訊。基於此,作者提出可以用更複雜的神經網路(Deep Network)來替代簡單的動量項,從而建構「深度優化器」。

提出 HOPE 架構:基於 NL 理論,作者設計了一個名為 HOPE 的新模型。它結合了「連續記憶系統」(Continuum Memory)和「自我修正機制」(Self-Modifying Titans)。在語言建模和推理任務上,該模型表現優於 Transformer++ 和其他現代 RNN 架構。

理解難點識別

最燒腦的地方在於視角的翻轉。通常我們認為「模型」是儲存知識的,「優化器」是訓練模型的工具。但這篇論文打破了這一界限:

• 優化器本身就是一個記憶模型(它在記憶梯度)。

• 模型的每一層前向傳播,其實是在解一個內部的優化問題。

理解為什麼「梯度下降(Gradient Descent)等價於聯想記憶的更新」是理解整個論文邏輯的基石。

概念依賴關係

要理解 HOPE 架構,必須先接受「優化即記憶」這一設定。邏輯鏈條如下:

1. 聯想記憶(Associative Memory):這是最基礎的單元,用於映射 Key 到 Value。

2. 優化器視角的轉換:證明 Momentum 其實是在做一個線性回歸(Linear Regression)來記憶梯度。

3. 嵌套結構:將不同頻率的記憶模組(快/中/慢)嵌套在一起,形成 NL。

4. HOPE 實現:用具體的神經網路組件(MLP + Titans)來實現上述理論。

第二階段:深入解釋核心概念

設計生活化比喻

為了理解「嵌套學習」和「多頻率更新」,我們可以想像一家大型跨國公司的決策體系

這家公司每天要處理海量的客戶回饋(資料)。為了高效運作,公司建立了一套嚴格的層級制度:

1. 一線實習生(Context/Attention):反應極快。電話一響(輸入),立刻處理。但他們沒有記事本,所有資訊都在腦子裡,放下電話就忘。他們的更新頻率是毫秒級

2. 部門經理(Weights/Model Layers):經理不直接接電話,他負責制定「操作手冊」(權重)。如果實習生報錯了,經理會修改手冊。但經理不能聽到一個電話就改一次手冊,他需要觀察一段時間的趨勢。他的更新頻率是分鐘級

3. 公司元老/顧問(Optimizer/Momentum):元老手裡拿著一本「備忘錄」(Momentum State)。他看著經理改手冊,心裡想:「這經理怎麼老是改來改去?」元老負責記錄經理的修改路徑,並給出建議:「根據過去一個月的經驗,不要亂改,保持大方向。」元老的更新頻率是天/週級,且他在試圖「記憶」經理的行為模式。

Nested Learning 中,這三者(實習生、經理、元老)不再有本質區別,他們都在做同一件事:試圖記住並適應環境,唯一的區別是頻率(Frequency)不同。

建立比喻與實際技術的對應關係

一線實習生 → 高頻組件(High-Frequency Component):對應模型中的 Attention 或快速更新的 Fast Weights。它們捕捉當前的脈絡流(Context Flow),適應速度極快,但容易遺忘。

部門經理 → 模型參數(Model Parameters):對應傳統意義上的神經網路權重。它們透過梯度下降來更新,捕捉中期的資料規律。

公司元老 → 優化器狀態(Optimizer State):對應 Momentum 或 Adam 中的動量項。它們儲存了梯度的歷史資訊,實際上是在更長的時間尺度上對資料進行壓縮和記憶。

操作手冊/備忘錄 → 聯想記憶(Associative Memory):無論是權重還是動量,本質上都是在把「輸入/Key」映射到「期望的輸出/Value」。

深入技術細節

我們來看看最核心的數學轉換:為什麼說梯度下降就是記憶?

1. 原始數學形式(梯度下降):

自然語言替換:新的權重 = 舊權重 - 學習率 × 當前的錯誤方向(梯度)

2. 論文的轉換視角(聯想記憶優化):作者證明,上面的更新公式,等價於求解下面這個優化問題:

自然語言替換:新的權重 = 尋找一個W,使得:

1. 它能最大程度地預測當前的錯誤訊號(第一項,顺應當前)。

2. 它不要偏離舊的權重太遠(第二項,保持穩定)。

這不僅僅是數學遊戲。這個轉換揭示了 Momentum(動量)項 其實也是在解一個類似的題:

也就是說,Momentum 本質上是一個「線性層」,它在試圖透過最小二乘法(Least Squares)來「擬合」過去的一系列梯度!

既然 Momentum 是一個線性記憶模型,作者問了一個靈魂問題:為什麼不用更強的神經網路來代替這個線性層?這就引出了 Deep Optimizers:用一個 MLP(多層感知機)來充當優化器,去記憶和預測梯度的變化規律。

將技術細節與比喻相互映射

公式中的 (正則項):這就是公司元老對部門經理的約束:「雖然你要改手冊,但別把昨天的版本全推翻了,要保持連貫性。」

公式中的 (擬合項):這就是「順應當前局勢」。元老記錄下當前的錯誤趨勢,確保下一次決策能修正這個錯誤。

Deep Optimizers 的意義:如果傳統的 Momentum 是一個只會拿筆記錄線性趨勢的老頭(線性模型),那麼 Deep Optimizer 就是一個裝備了超級電腦的 AI 顧問(非線性神經網路)。這個 AI 顧問不僅能記住簡單的趨勢,還能分析出錯誤背後複雜的非線性規律,從而給出更厲害的更新建議。

總結

Nested Learning 告訴我們,深度學習的架構設計產生了一種錯覺,以為我們在堆疊空間的深度(層數)。實際上,一個真正智能的系統,應該是一個時間上的嵌套系統:從毫秒級的實習生(Attention),到分鐘級的經理(Weights),再到週級的元老(Optimizer),每一層都在用自己的頻率進行「梯度下降」(即記憶更新)。HOPE 模型就是把這套公司制度程式化了。

第三階段:詳細說明流程步驟

基於上述理論,作者提出了 HOPE 架構(Hierarchy of Optimizers and Persistent Experience)。讓我們追蹤一個輸入序列是如何透過 HOPE 被處理的。

具體流程偽程式碼

假設輸入序列是一段長文本,當前時刻的 Token 是 。

Step 1: 頻率分解與輸入處理

輸入 首先被嵌入為向量。模型並不是將它送入單一的通道,而是將其視為不同頻率訊號的組合。

High Frequency(高頻通路):負責處理稍縱即逝的細節(如當前句子中的人名)。

Low Frequency(低頻通路):負責處理穩定的語義(如語法規則)。

Step 2: 連續記憶系統(Continuum Memory System)

訊號進入一個由多個 MLP 組成的嵌套鏈條。這與傳統 Transformer 的前饋層(FFN)不同,這裡的 MLP 是動態更新的。

• **Level 1 (Fast MLP)**:

- 輸入

- 處理:計算輸出 。

- 更新每一步都更新參數 。

- 更新規則:使用類似梯度下降的快速規則,根據當前的局部預測誤差,立刻修改 。這就像實習生立刻記住了剛才的電話內容。

• **Level 2 (Mid MLP)**:

- 輸入: (上一級的輸出)

- 處理:計算輸出 。

- 更新每隔 C 步(例如 C=16)更新一次參數 。它從 Fast MLP 那裡彙總了一段時間的資訊,提取出更抽象的模式來更新自己。

• **Level 3 (Slow MLP)**:

- 更新頻率更低,儲存長期固化的知識。

Step 3: 自我修正機制(Self-Referential Mechanism based on Titans)

這是 HOPE 的核心注意力/記憶模組。它不僅僅是查表,而是在預測「如何更新自己」。

生成 Q/K/V:輸入 經過投影生成 Query , Key , Value 。

計算「驚奇」訊號(Surprise Signal):模型利用當前的記憶狀態 去預測 。預測誤差 被視為「驚奇」訊號(Surprise)。

記憶更新(The Nested Update):使用作者提出的 Deep Optimizer 思想,將這個「驚奇」訊號壓縮進記憶 中。這裡的 UpdateFunction 可能是一個神經網路(Deep Memory),不僅僅是簡單的加法。

Step 4: 混合與輸出

• 將 Continuum Memory(各級 MLP)的輸出和 Self-Referential Module(注意力記憶)的輸出進行門控融合(Gating)。

• 最終經過 LayerNorm 和輸出層,預測下一個 Token 。

關鍵點總結:整個過程沒有任何部分是「凍結」的。從 MLP 到注意力矩陣,所有的參數都在根據輸入流(Context Flow)以不同的頻率即時調整。

第四階段:實驗設計與驗證分析

主實驗設計解讀:核心論點的驗證

核心主張:基於嵌套優化和動態更新的 HOPE 架構,在處理序列資料時比靜態權重的 Transformer 和單一頻率的 RNN 更高效。

資料集選擇

- 語言建模(Language Modeling):WikiText-103, The Pile。這是檢驗模型基本功的標準 Benchmark。

- 常識推理(Reasoning):PIQA, HellaSwag, ARC-e/c 等。這些任務不僅要求死記硬背,還要求模型具備邏輯推理能力。

基線方法(Baselines)

- **Transformer++**:目前最強的 Transformer 變體(Llama 架構基礎)。

- Modern RNNs:RetNet, DeltaNet, Mamba, Titans(Google 自己的上一代模型)。

主實驗結論:在 1.3B 參數 規模下,HOPE 在所有測試任務中均取得了 SOTA 性能。

- 平均分對比:HOPE (57.23) vs. Transformer++ (52.25) vs. Titans (56.82)。

- 這直接證明了引入「多頻率更新」和「連續記憶」機制,能顯著提升模型的表達能力和推理能力。

消融實驗分析:內部組件的貢獻

作者透過消融實驗驗證了「多頻率層級」的必要性:

實驗設置

- 變體 A:去掉快速更新層(Only Slow)。

- 變體 B:去掉慢速更新層(Only Fast)。

結果分析

- Only Fast:模型在捕捉短期依賴時很強,但極其不穩定,容易發生災難性遺忘(Catastrophic Forgetting),長期記憶丟光光。

- Only Slow:模型退化為傳統的靜態網路,無法進行有效的脈絡學習(In-context Learning),對新資訊的適應能力大幅下降。

結論:這不僅驗證了 HOPE 架構的有效性,也側面印證了人腦記憶機制(海馬體快速編碼 + 大腦皮層慢速鞏固)在人工智慧設計中的普適性。

深度/創新性實驗剖析:洞察方法的內在特性

實驗:優化器即記憶(Optimizers as Memory)

- 設計:作者嘗試將不同的優化器演算法(SGD, Momentum, Adam)直接作為模型內部的「記憶更新規則」。

- 發現:使用 Adam 的變體作為內部更新規則時,效果最好。

- 洞察:這解釋了為什麼 Transformer 中的 Attention 如此強大——從數學上看,Attention 的更新公式與預處理梯度下降(Preconditioned Gradient Descent, 類似 Adam)高度一致。這證明了 Nested Learning 理論的統一性:注意力機制本質上就是一種在推理階段運行的先進優化器。

視覺化分析

- 作者視覺化了 HOPE 內部不同頻率模組的啟動模式。

- 結果:低頻模組(Low Frequency)主要對功能詞和常見語義(如 "the", "is")有反應;而高頻模組(High Frequency)則劇烈回應當前脈絡中的稀有實體(如人名、特定地名)。這直觀地展示了模型學會了自動分層處理資訊。

本文題目:Nested Learning: The Illusion of Deep Learning Architectures

歡迎深度學習同好與我交流、討論、合作!

主標籤:嵌套學習

次標籤:HOPE架構谷歌研究連續記憶系統深度優化器


上一篇:Google V2版Attention Is All You Need:嵌套學習

下一篇:Anthropic 發現 AI「破窗效應」:只是教它偷個懶,結果它學會了撒謊和搞破壞

分享短網址