Googleの「Attention Is All You Need」V2版:ネスト学習

皆さんこんにちは、私はPaperAgent、Agentではありません!

最近、GoogleのGemini 3 ProとGemini 3 Pro Image(Nano Banana Pro)が大人気で、OpenAIも自社のGPT-5の応用価値を探求しており、GPT-5による科学研究加速に関する89ページにわたる長大な研究レポートを発表しました。必読です。

今日はGoogleの最新研究成果に焦点を当てて共有します。ネット民からは「Attention is all you need」のV2版:Nested Learningと呼ばれています。

画像

ネスト学習(Nested Learning)は全く新しい機械学習手法で、モデルをより小さなネストされた最適化問題の集合として扱い、各サブ問題が独自の独立した内部ワークフローを有することで、「壊滅的忘却」——新しいタスクを学習する際に古いタスクのパフォーマンスを犠牲にする問題——を軽減または完全に回避します。

画像

1 なぜまた「新パラダイム」か?

深層学習旧ナラティブ ネットワークを「積み重ね深く」 → 表現力↑ ネスト学習新ナラティブ ネットワークを「ネスト分解」 → 表現力↑

訓練=全体パッチ当て 訓練=各層が独自にパッチ当て、周波数異なる

記憶=attention+FFN 記憶=任意の「キー-値」最適化サブシステム

画像図 1 大脳の異なる周波数帯脳波(Δ/Θ/α/β/γ)とNLの「多時間スケール更新」を類比:「初期層高周波更新、後期層低周波統合」——これがNLの核心直観です。

2 ネスト学習の三本柱

2.1 連想記憶 = すべて

定義:

連想記憶 ℳ はキー 𝒦 を値 𝒱 にマッピングする演算子で、訓練は ℳ* = argmin ℒ(ℳ(𝒦); 𝒱) です。

勾配トークン履歴隠れ状態をキー/値として扱うと:

• SGD → 1層記憶(x → 局所驚き信号 LSS のマッピング)

• Momentum → 2層記憶(外層 W 更新、内層動量 m 更新)

• Linear Attention → 2層記憶(外層投影行列更新、内層 Mt 更新)

図 2 「ロシア人形」でHybrid RNN+Attentionを多層勾配流に分解:画像

2.2 更新周波数 = 階層順序

周波数定義:f_A = 単位時間内モジュール A の更新回数。f_A でソートし「ネスト階層」を得る:高周波 ≻ 低周波。→ 各階層が専用勾配流を持ち、相互阻塞なし。

2.3 オプティマイザ即記憶モジュール

モメンタムを「キーなし記憶」と見なし、さらに拡張可能:

拡張 数式 効果

値パラメータ P 追加 m ← αm – η P ∇ 勾配自動前処理

L2損失に変更 Δ-Rule 更新 容量利用率↑

m を MLP に置換 Deep Momentum GD 非線性勾配動態捕捉

Newton-Schulz ネスト σ(·)=Newton-Schulz Muon オプティマイザ相当

3 自己修正シーケンスモデル:Titans

鍵となるアイデア:

「オプティマイザが記憶なら、モデルが自分でオプティマイザを書くことを学べるか?

Titans =

• 遅い重み(大MLP)→ 長期記憶

• 速い重み(線形注意)→ 作業記憶

学習器 L(·) → 現在文脈に基づき「遅い重み更新方法」のコードをリアルタイム出力(ΔW ルール生成)。

訓練時、L(·)のパラメータもSGDで訓練され、「勾配が勾配オプティマイザを最適化」のネストが発生。

4 HOPE:記憶を「周波数帯」に

Continuum Memory System(CMS)

• 伝統的「長/短期記憶」を連続周波数帯のMLP列に分解:MLP^(f₁), …, MLP^(fₖ)、各々自身のチャンク長 C(ℓ) で更新。

• 遅い帯 → 長い文脈 → 抽象的知識。

HOPE = CMS + Titans 自己修正コア 図 3 TransformerとHOPEの更新周波数比較:画像

5 実験概要

表 1 完全結果:画像

結論

• 同パラメータでHOPEのperplexity最低、常識タスク平均最高;

• モデル拡大でHOPEとTitansの差縮小するが、Transformer++を安定して上回る

• HOPEは長文脈NIAH下流タスクで優れたメモリ管理を示し、CMSが拡張情報シーケンス処理の効率的手段を提供することを証明。

言語モデリング(perplexity、左)と常識推論(精度、右)のタスクでの各種アーキテクチャ性能比較:HOPE、Titans、Samba、Transformerベースライン。

言語モデリング(perplexity、左)と常識推論(精度、右)のタスクでの各種アーキテクチャ性能比較:HOPE、Titans、Samba、Transformerベースライン。

長文脈タスクでの難易度別性能比較(HOPE、Titans、TTT、Mamba2)

長文脈タスクでの難易度別性能比較(HOPE、Titans、TTT、Mamba2)

• NIAH-PK:needle-in-a-haystack パスワード回収

• NIAH-H:needle-in-a-haystack 数字回収

• NIAH-W:needle-in-a-haystack 単語回収

最後に一枚の図でまとめ:画像

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://abehrouz.github.io/files/NL.pdf

メインタグ:ネスト学習

サブタグ:継続学習HOPETitans壊滅的忘却


前の記事:論文概説 | 条件文を利用して大規模言語モデルの因果推論能力を活性化・向上させる(CL2025)

次の記事:静的ウェイトに別れを!GoogleがNested Learningを提案

短いURLをシェア