Googleの「Attention Is All You Need」V2版：ネスト学習

皆さんこんにちは、私はPaperAgent、Agentではありません！

最近、GoogleのGemini 3 ProとGemini 3 Pro Image（Nano Banana Pro）が大人気で、OpenAIも自社のGPT-5の応用価値を探求しており、GPT-5による科学研究加速に関する89ページにわたる長大な研究レポートを発表しました。必読です。

今日はGoogleの最新研究成果に焦点を当てて共有します。ネット民からは「Attention is all you need」のV2版：Nested Learningと呼ばれています。

ネスト学習（Nested Learning）は全く新しい機械学習手法で、モデルをより小さなネストされた最適化問題の集合として扱い、各サブ問題が独自の独立した内部ワークフローを有することで、「壊滅的忘却」——新しいタスクを学習する際に古いタスクのパフォーマンスを犠牲にする問題——を軽減または完全に回避します。

1 なぜまた「新パラダイム」か？

深層学習旧ナラティブ　ネットワークを「積み重ね深く」 → 表現力↑　ネスト学習新ナラティブ　ネットワークを「ネスト分解」 → 表現力↑

訓練=全体パッチ当て　訓練=各層が独自にパッチ当て、周波数異なる

記憶=attention+FFN　記憶=任意の「キー-値」最適化サブシステム

図 1 大脳の異なる周波数帯脳波（Δ/Θ/α/β/γ）とNLの「多時間スケール更新」を類比：「初期層高周波更新、後期層低周波統合」——これがNLの核心直観です。

2 ネスト学習の三本柱

2.1 連想記憶 = すべて

定義：

連想記憶 ℳ はキー 𝒦 を値 𝒱 にマッピングする演算子で、訓練は ℳ* = argmin ℒ(ℳ(𝒦); 𝒱) です。

勾配、トークン、履歴隠れ状態をキー/値として扱うと：

• SGD → 1層記憶（x → 局所驚き信号 LSS のマッピング）

• Momentum → 2層記憶（外層 W 更新、内層動量 m 更新）

• Linear Attention → 2層記憶（外層投影行列更新、内層 Mt 更新）

図 2 「ロシア人形」でHybrid RNN+Attentionを多層勾配流に分解：

2.2 更新周波数 = 階層順序

周波数定義：f_A = 単位時間内モジュール A の更新回数。f_A でソートし「ネスト階層」を得る：高周波 ≻ 低周波。→ 各階層が専用勾配流を持ち、相互阻塞なし。

2.3 オプティマイザ即記憶モジュール

モメンタムを「キーなし記憶」と見なし、さらに拡張可能：

拡張　数式　効果

値パラメータ P 追加　m ← αm – η P ∇　勾配自動前処理

L2損失に変更　Δ-Rule 更新　容量利用率↑

m を MLP に置換　Deep Momentum GD　非線性勾配動態捕捉

Newton-Schulz ネスト　σ(·)=Newton-Schulz　Muon オプティマイザ相当

3 自己修正シーケンスモデル：Titans

鍵となるアイデア：

「オプティマイザが記憶なら、モデルが自分でオプティマイザを書くことを学べるか？」

Titans =

• 遅い重み（大MLP）→ 長期記憶

• 速い重み（線形注意）→ 作業記憶

• 学習器 L(·) → 現在文脈に基づき「遅い重み更新方法」のコードをリアルタイム出力（ΔW ルール生成）。

訓練時、L(·)のパラメータもSGDで訓練され、「勾配が勾配オプティマイザを最適化」のネストが発生。

4 HOPE：記憶を「周波数帯」に

Continuum Memory System（CMS）

• 伝統的「長/短期記憶」を連続周波数帯のMLP列に分解：MLP^(f₁), …, MLP^(fₖ)、各々自身のチャンク長 C(ℓ) で更新。

• 遅い帯 → 長い文脈 → 抽象的知識。

HOPE = CMS + Titans 自己修正コア　図 3 TransformerとHOPEの更新周波数比較：

5 実験概要

表 1 完全結果：

結論：

• 同パラメータでHOPEのperplexity最低、常識タスク平均最高；

• モデル拡大でHOPEとTitansの差縮小するが、Transformer++を安定して上回る；

• HOPEは長文脈NIAH下流タスクで優れたメモリ管理を示し、CMSが拡張情報シーケンス処理の効率的手段を提供することを証明。

言語モデリング（perplexity、左）と常識推論（精度、右）のタスクでの各種アーキテクチャ性能比較：HOPE、Titans、Samba、Transformerベースライン。

言語モデリング（perplexity、左）と常識推論（精度、右）のタスクでの各種アーキテクチャ性能比較：HOPE、Titans、Samba、Transformerベースライン。

長文脈タスクでの難易度別性能比較（HOPE、Titans、TTT、Mamba2）

長文脈タスクでの難易度別性能比較（HOPE、Titans、TTT、Mamba2）

• NIAH-PK：needle-in-a-haystack パスワード回収

• NIAH-H：needle-in-a-haystack 数字回収

• NIAH-W：needle-in-a-haystack 単語回収

最後に一枚の図でまとめ：

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://abehrouz.github.io/files/NL.pdf

メインタグ：ネスト学習

サブタグ：継続学習、HOPE、Titans、壊滅的忘却

前の記事：論文概説 | 条件文を利用して大規模言語モデルの因果推論能力を活性化・向上させる（CL2025）

次の記事：静的ウェイトに別れを！GoogleがNested Learningを提案

短いURLをシェア

元のURL：https://mp.weixin.qq.com/s/RpbcYiA3WlWe9pUYsILO7Q