皆さんこんにちは、私はPaperAgent、Agentではありません!
最近、GoogleのGemini 3 ProとGemini 3 Pro Image(Nano Banana Pro)が大人気で、OpenAIも自社のGPT-5の応用価値を探求しており、GPT-5による科学研究加速に関する89ページにわたる長大な研究レポートを発表しました。必読です。
今日はGoogleの最新研究成果に焦点を当てて共有します。ネット民からは「Attention is all you need」のV2版:Nested Learningと呼ばれています。
ネスト学習(Nested Learning)は全く新しい機械学習手法で、モデルをより小さなネストされた最適化問題の集合として扱い、各サブ問題が独自の独立した内部ワークフローを有することで、「壊滅的忘却」——新しいタスクを学習する際に古いタスクのパフォーマンスを犠牲にする問題——を軽減または完全に回避します。
1 なぜまた「新パラダイム」か?
深層学習旧ナラティブ ネットワークを「積み重ね深く」 → 表現力↑ ネスト学習新ナラティブ ネットワークを「ネスト分解」 → 表現力↑
訓練=全体パッチ当て 訓練=各層が独自にパッチ当て、周波数異なる
記憶=attention+FFN 記憶=任意の「キー-値」最適化サブシステム
図 1 大脳の異なる周波数帯脳波(Δ/Θ/α/β/γ)とNLの「多時間スケール更新」を類比:「初期層高周波更新、後期層低周波統合」——これがNLの核心直観です。
2 ネスト学習の三本柱
2.1 連想記憶 = すべて
定義:
連想記憶 ℳ はキー 𝒦 を値 𝒱 にマッピングする演算子で、訓練は ℳ* = argmin ℒ(ℳ(𝒦); 𝒱) です。
勾配、トークン、履歴隠れ状態をキー/値として扱うと:
• SGD → 1層記憶(x → 局所驚き信号 LSS のマッピング)
• Momentum → 2層記憶(外層 W 更新、内層動量 m 更新)
• Linear Attention → 2層記憶(外層投影行列更新、内層 Mt 更新)
図 2 「ロシア人形」でHybrid RNN+Attentionを多層勾配流に分解:
2.2 更新周波数 = 階層順序
周波数定義:f_A = 単位時間内モジュール A の更新回数。f_A でソートし「ネスト階層」を得る:高周波 ≻ 低周波。→ 各階層が専用勾配流を持ち、相互阻塞なし。
2.3 オプティマイザ即記憶モジュール
モメンタムを「キーなし記憶」と見なし、さらに拡張可能:
拡張 数式 効果
値パラメータ P 追加 m ← αm – η P ∇ 勾配自動前処理
L2損失に変更 Δ-Rule 更新 容量利用率↑
m を MLP に置換 Deep Momentum GD 非線性勾配動態捕捉
Newton-Schulz ネスト σ(·)=Newton-Schulz Muon オプティマイザ相当
3 自己修正シーケンスモデル:Titans
鍵となるアイデア:
「オプティマイザが記憶なら、モデルが自分でオプティマイザを書くことを学べるか?」
Titans =
• 遅い重み(大MLP)→ 長期記憶
• 速い重み(線形注意)→ 作業記憶
• 学習器 L(·) → 現在文脈に基づき「遅い重み更新方法」のコードをリアルタイム出力(ΔW ルール生成)。
訓練時、L(·)のパラメータもSGDで訓練され、「勾配が勾配オプティマイザを最適化」のネストが発生。
4 HOPE:記憶を「周波数帯」に
Continuum Memory System(CMS)
• 伝統的「長/短期記憶」を連続周波数帯のMLP列に分解:MLP^(f₁), …, MLP^(fₖ)、各々自身のチャンク長 C(ℓ) で更新。
• 遅い帯 → 長い文脈 → 抽象的知識。
HOPE = CMS + Titans 自己修正コア 図 3 TransformerとHOPEの更新周波数比較:
5 実験概要
表 1 完全結果:
結論:
• 同パラメータでHOPEのperplexity最低、常識タスク平均最高;
• モデル拡大でHOPEとTitansの差縮小するが、Transformer++を安定して上回る;
• HOPEは長文脈NIAH下流タスクで優れたメモリ管理を示し、CMSが拡張情報シーケンス処理の効率的手段を提供することを証明。
言語モデリング(perplexity、左)と常識推論(精度、右)のタスクでの各種アーキテクチャ性能比較:HOPE、Titans、Samba、Transformerベースライン。
長文脈タスクでの難易度別性能比較(HOPE、Titans、TTT、Mamba2)
• NIAH-PK:needle-in-a-haystack パスワード回収
• NIAH-H:needle-in-a-haystack 数字回収
• NIAH-W:needle-in-a-haystack 単語回収
最後に一枚の図でまとめ:
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/