Transformerキラー!Google DeepMindの新たなMoRアーキテクチャが登場、新時代の魔王が来た

新智元からの報道

編集:Aeneas KingHZ

【新智元ガイド】Transformerキラーが登場か?KAIST、Google DeepMindなどの機関が発表したばかりのMoRアーキテクチャは、推論速度が2倍になり、メモリが半分に削減され、LLMの性能限界を直接再構築し、従来のTransformerを完全に圧倒しました。ネットユーザーは「衝撃的だ!またゲームチェンジングな爆弾が来た」と口々に叫んでいます。

つい先ほど、KAIST、Mila、Google DeepMindチームなどが、重大な爆弾を投下しました。

Mixture-of-Recursionsと名付けられた、全く新しいLLMモデルアーキテクチャです。

この新しいアーキテクチャは、業界内でTransformerキラーとなる可能性を秘めていると見なされています!

推論速度は2倍に向上し、学習FLOPsは削減され、KVキャッシュメモリは直接半分になりました。

最終的に、135Mから1.7Bのパラメータ規模において、MoRは新しいパレート最適フロンティアを直接描きました。同じ学習FLOPsで、パープレキシティは低く、few-shot精度は高く、そしてスループットは2倍以上に向上しました。

従来のTransformerを完全に圧倒します!

MoRとTransformerの性能比較図

論文リンク:https://arxiv.org/abs/2507.10524

実際、学界では以前から、Transformerの複雑性が高すぎ、計算能力の要求が驚異的であることが指摘されていました。

例えば、最近CMUの権威でありMambaアーキテクチャの著者であるAlbert Guは、Transformerモデルの能力には大きな限界があり、「トークン」という概念はでたらめだと述べています。

Albert GuのTransformerに関するコメント

また、Googleのプロダクト責任者Logan Kilpatrickは、アテンションメカニズムの欠陥を公に指摘し、無限のコンテキストは不可能であり、コアアーキテクチャ層での全面的なイノベーションが不可欠であると強調しました。

今日のGoogle DeepMindによるこの研究は、これらの大物たちの見解と完全に一致しています。

これに対し、ネットユーザーからは「まさに衝撃的だ」という声が相次ぎました。

ある人は、潜在空間推論が次の大きなブレイクスルーをもたらすかもしれないと予測しています。

ネットユーザーのコメントスクリーンショット

明らかに、コード、数学、論理のような階層的に分解される問題のタスクにとって、MoRはゲームチェンジングな切り札となるでしょう。

MoRの様々なタスクでの性能

MoRと従来モデルの比較

さらに、「Hintonのカプセルネットワークが再誕したようだ」とコメントする人もいました。

ネットユーザーのコメント:カプセルネットワークの再誕

区切り線

Google DeepMindの大技

再帰の魔法でLLMをスリム化し高速化

LLMがここまで発展した今、次にどうすべきか?パラメータを増やし、層を重ねて賢くするのか?

この研究が示唆するのは、真の達人は量を積むのではなく、設計の芸術に頼るということです。

今回彼らが開発したMoRという新しいアーキテクチャは、直訳すると「再帰の混合体」であり、LLMの推論速度を劇的に2倍に向上させます!

では、MoRは具体的に何をしたのでしょうか?

簡単に言うと、以下の2点です。

1. すべてのトークンを平等に扱わない

LLMがテキストを処理する際、文をトークンに分解します。しかし、「の」「は」「で」のような単語は、それほど高度な推論を必要とせず、一度の順方向伝播で十分です。一方で、複雑なトークンは、同じ層を複数回通過する必要があります。

MoRの賢明な点は、トークンごとに異なるアプローチを取ることです。

MoRの秘密兵器は小型ルーターであり、各トークンの隠れ状態をスコアリングし、高スコアのトークンのみがループを続行し、残りは早期に終了します。

MoRの再帰的ルーティングメカニズム

2. 循環再利用:1つのモジュールで全てを処理

従来のTransformerの考え方は、ひたすら「層を積み重ねる」ことで、積むほど処理能力が向上します。しかし、その代償はメモリと計算能力で、モデルはますます遅く、高価になります。

MoRは、その逆を行き、共有ブロックを特別に設計しました。各トークンは最大4回ループし、ルーターが「完了」と判断すると、早期にループを抜け出します。

要するに、Transformerが巨大な工場ラインだとすれば、MoRはより効率的な特殊部隊のようなものです。将来のAIは、誰がより重いかを競うのではなく、誰がより効果的に分業し、労力を節約できるかを競うことになるでしょう。

そしてGoogle DeepMindは、すでにこの点に鋭く気づき、このトレンドの初期のモデルを私たちに示しました。

区切り線

真の適応型計算

Scaling lawに頼って言語モデルを大規模化すれば、確かに能力は急上昇しますが、学習とデプロイに必要な計算能力とコストも同様に急増します。

現在一般的な「スリム化」手法は、パラメータを共有する(VRAMを節約する)か、必要に応じて計算を行う(計算能力を節約する)かのどちらかです。

しかし、これら二つを有機的に統合できるアーキテクチャはまだ不足しています。

「再帰の混合」(Mixture-of-Recursions, MoR)は、再帰型Transformerの可能性を最大限に引き出し(図1参照)、これら二つを統合することに成功しました。

図1:再帰の混合(Mixture-of-Recursions, MoR)概要

図1:再帰の混合(Mixture-of-Recursions, MoR)概要

(左)各再帰ステップには、固定層のスタックと、トークンが再帰を続けるかどうかを決定するルーター(中央の灰色ボックス領域)が含まれます。

(中)完全なモデル構造。共有再帰ステップは、ルーティング決定に基づいて各トークンに最大N𝑟回適用されます。

(右)トークンレベルの再帰深度を示すルーティングパターンの例。色が濃いほど、そのトークンが再帰ブロックでより活発に計算されていることを示します。下部の数字は、各テキストトークンの再帰ステップ数を異なる色で示しています:1ステップ、2ステップ、3ステップ。

統一されたアーキテクチャにおいて、MoRは同時に3つの効率最適化を実現しました:

重み共有によるパラメータ量の圧縮、動的ルーティングによる冗長計算の削減、インテリジェントなキャッシュによるメモリオーバーヘッドの削減です。

区切り線

再帰混合アーキテクチャ

事前学習と推論の過程で、MoRは各トークンの再帰ステップを動的に調整し、主に2つのコンポーネントに依存します。

ルーティングメカニズムとKVキャッシュ戦略です。

セクション区切りグラフィック

ルーティングメカニズム:エキスパート選択vs.トークン選択

top-kゲーティングメカニズムから着想を得て、研究者たちはエキスパート選択ルーティング(Expert-choice routing)を提案しました(図2a参照)。

このモードでは、再帰深度を「エキスパート」と見なすことができ、各再帰ラウンドでこれらのエキスパートが、処理する価値が最も高いと判断した上位k個のトークンを選択します。

図2a:エキスパート選択ルーティング

再帰の一貫性を高めるため、チームはさらに階層フィルタリングメカニズム(hierarchical filtering)を導入しました。これにより、r層で選択されたトークンのみがr+1層での評価に参加する資格を得ます。

この設計は早期終了メカニズムをシミュレートし、モデルが学習初期に深く処理する必要があるトークンを自動的に「選別」し、最も困難なトークンに計算能力を集中させることを可能にします。

前者とは異なり、トークン選択ルーティング(token-choice routing)(図2b参照)は、最初から各トークンが何回再帰プロセスを実行するかを決定します。

具体的には、1層目の隠れ状態に基づいて、モデルは各エキスパートのスコアを計算します(例:softmaxまたはsigmoidを通じて)。

𝑁𝑟個のエキスパートが存在し、各エキスパートが1回の再帰に対応すると仮定すると、モデルはトークンを最もスコアの高いエキスパートに割り当てます。トークンは最初のi層の再帰に送られ、各層は順番に処理されます。

この方法では、トークンがネットワークに入った時点で再帰深度が決定されるため、各層での再選択を避け、推論効率が向上します。

表2の左は2つの方法を比較しています:

エキスパート選択ルーティングの利点は、理想的な計算負荷分散を実現できる点です。しかし、情報漏洩のリスクがあります。

対照的に、トークン選択ルーティングは本質的に情報漏洩がありません。しかし、この方式は負荷の分配が不均等になる傾向があります。

表2:ルーティング戦略と鍵値キャッシュ戦略の比較

表2:ルーティング戦略と鍵値キャッシュ戦略の比較。(左)2種類のルーティング戦略のまとめ:エキスパート選択とトークン選択。(右)通常のTransformerに対するキャッシュ戦略の相対的なコスト効率。

図2:再帰の混合(MoR)のアーキテクチャ構成要素

図2:再帰の混合(MoR)のアーキテクチャ構成要素。(a)エキスパート選択ルーティング、(b)トークン選択ルーティング、(c)KVキャッシュ戦略。

セクション区切りグラフィック

KVキャッシュ戦略:再帰層ごとのキャッシュvs.層を跨ぐ共有

MoRモデルに対し、研究者たちは2つのKVキャッシュ戦略を提案しました。

再帰層ごとのキャッシュと、再帰を跨ぐ共有です。

1. 再帰層ごとのキャッシュ(図2c上参照)は「選択的キャッシュ」です。特定の再帰層にルーティングされたトークンのみが、その層でKVペアを生成し、保存します。

アテンション計算は現在の再帰層のキャッシュ内でのみ行われ、この設計は局所化計算を実現し、メモリ使用効率を大幅に向上させ、I/O負荷を軽減するのに役立ちます。

2. 再帰を跨ぐ共有(図2c参照):KVペアは最初の再帰層でのみ生成およびキャッシュされ、その後すべての層で再利用されます。このメカニズムでは、各層でアテンション計算に参加するクエリの数が減少する可能性があります。

つまり、すべてのトークンは、その後の層で計算に参加するかどうかにかかわらず、完全な履歴コンテキストにアクセスでき、再計算は不要です。

表2の右側は2つのキャッシュ戦略を比較しています:

  • 再帰層ごとのキャッシュ:KVメモリとI/O負荷は、元の約半分に圧縮されます。

  • 再帰を跨ぐ共有:アテンション計算量を線形に圧縮するだけであり、KVの読み書き回数が高くなるため、パフォーマンスのボトルネックになる可能性があります。

表3:MoR、再帰型Transformer、通常のTransformerの比較

表3:同等の計算量と同等のトークン数条件下での、MoR、再帰型Transformer、通常のTransformerの比較。

区切り線

実験

研究者たちは、LlamaベースのTransformerアーキテクチャを採用し、SmolLMオープンソースモデルの設定を参考に、FineWeb-Eduの検証セットと6つのfew-shotベンチマークテストセットで評価を行いました。

セクション区切りグラフィック

主要な結果

同じ学習計算予算下で、MoRはより少ないパラメータでベースラインモデルを上回る

同じ学習予算(16.5e18 FLOPs)の下で、研究者たちはMoRモデルを標準Transformerおよび再帰型Transformerと比較しました。

異なる計算予算における検証損失

4つのモデル規模(135M、360M、730M、1.7Bパラメータ)において、異なる計算予算に対応する検証損失をグラフに示しました。

表3に示すように、エキスパート選択ルーティングと2回の再帰(Nr=2)を採用したMoRモデルは、検証損失が低いだけでなく、few-shot平均精度でも標準ベースラインを上回りました。

これはMoRの計算効率が高いおかげであり、同じFLOPs予算下でより多くの学習トークンを処理できるためです。

同じデータ量の下で、MoRはより少ない計算量でベースラインモデルを上回る

アーキテクチャの違いの影響を分離するため、研究者たちは固定された学習トークン数(20B)を前提として分析を行いました。

その結果、学習FLOPsが25%少ないにもかかわらず、MoRモデル(𝑁𝑟=2)は依然として低い検証損失と高い精度を達成し、標準および再帰ベースラインを上回ることが確認されました。

標準ベースラインと比較して、MoRモデルの学習時間は19%短縮され、ピークメモリ使用量は25%削減されました。

これは、特別に設計された階層フィルタリングメカニズムと、再帰に基づくアテンションメカニズムによるものです。

さらに、MoRの性能はルーティングとキャッシュ戦略の影響も受けます。

セクション区切りグラフィック

IsoFLOP分析

新しいモデルアーキテクチャ設計を評価する際の主要な基準の一つは、モデル規模と計算量が増加したときに、その性能が持続的に向上するかどうかです。

そのため、研究チームはMoRと標準Transformer(Vanilla)、再帰型Transformerを包括的に比較しました。

実験設定

実験のモデル規模は4種類でした:135M、360M、730M、1.7Bパラメータです。

再帰型TransformerとMoRの設定では、再帰回数を一律3に設定しました。

3つの異なる計算予算の下で事前学習を行いました:2e18、5e18、16.5e18 FLOPsです。

MoRアーキテクチャ:スケーラブルかつパラメータ効率的

図3に示すように、MoRはすべてのパラメータ規模と計算予算において、再帰型ベースラインモデルを一貫して上回りました。

最小規模(135M)ではMoRが標準Transformerにわずかに劣る結果でしたが、モデル規模が拡大するにつれて、この差は急速に縮小しました。

パラメータ規模が360Mを超えると、MoRは標準Transformerと同等の性能を発揮するだけでなく、低計算量および中程度の計算予算下ではより優れた性能を示しました。

全体として、これらの結果は、MoRが良好なスケーラビリティと高いパラメータ効率を備えており、旧来のアーキテクチャに代わるものであることを示しています。

セクション区切りグラフィック

推論スループット評価

MoRは、パラメータ共有を通じて連続ディープバッチ処理技術を利用し、推論段階でスループットを著しく向上させます。

このメカニズムは、デコード過程において、古いシーケンスが完了するとすぐに新しいトークンが補充され、GPUの高稼働率を継続的に維持します。

実験設定

360Mのパラメータ規模で、異なる再帰深度(2、3、4)の下で、チームはMoRモデルをテストしました。

ディープバッチ処理を利用して、MoRは推論スループットを著しく向上させる

図4aに示すように、両方の設定でMoRの派生形は通常のTransformerのスループットを上回りました。

再帰深度が高いほど、より多くのトークンが早期に終了し、KVキャッシュの使用量が減少するため、推論速度がさらに大幅に向上します。例えば、最大バッチ設定(𝐵=Max)では、MoR-4の速度は2.06倍に向上しました。

実験は、ディープバッチ処理メカニズムと早期終了戦略を組み合わせることで、MoRモデルの実際の推論速度を大幅に加速できることを示しています。

図4a:MoRの推論スループット向上

アブレーションスタディなど、より詳細な内容は原文をご参照ください。

参考文献:

https://arxiv.org/abs/2507.10524

https://x.com/rohanpaul_ai/status/1945342236310561091

https://www.rohan-paul.com/p/landmark-research-from-google-deepmind

メインタグ:AIモデルアーキテクチャ

サブタグ:大規模言語モデルメモリ効率推論最適化再帰型ニューラルネットワーク


前の記事:Metaチームの画期的な進展:大規模モデルの「幻覚」が5%に激減!一文の質問が鍵となるか?

次の記事:大規模モデルに新たな弱点!古い記憶を忘れず、新しい記憶を区別できない、精度が急落 | ICML'25

短いURLをシェア