出典 | Ahead of AI, Synced Review
著者 | Sebastian Raschka
GPTアーキテクチャが初めて提案されてから、瞬く間に7年の歳月が流れました。
2019年のGPT-2から2024年〜2025年のDeepSeek-V3やLLaMA 4を振り返ると、興味深い現象が見えてきます。モデルの能力は絶えず向上しているにもかかわらず、その全体的なアーキテクチャは過去7年間で高度に一貫性を保っています。
もちろん、細部には多くの進化が見られます。例えば、位置エンコーディングは当初の絶対位置エンコーディング(Absolute Positional Encoding)から回転位置エンコーディング(RoPE)へと発展し、アテンションメカニズムも標準のマルチヘッドアテンション(Multi-Head Attention)からより効率的なグループ化クエリアテンション(Grouped-Query Attention)へと徐々に移行しました。活性化関数に関しては、GELUがより効率的なSwiGLUに置き換えられています。
しかし、これらの変化の中に「破壊的イノベーション」はあったのでしょうか?7年間で、大規模言語モデルのアーキテクチャは真に質的な飛躍を遂げたのでしょうか、それとも既存のフレームワーク上で洗練を続けているだけなのでしょうか?
この記事のブログは、著名なAI研究者でありブロガー、「Python機械学習」の著者であるSebastian Raschka氏によるものです。
このブログでは、DeepSeekやKimiなどの国産大規模モデルを含む8つの主要な大規模言語モデルを詳細に挙げ、各大規模モデルのアーキテクチャ設計と革新的なアイデアを深く掘り下げ、最新の大規模言語モデルのアーキテクチャ設計とその進化のトレンドを紹介しています。
図1:本記事で取り上げる一部のLLMアーキテクチャの概略図。
DeepSeek V3/R1
DeepSeek R1は2025年1月にリリースされた際に大きな反響を呼びました。
DeepSeek R1はDeepSeek V3アーキテクチャを基盤に構築された推論モデルであり、DeepSeek V3は元々2024年12月に発表されました。本記事では2025年にリリースされたアーキテクチャに焦点を当てていますが、DeepSeek V3を含めるべきだと著者は考えています。
本節では、DeepSeek V3が導入した2つの重要なアーキテクチャ技術に焦点を当てます。これらの技術は計算効率を向上させ、多くの大規模言語モデルの中で際立っています。
DeepSeek V3の主要技術に興味がある方は、以下の技術報告を参照してください。
論文タイトル:DeepSeek-V3 Technical Report
論文リンク:https://arxiv.org/abs/2412.19437
多層潜在アテンションメカニズム (MLA)
多層潜在アテンションメカニズムを議論する前に、近年広く採用されているグループ化クエリアテンションメカニズム(GQA)について説明すべきです。これは、従来のマルチヘッドアテンションメカニズム(Multi-Head Attention, MHA)に比べて、計算効率とパラメータ効率に優れた新しい標準的な代替手段となっています。
GQAの簡単な説明は次のとおりです。MHAでは各アテンションヘッドが独自のキー(key)と値(value)のセットを持つ一方で、GQAは複数のアテンションヘッドをグループ化し、同じキーと値の射影を共有させることで、メモリ使用量を削減します。
下の図2に示すように、2組のキー-値と4つのアテンションヘッドがあると仮定すると、アテンションヘッド1と2は最初のキーと値のグループを共有でき、アテンションヘッド3と4は2番目のグループを共有します。このアプローチにより、キーと値の総計算量が減少し、メモリ使用量が削減され、効率が向上します。
図2:マルチヘッドアテンションメカニズム(MHA)とグループ化クエリアテンションメカニズム(GQA)の比較概略図。
GQAの核心的な考え方は、複数のクエリヘッドに一組のキーと値を共有させることで、キーと値の総数を減らすことにあります。これにより、以下の2つの主な利点がもたらされます。
1. モデルパラメータ総量の削減。
2. 推論時にKVキャッシュにおけるキーと値のテンソルのメモリ帯域幅使用量を削減。アクセスする必要があるキー値ペアが少なくなるためです。
次に紹介する多層潜在アテンションメカニズム(MLA)は、異なるメモリ節約戦略を提供し、KVキャッシュメカニズムとの連携がより密接です。
GQAが「キー値ヘッドの共有」を通じて行うのとは異なり、MLAはキーと値のテンソルを低次元の潜在空間に圧縮してからKVキャッシュに保存します。推論プロセス中に、これらの圧縮されたテンソルは元の次元に再投影されて使用されます(図3参照)。このプロセスでは追加の行列乗算が導入されますが、メモリ使用量を大幅に節約できます。
図3:多層潜在アテンションメカニズム(MLA、DeepSeek V3およびR1に適用)と通常のマルチヘッドアテンションメカニズム(MHA)の比較。
注目すべきは、MLAはDeepSeek V3が初めて開発した技術ではなく、その前身モデルであるDeepSeek V2が既にこのメカニズムを使用(さらには初めて提案)していたことです。
MLAは非常に巧妙な技術的手法であり、モデルのパフォーマンスを向上させつつ、KVキャッシュのメモリ使用量を大幅に削減できます。従来のMHAと比較しても、わずかに優れているとさえ言えます。次に、次のアーキテクチャモジュールの分析に移ります。
Mixture-of-Experts (MoE)
DeepSeekアーキテクチャにおけるもう一つの重要な構成要素は、MoE(Mixture-of-Experts、専門家混合)層の適用です。MoEはDeepSeekによって最初に考案されたものではありませんが、この技術は2025年に再び注目を集め、後述する多くのアーキテクチャでもその姿が見られます。
MoEの核心的な考え方は、Transformer内の各フィードフォワードモジュール(FeedForward)を複数の「エキスパート層」(各エキスパート層も本質的にはフィードフォワードネットワーク)に置き換えることです。つまり、元の単一のフィードフォワード構造が複数の並列なフィードフォワードサブモジュールに置き換えられます(図5参照)。
図5:右図はDeepSeek V3/R1におけるMixture-of-Experts(MoE)モジュールの構造を示しており、左図の標準的なLLMが使用する通常のフィードフォワードモジュールと比較しています。
Transformerブロック内部のフィードフォワードモジュール(上図の濃い灰色のブロック)は通常、モデルの総パラメータの大部分を占めています。
したがって、1つのフィードフォワードモジュールを複数のフィードフォワードモジュールに置き換えること(つまりMoE構造を構築すること)は、モデルの総パラメータ量を著しく増加させます。しかし、重要なのは、すべてのトークンに対してすべてのエキスパートモジュール(experts)をアクティブにするわけではなく、代わりに「ルーター(router)」が各トークンに対してその一部を選択してアクティブにするという技巧です。MoEのこのような設計は、モデルに非常に大きなパラメータ容量を持たせ、訓練段階でより多くの知識を吸収できます。しかし、推論時には疎な活性化により、計算コストを大幅に削減します。
例を挙げると、DeepSeek-V3は各MoEモジュールに256のエキスパートを持ち、総パラメータ量は6710億に達します。しかし、推論時には、各トークンが実際にアクティブにするのはそのうちの9つのエキスパート(1つの共有エキスパート+ルーターが選択した8つのエキスパート)のみです。
図6:DeepSeekMoEの注釈図。
DeepSeek MoEに関する詳細については、以下の論文を参照してください。
論文タイトル:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
論文リンク:https://arxiv.org/abs/2401.06066
DeepSpeedMoE論文では、初めて「共有エキスパート」(shared expert)の導入がモデル全体のモデリング性能を著しく向上させることが指摘されました。その原理は、汎用的または反復的なパターンについては、複数のエキスパートが個別に学習する必要はなく、共有エキスパートが統一的に処理することで、他のエキスパートの容量が解放され、より専門的な知識パターンを学習することに集中できるというものである可能性が高いです。
OLMo 2
非営利組織Allen Institute for AIが公開したOLMoシリーズモデルは、その訓練データ、コード、技術報告における高い透明性から大きな注目を集めています。
OLMoモデルは構造が明確で設計規範に沿っており、さらに重要なことに、極めて高い透明性により、大規模言語モデルの開発に最適な参考パラダイムを提供しています。
OLMo 2において注目すべきアーキテクチャ設計の選択肢は何でしょうか?
主に正規化戦略に焦点を当てています。これにはRMSNorm層の配置、およびQK-norm(Query-Key正規化)の導入が含まれます。
もう一つ特筆すべきは、OLMo 2が依然として従来のマルチヘッドアテンションメカニズム(MHA)を採用しており、MLAやGQAなどの新しいアテンション構造を採用していない点です。
OLMo 2の詳細については、以下の論文を参照してください。
論文タイトル:2 OLMo 2 Furious
論文リンク:https://arxiv.org/abs/2501.00656
正規化層の位置選択
全体として、OLMo 2はアーキテクチャの大部分で、当初のGPTモデルの設計を踏襲しており、現在の主要な大規模言語モデルの多くと同様です。しかし、いくつか注目すべき相違点があり、まずは正規化層の設計から見ていきましょう。
Llama、Gemma、そしてほとんどの現代のLLMと同様に、OLMo 2は正規化手法をLayerNormからRMSNormに置き換えています。
本当に議論すべきはRMSNormの位置選択です。当初のTransformerアーキテクチャでは、2つの正規化層はそれぞれアテンションモジュールとフィードフォワードモジュールの後に配置されており、この構造はPost-LNまたは後正規化(Post-Norm)と呼ばれていました。
一方、GPTとその後のほとんどのLLMモデルは、正規化層をアテンションモジュールとフィードフォワードモジュールの前に配置しており、この方法はPre-LNまたは前正規化(Pre-Norm)と呼ばれています。
下図は、Post-NormとPre-Normの構造比較を示しています。
図8:Post-Norm、Pre-Norm、およびOLMo 2が採用しているPost-Normバリアントの比較図。
2020年には既に、XiongらがPre-LNがモデルの初期化時により安定した勾配をもたらすことを指摘していました。さらに、研究者らは、Pre-LNは学習率のウォームアップを使用しない場合でも正常に学習できるが、Post-LNでは通常困難であるとも述べています。
OLMo 2では、正規化層はアテンション層とフィードフォワードネットワークの前ではなく、後に配置されています。これは上図に示す通りです。しかし、当初のTransformerアーキテクチャとは異なり、これらの正規化層は依然として残差層の内部にネストされています。
では、なぜ彼らは正規化層の位置を調整したのでしょうか?
その理由は、この設計が訓練の安定性を向上させるのに役立つためであり、これは下の図で示されます。
図9:Pre-Norm(GPT-2、Llama 3などで採用)とOLMo 2で採用されたPost-Normバリアントの訓練安定性における比較を示しています。
しかし残念ながら、この図の結果には正規化順序の調整とQK-Normという2つの要因が同時に含まれており、後者は独立した概念です。したがって、正規化位置の変更が訓練安定性の向上にどれだけ貢献したかを明確に判断することは困難です。
QK-Norm
QK-Normは本質的に別のRMSNorm層であり、マルチヘッドアテンションモジュール内部に配置され、回転位置エンコーディング(RoPE)を適用する前に、クエリ(Query)とキー(Key)に対して正規化処理を行います。
前述のとおり、QK-NormとPost-Normを組み合わせて使用することで、訓練プロセスを安定させるのに役立ちます。QK-Normの詳細については、以下の論文を参照してください。
論文タイトル:Scaling Vision Transformers
論文リンク:https://arxiv.org/abs/2106.04560
要するに、OLMo 2アーキテクチャにおける主要な設計のハイライトはRMSNormの配置方法です。RMSNormをアテンションモジュールとフィードフォワードモジュールの後に配置し(Post-Normの一種)、アテンションメカニズムにおいてクエリとキーにさらなるRMSNorm(すなわちQK-Norm)を導入しています。これら2つの変更を組み合わせることで、訓練損失の安定化に寄与します。
下の図はOLMo 2とLlama 3のアーキテクチャ比較を示しています。OLMo 2がGQAではなく従来のMHAを使用している点を除けば、両者の全体的な構造は比較的近いことがわかります。
図10:Llama 3とOLMo 2のアーキテクチャ比較図。
Gemma 3
GoogleのGemmaシリーズモデルは常に非常に優れたパフォーマンスを示していますが、Llamaシリーズなどの人気モデルと比較すると、注目度がやや低いようです。
Gemma 3はアーキテクチャにおいて、計算コストを削減するための別の「技巧」を使用しています。それはスライディングウィンドウアテンション(sliding window attention)です。
スライディングウィンドウアテンションメカニズムを活用することで、Gemma 3チームはKVキャッシュのメモリ要件を大幅に削減することに成功しました。具体的な効果は以下の図に示す通りです。
図11:Gemma 3のKVキャッシュメモリ節約効果。
通常の自己アテンションを「グローバル」アテンションメカニズムと見なす場合、シーケンス内の各要素が他のすべての要素にアクセスできるため、スライディングウィンドウアテンションは「ローカル」アテンションメカニズムと見なすことができます。これは、現在のクエリ位置周辺のコンテキスト範囲を制限するためです。下の図は、このメカニズムの原理を示しています。
図12:通常の注意メカニズム(左)とスライディングウィンドウ注意メカニズム(右)の比較図。
スライディングウィンドウアテンションメカニズムは、マルチヘッドアテンションと併用することも、グループ化クエリアテンション(GQA)と併用することも可能です。Gemma 3はGQAを採用しています。
前述の通り、スライディングウィンドウアテンションは「ローカルアテンション」とも呼ばれます。これは、その注目するコンテキストが現在のクエリ位置を中心としたローカルウィンドウに限定され、そのウィンドウがクエリ位置の移動に伴ってスライドするためです。対照的に、通常の注意メカニズムは「グローバル」であり、各トークンは他のすべてのトークンにアクセスできます。
スライディングウィンドウアテンションはGemma 3アーキテクチャの最も顕著な特徴ですが、前述のOLMo 2の部分を補足するため、ここでGemma 3における正規化層の配置方法について簡単に説明します。
小さな、しかし興味深い点は、Gemma 3がそのGQAモジュールの周りでRMSNormのPre-Norm形式とPost-Norm形式を同時に使用していることです。
これはGemma 2のアプローチと似ていますが、以下のいくつかの主流のアプローチとは異なるため、依然として強調する価値があります。
1. 元のTransformerアーキテクチャが使用していたPost-Norm。
2. GPT-2によって普及し、多くの後続アーキテクチャで採用されたPre-Norm。
3. 前述のOLMo 2で見られた、特殊なPost-Normバリアント。
Gemma 3のこの二重正規化戦略は、推論効率と訓練安定性の間のトレードオフに関連する可能性のある、珍しい正規化設計の選択を示しています。
図14:OLMo 2とGemma 3のアーキテクチャ比較。Gemma 3の追加正規化層に注目してください。
この正規化層の配置方法は、Pre-NormとPost-Normの利点を組み合わせているため、比較的直感的です。
著者は、正規化を少し増やしても悪いことはないと考えています。
Gemma 3の詳細については、技術報告を参照してください。
論文タイトル:Gemma 3 Technical Report
論文リンク:https://arxiv.org/abs/2503.19786
Mistral Small 3.1
Mistral Small 3.1 24Bは今年3月にリリースされ、Gemma 3に続きました。注目すべき点の1つは、複数のベンチマークテストでGemma 3 27Bよりも優れたパフォーマンスを示し、同時に推論速度が速かったことです。
Mistral Small 3.1の推論遅延がGemma 3よりも低い主な理由は、そのカスタムトークナイザー、より小さなKVキャッシュ、そしてより少ない層数にある可能性があります。それ以外は、下図に示すように、全体として標準的なアーキテクチャを採用しています。
図16:Gemma 3 27BとMistral 3.1 Small 24Bのアーキテクチャ比較図。
興味深いことに、初期のMistralモデルはスライディングウィンドウアテンションメカニズムを使用していましたが、Mistral Small 3.1ではこの設計が放棄されたようです。
スライディングウィンドウを使用するGemma 3とは異なり、Mistralは通常のGQAを採用しました。
著者は、スライディングウィンドウアテンションはメモリ使用量を削減できるものの、推論遅延を必ずしも削減できるわけではなく、それがMistral Small 3.1が優先的に注目する性能指標であると推測しています。
Llama 4
前述のエキスパート混合モデル(MoE)の詳細な説明が、再び役立つ時が来ました。
Llama 4も同様にMoEアーキテクチャを採用しており、残りの部分は比較的標準的な設計を継承し、全体的なアーキテクチャは下図に示すようにDeepSeek-V3と非常に似ています。
図17:DeepSeek V3(6710億パラメータ)とLlama 4 Maverick(4000億パラメータ)のアーキテクチャ比較図。
Llama 4 Maverickの全体的なアーキテクチャはDeepSeek-V3と非常に似ているように見えますが、いくつかの注目すべき違いがあります。
まず、Llama 4は前身モデルと同じGQAを採用していますが、DeepSeek-V3はMLAを使用しています。
これら2つのモデルは非常に大規模なアーキテクチャであり、DeepSeek-V3の総パラメータ量はLlama 4 Maverickより約68%多いです。しかし、実際の推論で計算に関与するパラメータ数を見ると、DeepSeek-V3が有効にするパラメータは370億に達し、Llama 4 Maverick(170億)の2倍以上です。
MoEの設定に関しては、Llama 4 Maverickはより伝統的なアーキテクチャを使用しています。毎回アクティブにするエキスパートは2つのみで、各エキスパートの隠れ層の次元は8192です。一方、DeepSeek-V3は毎回9つのエキスパートをアクティブにし、各エキスパートの隠れ層の次元は2048です。さらに、DeepSeekは最初の3層を除く各TransformerブロックにMoE層を挿入していますが、Llama 4はMoEモジュールと密(Dense)モジュールを交互に使用しており、つまり1ブロックおきにMoEを追加しています。
明確なことは、MoEアーキテクチャが2025年に著しい発展と普及を遂げたということです。
Qwen3
Qwenチームは常に高品質なオープンソース大規模言語モデルを安定してリリースしてきました。NeurIPS 2023のLLM効率チャレンジでは、最終的に優勝したソリューションはすべてQwen2をベースに構築されていました。
そして現在、Qwen3シリーズは再びそれぞれのパラメータ規模でランキングのトップに立ち、依然として目覚ましいパフォーマンスを見せています。
Qwen3 (Dense)
まずQwen3 Denseモデルのアーキテクチャを見てみましょう。現時点では、Qwen3 0.6Bは現在の世代で最も小さなオープンソースの重みを持つモデルの1つかもしれません。
ローカルで実行する場合、高い秒間生成トークン数(token/sec)と低いVRAM使用量を持ち、軽量なデプロイメントに非常に適しています。また、パラメータ数が少ないため、ローカルで訓練実験(例えば教育目的)を行いたい人にとっても非常に使いやすいです。
図18:Qwen3 0.6BとLlama 3 1Bのアーキテクチャ比較図。Qwen3アーキテクチャはより深く(より多くのTransformer層を持つ)、Llama 3アーキテクチャはより広い(より多くのアテンションヘッドを持つ)ことが分かります。
Qwen3 (MoE)
前述の通り、Qwen3シリーズには2つのMoE(Sparse)バリアントも含まれています。では、Qwen3のようなアーキテクチャが通常版(Dense)とMoE(Sparse)版を同時にリリースするのはなぜでしょうか?
本記事の冒頭で述べたように、MoEバリアントは大規模な基盤モデルの推論コストを削減することを目的としています。Dense版とMoE版の2つのバージョンを提供することで、ユーザーは異なる目標とリソース制約に基づいて柔軟に選択できます。
これら2種類のモデルを同時にリリースすることで、Qwen3シリーズはより広範な応用シナリオをカバーできます。密なモデルは堅牢性、シンプルさ、微調整可能性を重視し、MoEモデルは大規模デプロイメントにおける推論効率に焦点を当てています。
図19:DeepSeek-V3とQwen3 235B-A22Bのアーキテクチャ比較。
上図に示すように、DeepSeek-V3とQwen3 235B-A22Bはアーキテクチャが非常に似ています。しかし注目すべきは、Qwen3モデルが共有エキスパートを廃止している点です(以前のQwen2.5-MoEなどのモデルは共有エキスパートメカニズムを採用していました)。
残念ながら、Qwen3チームは共有エキスパートを放棄した理由を公に説明していません。
著者の推測では、Qwen2.5-MoEの2つからQwen3の8つにエキスパート数が増加した後、訓練の安定性が共有エキスパートに依存しなくなったためかもしれません。したがって、彼らは共有エキスパートを省略することで、追加の計算とVRAMのオーバーヘッドを節約することを選択した(8個から8+1個のエキスパートへの増加を避けるため)可能性があります。しかし、これはDeepSeek-V3が今日まで共有エキスパートメカニズムを保持している理由を説明するものではありません。
SmolLM3
SmolLM3は本記事で言及されている他の大規模モデルほど広く知られていないかもしれませんが、著者はそれでも議論に含める価値があると考えています。なぜなら、このモデルはわずか約30億パラメータという規模でありながら、非常に優れたモデリング性能を示し、Qwen3の17億パラメータモデルと40億パラメータモデルの間に位置しているからです(下図参照)。
さらに、SmolLM3もOLMoと同様に、業界では珍しい多数の訓練詳細を公開しており、この点も特に称賛に値します。
図20:SmolLM3とQwen3 1.7B、4B、Llama 3 3B、Gemma 3 4Bの勝率比較。
下のアーキテクチャ比較図に示すように、SmolLM3の全体構造は比較的標準的です。しかし、最も興味深い点の1つは、おそらく位置埋め込みなし(NoPE)メカニズムを採用していることでしょう。
図21:Qwen3 4BとSmolLM3 3Bの並列アーキテクチャ比較図。
LLMの文脈において、NoPEは以前から提案されていた概念であり、明示的な位置エンコーディング情報注入メカニズム、例えば初期のGPTアーキテクチャで一般的に使用されていた絶対位置埋め込み、または現在の主流であるRoPE(回転位置エンコーディング)などを削除することを目的としています。
Transformerベースの言語モデルでは、自己注意メカニズムが入力シーケンス内のトークン順序にデフォルトで不感応であるため(つまり、各トークンが独立して処理されるため)、通常、位置エンコーディングは必要です。この問題を解決するため、絶対位置埋め込みは追加の埋め込み層を追加し、位置情報とトークン埋め込みを合計することで、モデルにシーケンス順序の感知能力を提供します。
図22:絶対位置埋め込みのメカニズムを示しています。
対照的に、RoPEはクエリとキーのベクトルをトークンの位置に応じて回転させることで、位置情報を注入します。
一方、NoPE層では、固定された位置エンコーディングも、学習可能な位置エンコーディングも、相対位置エンコーディングも、いかなる位置エンコーディング情報も全く追加されません。
明示的な位置エンコーディングがなくても、モデルは因果的アテンションマスクを通じて、どのトークンが前にあるかを知ることができます。このマスクは、各トークンがそれ以降のトークンにアクセスするのを防ぎ、自己回帰順序の正確性を保証します。つまり、位置tにあるトークンは、位置t以下のトークンしか「見ることができません」。
要するに、NoPEは位置エンコーディングを注入する必要がないだけでなく、シーケンス長の汎化においてより優位性を持っています。つまり、入力シーケンス長が増加しても、モデルのパフォーマンス低下がより小さいということです。下図に示す通りです。
図23:NoPEが長さ汎化において優位な性能を示すことを示しています。
このような理由から、SmolLM3チームは実際の応用において、すべての層でNoPEを使用するのではなく、4層ごとに1回NoPEを使用する(あるいは4層ごとに1回RoPEを省略する)という妥協策を選択しました。
NoPEの詳細については、以下の論文を参照してください。
論文タイトル:The Impact of Positional Encoding on Length Generalization in Transformers
論文リンク:https://arxiv.org/abs/2305.19466
Kimi K2
Kimi K2は最近、その優れた性能によりAIコミュニティで大きな反響を呼びました。オープンソースの重みを持つモデルとして、GoogleのGemini、AnthropicのClaude、OpenAIのChatGPTといったトップクラスのクローズドソースモデルに匹敵するパフォーマンスを複数のベンチマークテストで示しています。
注目すべき側面の1つは、訓練において、この規模の生産レベルモデルで初めてMuonオプティマイザのバリアントを使用し、従来のAdamWではなかったことです。
著者の知る限りでは、これはMuonオプティマイザが超大規模モデルに初めて適用された事例です(これまでは最大で160億パラメータ規模でしか拡張性が示されていませんでした)。この選択は非常に理想的な訓練損失曲線をもたらし、Kimi K2が上述の各ベンチマークテストで際立った主要な理由である可能性が高いです。
Kimi K2のパラメータ規模は1兆(1T)に達し、これは間違いなく印象的です。これは、未発表のLlama 4 Behemoth、クローズドソースモデル、およびアーキテクチャが異なるGoogleの1.6兆Switch Transformer(エンコーダー・デコーダーモデル)を考慮しない限り、現世代で最大のLLMである可能性が高いです(本記事執筆時点)。
アーキテクチャの観点から見ると、Kimi K2は本記事冒頭で言及したDeepSeek-V3アーキテクチャに基づいていますが、より大規模な拡張と強化が施されています(図は省略)。これはまた、「循環回帰」を示しており、Kimi K2はDeepSeek-V3の設計思想を極限まで押し進めています。
上図に示すように、Kimi K2は全体的なアーキテクチャにおいてDeepSeek V3と基本的に一致しており、主な違いは次のとおりです。
Kimi K2はMoEモジュールでより多くのエキスパートを使用しています。
MLAモジュールではより少ないアテンションヘッド(heads)を使用しています。
数年を経て、LLMの発表は依然として驚きと期待に満ちています。新技術は常に胸を熱くさせ、さらなる大規模モデルアーキテクチャの改善を期待させてくれます。
詳細については、元のブログを参照してください。
ブログリンク:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison