中国チームが「スパイク大規模モデル」を訓練、推論速度が100倍に向上

中国科学院自動化研究所は最近、画期的なプロジェクト「SpikingBrain」を発表しました。これは「脳型大規模モデル」と称されています。

簡単に言えば、脳のニューロンの動作様式をAIモデルに取り入れたものです。人間の脳のニューロンは「活性化しなければ動作しない」という性質があり、信号がある時だけ放電します。これが、いわゆる「スパイク」(Spiking)メカニズムです。

従来のTransformerモデルには致命的な問題があります。シーケンスが長くなるほど、計算量が二乗的に増加するのです。本一冊分の内容を処理する場合、半日待たされる可能性があります。

SpikingBrainはこの問題を解決するために、三つの手法を使用しています。

1. 線形アテンション 元々のO(n²)の計算複雑度をO(n)にまで下げます。100万トークンを処理する場合、以前は1兆回の計算が必要でしたが、現在はわずか100万回で済みます。

2. スパイク符号化 連続的な数値を離散的なパルス(スパイク)に変換します。例えば、数字の5を計算する場合、直接5×重みとして計算するのではなく、5つのパルスを放出し、各パルスは加算のみを行います。試算によると、これによりエネルギー消費を97.7%節約できます。

3. 混合エキスパート(MoE) 76Bパラメータのモデルであっても、毎回12Bのみが活性化されます。これは、人間の脳の異なる領域が異なる機能を担っており、すべてのニューロンが同時に動作するわけではないのと似ています。

彼らは二つのモデルを公開しました。

  • SpikingBrain-7B:純粋な線形モデル
  • SpikingBrain-76B:混合モデル(実際に活性化されるのは12B)

4Mトークン(約400万文字)の入力において、7Bモデルの最初のトークン生成時間(TTFT)は、オリジナルのQwen2.5よりも100倍以上高速でした。1秒対100秒と、その差は非常に大きいです。

さらに興味深いのは、彼らが訓練に使用したトークン量はわずか150B(オリジナルモデルは10Tが必要)であり、データ量にして2%に相当するにもかかわらず、オリジナルモデルの90%の性能を達成したことです。

このプロジェクトには特別な意味もあります。トレーニング全体が沐曦(MetaX)製の国産GPU上で実施されました。

MetaX C550 GPUクラスターは2週間連続で中断なく稼働し、76Bパラメータのモデルを訓練しました。これは、NVIDIA以外のプラットフォームでも大規模モデルの訓練が可能であることを証明しています。

彼らは大量のCUDAコードを書き換え、Tritonオペレーターに適応させ、さらに通信フレームワークを特別に最適化しました。MFU(モデル浮動小数点利用率)は23.4%に達し、国産ハードウェアとしては良好な成績です。

この技術が最も適しているシナリオは二つあります。

1. 超長文の処理 法務文書、学術論文、小説執筆など、数十万文字を処理する必要があるアプリケーションでは、速度の優位性が顕著です。

2. エッジデバイスへの展開 彼らは1BモデルをCPUに展開し、256kシーケンス長で15倍の速度向上を達成しました。スマートフォンや組み込みデバイスでも動作可能です。

この研究からは、いくつかの考察が得られます。

まず、Transformerに固執する必要はないということです。線形アテンションは理論上、二次アテンションほど正確ではありませんが、実用上の差はそれほど大きくありません。

次に、生物学的インスピレーションが依然として有用であるということです。脳は100ワットの電力で思考できますが、GPUは数千ワットを消費します。この差はあまりにも大きいです。スパイクメカニズムは、消費電力削減のヒントを提供します。

最後に、国産代替はもはや夢ではありません。NVIDIAとの間にはまだ差がありますが、少なくとも実現可能性は証明されました。

メインタグ:人工知能

サブタグ:ニューロモルフィックコンピューティング中国技術計算効率大規模言語モデル


前の記事:NeurIPS'25!AutoPrune:プラグアンドプレイ可能な適応型大規模モデル剪定フレームワーク

次の記事:たった今、GPT-5が「ゲーデルテスト」に初合格!三大数学予想を解明

短いURLをシェア