DeepSeek R2はまだ登場していませんが、DeepSeekの次世代モデルのアップデートが、今年のACLベストペーパーで既に「ネタバレ」されています。
昨日、自然言語処理分野の世界トップカンファレンスであるACLが、今年のベストペーパーを発表しました。
この会議は自然言語処理分野の「ワールドカップ」とも言え、今後1〜2年の大規模言語モデルの方向性を示すだけでなく、ここから生まれた最先端技術は業界全体に急速に採用される傾向があります。かつてAI分野全体を覆したTransformerアーキテクチャも、最初にここで注目されました。
そして今年、DeepSeekと北京大学が共同で完成させた論文が「ベストペーパー賞」を受賞しました:「Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention」。
論文リンク🔗 https://arxiv.org/abs/2502.11089
タイトルからわかるように、これは非常にハードコアな技術論文で、キーワードが満載です:Sparse Attention(疎なアテンション)、Hardware-Aligned(ハードウェア最適化)、Trainable(学習可能)…
しかし、それでもなお、大規模モデルの未来に関心のあるすべての人が真剣に読む価値があります。なぜなら、この論文は疎なアテンションを理論的な推論から完全なトレーニングプロセスに初めて導入し、モデルの性能を維持しつつ、最大11倍の推論加速を実現したからです。
論文筆頭著者である北京大学の博士課程学生 袁境陽氏(左から3番目)、指導教員 張銘氏(右端)、画像出典:https://x.com/aclmeeting/status/1950745647214161930
DeepSeekにとって、これは学術的な評価だけでなく、次世代モデルの実装に向けた技術的な予行演習となる可能性が高いです。
なぜ「長文」はそんなに難しいのか?AIの「注意散漫」
DeepSeekのこの技術の凄さを理解するには、まず現在のLLMが長文を処理する際の「苦痛」を知る必要があります。
現在、すべてのLLMの中核技術の一つは「アテンションメカニズム」(Attention)と呼ばれており、これはLLMの基礎を築いた論文「Attention Is All You Need」でもあります。
アテンションメカニズムについて、授業を聞いている学生を想像してみてください。
従来の「フルアテンション」(Full Attention)メカニズムは、記憶力が非常に優れているが効率が極めて悪い学生のようです。先生が新しい単語(Query)を言うたびに、その単語と学期の初日から今までに言われたすべての単語(Keys/Values)を比較し直し、新しい単語の意味を理解しようとします。
論文中の比較図によると、NSA(赤)はフルアテンション(オレンジ)と比べて、各種ベンチマークテストで性能が同等か優れており、同時にデコーディング、順伝播、逆伝播などあらゆる段階で大幅な速度向上を実現しています。
テキストが短い場合、これは問題ありません。
しかし、テキストが数十万文字にもなると、「すべての文字と前のすべての文字を比較する」という計算量は平方的に爆増します。これにより、モデルの応答が極端に遅くなるだけでなく、訓練と推論のコストも途方もなく高くなります。
これが、現在私たちが使っている大規模モデルが、コンテキストウィンドウがどんどん大きくなっているにもかかわらず、限界に近づくと速度が著しく遅くなり、API価格も高くなる理由です。
論文中にも、従来のAttentionメカニズムでは、64kのコンテキスト長において、softmax attention(従来のAttentionメカニズムのモジュールの一つ)の計算が推論遅延全体の70%〜80%を占めると述べられています。
DeepSeekの解決策:人間のように「要点を掴む」
この問題を解決するために、これまでに様々な疎なアテンション技術が開発されてきました。
今月のKimi K2技術レポートでは、自動調整のQK-Clipメカニズムを用いて「総パラメータ数兆、アクティブパラメータ数百億」を実現し、トレーニングに適した疎な状態を維持していると述べられています。
また、今月Manusもブログを公開し、「6つの主要なコンテキストエンジニアリング法則」について言及し、KV-Cacheのヒット率を向上させ、ファイルシステムで永続的なコンテキストを保持すると述べています。
2024年の論文で当時の大規模言語モデルのコンテキスト長状況について言及。
しかし、トークン距離制限やKVキャッシュの枝刈りなど、これまでの方法には多くの場合、次の2つの問題がありました。
1. 推論段階でのみ使用可能で、トレーニング段階では依然としてフルアテンションが必要である。
2. 疎なアテンションは理論上は高速だが、実際には遅く、特にマルチカード展開やA100/V100では顕著である。
科学者たちは「疎なアテンション」(Sparse Attention)を提案しました。アイデアはシンプルで、「すべての文字を見る必要はなく、重要な部分にだけ集中すればよい」というものです。しかし、これは言うは易く行うは難しで、多くの古い方法は速度を上げられなかったり、重要な情報を見落として性能を低下させたりしていました。
画像出典:https://x.com/casper_hansen_/status/1950649481617342803
DeepSeekと北京大学のこのベストペーパーで提案されたNSA(Natively Sparse Attention、ネイティブ疎なアテンション)は、これらの問題を解決するものです。その核心的な考え方は、人間が長文レポートを読む際の知恵を模倣することです。
概略をざっと読む(Token Compression):まず、NSAは長文の古い内容を「圧縮ブロック」にまとめ、章の要約を読むように、全体の概要情報を素早く把握します。これにより、モデルが何百ページも前に言及された重要な前提を忘れないようにします。
要点を精読する(Token Selection):全体の概要を理解した後、モデルは現在処理する必要のある内容に基づいて、以前の最も関連性の高い元の詳細ブロックを「選択」して精読します。たとえば、第3章に関する質問に答える際には、全文をスキャンするのではなく、第3章の原文に焦点を当てます。
最近の情報を強く記憶する(Sliding Window):私たちがつい最近読んだ数段落を明確に覚えているように、NSAも「スライディングウィンドウ」を特別に保持し、最新のコンテキスト情報に最もきめ細やかなアテンションを維持します。
NSAアーキテクチャ概要図。NSAは賢い読者のように、3つの方法(Compression圧縮、Selection選択、Slidingスライディングウィンドウ)で情報を処理し、「ゲーティングメカニズム」を通してどの情報がより重要かを動的に決定します。
最も素晴らしいのは、NSAが「ゲーティングメカニズム」を通して、これら3つの読書戦略をどのようにバランスさせるかを動的に学習することです。
さらに、NSAは「ネイティブに学習可能」であり、これはモデルが事前学習の段階からこの効率的なアテンション割り当て方法を学習していることを意味し、モデルが成長した後(推論段階)に強制的に疎なメカニズムを追加するものではありません。
これにより、NSAの疎なパターンとモデルの他の部分が完璧に連携し、最終的に性能と効率の両方で飛躍的な向上を実現しました。
実測結果:トレーニングが速く、推論が強く、性能は低下するどころか向上
DeepSeekは論文で、NSAの強力な能力を詳細な実験データで証明しています。
性能は低下するどころか向上:MMLU、GSM8Kなど一連の汎用知識、推論、コード能力の標準テストにおいて、NSAを搭載した27Bモデルは、9項目の指標のうち7項目で従来のフルアテンションモデルを上回りました。
特に推論能力を試すDROPおよびGSM8Kテストでは、顕著な向上が見られました。これは、疎化によってノイズ情報がフィルタリングされることで、モデルが重要なロジックに集中できるようになる可能性があることを示しています。
長文理解能力が際立つ:古典的な「干し草の山から針を探す」テストにおいて、NSAは64k(約8万文字)の超長文の中から情報を100%正確に検索し、情報がどこに隠されていても正確に見つけることができました。
より複雑なLongBench評価では、NSAの平均スコアはフルアテンションを含むほとんどのベースライン手法を上回りました。
超高速化:これが最も興奮する部分です。現在最も効率的なフルアテンションの実装であるFlashAttention-2と比較して、NSAは64k長のシーケンスを処理する際に:
TritonベースのNSAカーネルとTritonベースのFlashAttention-2カーネルの比較。NSAの実装は、すべてのコンテキスト長において遅延を大幅に削減し、入力長の増加に伴い改善効果がより顕著になります。
トレーニング速度:順方向計算が9.0倍、逆伝播が6.0倍加速しました。これは、新しいモデルのトレーニング効率が大幅に向上することを意味します。
推論速度:ユーザーが最も関心を持つ応答生成段階(デコーディング)では、速度が驚異的な11.6倍に向上しました。
これは、以前は30秒かかっていた長文分析が、将来は数秒で完了する可能性があることを意味します。
DeepSeekの未来:より速く、より強く、より安く?
コンテキスト長は、大規模モデルの新たな能力を巡る戦場となっています。ファイル間のコード補完、長文要約、多段階の複雑な対話など、モデルは数万から数百万トークンレベルのコンテキスト内で迅速に情報を特定し、理解し、推論する必要があります。
DeepSeekと北京大学の研究者によって主導されたこの研究は、NSA技術が将来のDeepSeekシリーズ大規模モデルの核となる競争力の一つになることはほぼ確実です。
NSAカーネル設計により、GPUは常に最速のメモリで計算を実行することを保証します。
NSAは27B、MoEアーキテクチャでの完全な事前学習検証を終えており、トレーニングフレームワークもDeepSeekが自社開発したMoEシステムに基づき、GQAアーキテクチャ、FlashAttention-2カーネルと互換性があり、Triton(NVIDIAのオープンソース推論サービスフレームワーク)を使用して主要なカーネルを書き直しました。
これは、単なる「できる」研究ではなく、「すぐに実用化できる」システムモジュールであることを意味します。
私たち一般ユーザーにとっては、将来的には本全体、数十枚の財務報告書、またはGitHubプロジェクトのコードベース全体をAIに直接投入し、手動で分割することなく、詳細な分析、要約、Q&Aを行わせることが可能になります。
DeepSeekの応答速度もさらに速くなり、計算効率の大幅な向上は最終的にAPIの価格にも反映され、私たちの利用コストも低減されるでしょう。
一部のモデルの料金比較、画像出典:https://artificialanalysis.ai/
「価格破壊者」から技術リーダーへと、DeepSeekはNSAのような堅固な技術革新を通じて、着実に自社の競争優位性を構築しています。
これは学術界の勝利であるだけでなく、AIアプリケーションのエコシステム全体が再び加速する合図となるでしょう。
次に、「ネイティブ疎なアテンション」を搭載した次世代DeepSeek大規模モデルが私たちにどのような驚きをもたらすか、楽しみに待ちましょう。