エッジデバイスでの長文処理時代を切り開く!OpenBMBの新アーキテクチャでMiniCPMが最大220倍高速化

Synced(マシンハート)より

編集者:澤南

エッジデバイス向け大規模モデルは、質的な変化を遂げています。

エッジデバイス向け言語モデルは、ついに生まれ変わるような革新を迎えました。

先週金曜日、2025智源大会で、中国の著名なAIスタートアップ企業であるOpenBMB(面壁智能)は、最新世代の「小鋼炮(ミニキャノン)」モデルMiniCPM 4.0を正式発表し、AIの発展を一気に「前進四(フルスロットル)」に押し進めました。

图片

発表会で、OpenBMBのCEOは、MiniCPM 4.0が業界初のシステムレベルのコンテキスト対応疎な言語モデル革新を実現し、5%という極めて高い疎度を達成したことを発表しました。これにより、エッジデバイスでの長文推論が可能になり、エッジデバイス長文時代の幕開けとなりました。

今回リリースされたMiniCPM 4.0には、8Bと0.5Bの2つのパラメータバージョンがあり、いずれもエッジデバイスモデルの能力の限界を打ち破りました。

説明によると、アーキテクチャ、アルゴリズム、データ、システムといった多角的なイノベーションを通じて、新世代のコンテキスト対応疎な高効率アーキテクチャモデルMiniCPM 4.0 8Bは、Qwen-3-8B、Llama-3-8B、GLM-4-9Bなどの同規模モデルと比較して、長文推論速度が安定して5倍、極限状況では最大220倍高速化され、同クラス最高のモデル性能を達成しました。また、長文キャッシュの大幅な削減も実現し、128Kの長文シナリオにおいて、MiniCPM 4.0-8BはQwen3-8Bと比較してわずか1/4のキャッシュストレージしか必要としません。

图片

モデル、事前学習データ、およびエッジデバイス推論フレームワークはすべてオープンソース化されています。

GitHub リンク:https://github.com/openbmb/minicpm

技術レポート:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf

Huggingface リンク:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b

Model Scope リンク:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

MiniCPM 4.0シリーズは、世界最強のエッジデバイス向けモデルとしての地位を守りながら、DeepSeekに続き、大規模モデル分野における基盤アーキテクチャからの技術的ブレークスルーを再び示しました。

速度は百倍向上

エッジデバイスで最強、小さくても大きく勝つ

MiniCPM 4.0の進化は包括的であり、エッジデバイスでの推論における様々なタスクで、OpenBMBの「小鋼炮」シリーズモデルの主導的地位を再確認しました。

OpenBMBの報告によると、MiniCPM 4.0-8BはMMLU、CEval、MATH500、HumanEvalといったAI分野で一般的なベンチマークテストにおいて、Qwen-3-8Bと同等の性能を示し、Gemma-3-12Bを上回りました。

より多くのエッジデバイスに対応する小規模言語モデルMiniCPM 4.0-0.5Bは、毎秒600トークンの高速推論を実現し、その性能はQwen-3 0.6Bをも凌駕しました。

图片

ご存知の通り、4月にリリースされたばかりのQwen3-0.6Bモデルは、すでにGemma 4Bの性能を超えています。このような「小さな力で大きな相手を倒す」というアプローチは、私たちが大いに歓迎するところであり、将来的にさらに多くのアプリケーションが大規模モデルを利用できるようになることを意味します。

さらに効率を向上させ、より多くのシナリオに対応するため、OpenBMBは新モデルに「高効率デュアル周波数シフトメカニズム」を設計しました。これにより、モデルはタスクの特性に応じて自動的にアテンションモードを切り替えることができます。長文や深層思考タスクの処理時には、計算複雑度を低減するために疎なアテンションを有効にし、短文シナリオでは精度を確保するために密なアテンションに切り替えます。これにより、様々なタスクで効率的な応答を実現できます。

图片

MiniCPM 4.0は、長文タスクにおけるキャッシュ要件も大幅に削減しました。128Kのシナリオにおいて、MiniCPM 4.0-8BはQwen3-8Bと比較してわずか1/4のキャッシュストレージしか必要としません。

さらに、MiniCPM 4.0は運用効率を一層向上させました。アルゴリズム、システムからハードウェア推論に至るまで、エッジデバイスにおける全チェーンを自社開発した初のモデルであり、システムレベルでのソフトウェアとハードウェアの疎化を真に実現しました。

MiniCPM-4.0に基づき、OpenBMBはアプリケーションエンドへの利点を引き続き強調しています。この世代の「小鋼炮」モデルは、Intel、Qualcomm、MediaTek、Huawei Ascendなどの主要なチッププラットフォームへの適応が完了しており、vLLM、SGLang、llama.cpp、LlamaFactory、XTunerなどのオープンソースフレームワークにデプロイ可能です。また、MCPサポートも強化され、モデルアプリケーションの利便性が確保されています。

图片

エッジデバイス向け小型モデルの技術的ブレークスルー後、各メーカーのスマートフォンや車載機器に搭載されるAIエッジモデルは、間もなく一連のアップデートを迎える可能性があり、多くのアプリが「再構築」されることになりそうです。

強力な性能の裏側

OpenBMBによるアーキテクチャレベルの革新

ご存知の通り、最近DeepSeekはAI分野の技術革新を主導し、そのV3、R1などのモデルにおけるアーキテクチャ上の革新は、AIの深層思考能力を大幅に向上させました。

今日では、強力な推論、長文処理といった高度な能力は、大規模モデルアプリケーションの標準機能となっています。モデルが長文の構造と意味を適切に理解して初めて、生成されるコンテンツの一貫性が向上します。また、アプリケーションにおいては、長文理解はAIが真の「パーソナルアシスタント」となり、より多くの個人情報やコンテキストを記憶できるようになることを意味します。

そして、モデルをエッジデバイスに展開することで、AIの反応遅延を低減し、個人データの安全性を確保しつつ、将来のスマート製品を構築することが可能になります。

「現在のクラウドベースの大規模モデル技術は、アプリケーションレベルでいくつかの限界があります。私たちがそれらを使用するのは、まるで過去の検索エンジンを使っているようなものです」と、OpenBMBの共同創設者兼チーフサイエンティストである劉知遠氏は述べました。「AIの最終目標がAGI(汎用人工知能)であるならば、その形態はアイアンマンのジャービスのように、あなたの個人情報を知り、あなたの好みを理解するものでなければなりません。これらはすべて、大規模モデルの長期記憶によって実現されるべきことです。」

しかし、一方で、どのようにしてこのような高知能AIをエッジデバイスで動作させるかという点が、エンジニアたちの新たな課題となっています。

MiniCPM-4の技術レポートでは、OpenBMBのエンジニアがエッジデバイス向けモデルのアーキテクチャ、学習データ、学習アルゴリズム、推論システムの4つの主要な側面における体系的な革新について紹介しました。

图片

モデルアーキテクチャの面では、OpenBMBはInfLLM v2を提案しました。これは、学習可能な疎なアテンション層であり、長文コンテキスト処理のプリフィルとデコードの両方の段階を同時に加速し、モデル性能を維持しながら効率的な長文処理を実現します。

長文コンテキスト内容処理に関して、InfLLMはすでにAI分野で認知されています。昨年2月、OpenBMBの共同創設者であり、清華大学の劉知遠氏のチームは、初期のInfLLMを発表し、疎なアテンションの改善について議論しました。今年2月、DeepSeekが発表した長文処理アーキテクチャNSA(Native Sparse Attention)も同様のアプローチを採用し、その論文中でInfLLMを引用・比較しています。

しかし、これまでの業界の方法では、短文推論の速度が依然として遅いという課題がありました。InfLLMv2の登場により、短文推論の弱点が解決され、その混合疎なアテンション構造はさらにアップグレードされ、従来のTransformerモデルにおける関連性計算方式を変更しました。テキストをブロックに分割して領域ごとに処理した後、インテリジェントな選択メカニズムを通じて、最も関連性の高い重点領域のみに対してアテンション計算を「スポットチェック」します。

图片

推論層では、MiniCPM 4.0は、自社開発のCPM.cu推論フレームワーク、BitCPMの極限低ビット幅量子化、ArkInferの自社開発クロスプラットフォーム展開フレームワークなどの技術革新を通じて、エッジデバイスでの推論加速を実現しました。

その中で推論フレームワークCPM.cuは、疎化、投機的サンプリング、量子化の効率的な組み合わせを実現し、5倍の速度向上を達成しました。特にFR-Specの軽量投機的サンプリングは、小規模モデルが大規模モデルの「インターン」を務めるようなもので、小規模モデルの語彙負担を軽減し、計算を加速します。革新的な語彙刈り込み戦略により、小規模モデルは高頻度の基本語彙の草稿生成に集中し、低頻度で高難度の語彙に計算リソースを浪費することを避け、その後、大規模モデルによって検証および修正されます。

BitCPM量子化アルゴリズムは、業界SOTAレベルの4ビット量子化を実現し、3値量子化(1.58ビット)スキームも探求しました。精密な混合精度戦略と適応型量子化アルゴリズムにより、モデルは90%のサイズ削減後も優れた性能を維持します。

ArkInferクロスプラットフォーム展開フレームワークは、多プラットフォームのエッジデバイスチップ向けに最適化されており、大規模プラットフォームにおける高効率な投機的サンプリングと制限付きエンコードを実現し、エッジデバイスの多プラットフォームモデルzooのスムーズな利用を保証します。

モデル学習とデータ層では、OpenBMBはUltraCleanを提案しました。これは、効率的で正確な事前学習データフィルタリングおよび生成戦略であり、検証コストを90%削減しました。インターネットコーパスに対して厳格な受け入れメカニズムを確立し、真にモデル性能を向上させることができるデータのみが事前学習コーパスに含められるようにしています。軽量なFastTextツールを用いて大規模なデータ品質検査を行い、ワークフローで15兆トークンのデータを処理するのにわずか1000時間のCPU時間しか必要としません。

OpenBMBはUltraChat-v2を利用して、数百億トークンの高品質なアライメントデータを合成し、知識、指示遵守、長文、ツール使用などの主要な能力を強化しました。

MiniCPM 4シリーズでは、OpenBMBは「モデル風洞(ModelTunnel V2)」を適用し、より効率的な学習戦略の探索を可能にしました。まず小規模モデル(0.01B-0.5B)のスケールで学習実験を行い、その後より大きなモデルに移行します。MiniCPM 4では、小規模モデルの探索回数が最適化され、風洞v1と比較して半分の実験回数で最適な構成を見つけることができました。

高品質なデータと高効率な学習戦略の助けにより、同サイズのオープンソースモデル(Qwen-3 8B)と比較して、MiniCPM 4.0はわずか22%の学習コストで同等の能力レベルを達成しました。

多角的な最適化を通じて、MiniCPM 4は業界で唯一のエッジデバイス向け全プロセス最適化を真に実現し、AI分野における高効率言語モデル探求の新たなマイルストーンとなりました。

OpenBMBの報告によると、さらなる適応を通じて、MiniCPM 4は信頼性の高いアンケート生成、モデルコンテキストプロトコルに基づいたツール利用など、さまざまなアプリケーションを成功裏にサポートし、その広範な有用性を十分に示しました。

今年は大規模モデルアプリケーションが爆発的に普及した年であり、スタートアップ企業であるOpenBMBは、基盤モデルの構築にこだわり、将来のスマートエッジデバイスアプリケーションの基盤を築きました。

OpenBMBの高効率モデル探求

DeepSeekとは異なるもう一つの道

大規模モデル技術の競争が螺旋状に激化するにつれて、スケール則(Scaling Laws)駆動のアプローチは深層域に入りました。一方で、モデルのパラメータ数が肥大化し、計算能力や並列化のボトルネックに突き当たっています。他方で、学習データの規模も各企業のデータ取得・処理能力に挑戦を突きつけています。このような状況下で、長期钻研模型新形态的一小部分玩家逐渐站到了台前。

国内のAIスタートアップ企業の中で、DeepSeekはV3、R1などの大規模モデルの革新により、世界の大規模モデル技術の新たな進歩を牽引してきました。一方、エッジデバイス向けモデルの方向では、常にOpenBMBが注目を集めています。

興味深いことに、OpenBMBとDeepSeekは共に、ハードウェア協調最適化から始まり、全プロセスを通じた高効率かつ強力な推論を可能にする大規模モデル開発の道を歩んでいます。DeepSeekがモデル能力の上限強化とクラウドデプロイメントに重点を置いているのに対し、OpenBMBチームは一貫してエッジデバイス向けの疎化ソリューションを模索してきました。

图片

AIの効率を向上させ、利用コストを削減することが、OpenBMB設立の当初の目的です。Transformerアーキテクチャの成功に伴い、言語モデルの規模は拡大し続け、人々はより効果的なモデルパラダイムを模索してきました。モデルの疎化は、非常に有望な解決策と考えられています。OpenBMBは、中国で最も早く疎化の道を探索したチームの一つであり、その研究は常に業界をリードしてきました。

2019年にはすでに、OpenBMBの創業チームは疎なFFNに関する研究に着手しており、その研究はGoogleやAppleなどの企業に追随されました。

2021年6月、同チームは数千億パラメータ級の効率的で使いやすい大規模MoEモデルCPM-2の発表に参加しました。同年、OpenBMBチームは論文『MoEfication: Transformer Feed-forward layers are Mixtures of Experts』において、密なモデルを同パラメータ数のMoEモデルに変換することで、推論の大幅な加速を実現できると提案しました。

2024年7月、OpenBMBはMiniCPM-Sモデルをオープンソース化しました。これは疎な活性化方式を採用しており、同等のパラメータ条件で大規模モデルの推論エネルギー消費を削減できます。

昨年後半、清華大学とOpenBMBチームは、脳型高効率疎なアーキテクチャConfigurable Foundation Modelを提案し、従来のMoEアーキテクチャを革新しました。これは、大規模モデルを機能に応じていくつかのモジュールに分解し、モジュールの検索、組み合わせ、更新、成長を通じて複雑な能力を実現することを強調しています。実装効果から見ると、新アーキテクチャは大規模モデルの「知識密度」を著しく向上させ、エッジデバイス向けモデルの低消費電力推論にも推進的な役割を果たしました。

より広範な視点から見ると、テクノロジー大手が大規模モデル向けにクラウドコンピューティング施設への投資を加速している一方で、先進的なモデルをエッジデバイスに展開し、世界の70億台以上のスマートフォン、そして将来のAI PCやスマートカーシステムに導入できることの重要性も同様に明白です。

興味深いことに、最近の一連の研究で、OpenBMBの研究者は大規模モデルの密度法則「Densing Law」を導き出しました。これは、技術の進化に伴い、言語モデルの能力密度は平均100日ごとに倍増し、計算効率がさらに高く、性能がさらに強力な基礎大規模モデルを継続的に学習できると示唆しています。

图片

MiniCPM-4.0はAI能力密度をより高いレベルに引き上げ、DeepSeek R1のモデル能力における到達点と呼応しています。

この方向性で、OpenBMBは近い将来、MiniCPMシリーズの基礎モデルとマルチモーダルモデルをさらに発表する予定です。

次世代の「小鋼炮」は、私たちにさらなる驚きをもたらしてくれるでしょう。

© THE END

転載は本公式アカウントに連絡して許可を得てください。

投稿または取材依頼:liyazhou@jiqizhixin.com

メインタグ:エッジAI

サブタグ:大規模言語モデル長文処理モデル最適化疎なアテンション


前の記事:マスク氏の「スターリンク」衛星が突然大量に落下!

次の記事:AIが7ヶ月で数学者の「包囲網」を突破し人類を凌駕!14人の数学者が原始推論トークンを深掘り:丸暗記ではなく直感に頼る

短いURLをシェア