Mianbi MiniCPM4：推論速度が3倍、同サイズのQwen3を圧倒、アリババも注目！

この公式アカウントは、NLP、CV、LLM、RAG、Agentなどの最先端AI技術に焦点を当て、業界の実践事例やコースを無料で共有し、AIGCを全面的に活用できるよう支援します。

面壁智能は、MiniCPM4-8B、MiniCPM4-MCPを含む10モデルからなるMiniCPM4シリーズを発表しました。

MiniCPM4の主な特徴は、やはり推論速度の速さです。

MiniCPM4

MiniCPM4の全体アーキテクチャ

MiniCPM4の革新点

効率的なモデルアーキテクチャ：

InfLLM v2：学習可能な疎なアテンションメカニズムアーキテクチャを採用し、128Kの長文処理において、各トークンは5%未満のトークン相関計算しか必要とせず、長文の計算オーバーヘッドを大幅に削減します。

効率的な学習アルゴリズム：

Model Wind Tunnel 2.0：下流タスク性能のスケーリング予測手法を導入し、より正確なモデル学習設定の検索を実現します。

BitCPM：モデルパラメータのビット幅を3値に圧縮し、極端な90%のモデルビット幅削減を実現します。

学習エンジニアリングの最適化：FP8低精度計算技術とMulti-token Prediction学習戦略を組み合わせます。

高品質な学習データ：

UltraClean：効率的なデータ検証に基づいた反復的なデータクレンジング戦略を構築し、高品質な中国語と英語の事前学習データセットUltraFinwebをオープンソース化します。

UltraChat v2：大規模で高品質な教師ありファインチューニングデータセットを構築し、知識集約型データ、推論集約型データ、指示追従データ、長文理解データ、ツール呼び出しデータなど、複数の側面をカバーします。

効率的な推論システム：

CPM.cu：疎なアテンション、モデル量子化、投機的サンプリングを統合し、効率的な事前充填とデコードを実現します。

ArkInfer：複数のバックエンド環境にわたる効率的なデプロイメントをサポートし、柔軟なクロスプラットフォーム適応機能を提供します。

MiniCPM4実践

from transformers import AutoModelForCausalLM, AutoTokenizer

import torch

torch.manual_seed(0)

path = 'openbmb/MiniCPM4-8B'

device = "cuda"

tokenizer = AutoTokenizer.from_pretrained(path)

model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)

# User can directly use the chat interface

# responds, history = model.chat(tokenizer, "Write an article about Artificial Intelligence.", temperature=0.7, top_p=0.7)

# print(responds)

# User can also use the generate interface

messages = [

{"role": "user", "content": "Write an article about Artificial Intelligence."},

]

prompt_text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

)

model_inputs = tokenizer([prompt_text], return_tensors="pt").to(device)

model_outputs = model.generate(

**model_inputs,

max_new_tokens=1024,

top_p=0.7,

temperature=0.7

)

output_token_ids = [

model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs['input_ids']))

]

responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]

print(responses)

MiniCPM4-8Bは、効率的な長シーケンス推論を実現するために疎なアテンションメカニズムをサポートしています。これにはinfllmv2_cuda_implライブラリが必要です。

インストール方法は以下の通りです。

git clone -b feature_infer https://github.com/OpenBMB/infllmv2_cuda_impl.git

cd infllmv2_cuda_impl

git submodule update --init --recursive

pip install -e . # or python setup.py install

InfLLM v2を有効にするには、モデルファイルのsparse_configconfig.jsonに以下のフィールドを追加する必要があります。

{

...,

"sparse_config": {

"kernel_size": 32,

"kernel_stride": 16,

"init_blocks": 1,

"block_size": 64,

"window_size": 2048,

"topk": 64,

"use_nope": false,

"dense_len": 8192

}

パラメータ説明：

kernel_size（デフォルト値：32）：セマンティックカーネルのサイズ。

kernel_stride（デフォルト値：16）：隣接するカーネル間のストライド。

init_blocks（デフォルト値：1）：各クエリトークンが処理する初期ブロックの数。これにより、シーケンスの先頭にアテンションが集中することが保証されます。

block_size（デフォルト値：64）：キーバリューブロックのブロックサイズ。

window_size（デフォルト値：2048）：ローカルスライディングウィンドウのサイズ。

topk（デフォルト値：64）：各トークンが、最も関連性の高い上位k個のキーバリューブロックのみを使用してアテンションを計算することを指定します。

use_nope（デフォルト値：false）：パフォーマンス向上のためにブロック選択でNOPE技術を使用するかどうか。

dense_len（デフォルト値：8192）：Sparse Attentionは短いシーケンスに対する利点が限られているため、このモデルは短いテキストには標準（密な）Attentionを使用できます。このモデルは、トークン長がこの長さを下回るシーケンスには密なアテンションを使用し、この長さを超えるシーケンスには疎なアテンションに切り替わります。この項目を-1に設定すると、シーケンス長に関わらず常に疎なアテンションを使用します。

https://arxiv.org/pdf/2506.07900

https://huggingface.co/openbmb/MiniCPM4-8B

Mianbi MiniCPM4：推論速度が3倍、同サイズのQwen3を圧倒、アリババも注目！

短いURLをシェア