Mianbi MiniCPM4:推論速度が3倍、同サイズのQwen3を圧倒、アリババも注目!

この公式アカウントは、NLP、CV、LLM、RAG、Agentなどの最先端AI技術に焦点を当て、業界の実践事例やコースを無料で共有し、AIGCを全面的に活用できるよう支援します。

面壁智能は、MiniCPM4-8B、MiniCPM4-MCPを含む10モデルからなるMiniCPM4シリーズを発表しました。

画像

MiniCPM4の主な特徴は、やはり推論速度の速さです。画像

MiniCPM4

MiniCPM4の全体アーキテクチャ

画像

MiniCPM4の革新点

効率的なモデルアーキテクチャ:

画像

InfLLM v2:学習可能な疎なアテンションメカニズムアーキテクチャを採用し、128Kの長文処理において、各トークンは5%未満のトークン相関計算しか必要とせず、長文の計算オーバーヘッドを大幅に削減します。

効率的な学習アルゴリズム:

画像

Model Wind Tunnel 2.0:下流タスク性能のスケーリング予測手法を導入し、より正確なモデル学習設定の検索を実現します。

BitCPM:モデルパラメータのビット幅を3値に圧縮し、極端な90%のモデルビット幅削減を実現します。

学習エンジニアリングの最適化:FP8低精度計算技術とMulti-token Prediction学習戦略を組み合わせます。

高品質な学習データ:

UltraClean:効率的なデータ検証に基づいた反復的なデータクレンジング戦略を構築し、高品質な中国語と英語の事前学習データセットUltraFinwebをオープンソース化します。

UltraChat v2:大規模で高品質な教師ありファインチューニングデータセットを構築し、知識集約型データ、推論集約型データ、指示追従データ、長文理解データ、ツール呼び出しデータなど、複数の側面をカバーします。

効率的な推論システム:

画像

CPM.cu:疎なアテンション、モデル量子化、投機的サンプリングを統合し、効率的な事前充填とデコードを実現します。

ArkInfer:複数のバックエンド環境にわたる効率的なデプロイメントをサポートし、柔軟なクロスプラットフォーム適応機能を提供します。

MiniCPM4実践

from transformers import AutoModelForCausalLM, AutoTokenizer

import torch

torch.manual_seed(0)

path = 'openbmb/MiniCPM4-8B'

device = "cuda"

tokenizer = AutoTokenizer.from_pretrained(path)

model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)

# User can directly use the chat interface

# responds, history = model.chat(tokenizer, "Write an article about Artificial Intelligence.", temperature=0.7, top_p=0.7)

# print(responds)

# User can also use the generate interface

messages = [

{"role": "user", "content": "Write an article about Artificial Intelligence."},

]

prompt_text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

)

model_inputs = tokenizer([prompt_text], return_tensors="pt").to(device)

model_outputs = model.generate(

**model_inputs,

max_new_tokens=1024,

top_p=0.7,

temperature=0.7

)

output_token_ids = [

model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs['input_ids']))

]

responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]

print(responses)

MiniCPM4-8Bは、効率的な長シーケンス推論を実現するために疎なアテンションメカニズムをサポートしています。これにはinfllmv2_cuda_implライブラリが必要です。

インストール方法は以下の通りです。

git clone -b feature_infer https://github.com/OpenBMB/infllmv2_cuda_impl.git

cd infllmv2_cuda_impl

git submodule update --init --recursive

pip install -e . # or python setup.py install

InfLLM v2を有効にするには、モデルファイルのsparse_configconfig.jsonに以下のフィールドを追加する必要があります。

{

...,

"sparse_config": {

"kernel_size": 32,

"kernel_stride": 16,

"init_blocks": 1,

"block_size": 64,

"window_size": 2048,

"topk": 64,

"use_nope": false,

"dense_len": 8192

}

}

パラメータ説明:

kernel_size(デフォルト値:32):セマンティックカーネルのサイズ。

kernel_stride(デフォルト値:16):隣接するカーネル間のストライド。

init_blocks(デフォルト値:1):各クエリトークンが処理する初期ブロックの数。これにより、シーケンスの先頭にアテンションが集中することが保証されます。

block_size(デフォルト値:64):キーバリューブロックのブロックサイズ。

window_size(デフォルト値:2048):ローカルスライディングウィンドウのサイズ。

topk(デフォルト値:64):各トークンが、最も関連性の高い上位k個のキーバリューブロックのみを使用してアテンションを計算することを指定します。

use_nope(デフォルト値:false):パフォーマンス向上のためにブロック選択でNOPE技術を使用するかどうか。

dense_len(デフォルト値:8192):Sparse Attentionは短いシーケンスに対する利点が限られているため、このモデルは短いテキストには標準(密な)Attentionを使用できます。このモデルは、トークン長がこの長さを下回るシーケンスには密なアテンションを使用し、この長さを超えるシーケンスには疎なアテンションに切り替わります。この項目を-1に設定すると、シーケンス長に関わらず常に疎なアテンションを使用します。

https://arxiv.org/pdf/2506.07900

https://huggingface.co/openbmb/MiniCPM4-8B

おすすめ記事

19.2Kスターのスーパーエージェント、LangGraphを5000倍上回る

GraphRAGのパフォーマンスは低く、DeepSearcherはすぐに使える

3.7Kスター!GraphRAGはもう良くない?

低品質スキャンPDFの修正:ページの歪み、フォントのぼやけを恐れない

HuggingFace製:ミニマリストで強力なエージェント

アリババ製:OmniParserによる汎用文書の複雑なシナリオでのOCR抽出

清華大学、面壁智能が発表:プロアクティブエージェント2.0

アリババが発表:編集可能なCoT、ReActを20%上回る

マイクロソフトが発表:産業用エージェント展開ソリューションRDAgent

アリババがUReaderをオープンソース化:汎用OCRフリー文書理解

PDFから中国語へ、レイアウト復元、文字、数式認識、日英翻訳のすべて

文書OCRレイアウト認識、速度と精度の両立、YOLOが最有力候補

メインタグ:人工知能

サブタグ:大規模言語モデル自然言語処理推論高速化モデル最適化


前の記事:スタンフォードNYU共同研究:AIと人間の思考様式における驚くべき発見 —— なぜ大規模モデルは「賢い」が「賢明」ではないのか?

次の記事:穏やかなる特異点|サム・アルトマン最新の重要論文

短いURLをシェア