機器之心報導
編輯:澤南
端側大型模型,正在發生質變。
端側語言模型,終於迎來了脫胎換骨式的創新。
上週五,2025 智源大會上,國內知名 AI 新創公司面壁智能正式發布了旗下最新一代「小鋼炮」模型 MiniCPM 4.0,一下子將 AI 的發展推到了「前進四」。
在發表會上,面壁智能執行長宣布 MiniCPM 4.0 實現了業界首個系統級上下文稀疏語言模型創新,實現了 5% 的極高稀疏度,能夠在端側運行長文本推理,開啟了端側長文本時代。
本次發布的 MiniCPM 4.0 分為 8B 和 0.5B 兩個參數版本,均刷新了端側模型能力的上限。
據介紹,透過架構、演算法、數據及系統層面的多維度創新,新一代上下文稀疏高效架構模型 MiniCPM 4.0 8B 相較於 Qwen-3-8B、Llama-3-8B、GLM-4-9B 等同級模型,實現了長文本推理速度穩定 5 倍,極限場景下最高 220 倍加速,達到了同級最佳模型效能。同時進一步實現了長文本緩存的大幅銳減,在 128K 長文本情境下,MiniCPM 4.0-8B 相較於 Qwen3-8B 僅需 1/4 的緩存儲存空間。
模型、預訓練數據和端側推論框架均已開源。
GitHub 連結:https://github.com/openbmb/minicpm
技術報告:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
Huggingface 連結:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope 連結:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
MiniCPM 4.0 系列在蟬聯全球最強端側模型的同時,也讓我們看到了繼 DeepSeek 之後大型模型領域又一次源自底層架構的技術突破。
速度提升百倍
端側最強,以小搏大
MiniCPM 4.0 的提升可以說是全方位的,在端側推論的各項任務上,它再次鞏固了面壁「小鋼炮」系列模型的領先地位。
面壁智能報告說,MiniCPM 4.0-8B 在 MMLU、CEval、MATH500、HumanEval 等 AI 領域流行的基準測試中,效能對標 Qwen-3-8B,超越 Gemma-3-12B。
面向更多端側設備的小型語言模型 MiniCPM 4.0-0.5B,可以實現每秒 600 token 的高速推論,效能也超越了 Qwen-3 0.6B。
要知道,4 月剛推出的 Qwen3-0.6B 模型效能已經超越了 Gemma 4B。這種以小搏大的成果讓我們樂見其成,意味著未來更多應用程式將能夠負擔得起大型模型。
為了進一步提升效能、適應更多情境,面壁為新模型設計了「高效雙頻換擋機制」,讓模型能夠根據任務特徵自動切換注意力模式:處理長文本、深度思考任務時啟用稀疏注意力以降低計算複雜度,在短文本情境下切換稠密注意力以確保精準度,這樣一來,就能在不同任務上均實現高效回應。
MiniCPM 4.0 也大幅降低了長文本任務的快取需求。在 128K 情境下,MiniCPM 4.0-8B 相較於 Qwen3-8B 僅需 1/4 的快取儲存空間。
此外,MiniCPM 4.0 進一步提高了運行效能。從演算法、系統到硬體推論,它是首個打通端側全鏈條自主研發的大型模型,真正做到了可落地實現的系統級軟硬體稀疏化。
基於 MiniCPM-4.0,面壁智能繼續強調其面向應用端的優勢:這代小鋼炮模型已在 Intel、Qualcomm、聯發科、華為昇騰等主流晶片平台上完成適配,可在 vLLM、SGLang、llama.cpp、LlamaFactory、XTuner 等開源框架部署,並加強了 MCP 支援,確保了模型應用的便捷性。
看起來在端側小型模型技術突破後,各家廠商手機、車載裝置內建的 AI 端側模型可能很快就會迎來一波更新,不少應用程式將會被「重新編寫」了。
強悍效能背後
面壁實現架構級創新
眾所周知,最近一段時間 DeepSeek 引領了 AI 領域的技術突破,其 V3、R1 等模型在架構上的創新大幅提升了 AI 的深度思考能力。
如今,強推論、長文本處理等高階能力已成為大型模型應用的標準配備:只有在模型能夠很好理解長文本結構和語義之後,生成的內容才能擁有更好的一致性;在應用上,長文本理解也意味著 AI 能夠成為真正的「個人助理」,能夠記住更多的個人資訊上下文。
而只有將模型部署在端側,才能降低 AI 反應的延遲,在保證個人數據安全的情形下建構起未來的智能化產品。
「如今的雲端大型模型技術在應用層面上仍存在一些局限,我們使用它們就像是在用過去的搜尋引擎,」面壁智能聯合創始人、首席科學家劉知遠表示。「如果說 AI 最終的目標是 AGI(通用人工智慧),那麼它的形態就應該會像鋼鐵人裡的賈維斯一樣,知曉你的個人資訊,了解你的偏好。這些事情都需要大型模型長期記憶來實現。」
但另一方面,如何在端側運行這樣的高智商 AI,成為了擺在工程師面前的新挑戰。
在 MiniCPM-4 的技術報告中,面壁工程師們介紹了其對於端側模型架構、訓練數據、訓練演算法和推論系統四個關鍵維度的系統性創新。
在模型架構方面,面壁提出了 InfLLM v2,這是一種可訓練的稀疏注意力層,能同時加速長上下文處理的預填充和解碼階段,在保持模型效能的同時,實現了高效的長文本處理。
對於長上下文內容處理來說,InfLLM 在 AI 領域已經獲得了認可。去年 2 月,面壁智能聯合創始人、清華大學劉知遠團隊發表了初代 InfLLM,討論了稀疏注意力的改進。今年 2 月,DeepSeek 展示的長文本處理架構 NSA(Native Sparse Attention)也採用了相同思路,並在其論文中引用、比較了 InfLLM。
不過此前業界的方法對於短文本推論速度仍較慢,InfLLMv2 的出現解決了短文本推論的短板,其混合稀疏注意力結構再次升級,改變了傳統 Transformer 模型的相關性計算方式。它在對文本進行分塊分區域處理後,會透過智能化選擇機制,只需對最相關的重點區域進行注意力計算「抽查」。
在推論層面上,MiniCPM 4.0 透過自主研發的 CPM.cu 推論框架、BitCPM 極致低位元量化、ArkInfer 自主研發的跨平台部署框架等技術創新,實現了端側推論加速。
其中推論框架 CPM.cu 實現了稀疏、投機、量化的有效組合,達成了 5 倍速度提升。其中,FR-Spec 輕量投機採樣類似於小型模型給大型模型充當「實習生」,並為小型模型進行詞彙表減負、計算加速。透過創新的詞彙表裁剪策略,讓小型模型專注於高頻基礎詞彙的草稿生成,避免在低頻高難度詞彙上浪費算力,再由大型模型進行驗證和糾正。
BitCPM 量化演算法,實現了業界 SOTA 級別的 4 位元量化,探索了 3 值量化(1.58 位元)方案。透過精細的混合精度策略和自適應量化演算法,模型在瘦身 90% 後仍能保持出色效能。
ArkInfer 跨平台部署框架則面向多平台端側晶片優化,實現了高效的投機採樣和限制編碼,確保端側多平台模型庫(Model Zoo)流暢使用。
在模型訓練和數據層面,面壁提出了 UltraClean,一種高效準確的預訓練數據過濾和生成策略,實現了 90% 的驗證成本下降,其針對網際網路語料建立了嚴格的准入機制,只有能夠真實提升模型效能的數據才能被納入預訓練語料中。利用輕量化的 FastText 工具進行大規模數據品質檢查,在工作流程中處理 15 兆 token 數據僅需 1000 小時 CPU 時間。
面壁利用 UltraChat-v2 合成了百億 token 的高品質對齊數據,針對知識類、指令遵循、長文本、工具使用等關鍵能力進行強化。
在 MiniCPM 4 系列中,面壁應用了「模型風洞」ModelTunnel V2,能夠實現更高效的訓練策略搜尋。先在小型模型(0.01B-0.5B)尺度上進行的訓練實驗,再遷移到更大的模型上。在 MiniCPM 4 上,面壁優化了小型模型的搜尋次數,相較於風洞 v1,只需一半的實驗次數就能完成最佳配置搜尋。
在高品質數據與高效訓練策略的加持下,相較同尺寸開源模型(Qwen-3 8B),MiniCPM 4.0 僅用 22% 的訓練開銷,就達到了相同的能力水平。
透過多維度的優化,MiniCPM 4 真正實現了業界唯一的端側全流程優化,成為了 AI 領域探索高效率語言模型的又一里程碑。
面壁報告說,透過進一步的適配,MiniCPM 4 成功支援了各種應用,包括可信調查問卷生成、基於模型上下文協議的工具使用,充分展現了其廣泛的可用性。
今年是大型模型應用爆發的一年,作為新創公司的面壁堅持建構基礎模型,為未來的智能端側應用打好了基礎。
面壁的高效率模型探索
DeepSeek 之外的另一條路徑
隨著大型模型技術競爭螺旋上升,擴展定律(Scaling Laws)驅動的方式已進入深水區。一方面模型越來越大的參數量正在撞向算力、平行化的瓶頸,另一方面參與訓練的數據量體也在挑戰著各家公司的獲取與處理能力。在這樣的情況下,長期鑽研模型新形態的一小部分玩家逐漸站到了台前。
國內 AI 新創團隊中,DeepSeek 已經因為 V3、R1 大型模型的創新推動了全球大型模型技術的一輪進步,而在端側模型這個方向上,受到目光聚焦的一直是面壁。
有趣的是,面壁與 DeepSeek 走的都是從硬體協同優化開始,全流程的高效率強推論大型模型道路。與 DeepSeek 著重強化模型能力上限,雲端部署方向不同的是,面壁團隊一直以來不斷探索針對端側的稀疏化方案。
提升 AI 效率,降低使用成本,是面壁智能成立的初衷。隨著 Transformer 架構成功,語言模型規模不斷擴大,人們一直在尋求更有效的模型範式,模型稀疏化被認為是一種很有前途的解決方向。面壁是國內最早探索稀疏化道路的團隊,其研究一直在引領業界。
早在 2019 年,面壁創始團隊就開始探索稀疏 FFN 方面的工作,其研究被 Google、Apple 等公司跟進。
2021 年 6 月,該團隊參與發布了千億參數級高效易用大型 MoE 模型 CPM-2。同年,面壁團隊在《MoEfication:Transformer Feed-forward layers are Mixtures of Experts》工作中提出將稠密模型轉化為等參數量的 MoE 模型能夠實現大幅度推論加速。
2024 年 7 月,面壁開源了 MiniCPM-S 模型,其採用稀疏啟動的方式,能夠在同等參數條件下減少大型模型的推論能耗。
去年底,清華大學、面壁團隊又提出了類腦高效稀疏架構 Configurable Foundation Model,革新了以往的 MoE 架構,強調將大型模型根據功能拆解為若干模組,透過模組的檢索、組合、更新、增長實現複雜能力。從實現的效果上看,新架構對於大型模型「知識密度」提升顯著,也對端側模型低能耗推論產生了推動作用。
從更廣泛的角度看,雖然科技巨頭紛紛在為大型模型加碼雲端算力設施,但能將先進模型部署在端側,引入全球超過 70 億智慧型手機,以及未來的 AI PC、智能車載系統,其重要性同樣不言而喻。
有趣的是,在最近一系列研究中,面壁研究人員已經總結出了大型模型的密度定律「Densing Law」,認為隨著技術的不斷演進,語言模型的能力密度平均每 100 天翻一番,人們還可以不斷訓練出運算更高效、效能更強大的基礎大型模型。
MiniCPM-4.0 將 AI 能力密度推進到了更高的節點,與 DeepSeek R1 在模型能力上的高點遙相呼應。
朝著這個方向,面壁計畫會在近期繼續推出更多 MiniCPM 系列基礎模型,以及多模態模型。
下一代小鋼炮,還會為我們帶來更大的驚喜。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com