中國團隊訓練出「脈衝大模型」,推理速度提升100倍

中科院自動化所最近發布了一個突破性專案:SpikingBrain,號稱是「類腦大模型」。

簡單來說,就是將大腦神經元的工作方式引入AI模型。人腦神經元是「不活化就不工作」的,有訊號時才會放電,這就是所謂的「脈衝」(Spiking)機制。

傳統的Transformer模型有個致命問題:序列越長,計算量呈平方級增長。處理一本書的內容,可能要等上半天。

SpikingBrain採用了三種方法解決這個問題:

1. 線性注意力機制將原本O(n²)的計算複雜度降到O(n)。處理100萬個token,原本需要計算1萬億次,現在只需100萬次。

2. 脈衝編碼將連續的數值變成離散的脈衝。例如數字5,不是直接計算5 × 權重,而是發出5個脈衝,每個脈衝只進行加法。據測算,這能節省97.7%的能耗。

3. 混合專家(MoE)76B參數的模型,每次只活化12B。就像人腦不同區域負責不同功能,並非所有神經元都同時工作。

他們發布了兩個模型:

  • SpikingBrain-7B:純線性模型
  • SpikingBrain-76B:混合模型(實際活化12B)

在4M token(約400萬字)的輸入下,7B模型的首字生成時間(TTFT)比原版Qwen2.5快了100倍以上。1秒對比100秒,差距非常巨大。

更有趣的是,他們只用了150B token進行訓練(原模型需要10T),相當於2%的資料量,但效能達到了原模型的90%。

這個專案還有個特殊意義:全程在沐曦(MetaX)的國產GPU上訓練。

沐曦C550 GPU叢集連續運作兩週沒有中斷,訓練了76B參數的模型。這證明了非NVIDIA平台也能訓練大型模型。

他們改寫了大量CUDA程式碼,適配了Triton運算子,還專門最佳化了通訊框架。MFU(模型浮點利用率)達到23.4%,在國產硬體上算是相當不錯的成績。

這項技術最適合兩個情境:

1. 超長文本處理法律文書、學術論文、小說創作這類需要處理幾十萬字的應用,速度優勢非常明顯。

2. 邊緣設備部署他們將1B模型部署到CPU上,在256k序列長度下速度提升15倍。手機、嵌入式設備都能執行。

這項工作有幾點值得思考:

首先,不一定要死守Transformer。線性注意力雖然理論上不如二次注意力精確,但實際應用中差距沒有那麼大。

其次,生物啟發還是有用的。大腦用100瓦功率就能思考,GPU動輒幾千瓦,差距實在太大了。脈衝機制提供了一個降低功耗的思路。

最後,國產替代不再是夢想。雖然和NVIDIA仍有差距,但至少證明了可行性。

主標籤:人工智慧

次標籤:類腦計算中國科技運算效率大型語言模型


上一篇:NeurIPS'25!AutoPrune:即插即用的自適應大模型剪枝框架

下一篇:剛才,GPT-5首次通過「哥德爾測試」!破解三大數學猜想

分享短網址