中國團隊訓練出「脈衝大模型」，推理速度提升100倍

中科院自動化所最近發布了一個突破性專案：SpikingBrain，號稱是「類腦大模型」。

簡單來說，就是將大腦神經元的工作方式引入AI模型。人腦神經元是「不活化就不工作」的，有訊號時才會放電，這就是所謂的「脈衝」（Spiking）機制。

傳統的Transformer模型有個致命問題：序列越長，計算量呈平方級增長。處理一本書的內容，可能要等上半天。

SpikingBrain採用了三種方法解決這個問題：

1. 線性注意力機制將原本O(n²)的計算複雜度降到O(n)。處理100萬個token，原本需要計算1萬億次，現在只需100萬次。

2. 脈衝編碼將連續的數值變成離散的脈衝。例如數字5，不是直接計算5 × 權重，而是發出5個脈衝，每個脈衝只進行加法。據測算，這能節省97.7%的能耗。

3. 混合專家（MoE）76B參數的模型，每次只活化12B。就像人腦不同區域負責不同功能，並非所有神經元都同時工作。

他們發布了兩個模型：

在4M token（約400萬字）的輸入下，7B模型的首字生成時間（TTFT）比原版Qwen2.5快了100倍以上。1秒對比100秒，差距非常巨大。

更有趣的是，他們只用了150B token進行訓練（原模型需要10T），相當於2%的資料量，但效能達到了原模型的90%。

這個專案還有個特殊意義：全程在沐曦（MetaX）的國產GPU上訓練。

沐曦C550 GPU叢集連續運作兩週沒有中斷，訓練了76B參數的模型。這證明了非NVIDIA平台也能訓練大型模型。

他們改寫了大量CUDA程式碼，適配了Triton運算子，還專門最佳化了通訊框架。MFU（模型浮點利用率）達到23.4%，在國產硬體上算是相當不錯的成績。

這項技術最適合兩個情境：

1. 超長文本處理法律文書、學術論文、小說創作這類需要處理幾十萬字的應用，速度優勢非常明顯。

2. 邊緣設備部署他們將1B模型部署到CPU上，在256k序列長度下速度提升15倍。手機、嵌入式設備都能執行。

這項工作有幾點值得思考：

首先，不一定要死守Transformer。線性注意力雖然理論上不如二次注意力精確，但實際應用中差距沒有那麼大。

其次，生物啟發還是有用的。大腦用100瓦功率就能思考，GPU動輒幾千瓦，差距實在太大了。脈衝機制提供了一個降低功耗的思路。

最後，國產替代不再是夢想。雖然和NVIDIA仍有差距，但至少證明了可行性。