Mamba 架構登上頂級會議 ICLR 2026,AI 大腦核心 Transformer 的王座還能坐穩嗎?

Transformer 統治了 AI 大模型領域。有人認為,實現 AGI,Transformer 就夠了!

還有人認為,還需要幾次底層架構革新。例如,華為《智慧世界-2035》報告裡就曾提及。

隨著模型訓練、部署規模和計算需求的爆炸式增長,我們發現,算力與能源需求就像無底洞。那麼,該如何才能讓 AI 既聰明、又便宜,還能跑得快?

Transformer 架構的計算複雜度與序列長度的平方成正比。若要處理的文本長度增加一倍,計算量就要翻四倍。同時,它的記憶體佔用也隨著序列長度線性增長。用它來實現 AGI,所需的能源與算力需求簡直難以想像。

學術界和工業界都在尋找出路。

Mamba 登上了舞台。Mamba-3 目前正在頂級會議 ICLR 2026 接受雙盲審查。

圖片

它沒有選擇在 Transformer 的框架上修修補補,而是另闢蹊徑,從一個更古老也更基礎的理論——狀態空間模型(SSM)中找到了靈感。

Mamba-3 的故事,本質上是一個關於效率與智慧的權衡與進化。它從推論效率這個最實際、最要命的問題出發,引入了三個改進:一個更具表現力的遞迴方式,一套更聰明的狀態更新規則,以及一個更能榨乾硬體性能的多輸入多輸出(MIMO)架構。

Mamba-3 到底玩了什麼新花樣?它又如何與 Transformer 競爭呢?

萬丈高樓平地起

要理解 Mamba-3 的精妙,先聊聊什麼是狀態空間模型(SSM)。

這個概念最早並不是為自然語言處理(NLP)準備的,它的老本行是預測連續變化的系統,比如電路裡的訊號,氣象雲圖的變幻,或者一個運動物體的飛行軌跡。從數學和概念上講,它和遞歸神經網路(RNN)是近親,都是那種一步一步處理序列,並保留一個「記憶」來影響下一步決策的模型。

顧名思義,SSM 的核心是「狀態空間」。你可以把它想像成一個描述系統當前所有狀況的快照,裡面包含了所有關鍵變數。SSM 的工作就是接收一個輸入序列 x(t),把它映射到一個看不見的潛在狀態 h(t),這個 h(t) 就好像是 RNN 裡的隱藏狀態,然後根據這個狀態預測出輸出 y(t)。

所有 SSM 都圍繞著兩個核心方程式運轉:

  • 狀態方程式h'(t)=A*h(t)+B*x(t)

  • 輸出方程式y(t)=C*h(t)+D*x(t)

這裡的 A, B, C, D 四個參數,通常是權重矩陣,它們定義了系統的動態。在控制理論這些傳統領域,這些矩陣是固定的,代表一個已知的系統。而在深度學習裡,它們變成了需要透過訓練來最佳化的參數,由神經網路的可學習權重來表示。

SSM 的經典型態是為連續訊號設計的,但我們處理的文本、圖片、聲音,在電腦裡都是離散的資料。這就需要一個「離散化」的步驟。

你可以把離散化想像成對一個連續流動的訊號進行週期性取樣。這個過程引入了一個新參數,叫做步長(Δ),它決定了我們多久取一次樣。離散化的方法有很多種,但包括 Mamba 在內的大多數現代 SSM 都用了一種簡單的方式,叫零階保持(ZOH)。

經過離散化,SSM 就能像 RNN 一樣處理序列資料了。

但是,早期的離散 SSM 並不實用,因為它繼承了 RNN 的一些老毛病,比如訓練效率低,而且記性不好,很難捕捉序列裡距離很遠的兩個元素之間的關係,也就是所謂的「長距離依賴」問題。

轉機出現在 2021 年,一個叫 Albert Gu 的研究者和他的同事們提出了結構化狀態空間序列模型,簡稱 S4。這個工作為後來的 Mamba 鋪平了道路。

S4 模型做了兩件大事。

第一是透過卷積實現高效訓練。離散 SSM 雖然在推論時像 RNN 一樣快,但訓練起來卻奇慢無比。S4 的作者們發現,由於 SSM 只涉及線性的加法和乘法運算,這一連串的遞迴操作可以展開成一個一維的卷積核。這個卷積核可以直接把輸入序列 x 一步到位地映射到輸出 y。而卷積運算,可以使用一種叫「快速傅立葉變換」的演算法來高效計算。

這就帶來了一個絕妙的好處:在訓練時,當整個輸入序列都已知的情況下,S4 可以像一個卷積神經網路(CNN)一樣,平行地、高效地進行計算;而在推論時,當我們需要一個一個地生成 token 時,它又可以變回 RNN 的型態,享受極快的速度和極低的記憶體佔用。兩全其美。

第二是透過結構化矩陣解決長記性問題。為了讓 SSM 能夠記住更久遠的資訊,S4 沒有像常規的機器學習模型那樣隨機初始化它的權重矩陣 A 和 B,而是採用了一種叫 HiPPO 的技術,從特殊的正交多項式(比如勒讓德多項式)推導出矩陣的結構。這種特殊的初始化方式,就像給模型裝上了一個記憶增強外掛,使得它在處理長序列時的性能飆升。

S4 的後續變種,比如 DSS, S5,以及我們今天的主角 Mamba 系列,雖然在具體的初始化方案上有所不同,但都保留了 HiPPO 的核心思想:給矩陣 A 和 B 施加某種結構,通常是對角結構,來保證模型能夠穩定地更新狀態,並記住長期的依賴關係。

Mamba 的進化之路

2023 年,Tri Dao 和 Albert Gu(又是他)在論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了 Mamba 架構。這是第一個在語言建模上,能與 Transformer 正面抗衡的架構。

Mamba 的核心創新有兩個。

第一個叫「選擇性狀態空間模型」。它給傳統的 SSM 裝上了一個「選擇」開關,讓模型能夠根據當前輸入的重要性,動態地決定要記住哪些歷史資訊,忽略哪些歷史資訊。這個能力,以前被認為是 Transformer 自注意力機制的專利。

第二個叫「硬體感知平行掃描」。這是一個非常工程化的最佳化,它專門針對現代圖形處理單元(GPU)的計算特性,設計了一種高效的演算法來處理 SSM 的遞迴計算,最大限度地利用硬體資源。

一年後,還是這兩位作者,又發表了一篇論文,進一步探討了 SSM 和 Transformer 之間的深層聯繫,並提出了壹個更快更強的改進版,Mamba-2。

Mamba-2 發現一大類 SSM 的計算過程,可以等價地表示為一種帶遮罩的矩陣乘法。這個發現,使得 Mamba-2 可以利用矩陣乘法的高效實現,訓練速度比 Mamba-1 提升了 50%。同時,它還支援了更大的狀態維度,讓模型能夠處理更複雜的任務,尤其是在長序列上。

現在,故事發展到了 Mamba-3。

圖片

Mamba-3 是在 Mamba-2 的基礎上,從推論效率這個角度出發,做出的又一次進化。它帶來了三個核心的方法論改進。

第一個叫「梯形離散化」。它用一種更精確的數學方法(梯形法則)來替代之前 Mamba-2 裡相對粗糙的方法(歐拉法則),來完成從連續訊號到離散序列的轉換。這個改進讓模型的遞迴更新變得更具表現力。

第二個叫「複雜狀態空間模型」。它透過引入複數來定義 SSM,使得模型的狀態更新能力大大增強,解決了許多線性模型在處理一些需要精確狀態追蹤的任務(比如數數的奇偶性)時能力不足的問題。

第三個叫「多輸入多輸出 SSM」。這是一個純粹為了提升解碼速度和硬體效率的設計。它將原本基於外積的狀態更新,改為基於矩陣乘法的更新,極大地提高了計算的「算術強度」,讓 GPU 不再「挨餓」。

Mamba-3 的新花樣

更精確的離散化:梯形法則

結構化 SSM 在理論上被定義為一個連續時間系統,但實際處理的資料都是離散的。從連續到離散的轉換,也就是離散化,是關鍵一步。

Mamba-2 用的是歐拉法則,你可以把它想像成用一個矩形的面積去近似一段曲線下的面積,它只考慮了區間的終點值。這種方法的誤差是 O(Δt²),雖然簡單,但精確度不夠。

Mamba-3 換用了一種更高級的方法:廣義梯形法則。它不再是簡單地用矩形去近似,而是用一個梯形,同時考慮了區間的起點和終點,用一個資料相關的凸組合來連接它們。這種方法的誤差降低到了 O(Δt³),精度整整提高了一個數量級。

圖片

Mamba-3 在進行狀態更新時,不僅考慮了當前時間步的輸入,還回看了一眼上一個時間步的輸入。這個小小的「回眸」,讓模型對序列動態的捕捉能力變得更加細膩和強大。

這個改進不僅提升了模型的表現力,還使得 Mamba-3 不再需要之前很多線性模型都依賴的一個組件——短因果卷積。這讓整個模型架構變得更加簡潔和統一。

更聰明的狀態更新:複數與旋轉

現代 SSM 為了追求效率,一直在簡化其核心的狀態轉移矩陣。S4 模型用的是複雜的「正規加低秩」矩陣,Mamba 把它簡化為實數對角矩陣,Mamba-2 更是簡化到了一個純量。這些簡化在語言建模任務上沒有帶來明顯的性能下降,但也削弱了模型在一些簡單狀態追蹤任務上的能力。

比如,判斷一個二進位序列裡「1」的個數是奇數還是偶數(奇偶性任務)。這個任務對於單層的 LSTM(長短期記憶網路)來說是小菜一碟,但對於狀態轉移矩陣只有實數特徵值的 Mamba-2 來說,卻難如登天。

原因在於,實數特徵值只能表示狀態的「伸縮」和「翻轉」,無法表示「旋轉」。而像奇偶性這樣的任務,其內在的狀態轉換恰恰是週期性的,就像一個開關在「開」和「關」之間切換,這在數學上最自然的表示就是旋轉。

Mamba-3 為了恢復這種能力,引入了複數。

它證明了,一個複數值的 SSM,在離散化後,等價於一個狀態維度加倍的實數值 SSM,其狀態轉移矩陣由一系列 2x2 的旋轉矩陣塊構成。

更進一步,它還證明了,這種旋轉操作可以被等效地「吸收」到輸入和輸出的投影矩陣 B 和 C 中。這最終導向了一個驚人的結論:使用複數 SSM,等價於在一個普通的、基於純量轉移的 SSM 的輸入(B)和輸出(C)上,應用了一種資料相關的旋轉位置嵌入(RoPE)。

RoPE 在很多大模型(比如 Llama)裡都在用,它透過給詞向量注入絕對或相對的位置資訊來幫助模型理解語序。Mamba-3 在這裡做的,是把 RoPE 從一個「資料無關」的、固定的位置編碼,變成了一個「資料相關」的、動態的狀態旋轉器。

這個被作者稱為「RoPE 技巧」的實現,讓 Mamba-3 用極小的計算開銷,就獲得了強大的狀態追蹤能力,能夠輕鬆解決奇偶性、模運算等 Mamba-2 無法完成的任務。

更極致的硬體效率:從外積到矩陣乘法

在自迴歸生成(也就是一個詞一個詞地往外蹦)的場景下,性能通常用每秒生成的 token 數(TPS)來衡量。在這個指標上,像 Mamba 這樣的模型,因為只有一個固定大小的隱藏狀態,而不需要像 Transformer 那樣維護一個隨序列長度線性增長的 KV 緩存,所以具有天然的優勢。

但是,TPS 這個指標沒有考慮到硬體效率。一個更底層的指標是「算術強度」,它定義為一次操作的浮點運算次數(FLOPs)與為此移動的資料位元組數的比值。

現代的 GPU,就像一個超級強大的計算工廠,它的計算能力(ops)遠遠超過了它的資料搬運能力(byte)。如果算術強度太低,GPU 就會把大量時間浪費在等待資料從記憶體裡搬運過來的路上,而不是在真正地進行計算。這種情況,我們稱之為「記憶體受限」。

Mamba-2 的狀態更新是一個外積操作。它的算術強度是一個常數,遠低於現代 GPU 的理想值。這意味著,在解碼時,Mamba-2 並不能充分發揮出 GPU 的威力。

Mamba-3 做了一個看似簡單卻異常有效的改動。它把狀態更新從外積改成了矩陣乘法。

這在訊號處理的語境裡,恰好對應著從單輸入單輸出(SISO)系統到多輸入多輸出(MIMO)系統的泛化。

圖片

在 MIMO 公式下,算術強度與一個新引入的秩 r 成正比。透過調整 r 的大小,我們就可以靈活地提高算術強度,將解碼過程從「記憶體受限」推向「計算受限」,從而更充分地利用硬體,獲得更高的 TPS。這個過程甚至不增加推論時的記憶體佔用(狀態 H 的大小不變)。

這三板斧,共同構成了 Mamba-3 的核心混合器(Mixer)原語。整個 Mamba-3 的架構也進行了一些調整,交替使用 Mamba-3 塊和 SwiGLU 塊,並採用了預歸一化。

架構性能大比拼

在語言建模性能上,論文作者們使用 FineWeb-Edu 資料集的 1000 億個 token,對 Mamba-3 以及 Transformer、Gated DeltaNet 和 Mamba-2 等基準模型,在 180M、440M、820M 和 1.5B 四種不同參數規模上進行了預訓練。

結果顯示,在所有模型規模上,Mamba-3 在各種下游任務上的表現都全面領先。

圖片

在檢索能力方面,也就是從長文本中精確查找資訊的能力,Transformer 由於其可以無損回顧所有歷史資訊的 KV 緩存機制,仍然具有優勢。這是所有固定狀態大小模型的共同短板。

實驗表明,Mamba-3 在關聯回憶和問答這類任務上表現不錯,但在需要從半結構化或非結構化資料中提取資訊的任務上表現不佳。不過,在合成的「大海撈針」(NIAH)任務上,Mamba-3 的表現超越或持平了基準,並且展現出了比 Mamba-2 更好的泛化能力。

圖片

推理效率:

圖片

在常用的 bf16 精度和 128 狀態維度設定下,Mamba-3 的 SISO 和 MIMO 版本都比 Mamba-2 和 Gated DeltaNet 要快。

圖片

這張圖則更直觀地展示了 Mamba-3 的優勢。橫軸是狀態大小(可以看作是推論速度的代理,越小越快),縱軸是預訓練困惑度(模型性能的代理,越低越好)。Mamba-3 MIMO 版本在不增加狀態大小(也就是不犧牲速度)的前提下,將性能-效率的帕累托前沿又向前推進了一步。

最後,消融實驗驗證了 Mamba-3 各項改進的有效性。

圖片

梯形離散化和引入的偏置項協同作用,顯著提升了模型性能。而在狀態追蹤任務上,擁有 RoPE 的 Mamba-3 幾乎完美地解決了奇偶性和模運算任務,而沒有 RoPE 的 Mamba-3 和 Mamba-2 則表現得和隨機猜測差不多。

Mamba-3 的故事,是關於如何在計算效率和模型能力之間尋找更優解的探索。

在需要無損記憶和精確檢索的長文本任務上,固定大小的狀態記憶機制,依然是它相較於 Transformer 的軟肋。作者也坦言,將 Mamba-3 與外部的檢索機制相結合,建構混合架構,或許是未來的一個重要方向。

你覺得 Mamba-3 會取代 Transformer 嗎?還是一個有益的補充?

參考資料:

https://openreview.net/pdf/a4e02db9a98e8b5cb40d677e00e4c8017a282772.pdf

https://openreview.net/forum?id=HwCvaJOiCj

https://www.ibm.com/think/topics/state-space-model

https://www.ibm.com/think/topics/mamba-model

https://goombalab.github.io/blog/2024/mamba2-part1-model

https://jalammar.github.io/illustrated-transformer

主標籤:AI 架構

次標籤:Mamba深度學習狀態空間模型Transformer


上一篇:Claude Code 即將登陸 Claude App

下一篇:谷歌揭密:多代理人(Multi-Agent)推論才是擴展的未來。

分享短網址