NeurIPS'25!AutoPrune:即插即用的自適應大模型剪枝框架

論文作者 | Hanshi Wang等

編輯 | 自動駕駛之心

先前針對大型模型輕量化的 Token 剪枝論文,主要集中在 Token 重要性的度量指標(metric)上,但實驗發現,其實最基礎簡單的幾個演算法更具通用性。因此,本文從另一個維度來思考這個問題:在設定的預算(budget)下,如何為網路的每一層分配剪枝的比例。

現有方法通常是設置固定的分層(layer-wise)分配策略,要麼在解碼器(decoder)最前面直接剪完,要麼手工固定某些層的比例。然而,這顯然不是最佳解,因為輸入問題和情境的難度不同,Token 注意力集中的速度也不一樣。

針對上述問題,上海交通大學和中國科學院的團隊提出了 AutoPrune,這是一種無需訓練(training free)的複雜度自適應剪枝框架。本文提出的演算法利用解碼器淺層的視覺與文本「互資訊」(Mutual Information)來度量樣本與任務難度,然後將該數值映射為受限於預算(全局計算量預算)的羅吉斯(Logistic)保留曲線,從而為每個樣本生成層間視覺 Token 數量的保留軌跡。這樣可以在固定的計算預算下,實現動態地提前剪枝或延遲剪枝。以 LLaVA-1.5-7B 為例,剪去 89% 視覺 Token 並降低 76.8% FLOPs 的同時,仍保留 96.7% 的原始精度,相比 PDrop(CVPR)提升 9.1%。此方法同樣適用於 LLaVA-NeXT 與自動駕駛 VLA 模型。

論文標題:Each Complexity Deserves a Pruning Policy

作者單位:上交,中科院,Anyverse Intelligence

論文連結:https://arxiv.org/abs/2509.23931

程式碼連結:https://github.com/AutoLab-SAI-SJTU/AutoPrune

背景回顧

視覺語言模型(VLM)已成為多模態系統的核心,它們支援圖像描述、VQA(視覺問答)與多模態對話等任務。面向具身智慧(Embodied AI)的擴展,例如自動駕駛的 VLA(視覺語言動作)框架,將感知與控制耦合以實現端到端推理。高解析度圖像或影片被轉換為大量的視覺 Token,這會帶來顯著的顯存與延遲瓶頸。因此,在即時情境下,高效、簡潔且無需訓練的剪枝技術尤為重要。

先前的工作普遍觀察到在解碼器後期,視覺 Token 的資訊貢獻顯著衰減。然而,作者發現現有演算法在設定每層裁剪比例時,通常採用固定的策略。這種形式一方面缺乏全局計算預算約束,另一方面需要手工調整參數以滿足目標 Token 數或 FLOPs 預算,且泛化性有限。對於需要多步驟推理與動態跨模態交互的任務(如 VQA),固定策略難以適配樣本與任務差異。如圖中所示,我們的分析顯示 Token 重要性的層間變化隨輸入圖像與提問問題的難度而變化。

圖片

如果對比人類的觀察和思考特點,我們發現人類在問題表達明確和情境簡單時會快速收斂到目標;在表達含糊和情境複雜時,則需要在前額頂葉網路中維持多種假設並多次視線轉移。與此對應,我們對 VLM 的分析顯示:簡單樣本(指問題和情境都比較簡單)在淺層即可迅速收斂跨模態注意力;複雜樣本在層間呈現更強的顯著性波動與更分散的注意。這表明單一固定的分層分配剪枝策略難以滿足多樣的推理需求。

針對這個問題,我們提出「複雜度自適應剪枝」(Complexity-Adaptive Pruning),為每個輸入分配個性化的剪枝策略。我們從解碼器淺層的視覺與文本 Token 的注意圖估計互資訊,以此作為任務和情境的複雜度指標。互資訊高意味著任務簡單,容易定位問題答案,互資訊低則意味著需要更長程的探索。在得到互資訊後,我們將該標量映射為分層的 Token 保留曲線(羅吉斯曲線),從而刻畫 Token 從探索到收斂的過程。曲線斜率與拐點由互資訊線性映射得到,映射後曲線的形狀決定了針對該樣本的裁剪策略,即對於簡單樣本時前期進行更激進的剪枝,對於複雜樣本則相反。為了保證嚴格符合給定的計算預算,我們透過計算積分並進行重標定,使曲線下面積等於給定的 Token 或 FLOPs 預算。針對不同樣本得到的羅吉斯曲線分佈如下圖所示。

圖片

關鍵貢獻

  • 複雜度度量:從跨模態注意中直接計算視覺與文本的互資訊,以此刻畫樣本難度與任務複雜度。

  • 預算約束的保留曲線:將互資訊映射到羅吉斯保留函數,透過解析積分並重標定,以嚴格滿足標記預算或 FLOPs 預算。

  • 通用與即插即用:無需訓練即可接入多種 VLM 與 VLA,跨資料集與剪枝比例穩定優於現有無需訓練的方法。

演算法細節

我們將視覺 Token 的剪枝建模為帶有全局計算預算的約束最佳化問題。決策變數包含三類策略。其一是按層的 Token 分配策略,指定每層保留多少 Token;其二是 Token 選擇策略,決定具體保留哪些 Token;其三是 Token 恢復策略,規定被丟棄的 Token 如何在需要時被恢復與重映射。三類策略在統一的計算預算約束下聯合最佳化,並以期最小化期望損失。

我們重點優化按層分配策略。以往方法要麼對所有任務使用統一的策略,無法適配不同的視覺文本需求;要麼逐層獨立調節,缺乏全局預算約束,常導致剪枝不足與加速比有限的問題。我們的做法是在全局範圍動態分配各層 Token 預算,嚴格滿足總計算約束,從而同時獲得自適應性與穩定的加速收益。

圖片

基於認知神經科學與視覺化分析,我們發現跨模態注意隨任務難度呈現兩種規律。簡單任務在淺層迅速收斂,非相關區域的注意力快速塌縮。複雜任務在多層間發生顯著的注意力遷移與擴散,需要更長的探索過程。因此有效的剪枝應遵循動態且全局一致的軌跡,而非單一策略。為實現動態而可控的剪枝,我們提出 AutoPrune,並以早期視覺與文本 Token 的互資訊作為複雜度指標。互資訊高時表示對齊強,屬於簡單任務,允許在淺層更激進地去冗,並將計算資源保留給深層。互資訊低時表示對齊弱,屬於複雜任務,需要更保守的保留策略,以確保關鍵證據在更深層被利用。

我們將複雜度指標映射為受預算約束的羅吉斯保留曲線。曲線在網路深度區間進行解析積分並重標定,使曲線下面積等於給定的 Token 預算或 FLOPs 預算。在實際中,對於離散問題,我們對每層的目標保留數取整,並用二分搜尋調整全局尺度因子,使累積成本與預算嚴格一致,無需逐層手工調整參數。

為得到真正的複雜度自適應策略,我們讓羅吉斯曲線的斜率與拐點線性依賴於互資訊。互資訊高時,曲線在淺層快速下降,便於盡早去冗並將計算留給深層。互資訊低時,曲線前段保持平整,並將快速下降延後到更深層,避免過早丟失關鍵資訊。該參數化直接把複雜度訊號映射為樣本與任務專屬的剪枝策略。

在實現開銷方面,額外成本主要來自互資訊估計、曲線生成與層內排序。總體時間複雜度與特徵維度無關。在常見配置下,這一開銷相對於整體推理成本可以忽略,具備工程可行性。

實驗效果

  • LLaVA-1.5-7B:保留 64 Token 時,依然保持 96.7% 的原始精度,FLOPs 降至 23.2%,中等剪枝下幾乎無損。

圖片

  • LLaVA-NeXT-7B:在 640、320、160 Token 預算下均優於對比方法,160 預算時仍保留 94.9% 性能。

圖片

  • VLA 自動駕駛規劃:在 Senna 與自定義 nuScenes 任務中,在不同的 Token 保留率下均優於基準(baseline)方法,有時甚至超過未剪枝模型,顯示剪除雜訊標記的正向效應。

圖片

結論

本文提出了「複雜度自適應剪枝 AutoPrune」這個無需訓練的新框架,用以緩解 VLM 中長視覺序列帶來的計算負擔。受認知神經科學啟發,AutoPrune 透過早期視覺與文本 Token 之間的互資訊來量化樣本與任務的複雜度,並將其映射為受預算約束的個性化羅吉斯保留曲線,從而決定解碼器各層的 Token 剪枝策略。大量實驗表明,AutoPrune 簡單、可泛化且效果顯著,能夠支持高效的即時多模態推理與具身智慧。我們的研究還揭示了注意力分佈的細微差異,這一點在相關工作中也有所觀察。儘管 Token 重要性總體上隨解碼器深度增加而下降,我們的結果(見圖 1)顯示深層有時會保留比淺層更關鍵的 Token。儘管本文推進了針對不同樣本的逐層剪枝,但仍有進一步研究的空間,例如使策略能夠動態匹配跨網路深度變化的關鍵性 Token 分布。

主標籤:深度學習模型

次標籤:模型輕量化自適應演算法剪枝技術視覺語言模型


上一篇:細胞世界的「高速公路」:揭密微小紋路如何讓混亂的細胞群自發排隊,走向有序

下一篇:中國團隊訓練出「脈衝大模型」,推理速度提升100倍

分享短網址