NeurIPS'25！AutoPrune：即插即用的自適應大模型剪枝框架

論文作者 | Hanshi Wang等

編輯 | 自動駕駛之心

先前針對大型模型輕量化的 Token 剪枝論文，主要集中在 Token 重要性的度量指標（metric）上，但實驗發現，其實最基礎簡單的幾個演算法更具通用性。因此，本文從另一個維度來思考這個問題：在設定的預算（budget）下，如何為網路的每一層分配剪枝的比例。

現有方法通常是設置固定的分層（layer-wise）分配策略，要麼在解碼器（decoder）最前面直接剪完，要麼手工固定某些層的比例。然而，這顯然不是最佳解，因為輸入問題和情境的難度不同，Token 注意力集中的速度也不一樣。

針對上述問題，上海交通大學和中國科學院的團隊提出了 AutoPrune，這是一種無需訓練（training free）的複雜度自適應剪枝框架。本文提出的演算法利用解碼器淺層的視覺與文本「互資訊」（Mutual Information）來度量樣本與任務難度，然後將該數值映射為受限於預算（全局計算量預算）的羅吉斯（Logistic）保留曲線，從而為每個樣本生成層間視覺 Token 數量的保留軌跡。這樣可以在固定的計算預算下，實現動態地提前剪枝或延遲剪枝。以 LLaVA-1.5-7B 為例，剪去 89% 視覺 Token 並降低 76.8% FLOPs 的同時，仍保留 96.7% 的原始精度，相比 PDrop（CVPR）提升 9.1%。此方法同樣適用於 LLaVA-NeXT 與自動駕駛 VLA 模型。

論文標題：Each Complexity Deserves a Pruning Policy

作者單位：上交，中科院，Anyverse Intelligence

論文連結：https://arxiv.org/abs/2509.23931

程式碼連結：https://github.com/AutoLab-SAI-SJTU/AutoPrune

背景回顧

視覺語言模型（VLM）已成為多模態系統的核心，它們支援圖像描述、VQA（視覺問答）與多模態對話等任務。面向具身智慧（Embodied AI）的擴展，例如自動駕駛的 VLA（視覺語言動作）框架，將感知與控制耦合以實現端到端推理。高解析度圖像或影片被轉換為大量的視覺 Token，這會帶來顯著的顯存與延遲瓶頸。因此，在即時情境下，高效、簡潔且無需訓練的剪枝技術尤為重要。

先前的工作普遍觀察到在解碼器後期，視覺 Token 的資訊貢獻顯著衰減。然而，作者發現現有演算法在設定每層裁剪比例時，通常採用固定的策略。這種形式一方面缺乏全局計算預算約束，另一方面需要手工調整參數以滿足目標 Token 數或 FLOPs 預算，且泛化性有限。對於需要多步驟推理與動態跨模態交互的任務（如 VQA），固定策略難以適配樣本與任務差異。如圖中所示，我們的分析顯示 Token 重要性的層間變化隨輸入圖像與提問問題的難度而變化。

如果對比人類的觀察和思考特點，我們發現人類在問題表達明確和情境簡單時會快速收斂到目標；在表達含糊和情境複雜時，則需要在前額頂葉網路中維持多種假設並多次視線轉移。與此對應，我們對 VLM 的分析顯示：簡單樣本（指問題和情境都比較簡單）在淺層即可迅速收斂跨模態注意力；複雜樣本在層間呈現更強的顯著性波動與更分散的注意。這表明單一固定的分層分配剪枝策略難以滿足多樣的推理需求。

針對這個問題，我們提出「複雜度自適應剪枝」（Complexity-Adaptive Pruning），為每個輸入分配個性化的剪枝策略。我們從解碼器淺層的視覺與文本 Token 的注意圖估計互資訊，以此作為任務和情境的複雜度指標。互資訊高意味著任務簡單，容易定位問題答案，互資訊低則意味著需要更長程的探索。在得到互資訊後，我們將該標量映射為分層的 Token 保留曲線（羅吉斯曲線），從而刻畫 Token 從探索到收斂的過程。曲線斜率與拐點由互資訊線性映射得到，映射後曲線的形狀決定了針對該樣本的裁剪策略，即對於簡單樣本時前期進行更激進的剪枝，對於複雜樣本則相反。為了保證嚴格符合給定的計算預算，我們透過計算積分並進行重標定，使曲線下面積等於給定的 Token 或 FLOPs 預算。針對不同樣本得到的羅吉斯曲線分佈如下圖所示。

關鍵貢獻

複雜度度量：從跨模態注意中直接計算視覺與文本的互資訊，以此刻畫樣本難度與任務複雜度。
預算約束的保留曲線：將互資訊映射到羅吉斯保留函數，透過解析積分並重標定，以嚴格滿足標記預算或 FLOPs 預算。
通用與即插即用：無需訓練即可接入多種 VLM 與 VLA，跨資料集與剪枝比例穩定優於現有無需訓練的方法。

演算法細節

我們將視覺 Token 的剪枝建模為帶有全局計算預算的約束最佳化問題。決策變數包含三類策略。其一是按層的 Token 分配策略，指定每層保留多少 Token；其二是 Token 選擇策略，決定具體保留哪些 Token；其三是 Token 恢復策略，規定被丟棄的 Token 如何在需要時被恢復與重映射。三類策略在統一的計算預算約束下聯合最佳化，並以期最小化期望損失。

我們重點優化按層分配策略。以往方法要麼對所有任務使用統一的策略，無法適配不同的視覺文本需求；要麼逐層獨立調節，缺乏全局預算約束，常導致剪枝不足與加速比有限的問題。我們的做法是在全局範圍動態分配各層 Token 預算，嚴格滿足總計算約束，從而同時獲得自適應性與穩定的加速收益。

基於認知神經科學與視覺化分析，我們發現跨模態注意隨任務難度呈現兩種規律。簡單任務在淺層迅速收斂，非相關區域的注意力快速塌縮。複雜任務在多層間發生顯著的注意力遷移與擴散，需要更長的探索過程。因此有效的剪枝應遵循動態且全局一致的軌跡，而非單一策略。為實現動態而可控的剪枝，我們提出 AutoPrune，並以早期視覺與文本 Token 的互資訊作為複雜度指標。互資訊高時表示對齊強，屬於簡單任務，允許在淺層更激進地去冗，並將計算資源保留給深層。互資訊低時表示對齊弱，屬於複雜任務，需要更保守的保留策略，以確保關鍵證據在更深層被利用。

我們將複雜度指標映射為受預算約束的羅吉斯保留曲線。曲線在網路深度區間進行解析積分並重標定，使曲線下面積等於給定的 Token 預算或 FLOPs 預算。在實際中，對於離散問題，我們對每層的目標保留數取整，並用二分搜尋調整全局尺度因子，使累積成本與預算嚴格一致，無需逐層手工調整參數。

為得到真正的複雜度自適應策略，我們讓羅吉斯曲線的斜率與拐點線性依賴於互資訊。互資訊高時，曲線在淺層快速下降，便於盡早去冗並將計算留給深層。互資訊低時，曲線前段保持平整，並將快速下降延後到更深層，避免過早丟失關鍵資訊。該參數化直接把複雜度訊號映射為樣本與任務專屬的剪枝策略。

在實現開銷方面，額外成本主要來自互資訊估計、曲線生成與層內排序。總體時間複雜度與特徵維度無關。在常見配置下，這一開銷相對於整體推理成本可以忽略，具備工程可行性。

實驗效果

LLaVA-1.5-7B：保留 64 Token 時，依然保持 96.7% 的原始精度，FLOPs 降至 23.2%，中等剪枝下幾乎無損。

LLaVA-NeXT-7B：在 640、320、160 Token 預算下均優於對比方法，160 預算時仍保留 94.9% 性能。

VLA 自動駕駛規劃：在 Senna 與自定義 nuScenes 任務中，在不同的 Token 保留率下均優於基準（baseline）方法，有時甚至超過未剪枝模型，顯示剪除雜訊標記的正向效應。

結論

本文提出了「複雜度自適應剪枝 AutoPrune」這個無需訓練的新框架，用以緩解 VLM 中長視覺序列帶來的計算負擔。受認知神經科學啟發，AutoPrune 透過早期視覺與文本 Token 之間的互資訊來量化樣本與任務的複雜度，並將其映射為受預算約束的個性化羅吉斯保留曲線，從而決定解碼器各層的 Token 剪枝策略。大量實驗表明，AutoPrune 簡單、可泛化且效果顯著，能夠支持高效的即時多模態推理與具身智慧。我們的研究還揭示了注意力分佈的細微差異，這一點在相關工作中也有所觀察。儘管 Token 重要性總體上隨解碼器深度增加而下降，我們的結果（見圖 1）顯示深層有時會保留比淺層更關鍵的 Token。儘管本文推進了針對不同樣本的逐層剪枝，但仍有進一步研究的空間，例如使策略能夠動態匹配跨網路深度變化的關鍵性 Token 分布。

NeurIPS'25！AutoPrune：即插即用的自適應大模型剪枝框架

背景回顧

關鍵貢獻

演算法細節

實驗效果

結論

分享短網址