論文著者 | Hanshi Wangなど
編集 | 自動運転之心
これまで、大規模モデルの軽量化のためのトークン剪定に関する論文は、主にトークンの重要度を測るメトリックに焦点を当ててきましたが、実験の結果、実際には最も基本的でシンプルなアルゴリズムの方が汎用性が高いことが判明しました。したがって、本論文ではこの問題を別の観点から検討します。すなわち、設定された予算(budget)の下で、ネットワークの各層にどの程度の剪定比率を割り当てるかという問題です。
既存の手法では、通常、固定された層ごとの割り当て戦略が採用されています。デコーダーの最初で集中的に剪定を完了させるか、あるいは手動で特定の層の比率を固定します。しかし、入力される問題やシナリオの難易度が異なり、トークンの注意が集中する速度も異なるため、これは明らかに最適解ではありません。
上記の問題に対し、上海交通大学と中国科学院のチームは、トレーニングフリーの複雑度適応型剪定フレームワークである AutoPrune を提案しました。本アルゴリズムでは、デコーダーの浅い層における視覚トークンとテキストトークンの「相互情報量」を用いてサンプルとタスクの難易度を測定し、その数値を予算(グローバル計算量予算)に制約されたロジスティック保持曲線にマッピングします。これにより、各サンプルに対して層ごとの視覚トークン保持軌跡が生成され、固定された計算予算の下で動的な早期剪定または遅延剪定が可能になります。LLaVA-1.5-7Bを例にとると、視覚トークンの89%を剪定し、FLOPsを76.8%削減しながらも、元の精度を96.7%維持しました。これはPDrop(CVPR)と比較して9.1%の向上です。この手法は、LLaVA-NeXTや自動運転VLAモデルにも適用可能です。
論文タイトル:Each Complexity Deserves a Pruning Policy
著者所属:上海交通大学、中国科学院、Anyverse Intelligence
論文リンク:https://arxiv.org/abs/2509.23931
コードリンク:https://github.com/AutoLab-SAI-SJTU/AutoPrune
背景の再確認
視覚言語モデル(VLM)は、マルチモーダルシステムの中核となっており、画像キャプション、VQA(視覚質問応答)、マルチモーダル対話などのタスクを支えています。自動運転向けのVLAフレームワークのような、具現化された知能(Embodied AI)への拡張は、知覚と制御を結合させ、エンドツーエンドの推論を実現します。高解像度の画像や動画が大量の視覚トークンに変換されると、顕著なメモリと遅延のボトルネックが発生します。したがって、リアルタイムのシナリオにおいては、効率的で簡潔かつトレーニングフリーの剪定が特に重要です。
以前の研究では、デコーダーの後期段階で視覚トークンの情報寄与が著しく減衰することが一般的に観察されていました。しかし、著者らは、既存のアルゴリズムが各層の剪定比率を設定する際に、通常固定された戦略を採用していることを発見しました。この形式は、グローバルな計算予算の制約を欠いているという側面がある一方、目標とするトークン数やFLOPs予算を満たすために手動でパラメータ調整が必要であり、汎用性が限られていました。VQAのような多段階推論と動的なクロスモーダル相互作用を必要とするタスクでは、固定戦略はサンプルやタスクの違いに適応することが困難です。図に示すように、我々の分析では、トークン重要度の層間変化は、入力画像と提示された質問の難易度に応じて変化することが示されています。
人間の観察と思考の特徴と比較すると、問題が明確に表現され、シナリオがシンプルな場合、人間は目標に迅速に収束します。表現が曖昧でシナリオが複雑な場合、前頭頭頂ネットワークで複数の仮説を維持し、何度も視線を移動させる必要があります。これに対応して、VLMの分析では、シンプルサンプル(問題とシナリオの両方が比較的簡単)は浅い層でクロスモーダル注意が迅速に収束することが示されています。複雑サンプルは、層間でより強い顕著性の変動と、より分散した注意を示します。これは、単一固定の層ごとの割り当て剪定戦略が多様な推論要求を満たすことが難しいことを示しています。
この問題に対処するため、我々は「複雑度適応型剪定(Complexity-Adaptive Pruning)」を提案し、各入力にパーソナライズされた剪定ポリシーを割り当てます。我々は、デコーダーの浅い層における視覚トークンとテキストトークンのアテンションマップから相互情報量を推定し、これをタスクとシナリオの複雑度の指標として使用します。相互情報量が高い場合は、アライメントが強く、シンプルなタスクに属し、問題の答えを簡単に見つけられることを意味し、浅い層でのより積極的な冗長性排除を可能にします。相互情報量が低い場合は、アライメントが弱く、複雑なタスクに属し、より長い探索プロセスが必要であることを意味します。相互情報量を取得した後、このスカラー量を層ごとのトークン保持曲線(ロジスティック曲線)にマッピングし、トークンが探索から収束に至るプロセスを描写します。曲線の傾きと変曲点は、相互情報量から線形マッピングによって導き出されます。マッピング後の曲線の形状が、そのサンプルに対する剪定戦略を決定します。すなわち、シンプルサンプルに対しては早期に積極的な剪定を行い、複雑サンプルに対しては逆の保守的な戦略をとります。与えられた計算予算に厳密に適合させるために、積分を計算し、再スケーリングを行うことで、曲線下の面積が指定されたトークンまたはFLOPs予算と等しくなるようにします。異なるサンプルに対して得られたロジスティック曲線の分布は下図の通りです。
主な貢献
複雑度の測定:クロスモーダルアテンションから視覚とテキストの相互情報量を直接計算し、これを用いてサンプル難易度とタスク複雑度を特徴づけます。
予算制約付き保持曲線:相互情報量をロジスティック保持関数にマッピングし、解析的積分と再スケーリングを通じて、トークン予算またはFLOPs予算を厳密に満たします。
汎用性とプラグアンドプレイ:トレーニング不要で多様なVLMおよびVLAに接続可能であり、既存のトレーニングフリー手法よりもデータセットや剪定比率を跨いで安定して優れています。
アルゴリズムの詳細
我々は、視覚トークンの剪定を、グローバルな計算予算を持つ制約付き最適化問題としてモデル化します。決定変数は3種類のポリシーを含みます。1つ目は、層ごとのトークン割り当てポリシーで、各層で保持するトークン数を指定します。2つ目は、トークン選択ポリシーで、具体的にどのトークンを保持するかを決定します。3つ目は、トークン回復ポリシーで、破棄されたトークンが必要な場合にどのように回復および再マッピングされるかを規定します。これら3つのポリシーは、統一された計算予算の制約の下で共同で最適化され、期待損失の最小化を目指します。
我々は、層ごとの割り当てポリシーの最適化に焦点を当てます。従来のメソッドは、すべてのタスクに統一された戦略を使用するか、異なる視覚テキスト要件に適応できないか、または層ごとに個別に調整し、グローバルな予算制約を欠き、しばしば剪定不足や限定的な高速化比率の問題につながっていました。我々のアプローチは、グローバルな範囲で各層のトークン予算を動的に割り当て、総計算制約を厳密に満たすことで、適応性と安定した高速化利益を同時に獲得します。
認知神経科学および視覚化分析に基づき、クロスモーダルアテンションがタスク難易度に応じて2つのパターンを示すことがわかりました。シンプルなタスクでは浅い層で迅速に収束し、非関連領域のアテンションは急速に崩壊します。複雑なタスクでは、複数の層間で顕著なアテンションの移行と拡散が発生し、より長い探索プロセスが必要です。したがって、効果的な剪定は、単一の戦略ではなく、動的でグローバルに一貫した軌跡に従うべきです。動的で制御可能な剪定を実現するために、我々はAutoPruneを提案し、早期の視覚トークンとテキストトークンの相互情報量を複雑度指標として使用します。相互情報量が高い場合はアライメントが強い(シンプルタスク)ことを示し、浅い層でのより積極的な冗長性排除を可能にし、計算を深い層のために残します。相互情報量が低い場合はアライメントが弱い(複雑タスク)ことを示し、重要な証拠がより深い層で活用されるように、より保守的な保持戦略が必要です。
我々は複雑度指標を予算制約付きのロジスティック保持曲線にマッピングします。曲線はネットワーク深度区間で解析的に積分され、再スケーリングされることで、曲線下の面積が与えられたトークン予算またはFLOPs予算と等しくなります。実際には、離散的な問題に対して、各層の目標保持数を丸め、二分探索を使用してグローバルスケールファクターを調整し、累積コストが予算と厳密に一致するようにします。これにより、層ごとの手動パラメータ調整が不要になります。
真に複雑度適応型の戦略を得るために、ロジスティック曲線の傾きと変曲点が相互情報量に線形に依存するようにします。相互情報量が高い場合、曲線は浅い層で急速に下降し、早期の冗長性排除を促進し、計算を深い層に残します。相互情報量が低い場合、曲線は初期段階で平坦を保ち、急速な下降を深い層に遅らせることで、重要な情報の早期喪失を防ぎます。このパラメータ化により、複雑度シグナルがサンプルおよびタスク専用の剪定ポリシーに直接マッピングされます。
実装のオーバーヘッドに関して、追加コストは主に相互情報量の推定、曲線生成、および層内のソートから生じます。全体の時間計算量は、特徴次元とは近似的に無関係です。一般的な構成では、このオーバーヘッドは全体の推論コストと比較して無視できる程度であり、エンジニアリング上の実現可能性を備えています。
実験結果
LLaVA-1.5-7B:64トークンを保持した場合でも、元の精度の96.7%を維持し、FLOPsは23.2%に減少します。中程度の剪定であれば、ほぼロスはありません。
LLaVA-NeXT-7B:640、320、160のトークン予算すべてで比較手法を上回り、160の予算でも94.9%の性能を保持します。
VLA自動運転プランニング:SennaおよびカスタムnuScenesタスクにおいて、異なるトークン保持率でベースライン手法を一貫して上回り、場合によっては未剪定モデルをも超え、ノイズマーカーを除去する正の効果を示しています。
結論
本論文では、VLMにおける長い視覚シーケンスによって生じる計算負荷を軽減するための、トレーニングフリーの新規フレームワークである複雑度適応型剪定 AutoPruneを提案しました。認知神経科学に触発され、AutoPruneは早期の視覚トークンとテキストトークンの間の相互情報量を通じてサンプルとタスクの複雑度を定量化し、それを予算制約付きのパーソナライズされたロジスティック保持曲線にマッピングすることで、デコーダーの各層におけるトークン剪定戦略を決定します。広範な実験により、AutoPruneはシンプルで汎用性が高く、顕著な効果を示し、効率的なリアルタイムのマルチモーダル推論と具現化された知能をサポートできることが証明されました。我々の研究はまた、アテンション分布の微妙な差異を明らかにしました。これは関連研究でも観察されている点です。トークンの重要性はデコーダーの深さが増すにつれて全体的に低下するものの、我々の結果(図1参照)は、深い層が浅い層よりも重要なトークンを保持することがあることを示しています。本論文は異なるサンプルに対する層ごとの剪定を推進しましたが、戦略がネットワークの深さ全体で変化する重要なトークンの分布に動的に一致できるようにするなど、さらなる研究の余地が残されています。