【DL輪読会】VisionZip: Longer is Better but Not Necessary in Vision Language Models [S. Yang+CVPR'25]

1.4K Views

September 11, 25

#Vision-Language Model #トークン圧縮 #計算効率化 #マルチモーダルAI #Transformer

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] VisionZip: Longer is Better but Not Necessary in Vision-Language Models Presenter: Yuki Kondo 2025.9.11 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

イントロダクション 1

論文概要 • 論文: ”VisionZip: Longer is Better but Not Necessary in Vision–Language Models” [CVPR’25] • 著者: Senqiao Yang1 , Yukang Chen1 , Zhuotao Tian3 , Chengyao Wang1 , Jingyao Li1 , Bei Yu1 , Jiaya Jia1,2 (1 CUHK, 2 HKUST, 3 HITSZ) • 問題: Vision-Language Model (VLM) で高解像度入力に伴い Vision トークン数が急増し，計算コストとメモリを圧迫 • 着眼: CLIP・SigLIP 由来の Vision トークンには大きな冗長性が存在 • 提案: VisionZip - text-agnostic な三段階圧縮手法 – 重要トークン選択 + 類似トークン統合 + 軽量ファインチューニング – トークン数を最大 90% 削減しながら 95% 以上の精度を維持 2

背景：VLM における計算量問題 • 一般的な VLM アーキテクチャ: Vision Encoder → Projector → LLM • Vision トークンの爆発的増加: – LLaVA-1.5: 576 tokens – LLaVA-NeXT: 672×672 画像で 2880 tokens（テキストの 20 倍以上） • 計算複雑度: Total FLOPs = T × (4nd2 + 2n2 d + 2ndm) – T: Transformer 層数, n: シーケンス長, d: 隠れ次元, m: 中間サイズ – n = nsys + nimg + nquestion で nimg が支配的 – Self-Attention & FFN ともに O(n2 ) に比例 • 実用上の課題: ロボティクスなどリソース制約環境でのボトルネック 3

冗長性の観察：Pilot Study • 解析対象: CLIP, SigLIP の-2 層（後ろから 2 番目）で Attention を分析 • 観察結果: – わずか 10% 前後の Vision トークンが大半の Attention を受け取る – 大部分のトークンは極めて低い重み（0.05 以下）に張り付く – TextVQA 検証セット全体でも同様の分布を確認 • 洞察: 冗長トークンは情報量が乏しく，推論時にノイズとして働く可能性 4

Research Question & 既存手法の限界 • Research Question: ”Are all visual tokens necessary?” • 既存アプローチの問題点: – ハードウェア拡張: GPU 拡張・量子化で対処 → 根本解決でない – FastV/SparseVLM: text-relevant 選択で質問依存 → マルチターンで劣化 – 実装負荷: LLM 層ごとに重み改変が必要 • VisionZip の着眼点: – トークン自体の冗長性を除去 – text-agnostic に情報量で選択 → マルチターン対応 – Encoder 出力と Projector だけを操作 → プラグ & プレイ 5

提案手法 6

VisionZip の全体構成 • 三段階の Informative Vision Token Zip (IVTZ): 1. Dominant Token Selection: 情報量最大の Vision トークンを選択 2. Contextual Token Merging: 残余トークンを意味保持しつつ縮約 3. Eﬀicient Tuning: Vision-Language ミスマッチを軽量補正 • 最終的に 2144 tokens → 160 tokens への大幅圧縮を実現 7

Step 1: Dominant Token Selection • 選択層の根拠: Vision Encoder の-2 層が最適 – CLS への過度な情報集中を避けつつ冗長性を安定測定 – 最終層は対比学習の影響で Attention が散らばる傾向 • Attention 量計算方式: – CLS ありモデル: ”CLS → Vision トークン” の受信 Attention – CLS なしモデル: ” 全トークン → Vision トークン” の平均受信 Attention • 選択基準: 受信 Attention の降順で K 個を保持 • パラメータ設定: ρ = 0.1 (既定値) で K = ⌊ρ · nimg ⌋ 8

10.

Step 2: Contextual Token Merging • 処理対象: Dominant 以外の残余トークン（Nrem 個） • クラスタリング手順: 1. 残余トークンを均等に target/merge に分割（ストライド s に従い均等取得） 2. merge トークンをキー内積が最大の target に割当て 3. 各クラスタを平均化して Contextual Tokens（M 個）を生成 • 効率性: – k-means のような反復計算不要，O(Nrem · d) で処理 – target:merge ฀ 1:1 の比率で局所情報を保持 • パラメータ: σ = 0.05 で M = ⌊σ · nimg ⌋ 9

11.

Step 3: Eﬀicient Tuning（オプション） • 適用条件: Vision Token 数が 64 以下の極度圧縮時のみ推奨 • 学習設定: – 対象: Projector のみ（Vision Encoder・LLM は凍結） – 追加パラメータ: 全モデルの約 0.12%（LoRA 利用） – データ: LLaVA-1.5 学習セットの 10% サンプリング – 計算コスト: A800×8 GPU で約 30 分（1 epoch, BS=512） • 目的関数: 対話ペアに対する単語レベルクロスエントロピー • 効果: 64 トークン設定でベースライン比 95% 以上の精度回復 10

12.

実験結果 11

#p12

13.

LLaVA-1.5 での画像理解性能 • 576→192 tokens: 平均精度の低下は 1.5%，FastV を 10.3%，SparseVLM を 2.1% 上回る • 576→64 tokens: 94% 付近まで低下するが，30 分の Fine-tune で 95.2% まで回復．このとき FastV を 18.4%，SparseVLM を 8.2% 上回る • 興味深い現象: MMVet や MMMU では，圧縮により精度が向上するケースを確認 12

14.

動画理解タスクでの性能 • 適用モデル: Video-LLaVA で 2048→136 Token に 93.4% 圧縮 • 性能維持: 4 ベンチマーク平均 93.2% を達成 • 既存手法比較: – SparseVLM（同 136 Token 設定）より +6.7pt 高性能 – FastV の 52.1% を大幅に上回る • 動画特有の課題: TGIF，MSRVTT など動きの速いシーンでも優位性確認 • 静止画だけでなく時系列データでも手法の汎用性を実証 13

15.

推論効率の詳細分析 • 160 Token 設定での効果（LLaVA-NeXT-7B）: – Total Time: 2293s → 756s（3.0× 高速化） – Prefilling Time: 218ms → 27.8ms（7.8× 高速化） – CUDA メモリ: Vanilla 比約 3× 節約 • 実用性: FP16 環境で 24GB GPU 1 枚でも 7B モデルが動作 14

16.

分析と考察 15

#p16

17.

Vision Token の冗長性が生まれるメカニズム • 層を下るにつれ Attention が急速に収束: – 初期層: トークン全体に分散していた Attention – 中層: 急激に少数トークンへ集中，23 層目でピーク – 最終層: 対照学習の影響で Attention がやや散らばる • Softmax 勾配の指数効果: i) = softmax(zi ) · (1 − softmax(zi )) – ∂softmax(z ∂zi – 高 Attention トークンはさらに高く，低 Attention はより低く 16

18.

冗長性発生の根本原因 • Vision Encoder 設計バイアス: – 情報を積極的に数個の “代理トークン（proxy tokens）” へ圧縮 – “局所最適解” として少数トークンに情報を集約する傾向 • Softmax 勾配の指数的増強: – zi が大きいほど勾配急増，小さいほど 0 に近づく – 高 Attention トークンはより高く，低 Attention はより低くなる • 結論: Vision Encoder と Softmax 勾配が冗長トークンを大量発生 17

19.

既存手法との比較：VisionZip の優位性 • Text-relevant 系（FastV, SparseVLM）の限界: – LLM 側のテキスト-Vision Attention でトークン選択 – Vision Encoder が既に情報を集約した proxy トークンしか見えない – 細部情報を失いやすく，質問に依存する選択 • 定量検証結果: – Ex1: 高 Attention50 トークン Mask→SparseVLM 選択: 精度-9.2% – Ex2: VisionZip 128→SparseVLM 64: 精度 +2.7% • VisionZip の利点: Dominant 選択で proxy 直接取得，Contextual で局所補完 18

20.

マルチターン対話での堅牢性分析 • 性能劣化の比較: – VisionZip: ターン 1→10 で精度落差わずか 0.8pt – FastV/SparseVLM: -7pt 以上の大幅劣化 • 劣化メカニズム: – text-relevant 手法: 前質問依存の Vision Token を KV cache に保存継続 – 後続質問でノイズとして働き，性能を阻害 • 実運用上の利点: 長対話・ストリーミング推論でキャッシュ再利用可能 19

21.

結論 20

#p21

22.

VisionZip の主要貢献 • 冗長性の科学的解明: – Vision Encoder の-2 層で Attention が少数トークンに集中する現象を定量化 – Softmax 勾配と Encoder 設計バイアスが冗長トークン大量発生の原因 • 効果的な圧縮手法: – Dominant + Contextual の二段階で最大 90% のトークン圧縮 – text-agnostic アプローチでマルチターン対話に堅牢 • 実用性の高い設計: – プラグ & プレイでの導入，training-free または 30 分軽量 tuning – 画像・動画・対話タスクで SOTA 効率化手法を 5pt 以上上回る 21

23.

補足：関連研究と位置づけ 22

#p23

24.

関連研究との位置づけ • Vision トークンの逐次削減: – FastV, SparseVLM: LLM の Cross-Attention に基づきテキスト関連トークンを選択 – 課題: 質問依存でマルチターン対話に不向き • 視覚トークンの圧縮・スパース化: – ZipVL, PRUMerge (LLaVA-Prumerge): 類似情報をまとめ，トークンを再構成 – PyramidDrop: 階層的に冗長トークンを間引き • VisionZip の位置づけ: – Encoder を改変せず，Dominant ＋ Contextual 選択による text-agnostic 圧縮 – training-free もしくは軽量 tuning で適用可能 23

25.

補足：その他実験結果 24

#p25

26.

LLaVA-NeXT の 2880 トークンからの圧縮結果 • 2880→640 tokens（圧縮率 77.8%）: – VisionZip 単体: 97.6%（SparseVLM より +1.5pt） – Fine-tune 後: 98.9%（ほぼベースライン並み） • 2880→320 tokens（圧縮率 88.9%）: – VisionZip 単体: 95.0%（+1.7pt）， Fine-tune 後: 97.9%（+4.6pt） • 2880→160 tokens（圧縮率 94.4%）: 1/18 削減でも SparseVLM より +9.1pt 25

27.

Mini-Gemini でのモデル汎用性 • アーキテクチャ特性: ConvNeXt-L ベースの高解像度リファイン機能 • 重要な知見: トークン数を減らすほど既存手法との性能差が拡大 • アーキテクチャ横断での冗長トークン削減の有効性を実証 26