-- Views
September 11, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] VisionZip: Longer is Better but Not Necessary in Vision-Language Models Presenter: Yuki Kondo 2025.9.11 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1
論文概要 • 論文: ”VisionZip: Longer is Better but Not Necessary in Vision–Language Models” [CVPR’25] • 著者: Senqiao Yang1 , Yukang Chen1 , Zhuotao Tian3 , Chengyao Wang1 , Jingyao Li1 , Bei Yu1 , Jiaya Jia1,2 (1 CUHK, 2 HKUST, 3 HITSZ) • 問題: Vision-Language Model (VLM) で高解像度入力に伴い Vision トークン数が急増し,計算コストとメモリを圧迫 • 着眼: CLIP・SigLIP 由来の Vision トークンには大きな冗長性が存在 • 提案: VisionZip - text-agnostic な三段階圧縮手法 – 重要トークン選択 + 類似トークン統合 + 軽量ファインチューニング – トークン数を最大 90% 削減しながら 95% 以上の精度を維持 2
背景:VLM における計算量問題 • 一般的な VLM アーキテクチャ: Vision Encoder → Projector → LLM • Vision トークンの爆発的増加: – LLaVA-1.5: 576 tokens – LLaVA-NeXT: 672×672 画像で 2880 tokens(テキストの 20 倍以上) • 計算複雑度: Total FLOPs = T × (4nd2 + 2n2 d + 2ndm) – T: Transformer 層数, n: シーケンス長, d: 隠れ次元, m: 中間サイズ – n = nsys + nimg + nquestion で nimg が支配的 – Self-Attention & FFN ともに O(n2 ) に比例 • 実用上の課題: ロボティクスなどリソース制約環境でのボトルネック 3
冗長性の観察:Pilot Study • 解析対象: CLIP, SigLIP の-2 層(後ろから 2 番目)で Attention を分析 • 観察結果: – わずか 10% 前後の Vision トークンが大半の Attention を受け取る – 大部分のトークンは極めて低い重み(0.05 以下)に張り付く – TextVQA 検証セット全体でも同様の分布を確認 • 洞察: 冗長トークンは情報量が乏しく,推論時にノイズとして働く可能性 4
Research Question & 既存手法の限界 • Research Question: ”Are all visual tokens necessary?” • 既存アプローチの問題点: – ハードウェア拡張: GPU 拡張・量子化で対処 → 根本解決でない – FastV/SparseVLM: text-relevant 選択で質問依存 → マルチターンで劣化 – 実装負荷: LLM 層ごとに重み改変が必要 • VisionZip の着眼点: – トークン自体の冗長性を除去 – text-agnostic に情報量で選択 → マルチターン対応 – Encoder 出力と Projector だけを操作 → プラグ & プレイ 5
VisionZip の全体構成 • 三段階の Informative Vision Token Zip (IVTZ): 1. Dominant Token Selection: 情報量最大の Vision トークンを選択 2. Contextual Token Merging: 残余トークンを意味保持しつつ縮約 3. Efficient Tuning: Vision-Language ミスマッチを軽量補正 • 最終的に 2144 tokens → 160 tokens への大幅圧縮を実現 7
Step 1: Dominant Token Selection • 選択層の根拠: Vision Encoder の-2 層が最適 – CLS への過度な情報集中を避けつつ冗長性を安定測定 – 最終層は対比学習の影響で Attention が散らばる傾向 • Attention 量計算方式: – CLS ありモデル: ”CLS → Vision トークン” の受信 Attention – CLS なしモデル: ” 全トークン → Vision トークン” の平均受信 Attention • 選択基準: 受信 Attention の降順で K 個を保持 • パラメータ設定: ρ = 0.1 (既定値) で K = ⌊ρ · nimg ⌋ 8
Step 2: Contextual Token Merging • 処理対象: Dominant 以外の残余トークン(Nrem 個) • クラスタリング手順: 1. 残余トークンを均等に target/merge に分割(ストライド s に従い均等取得) 2. merge トークンをキー内積が最大の target に割当て 3. 各クラスタを平均化して Contextual Tokens(M 個)を生成 • 効率性: – k-means のような反復計算不要,O(Nrem · d) で処理 – target:merge 1:1 の比率で局所情報を保持 • パラメータ: σ = 0.05 で M = ⌊σ · nimg ⌋ 9
Step 3: Efficient Tuning(オプション) • 適用条件: Vision Token 数が 64 以下の極度圧縮時のみ推奨 • 学習設定: – 対象: Projector のみ(Vision Encoder・LLM は凍結) – 追加パラメータ: 全モデルの約 0.12%(LoRA 利用) – データ: LLaVA-1.5 学習セットの 10% サンプリング – 計算コスト: A800×8 GPU で約 30 分(1 epoch, BS=512) • 目的関数: 対話ペアに対する単語レベルクロスエントロピー • 効果: 64 トークン設定でベースライン比 95% 以上の精度回復 10
LLaVA-1.5 での画像理解性能 • 576→192 tokens: 平均精度 の低下は 1.5%,FastV を 10.3%,SparseVLM を 2.1% 上回る • 576→64 tokens: 94% 付近 まで低下するが,30 分の Fine-tune で 95.2% まで回 復.このとき FastV を 18.4%,SparseVLM を 8.2% 上回る • 興味深い現象: MMVet や MMMU では,圧縮により精 度が向上するケースを確認 12
動画理解タスクでの性能 • 適用モデル: Video-LLaVA で 2048→136 Token に 93.4% 圧縮 • 性能維持: 4 ベンチマーク平均 93.2% を達成 • 既存手法比較: – SparseVLM(同 136 Token 設定)より +6.7pt 高性能 – FastV の 52.1% を大幅に上回る • 動画特有の課題: TGIF,MSRVTT など動きの速いシーンでも優位性確認 • 静止画だけでなく時系列データでも手法の汎用性を実証 13
推論効率の詳細分析 • 160 Token 設定での効果(LLaVA-NeXT-7B): – Total Time: 2293s → 756s(3.0× 高速化) – Prefilling Time: 218ms → 27.8ms(7.8× 高速化) – CUDA メモリ: Vanilla 比約 3× 節約 • 実用性: FP16 環境で 24GB GPU 1 枚でも 7B モデルが動作 14
Vision Token の冗長性が生まれるメカニズム • 層を下るにつれ Attention が急速に収束: – 初期層: トークン全体に分散していた Attention – 中層: 急激に少数トークンへ集中,23 層目でピーク – 最終層: 対照学習の影響で Attention がやや散らばる • Softmax 勾配の指数効果: i) = softmax(zi ) · (1 − softmax(zi )) – ∂softmax(z ∂zi – 高 Attention トークンはさらに高く,低 Attention はより低く 16
冗長性発生の根本原因 • Vision Encoder 設計バイアス: – 情報を積極的に数個の “代理トークン(proxy tokens)” へ圧縮 – “局所最適解” として少数トークンに情報を集約する傾向 • Softmax 勾配の指数的増強: – zi が大きいほど勾配急増,小さいほど 0 に近づく – 高 Attention トークンはより高く,低 Attention はより低くなる • 結論: Vision Encoder と Softmax 勾配が冗長トークンを大量発生 17
既存手法との比較:VisionZip の優位性 • Text-relevant 系(FastV, SparseVLM)の限界: – LLM 側のテキスト-Vision Attention でトークン選択 – Vision Encoder が既に情報を集約した proxy トークンしか見えない – 細部情報を失いやすく,質問に依存する選択 • 定量検証結果: – Ex1: 高 Attention50 トークン Mask→SparseVLM 選択: 精度-9.2% – Ex2: VisionZip 128→SparseVLM 64: 精度 +2.7% • VisionZip の利点: Dominant 選択で proxy 直接取得,Contextual で局所補完 18
マルチターン対話での堅牢性分析 • 性能劣化の比較: – VisionZip: ターン 1→10 で精度落差わずか 0.8pt – FastV/SparseVLM: -7pt 以上の大幅劣化 • 劣化メカニズム: – text-relevant 手法: 前質問 依存の Vision Token を KV cache に保存継続 – 後続質問でノイズとして 働き,性能を阻害 • 実運用上の利点: 長対話・ ストリーミング推論で キャッシュ再利用可能 19
VisionZip の主要貢献 • 冗長性の科学的解明: – Vision Encoder の-2 層で Attention が少数トークンに集中する現象を定量化 – Softmax 勾配と Encoder 設計バイアスが冗長トークン大量発生の原因 • 効果的な圧縮手法: – Dominant + Contextual の二段階で最大 90% のトークン圧縮 – text-agnostic アプローチでマルチターン対話に堅牢 • 実用性の高い設計: – プラグ & プレイでの導入,training-free または 30 分軽量 tuning – 画像・動画・対話タスクで SOTA 効率化手法を 5pt 以上上回る 21
関連研究との位置づけ • Vision トークンの逐次削減: – FastV, SparseVLM: LLM の Cross-Attention に基づきテキスト関連トークンを 選択 – 課題: 質問依存でマルチターン対話に不向き • 視覚トークンの圧縮・スパース化: – ZipVL, PRUMerge (LLaVA-Prumerge): 類似情報をまとめ,トークンを再構成 – PyramidDrop: 階層的に冗長トークンを間引き • VisionZip の位置づけ: – Encoder を改変せず,Dominant + Contextual 選択による text-agnostic 圧縮 – training-free もしくは軽量 tuning で適用可能 23
LLaVA-NeXT の 2880 トークンからの圧縮結果 • 2880→640 tokens(圧縮率 77.8%): – VisionZip 単体: 97.6%(SparseVLM より +1.5pt) – Fine-tune 後: 98.9%(ほぼベースライン 並み) • 2880→320 tokens(圧縮率 88.9%): – VisionZip 単体: 95.0%(+1.7pt), Fine-tune 後: 97.9%(+4.6pt) • 2880→160 tokens(圧縮率 94.4%): 1/18 削減でも SparseVLM より +9.1pt 25
Mini-Gemini でのモデル汎用性 • アーキテクチャ特性: ConvNeXt-L ベースの高解像度リファイン機能 • 重要な知見: トークン数を減らすほど既存手法との性能差が拡大 • アーキテクチャ横断での冗長トークン削減の有効性を実証 26