【輪読会】QVLA: Not All Channels Are Equal in Vision-Language-Action Model’s Quantization

>100 Views

February 12, 26

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

QVLA: Not All Channels Are Equal in Vision-Language-Action Model’s Quantization Hiroyuki Matsushima, Matsuo-Iwasawa Lab 1

書誌情報 AutoQVLA: Not All Channels Are Equal in Vision-Language-Action Model’s Quantization ● Author: Yuhao Xu, Yantai Yang, et al. (Shanghai Jiao Tong University, Ant Group) ● Published as a conference paper at ICLR 2026 ○ https://arxiv.org/abs/2602.03782 ○ 公開日: 2026年1月26日、最終更新日: 2026年2月11日 TL;DR ○ 既存のLLM量子化手法はアクションの精度を軽視しており、ロボット制御においては失敗を招く。 ○ そこで、各チャンネルが最終的なアクションに与える影響度を直接測定し、ビット数を動的に最適配分する「QVLA」を提案した。 ○ 本手法はモデル容量を約70%削減しながら元の性能の98.9%を維持し、従来のSmoothQuantに対し 22%以上の性能向上を達成した。 2

https://arxiv.org/abs/2602.03782

Executive Summary QVLAは、従来の量子化手法では対処できなかった行動誤差が連鎖して失敗する問題に対し、チャネルごとの感度分析に基づく、動的なビット割り当てで量子化を行う。 ● 背景 a. 既存のLLM量子化はテキスト生成や画像認識の精度維持には有効。一方でVLAにおけるロボット制御では、行動のズレや誤差の累積を考慮していないため、失敗を招いてしまう。 ● 提案手法 a. 最終的なアクション空間への影響度をチャネル単位で計測し、重要なチャネルにはhigh bitを、不要なチャネルはlow bitを割り当てる「QVLA」を提案。 ● 成果 a. OpenVLAモデルにおいて、メモリ使用量を70%削減しつつ、量子化後も98.9%の性能を維持。実機ロボットでも約1.3倍の高速化を達成した。 3

背景 Vision-Language-Action (VLA) モデルは強力だが、その計算コストとメモリ要件はロボットなどエッジデバイスへの搭載を難しくしている。 ● VLAの台頭 ○ OpenVLAやRT-2など、視覚と言語から直接行動を生成するモデルが登場し、汎用性が向上している。 ● リソースの制約 ○ 7BパラメータクラスのモデルはFP16で14GB以上のVRAMを要する。NVIDIA Jetsonのようなロボット搭載チップではメモリも計算力も不足しており、推論レイテンシが数百ミリ秒に達するため、リアルタイム制御が困難。 Pluning(枝刈り)や量子化による圧縮が必須になる 4

課題 LLM向けの量子化手法を VLAに流用するのは難しい。生成されたテキストの違和感と物理的な動作の失敗は、許容されるエラーの質が異なる。 ● 既存手法の限界 1. SmoothQuantやAWQは、重みや活性値の分布を整えることに注力しており、出力がPerplexityを基準にしている。 ● VLAの特殊性 1. 能動的制御 : i. わずかな量子化ノイズが、アーム動作のズレを引き起こす。 2. 誤差の累積 : i. 1ステップの小さなズレが、長期タスクにおいて自己回帰的に積み重なり、最終的にタスク失敗につながる。 Perplexityなどではなく、量子化によって最終的なアクション出力にどれだけ影響するかを指標にする必要がある。

分析感度分析の結果、すべてのパラメータが等しく重要ではないことが判明した。特にProjectorとAction Headは量子化に対して脆弱。 ● モジュール間の差 : Vision Encoderは比較的ロバストだが、Language Module、そして特に ProjectorとAction Headは、量子化による劣化が激しい（図1a）。 ● チャネル間の差 : 同一レイヤー内であっても、チャネル（重み行列の行）によって重要度が大きく異なる（図1b）。 → レイヤー単位で一律にbit数を決める従来の粗い粒度ではなく、「チャネル単位」でのビット割り当てが不可欠。 6

提案手法 : QVLAフレームワーク QVLAは、「行動感度の推定」と「大域的なビット割り当て」の 2ステップで構成され、量子化と Pruning(枝刈り)を単一のプロセスとして統合する。 7

手法詳細 (1) 各チャネルの感度計測は計算コストが高すぎるため、テイラー展開を用いた一次近似によって重要チャネルを特定する。 ● 感度の定義 ○ あるチャネルを量子化した際の、アクション出力の二乗誤差を感度とする。 ● 高速化の工夫 ○ すべてのビット幅で推論を行うのは重いため、テイラー展開による一次近似を用いる。これにより、チャネルごとの出力変化が最終アクションにどう波及するかを効率的に計算できる。 8

手法詳細 (2) 感度分析に基づく Greedy Algorithmによって、限られたメモリ内で最大の性能を出す組み合わせを自動で探索する。 ● 問題設定 ○ モデル全体のAverage Bit-width(例: 4 bit)の制約下で、トータルの感度を最小化 ● Greedy Demotion: 1. 全チャネルを16bitで初期化。 2. 「感度 / 削減ビット数」の比率が小さい、つまり削っても影響が少ないチャネルから順に、ビット数を落としていく。 16 → 8 →4 → 2 →0 bit 3. 目標のAverage Bit-widthに達するまでこれを繰り返す。重要なチャネルは16bitのまま残り、どうでもいいチャネルは0bitになるため、メリハリの効いた重み圧縮が可能。 9

10.

実験設定 LIBEROでのシミュレーションと ALOHA系アームで検証。比較対象は LLMの量子化における先行研究の SmoothQuantなど。 ● ● ● ● ベースモデル : a. OpenVLA (7B), OpenVLA-OFT。ベンチマーク a. LIBERO (Spatial, Object, Goal, Longの4カテゴリ)。 b. 特にLongは長期タスクでの誤差累積を見るのに適している。比較手法 : a. SmoothQuant, OmniQuant, AWQ, GPTQ。 b. これらは一律ビット幅（Uniform）またはレイヤーごとの調整にとどまる。評価指標 a. タスク成功率、メモリ使用量、推論速度。 10

11.

実験結果 (1) 4ビット量子化において、 QVLAは他手法が崩壊する中でほぼ劣化なしの性能を維持した。 ● メモリは4.3GB（元は15.2GB）まで縮小し、実質的にエッジデバイスに載るサイズ Projector, ActionHeadなど重要モジュールを高精度に保ち、他を削った戦略が有効 11

12.

実験結果 (2) メモリ圧縮を主目的とした重み量子化においても、 AWQなどの既存 SOTAを凌駕し、元のモデル以上の性能を出すケースもある。 12

13.

実験結果 (3) 全て8ビットにするよりも、 16ビットと 0ビットを混ぜて平均 8ビットにする方が、性能とメモリ効率が良い。 VLAモデルには冗長なパラメータが大量に含まれており、それらを中途半端に量子化して残すより、思い切って削除し、浮いたリソースを重要チャネルに回す方が合理的。 13

14.

実験結果 (4) シミュレーションだけでなく、実世界のロボットアーム（ IMETA-Y1）でもタスク成功率を維持しつつ、推論速度を 1.28倍に向上させた。 14

15.

Discussion: なぜQVLAはうまくいくのかロボット制御における量子化で受動的なデータ忠実度から能動的な行動最適化にシフト。量子化手法従来のLLM holdに失敗成功 Action Sensitivity フレームワーク振動しているスムーズに動作 ● Bit割り当て問題として量子化とPruningを統一 15

16.

結論 QVLAは、大規模な VLAモデルをリソース制約のあるロボットに展開するための量子化手法。 ● ● ● ● VLA量子化における初の体系的な分析とフレームワーク。アクション空間の感度を用いたチャネルごとの動的ビット割り当て。シミュレーションと実機でSOTAを達成。見通し: ○ 今後、ロボット向け基盤モデルの軽量化においては、モデルの内部表現ではなく、アクションを基準にモデル圧縮するアプローチが標準になる。 16