【輪読会】QVLA: Not All Channels Are Equal in Vision-Language-Action Model’s Quantization

-- Views

February 12, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

QVLA: Not All Channels Are Equal in Vision-Language-Action Model’s Quantization Hiroyuki Matsushima, Matsuo-Iwasawa Lab 1

2.

書誌情報 AutoQVLA: Not All Channels Are Equal in Vision-Language-Action Model’s Quantization ● Author: Yuhao Xu, Yantai Yang, et al. (Shanghai Jiao Tong University, Ant Group) ● Published as a conference paper at ICLR 2026 ○ https://arxiv.org/abs/2602.03782 ○ 公開日: 2026年1月26日、最終更新日: 2026年2月11日 TL;DR ○ 既存のLLM量子化手法はアクションの精度を軽視しており、ロボット制御においては失敗を招く。 ○ そこで、各チャンネルが最終的なアクションに与える影響度を直接測定し、ビット数を動的に最適配分 する「QVLA」を提案した。 ○ 本手法はモデル容量を約70%削減しながら元の性能の98.9%を維持し、従来のSmoothQuantに対し 22%以上の性能向上を達成した。 2

3.

Executive Summary QVLAは、従来の量子化手法では対処できなかった行動誤差が連鎖して失敗する問題 に対し、チャネルごとの感度分析に基づく、動的なビット割り当てで量子化を行う。 ● 背景 a. 既存のLLM量子化はテキスト生成や画像認識の精度維持には有効。一方でVLAにおける ロボット制御では、行動のズレや誤差の累積を考慮していないため、失敗を招いてしまう。 ● 提案手法 a. 最終的なアクション空間への影響度をチャネル単位で計測し、重要なチャネルにはhigh bitを、 不要なチャネルはlow bitを割り当てる「QVLA」を提案。 ● 成果 a. OpenVLAモデルにおいて、メモリ使用量を70%削減しつつ、量子化後も98.9%の性能を維持。 実機ロボットでも約1.3倍の高速化を達成した。 3

4.

背景 Vision-Language-Action (VLA) モデルは強力だが、その計算コストとメモリ要件は ロボットなどエッジデバイスへの搭載を難しくしている。 ● VLAの台頭 ○ OpenVLAやRT-2など、視覚と言語から直接行動を生成するモデルが登場し、汎用性が向 上している。 ● リソースの制約 ○ 7BパラメータクラスのモデルはFP16で14GB以上のVRAMを要する。NVIDIA Jetsonのよう なロボット搭載チップではメモリも計算力も不足しており、推論レイテンシが数百ミリ秒に達す るため、リアルタイム制御が困難。 Pluning(枝刈り)や量子化による圧縮が必須になる 4

5.

課題 LLM向けの量子化手法を VLAに流用するのは難しい。生成されたテキストの違和感と物理的な 動作の失敗は、許容されるエラーの質が異なる。 ● 既存手法の限界 1. SmoothQuantやAWQは、重みや活性値の分布を整えることに注力し ており、出力がPerplexityを基準にしている。 ● VLAの特殊性 1. 能動的制御 : i. わずかな量子化ノイズが、アーム動作のズレを引き起こす。 2. 誤差の累積 : i. 1ステップの小さなズレが、長期タスクにおいて自己回帰的に積み 重なり、最終的にタスク失敗につながる。 Perplexityなどではなく、量子化によって最終的なアクション出力にどれ だけ影響するかを指標にする必要がある。

6.

分析 感度分析の結果、すべてのパラメータが等しく重要ではないことが判明した。 特にProjectorとAction Headは量子化に対して脆弱。 ● モジュール間の差 : Vision Encoderは比較的ロバストだが、Language Module、そして特に ProjectorとAction Headは、量子化による劣化が激しい(図1a)。 ● チャネル間の差 : 同一レイヤー内であっても、チャネル(重み行列の行)によって重要度が大きく異なる (図1b)。 → レイヤー単位で一律にbit数を決める従来の粗い粒度ではなく、「チャネル単位」でのビット割り当てが不可 欠。 6

7.

提案手法 : QVLAフレームワーク QVLAは、「行動感度の推定」と「大域的なビット割り当て」の 2ステップで構成され、量子化と Pruning(枝刈り)を単一のプロセスとして統合する。 7

8.

手法詳細 (1) 各チャネルの感度計測は計算コストが高すぎるため、テイラー展開を用いた一次近似によって 重要チャネルを特定する。 ● 感度の定義 ○ あるチャネルを量子化した際の、アクション出力の 二乗誤差を感度とする。 ● 高速化の工夫 ○ すべてのビット幅で推論を行うのは重いため、 テイラー展開による一次近似を用いる。 これにより、チャネルごとの出力変化が最終アクションにどう波及 するかを効率的に計算できる。 8

9.

手法詳細 (2) 感度分析に基づく Greedy Algorithmによって、限られたメモリ内で最大の性能を出す組み合わせを 自動で探索する。 ● 問題設定 ○ モデル全体のAverage Bit-width(例: 4 bit)の制約下で、トータルの感度を最小化 ● Greedy Demotion: 1. 全チャネルを16bitで初期化。 2. 「感度 / 削減ビット数」の比率が小さい、つまり削っても影響が少ないチャネルから順に、ビット数を 落としていく。 16 → 8 →4 → 2 →0 bit 3. 目標のAverage Bit-widthに達するまでこれを繰り返す。 重要なチャネルは16bitのまま残り、どうでもいいチャネルは0bitになるため、 メリハリの効いた重み圧縮が可能。 9

10.

実験設定 LIBEROでのシミュレーションと ALOHA系アームで検証。比較対象は LLMの量子化における 先行研究の SmoothQuantなど。 ● ● ● ● ベースモデル : a. OpenVLA (7B), OpenVLA-OFT。 ベンチマーク a. LIBERO (Spatial, Object, Goal, Longの4カテゴ リ)。 b. 特にLongは長期タスクでの誤差累積を見るのに 適している。 比較手法 : a. SmoothQuant, OmniQuant, AWQ, GPTQ。 b. これらは一律ビット幅(Uniform)または レイヤーごとの調整にとどまる。 評価指標 a. タスク成功率、メモリ使用量、推論速度。 10

11.

実験結果 (1) 4ビット量子化において、 QVLAは他手法が崩壊する中でほぼ劣化なしの性能を維持した。 ● メモリは4.3GB(元は15.2GB)まで縮小し、実質的にエッジデバイスに載るサイズ Projector, ActionHeadなど重要モジュールを高精度に保ち、他を削った戦略が有効 11

12.

実験結果 (2) メモリ圧縮を主目的とした重み量子化においても、 AWQなどの既存 SOTAを凌駕し、元のモデル以上 の性能を出すケースもある。 12

13.

実験結果 (3) 全て8ビットにするよりも、 16ビットと 0ビットを混ぜて平均 8ビットにする方が、性能とメモリ効率が良 い。 VLAモデルには冗長なパラメータが大量に含まれており、それらを中途半端に量子化 して残すより、思い切って削除し、浮いたリソースを重要チャネルに回す方が合理的。 13

14.

実験結果 (4) シミュレーションだけでなく、実世界のロボットアーム( IMETA-Y1)でもタスク成功率を維持しつつ、推 論速度を 1.28倍に向上させた。 14

15.

Discussion: なぜQVLAはうまくいくのか ロボット制御における量子化で受動的なデータ忠実度から能動的な行動最適化にシフト。 量子化手法 従来のLLM holdに失敗 成功 Action Sensitivity フレームワーク 振動している スムーズに動作 ● Bit割り当て問題として量 子化とPruningを統一 15

16.

結論 QVLAは、大規模な VLAモデルをリソース制約のあるロボットに展開するための量子化手法。 ● ● ● ● VLA量子化における初の体系的な分析とフレームワーク。 アクション空間の感度を用いたチャネルごとの動的ビット割り当て。 シミュレーションと実機でSOTAを達成。 見通し: ○ 今後、ロボット向け基盤モデルの軽量化においては、モデルの内部表現ではなく、 アクションを基準にモデル圧縮するアプローチが標準になる。 16