【DL輪読会】Unified Vision-Language-Action Models (arXiv, 2025)

698 Views

July 24, 25

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43K

各ページのテキスト

Uniﬁed Vision-Language-Action Models (arXiv, 2025) Tatsuya Kamijo, Matsuo-Iwasawa Lab, M1 1

書誌情報題名 Unified Vision-Language-Action Model 著者 Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhan 所属 CASIA, BAAI, THU, HKISI 会議 arXiv, 2025 概要 • 全モダリティを統一の離散トークンで扱うUniVLAを提案 • 動画データによる事後学習（世界モデル学習）で性能向上 ※スライド中の図表は該当論文から引用 2

概要大規模ロボット動画による世界モデル学習で VLAの長期タスク性能向上 3

手法：UniVLA 全モダリティを離散トークンで統一 • 言語：Emu3同様QwenのTokenizer • 画像：Emu3同様VQ encoder • 行動：離散コサイン変換（DCT)で周波数領域に離散化 [Pertsch+, 25] 4

手法：UniVLA 二段階の学習：世界モデル事後学習と方策学習 • 世界モデル事後学習（Post-training) • 方策学習（Fine-tuning） – action tokenのみでloss算出 5

実験設定 3つのベンチマーク環境で他 VLA手法と比較 • CALVIN – Long-horizonタスクの評価 • LIBERO – – – – Spatial Object Goal Long • SimplerEnv CALVIN [Mees+, 22] LIBERO [Liu+, 23] SimplerEnv [Li+, 24] 6

実験結果 CALVINベンチマークでの結果 • 連続して何回タスクを成功できるか，で評価 7

実験結果 LIBEROベンチマークでの結果 • LONGタスクで特に大きな改善 – 言語指示から複数ステップの視覚変化を予測するpost-trainingが，複雑なタスクの段階的実行に必要な時系列因果構造の理解を向上させた可能性（著者考察ではない） 8

実験結果 SimplerEnvでの結果 • 従来モデルと比較して全体的に高い性能 9

10.

実験結果 Ablation: 世界モデル事後学習の効果 • Post-training時に行動も予測するように学習すると，Post-training無しより性能悪化 – fine-tuning時との行動空間の不一致が悪影響 • 他のPost-training手法は性能向上 – – – 画像（動画）予測の重要性 text-to-imageとの比較：動画の時系列ダイナミクスを学習する重要性 video predictionとの比較：言語指示がダイナミクス学習の性能を向上する 10

11.

実験結果 Ablation: 世界モデル事後学習は後段の fine-tuningを効率にする • （左）Post-trainingをすると，fine-tuningデータを10%に減らしても高い性能を維持 • （右）Post-trainingをすると，fine-tuningの収束が早くなる 11

12.

実験結果 Ablation: fine-tuning時の画像予測損失追加でも性能向上 • （左）画像予測のlossをfine-tuning時に追加するだけでも性能向上 • （右）観測の履歴は入れた方がいいが，入れすぎるとむしろ性能が落ちる 12

13.

実験結果 Applications: 自動運転ベンチマークでも高性能 • 自動運転のEnd-to-End評価ベンチマークであるNAVSIMでfinetuning評価 • フロントカメラ（FC）のみで，他手法と同等の性能 • 提案手法の広い実世界応用の可能性 13

14.

実験結果実機動画での定性的評価 • 8タスク，それぞれ500エピソード収集してfine-tuning • 集めたデータのビデオでpost-training 14

15.

まとめ大規模ロボット動画による世界モデル学習で VLAの長期タスク性能向上 • Vision, Language, Actionを離散トークンとして統一的にモデル化 • 大規模ビデオデータによるVLMの事後学習（世界モデル学習） • 主要ベンチマークで他手法を上回る性能 15