285 Views
July 24, 25
スライド概要
DL輪読会資料
Unified Vision-Language-Action Models (arXiv, 2025) Tatsuya Kamijo, Matsuo-Iwasawa Lab, M1 1
書誌情報 題名 Unified Vision-Language-Action Model 著者 Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhan 所属 CASIA, BAAI, THU, HKISI 会議 arXiv, 2025 概要 • 全モダリティを統一の離散トークンで扱うUniVLAを提案 • 動画データによる事後学習(世界モデル学習)で性能向上 ※スライド中の図表は該当論文から引用 2
概要 大規模ロボット動画による世界モデル学習で VLAの長期タスク性能向上 3
手法:UniVLA 全モダリティを離散トークンで統一 • 言語:Emu3同様QwenのTokenizer • 画像:Emu3同様VQ encoder • 行動:離散コサイン変換(DCT)で周波数領域に離散化 [Pertsch+, 25] 4
手法:UniVLA 二段階の学習:世界モデル事後学習と方策学習 • 世界モデル事後学習(Post-training) • 方策学習(Fine-tuning) – action tokenのみでloss算出 5
実験設定 3つのベンチマーク環境で他 VLA手法と比較 • CALVIN – Long-horizonタスクの評価 • LIBERO – – – – Spatial Object Goal Long • SimplerEnv CALVIN [Mees+, 22] LIBERO [Liu+, 23] SimplerEnv [Li+, 24] 6
実験結果 CALVINベンチマークでの結果 • 連続して何回タスクを成功できるか,で評価 7
実験結果 LIBEROベンチマークでの結果 • LONGタスクで特に大きな改善 – 言語指示から複数ステップの視覚変化を予測するpost-trainingが,複雑なタスクの段階的実行に必要な時系 列因果構造の理解を向上させた可能性(著者考察ではない) 8
実験結果 SimplerEnvでの結果 • 従来モデルと比較して全体的に高い性能 9
実験結果 Ablation: 世界モデル事後学習の効果 • Post-training時に行動も予測するように学習すると,Post-training無しより性能悪化 – fine-tuning時との行動空間の不一致 が悪影響 • 他のPost-training手法は性能向上 – – – 画像(動画)予測の重要性 text-to-imageとの比較:動画の時系列ダイナミクス を学習する重要性 video predictionとの比較:言語指示 がダイナミクス学習の性能を向上する 10
実験結果 Ablation: 世界モデル事後学習は後段の fine-tuningを効率にする • (左)Post-trainingをすると,fine-tuningデータを10%に減らしても高い性能を維持 • (右)Post-trainingをすると,fine-tuningの収束が早くなる 11
実験結果 Ablation: fine-tuning時の画像予測損失追加でも性能向上 • (左)画像予測のlossをfine-tuning時に追加するだけでも性能向上 • (右)観測の履歴は入れた方がいいが,入れすぎるとむしろ性能が落ちる 12
実験結果 Applications: 自動運転ベンチマークでも高性能 • 自動運転のEnd-to-End評価ベンチマークであるNAVSIMでfinetuning評価 • フロントカメラ(FC)のみで,他手法と同等の性能 • 提案手法の広い実世界応用の可能性 13
実験結果 実機動画での定性的評価 • 8タスク,それぞれ500エピソード収集してfine-tuning • 集めたデータのビデオでpost-training 14
まとめ 大規模ロボット動画による世界モデル学習で VLAの長期タスク性能向上 • Vision, Language, Actionを離散トークンとして統一的にモデル化 • 大規模ビデオデータによるVLMの事後学習(世界モデル学習) • 主要ベンチマークで他手法を上回る性能 15