【DL輪読会】Unified Vision-Language-Action Models (arXiv, 2025)

285 Views

July 24, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Unified Vision-Language-Action Models (arXiv, 2025) Tatsuya Kamijo, Matsuo-Iwasawa Lab, M1 1

2.

書誌情報 題名 Unified Vision-Language-Action Model 著者 Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhan 所属 CASIA, BAAI, THU, HKISI 会議 arXiv, 2025 概要 • 全モダリティを統一の離散トークンで扱うUniVLAを提案 • 動画データによる事後学習(世界モデル学習)で性能向上 ※スライド中の図表は該当論文から引用 2

3.

概要 大規模ロボット動画による世界モデル学習で VLAの長期タスク性能向上 3

4.

手法:UniVLA 全モダリティを離散トークンで統一 • 言語:Emu3同様QwenのTokenizer • 画像:Emu3同様VQ encoder • 行動:離散コサイン変換(DCT)で周波数領域に離散化 [Pertsch+, 25] 4

5.

手法:UniVLA 二段階の学習:世界モデル事後学習と方策学習 • 世界モデル事後学習(Post-training) • 方策学習(Fine-tuning) – action tokenのみでloss算出 5

6.

実験設定 3つのベンチマーク環境で他 VLA手法と比較 • CALVIN – Long-horizonタスクの評価 • LIBERO – – – – Spatial Object Goal Long • SimplerEnv CALVIN [Mees+, 22] LIBERO [Liu+, 23] SimplerEnv [Li+, 24] 6

7.

実験結果 CALVINベンチマークでの結果 • 連続して何回タスクを成功できるか,で評価 7

8.

実験結果 LIBEROベンチマークでの結果 • LONGタスクで特に大きな改善 – 言語指示から複数ステップの視覚変化を予測するpost-trainingが,複雑なタスクの段階的実行に必要な時系 列因果構造の理解を向上させた可能性(著者考察ではない) 8

9.

実験結果 SimplerEnvでの結果 • 従来モデルと比較して全体的に高い性能 9

10.

実験結果 Ablation: 世界モデル事後学習の効果 • Post-training時に行動も予測するように学習すると,Post-training無しより性能悪化 – fine-tuning時との行動空間の不一致 が悪影響 • 他のPost-training手法は性能向上 – – – 画像(動画)予測の重要性 text-to-imageとの比較:動画の時系列ダイナミクス を学習する重要性 video predictionとの比較:言語指示 がダイナミクス学習の性能を向上する 10

11.

実験結果 Ablation: 世界モデル事後学習は後段の fine-tuningを効率にする • (左)Post-trainingをすると,fine-tuningデータを10%に減らしても高い性能を維持 • (右)Post-trainingをすると,fine-tuningの収束が早くなる 11

12.

実験結果 Ablation: fine-tuning時の画像予測損失追加でも性能向上 • (左)画像予測のlossをfine-tuning時に追加するだけでも性能向上 • (右)観測の履歴は入れた方がいいが,入れすぎるとむしろ性能が落ちる 12

13.

実験結果 Applications: 自動運転ベンチマークでも高性能 • 自動運転のEnd-to-End評価ベンチマークであるNAVSIMでfinetuning評価 • フロントカメラ(FC)のみで,他手法と同等の性能 • 提案手法の広い実世界応用の可能性 13

14.

実験結果 実機動画での定性的評価 • 8タスク,それぞれ500エピソード収集してfine-tuning • 集めたデータのビデオでpost-training 14

15.

まとめ 大規模ロボット動画による世界モデル学習で VLAの長期タスク性能向上 • Vision, Language, Actionを離散トークンとして統一的にモデル化 • 大規模ビデオデータによるVLMの事後学習(世界モデル学習) • 主要ベンチマークで他手法を上回る性能 15