261 Views
July 24, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] WoMAP: World Models For Embodied Open-Vocabulary Object Localization Koya Sakamoto, Matsuo Iwasawa Lab D1 http://deeplearning.jp/ 1
書誌情報 ➢ タイトル WoMAP: World Models For Embodied Open-Vocabulary Object Localization ➢ 著者 Tenny Yin, Zhiting Mei, Tao Sun, Lihan Zha, Emily Zhou, Jeremy Bao, Miyu Yamane, Ola Shorinwa, Anirudha Majumdar (Princeton University, McGill University) ➢ リンク ➢ arXiv: https://arxiv.org/abs/2506.01600 ➢ Project site: https://robot-womap.github.io/ ➢ Code: Coming Soon ※このスライドの図, 表, 動画は元論文から引用しています. 2
概要 効率的な能動的物体位置推定のための手法を提案. エキスパートデータ無しで, データ生成から世界モデルを学習し, そのモデル上で最適な行動計画を学習す ることで, 模倣学習やVLMよりも2~9倍程度の精度を達成. 3
導入: 三次元再構成 Simulation環境をマニュアルで作成するのは高コストであり, 写実的でもない. 複数視点からの画像から写実的に再構成を行う3D Gaussian Splatting (3D GS)が写実的で低コストなsimulator として注目されている (Bernhard +, SIGGRAPH 2023). 3D GS Reference: Ben Mildenha+, NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020 (Bernhard +, SIGGRAPH 2023) Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis, 3D Gaussian Splatting for Real-Time Radiance Field Rendering , SIGGRAPH 2023 4
導入: ロボットの能動的知覚 能動的知覚 (Active Perception)はこれまでに研究されている. Navigtionもその一つ. Navigtion では模倣学習や強化学習, モジュールベースの色々な手法が存在するが, 各手法にはそれぞれ問題 点がある. Navigation手法 概要図(Theophile+, Science Robotics 2023) Navigation手法比較(Theophile+, Science Robotics 2023) (Theophile+, Science Robotics 2023)Theophile Gervet, Soumith Chintala, Dhruv Batra, Jitendra Malik, Devendra Singh Chaplot, Navigating to Objects in the Real World, Science Robotics 2023 5
提案手法: 概要図 Open-vocabulary物体位置推定のためのカメラ視点生成タスクにおいて, 世界モデル学習のためには十分なデータと良い報酬設計が必要であり, これらを工夫. 6
提案手法: Scalable Data Generation 模倣学習とは違い, 世界モデルにはエキスパートデータが必要ないが, 学習のためには幅広いデータが必要. Real-to-sim-to-realによるデータ生成パイプラインを提案. 1. 現実の動画を撮影 2. アノテーション a) 各frameでsemanticなCLIP特 長量を計算 b) カメラポーズを計算 3. シーンの再構成 1. 3D Gaussian Splatting (3D GS) でシーンを学習 2. 手順2のSemanticsを埋め込む 4. M個の(observation, reward, pose) のペアを作成 a) Randomな初期位置から sampleingされた物体に向か って, RRT* planner (Steven +, 2001) によって軌道を生成 (Steven +, 2001) Steven M. LaValle, Iowa State University, A James J. Kuffner, Jr., Rapidly-Exploring Random Trees: Progress and Prospects, Algorithmic and Computational Robotics 2001 7
提案手法: World Model 生成したデータセットから, dynamicsとrewardsをモデリングする. Open-Vocabularyな物体検出モデルGroundingDINO (Shilong +,ECCV 2024) の確信度を報酬とする. (Shilong +,ECCV 2024) Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection, ECCV 2024 8
提案手法: Planning with WoMAP 実際に行動を選択する方法としては複数の方法がある. • Sampling • Gradient-based optimization • VLMs assist VLMからhigh levelなactionを生成し, MPCの枠 組みで, WoMAPによって以下の期待報酬を最 大化する 1項目は物体を見やすい位置に移動するため, 2 項目は視点移動を滑らかにするためのもの. (Shilong +,ECCV 2024) Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection, ECCV 2024 9
実験設定 4つのPyBullet環境と3つの3D GS環境, 実ロボットで実験. 初期位置からターゲット物体がどの程度見えているか, シーン内にどれだけ物体があるかで難易度分け. 10
実験結果 学習シーンとは別の環境で, 各環境で150 episodesのテストを行う. ➢ シーンが困難になっても, WoMAPだけは性能低下が23.6~40.2%と限定的 ➢ WMに基づいた計画が困難な状況に対して頑健 ➢ 初期位置の難しさに対しても, WoMAPは性能低下が小さい ➢ VLMのcommon senseが効いている 11
実験結果: Sim-to-Real Transfer 3D GSではなく, 実環境で各シーン20 episodesで評価. VLMではsimでの性能が低いためにrealでも性能が低くなっているが, WoMAPではsimと同程度の性能がrealで も出ている ➢ 3D GS上で学習させたWMは現実世界でも頑健に動作する 12
実験結果: Generalization 照度条件とテーブルマットを変更して実環境でテスト. GS-Randomの10シーンで計300 trajectories で学習した WoMAPを用いる. テーブルマットを変更した場合だとかなり精度が低下してしまう. 13
実験結果: Generating Training Data without Novel Views 実世界の映像フレームのみで学習させたモデルと, Gaussian Splatting技術で生成した大量のデータで学習さ せたモデルの性能を比較. データ生成手法(画像約9000枚)を用いたモデルは, 実映像のみ(画像約2100枚)のモデルに対し, 大幅な 性能向上が見られる. ➢ 同じシーンであっても, 軌道が異なるデータを生成して学習させることは精度向上の上で大事 14
まとめ 3D GS上で物体検出モデルの確信度をrewardとして世界モデルを学習することで, 世界モデルとVLMを組み合 わせた提案手法が, 効率的な能動的物体位置推定に有効であることを示された. 15