【DL輪読会】 MANISKILL3: GPU PARALLELIZED ROBOTICS SIMULATION AND RENDERING FOR GENERALIZABLE EMBODIED AI

1K Views

April 24, 25

#ロボットシミュレーション #深層学習 #GPU並列化 #ManiSkill3 #ICLR2025

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.1K

各ページのテキスト

“MANISKILL3: GPU PARALLELIZED ROBOTICS SIMULATION DEEP LEARNING JP AND RENDERING FOR GENERALIZABLE EMBODIED AI ” [DL Papers] Presenter: SatoiYamaguchi http://deeplearning.jp/

http://deeplearning.jp/

自己紹介 • 山口慧（Satoi Yamaguchi） • 早稲田修士一年 • 松尾・岩澤研LLMATCH研究員 • 研究内容 – LLMを使ったロボット制御 2

論文情報論文誌著者 “MANISKILL3: GPU PARALLELIZED ROBOTICS SIMULATION AND RENDERING FOR GENERALIZABLE EMBODIED AI ” ICLR2025採択 Stone Tao, Fanbo Xiang, Arth Shukla, Yuzhe Qin, Xander Hinrichsen, Xiaodi Yuan, Chen Bao, Xinsong Lin, Yulin Liu, Tse-kai Chan, Yuan Gao, Xuanlin Li, Tongzhou Mu, Nan Xiao, Arnav Gurha, Zhiao Huang, Roberto Calandra, Rui Chen, Shan Luo, Hao Su 概要 GPUを用いた高効率な並列シミュレーション・レンダリングにより，従来のロボットシミュレータよりメモリ効率と実行速度を大きく改善できるManiSkill３を公開した Link https://arxiv.org/abs/2410.00425 https://www.maniskill.ai/ 3

Agenda 以下の通りで紹介します 1 Introduction 2 Related Work 3 ManiSkill3‘s Features 4 Limitation 5 Conclusion 4

Agenda 以下の通りで紹介します 1 Introduction 2 Related Work 3 ManiSkill3‘s Features 4 Limitation 5 Conclusion 5

Introduction • Robot Simulatorの活用・課題 – Robot制御をRLなどで行う研究では，Robot Simulatorにて得たデータをもとに学習を行われている • 実際のロボットからデータをとるのはコストがかかり，スケールしにくい • 実機とシミュレータのギャップが性能に大きく影響するため，なるべくギャップを小さくする必要がある 6

Introduction • 既存Robot Simulatorの課題 – ロボットタスクの中でも特にマニピュレーションタスクは実世界への応用が限定的で，RGB画像に代わるような高度な状態予測が求められる[Handa et al.2023] – 既存のGPUシミュレータ（Issac やMujoco’s MJXなど）には，各並列環境ごとに異なる状況をシミュレーションする機能や並列レンダリングを行う機能がない ⇨GPUを用いたより効率的なシミュレーション環境「ManiSkill3」を提案 7

Agenda 以下の通りで紹介します 1 Introduction 2 Related Work 3 ManiSkill3‘s Features 4 Limitation 5 Conclusion 8

Related Workとの比較 9

10.

ManiSkill3 vs Issac Lab • CartpoletaskにてそれぞれのFPSとGPUメモリを比較 – 640x480のRGB CameraとDepth Cameraで比較 10

11.

ManiSkill3 vs Issac Lab • FPSとGPUメモリの観点でManiSkillが優勢 – FPSが一定になり始めるとGPU効率が向上することが分かった 11

12.

ManiSkill3 vs Issac Lab • レンダリング後の環境を比較 – ManiSkill3はIssacなどの環境とレンダリング後の写り方をそろえようとしているため，大きな差は見受けられない 12

13.

Agenda 以下の通りで紹介します 1 Introduction 2 Related Work 3 ManiSkill3‘s Features 4 Limitation 5 Conclusion 13

14.

ManiSkill3の主要な特徴 • 以下機能が既存sim環境より優れている 1. GPUシミュレーションとレンダリングにてSoTAである 2. 12の環境と20以上のロボットがあり，すべて並列計算可能 3. 汎化のための様々なシミュレーションが同時にできる 4. 統一されたAPIを用いて簡単にシミュレーションできる 5. スケール可能なデータ生成のためのパイプラインを提供 14

15.

多様なシミュレーション用ロボット・タスク • ManiSkill3内に様々なロボットや環境が用意されている – ドキュメントを参照すると，それぞれの特徴や使い方などが掲載されている 15

16.

並列計算可能な多様なシミュレーション • 並列で多様な環境のシミュレーションを行う – 例：open cabinet drawerタスク（左） PickClutterYCB task（右） 16

17.

APIについて • オブジェクト指向に基づきAPIが設計されている • 他フレームワークでは必要だったテンソルindを廃止している →コードを短く，より扱いやすい環境を提供 17

18.

ManiSkill3によるデジタルツイン • sim2realのテストも進んでおり，デジタルツインを用いて95% 程度のタスク成功率を達成した Fig. MiniSkill3によるデジタルツイン（下） 18

19.

ManiSkill3によるテレオペレーション • VRゴーグルを用いて，ManiSkill3内のロボットを遠隔操作できる – Arm Control Module • 関節角度に制約をつけた • 逆運動学に基づいて姿勢を決定する – Hand Control Module • 人間の指をロボットハンドの関節位置に変換している – Controler Module • 物をつかむ際の動きを直感的に再現した 19

20.

PPOの訓練パフォーマンス紹介 • ManiSkill3を用いてPPOにより学習した – 過去最速だったManiSkill2の8-15倍ほど速く収束するようになった – RL側でPPOより早く収束するようなアルゴリズムが出てくれば，より早く解を得られるようになる 20

21.

Agenda 以下の通りで紹介します 1 Introduction 2 Related Work 3 ManiSkill3‘s Features 4 Limitation 5 Conclusion 21

22.

Limitation • カメラ解像度が低い場合はIssac LabがMiniSkill3の最大1.2倍ほど速くなる – 反対にカメラ解像度が高い場合はMiniSkill3が2倍ほど速いカメラ解像度：128 x 128 カメラ解像度：512 x 512 22

23.

Limitation • 並列計算の限界 – 複雑なジオメトリを伴うような環境だと並列計算可能な環境数が減少する – 剛体ベースの環境は可能だが，軟体のある環境はそれ自体でGPUをかなり逼迫するため，バッチ化されていない • Sim2realの課題 – レンダリングを高速化したため，RGBベースのsim2realが可能になったが，より堅牢なRLポリシーとなるような報酬設計が必要である – 現在のデモは静的なカメラ使用に限定されている 23

24.

Conclusion • 並列シミュレーション・レンダリングを効率化するため， ManiSkill3を提案した – 様々な環境のシミュレーションを並列で行える – 12の環境，20以上のロボットが用意されている – デジタルツイン可能なことを確認しており，タスク完了率は約95% – VRゴーグルを使ったテレオペレーションが行える • 既存シミュレータと比べて，GPUメモリ効率は2-3倍，計算速度は10-1000倍程度改善した 24