【DL輪読会】Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

149 Views

December 19, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction Naruya Kondo (落合研 D2) 1

2.

書誌情報 ● Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction ○ CoRL 2024、Angjoo Kanazawa のラボ! ● ひとことで言うと ○ 人間のデモからロボットが新しい物体操作を獲得してほしい! ○ 入力: 3Dスキャン + 人の物体操作の動画 → 新しい物体の姿勢からデモと同じ物体操作 ● 選んだ理由 ○ gaussian splatting を動かすのたのしい ■ ■ デモが react + three.js で動いてた (万博落合館でそんなのを担当しており…) ○ テレオペではなく、物体の形状変化を再現する操作を探すアプローチ。 ロボットに依存しないデータのとり方で、スケールしやすそう 2

3.

プロジェクトページ かわいい https://robot-see-robot-do.github.io/ 3

4.

(論文初見のイメージ) • 3Dスキャン (最近はそういうスマホアプリもあるし?) • 動画も撮って、4D再構成? • 人間の動作データ見て模倣学習?ロボット動く • 組み合わせ論文…? • 3Dを動かすの計算コスト高そう… 4

5.

(論文初見のイメージ) • 3Dスキャン (最近はそういうスマホアプリもあるし?) • 動画も撮って、4D再構成? ⇨ 大量カメラなし・動視点なし (数秒・固定視点でいい!) • 人間の動作データ見て模倣学習?ロボット動く ⇨ 人の真似でなく物体の最終的な動きを再現 • 組み合わせ論文…? ⇨ 組み合わせるものも Angjoo Kanazawa 祭り • 3Dを動かすの計算コスト高そう… ⇨ ブラウザで動いてる! (ライブラリも作ってる) 5

6.

概要 • 背景 – 人間のデモからロボットが新しい物体操作を学習すること重要 • 関連研究 • Robot See Robot Do – [Robot See] 4D-DPM: Gaussian Splatting + パーツ分け (GARFiled)、パーツの姿勢変化を推定 – [Robot Do] 同じ物体が未知の姿勢で渡される。デモから復元した 3D物体軌道を、再現するための両手の軌道を計画 (割と気合) • 使ってる手法 – ARAP penalty (EUROGRAPHICS 2007 + Test of Time Award 2022) – GARField (CVPR2024, angjoo kanazawa) – DINO (ICCV 2021) – HaMeR (CVPR 2024, angjoo kanazawa) (省略) • 評価 6

7.

モチベーション : 人-ロボな世界 はさみなどを、家のロボットに操作させることを考えてみてください。物体を手に取り、ロボットに見せ、自分 の手でその使い方を実演するでしょう。これは、大人と子供の大きな手の形態の違いにもかかわらず、子供 が大人を見て学ぶのと同じ方法です。 この形態の違いを越えた視覚での模倣から大事なのは、マニピュレーター(手)の正確な動きに注目するの ではなく、物体レベルの行動の結果を観察することです。 7

8.

関連研究 (軽く) Recovering 3D Motion • • だいたい大量カメラ or 事前知識 or 少量データが要る → GARField でパーツに分けてから考える Learning from one demo (☆) • • だいたいそのロボのテレオペ (リモコン) or 人間<->ロボの動きの学習用のペアデータがいる – or メタ学習。メタ学習のためのタスクセットがいる → ロボではなく、オブジェクト中心の手法デザインする Object-centric representations for robots • • 3D構造の対象学習・画像認識の中間特徴量 模倣学習・強化学習・意味・関係・不確実性… (いろいろ) Feature fields for robotics. NeRF (Neural Radiance Field) + 把持 / 移動、Gaussian Splatting D^3Fields (CVPR 2023)、DINOで3Dのトラッキング (剛体の移動) • https://robopil.github.io/d3fields/ (← CoRL 2021 で水槽に水注いでた visuomotor control の人がラスト, + Fei-Fei Li とか) ⇧ • • 8

9.

Robot See Robot Do Robot See • • ① 特徴量を埋め込んだパーツで分割されたモデル 4D-DPM (4D Differentiable Part Models) を構築 ② 単眼ビデオから3Dモーションを復元 Robot Do • • ロボットは作業空間内での対象物の姿勢を認識 デモ映像の物体の動きを再現する行動を計画 9

10.

4D Differentiable Part Models (4D-DPM) デモ映像を再現するように、パーツの姿勢変化を推定。 ① GARField で、パーツに分割された3DGSを作る ② 微分可能レンダリングで姿勢を変える&レンダリング ③ DINO特徴量・深度画像でL2 Loss + ARAP Loss で backprop。 • ARAP Loss: splat 間の距離の変化が loss – – – – – これがないと、簡単にもげる 初期状態でパーツをまたいで、距離 2.5mm にあるペアだけ監視。 部品がくっついた状態を維持する物体(箱・メガネ)は α = 1.0 分離可能な部品(エアガン、 USB ケーブル)を含む物体は α = 0.1 (互いに回転する近隣ガウス関数に対してペナルティを課さない⇨ヒンジの動きを容易に実現できる ) ※デモを見ると初期状態は、全 部開いた状態。 最初から閉じてたらめっちゃ loss かかると思う 10

11.

GARField: Group Anything with Radiance Fields (CVPR 2024) Angjoo Kanazawa + Luma.ai https://www.garfield.studio/ 11

12.

GARField (ダイジェスト ) • • • • 対照学習で、NeRFベースの埋め込み表現を獲得する 2Dの SAM (Segmant Anything Model) のマスクを使って、対照学習: 異なる2Dマスクに属する点(?)は特徴空間で 離され同じ点は近づくように、3D特徴表現を学習 スケールで条件付けして3D特徴表現を学習することで、スケールに応じて同じグループにも違うにもなれる (それら しい階層性も得られる) 様々な視点で別々にSAMをして対照学習しまくると、もとのSAMよりグループ分けが細かく正確にできる 12

13.

DINO (ICCV 2021, あんまわかってないです ) • • • • CV系のラベル無し事前学習 2つのモデル。入力は両方ランダムクロップ、出力にsharpening (生&教) とcentering (教のみ) K次元 (65536 とか) のベクトルを出力、cross entropy で近づくように2人で学習 蒸留とかもする、クロップサイズも違う (local to global?) • classification とか segmentation とかのバックボーンにするとすごい グラフの画像: 大阪大学医学部 Python会 https://oumpy.github.io/blog/2021/05/dino.html 13

14.

Do 1. 動かすパーツの候補リスト – デモの全時間で、1番親指・人差し指との距離の合計が小さいパーツからランキングする 2. パーツ中心の把持の仕方 – 市販の把持計画ツールは、物体レベルよりも全体的な物体の把持に重点を置く傾向がある – すべての部分で把持を保証。まず、アルファシェイプを取得して~~~、その後、回転と把持軸の移動 を加えて480の把持軸を生成しておく 3. 実現可能なロボット軌道を網羅的に探索 – 衝突回避、最初の姿勢までのアプローチを生成して ・ RSRDは人間の動きを模倣しようとはしないので、人とは異なる軌道を実現することができる (最初に物体を持ち上げるとか) 14

15.

評価 トラッキング(not ロボ?) • • 平均距離誤差7.5mm アブレーションで、ARAPとDINOの両方が重要 ロボット実験 • • • YuMi双腕ロボットを使用して、ロボットの作業空間内に10通りの異なる向きで各物体を配置し、RSRDロボット実行 パイプラインの4つの異なるフェーズにおける成功率を測定。 その結果、初期姿勢(とは何?)の登録では94%、軌道計画では87%の成功率が示されました。 初期の把持と動作実行の成功率はそれぞれ83%と85%。RSRDは初期物体位置の60%で模倣に成功 15

16.

手法のLimitation • 内部部品の変形は無視できる課程 • 物体のスキャンはデモンストレーションの開始時と同じ状態で取得 • 入力ビデオは操作される部品がよく見える固定視点 (動くと逆に少し困りそう) • 手で隠れてたらどうなる? • つなぎ目は見た目が怪しい • 動くパーツ常に1箇所?(同時に複数個所動くことは、planning が想定していなさそう) 16

17.

まとめ • 本稿では、単眼の人間による単一のデモンストレーションで多関節物体の動作を教示し、それを双腕ロ ボットで再現する方法である「Robot See Robot Do」を紹介。 • これは、ラベル付きパーツデータセットを必要とせずに、入力単眼ビデオで追跡できるパーツを認識した 物体モデルを構築するためのニューラル特徴フィールドを活用。 • 物体中心の性質により、RSRDは、デモンストレーションの形態を転送しながら、物体の任意の方向転換 に学習したデモンストレーションを適用することができる。 17