【DL輪読会】Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

1.6K Views

September 01, 23

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition 2023.9.1 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab 1

2.

概要 LLMを活用してロボット制御のスキル獲得する仕組みを提案 • 言語ラベルのついたロボットのデータをスケールさせる • 各タスクの成功判定をLLMで推論 • 失敗を自動で検知してリトライする • 生成したデータを言語で条件づけられたマルチタスクの方策に蒸留 • Diffusion policyをマルチタスクに拡張 2

3.

書誌情報 Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition • Huy Ha1, Pete Florence2, Shuran Song1 • 1Columbia University, 2Google Research • https://arxiv.org/abs/2307.14535 • v1: 2023/7/26 • Website: https://www.cs.columbia.edu/~huy/scalingup/ • Github: https://github.com/columbia-ai-robotics/scalingup • ドキュメントがやたらと詳しい • CoRL2023 accepted (poster) • 昨日(8/31)査読結果が発表されました • ちなみにCoRL2023のaccepted papersはこちら https://openreview.net/submissions?venue=robot-learning.org/CoRL/2023/Conference ※特に出典が明記されていない図は当論文から引用 3

4.

ウェブサイトに掲載されている説明動画 https://www.cs.columbia.edu/~huy/scalingup/ 4

5.

背景 実世界でロバストで再利用可能で効率的な ロボットの物体操作スキルの学習における主要な課題 • 多様な範囲のスキルの関するデータ収集を効率化する • オフラインのデータから効率的に学習する 5

6.

背景 視覚・言語・制御のデータのスケール化の問題 • 視覚・言語・制御モデルの学習に関する研究の大部分では, 人間のエキスパートデモンストレーションやplayデータを利用 • 人間による言語や行動のアノテーションが必要でスケールしにくい RT-1 Learning from Play https://robotics-transformer1.github.io/ https://language-play.github.io/ 6

7.

背景 多峰なオフラインのロボットの制御データから マルチタスクの方策を学習する手法が必要 • ロボットの多峰な行動のデータから効率的に方策を学習する必要が ある • 同時に,言語で条件づけることで,一つのモデルで様々なタスクを 実行できるようなマルチタスクの手法を学習する必要がある 7

8.

手法の全体像 • LLMにタスクの説明を入力し,シミュレータ上で特権情報を使ってサンプリン グベースのプランナを利用 • 特権情報:実世界では正確に測定が難しいがシミュレータでは容易に正確な情報に アクセスできる情報 • 例)物体の正確な姿勢,接触,セグメンテーション • タスクの遂行のための探索を遂行 • 集めたデータセットから成功した軌道を取り出して,言語で条件づけられた closed-loopな方策に蒸留して,実世界に活用 結果として,人間によるデモンストレーションや 手動で設計された報酬関数が不要なので, 効率よく大量のデータを収集・学習できる 8

9.

手法の全体像 ① データセットの生成 • a) LLMを使ってタスクを探索のための階層的なプランへ再帰的に 分解(例:task tree) • b) プランをサンプリングベースの動作プリミティブを使って実現 • c) プラン中の各タスクの成功判定器をLLMを利用して推論 ② 方策の学習 • LLMで推論した成功判定器を使って,成功した軌道を取り出し, マルチタスクのdiffusion policyに蒸留 9

10.

手法 ① データセットの生成 タスクの説明文から,a) Simplify・b) Ground・ c) Verify&Retryの3つのフェーズでデータを自動で生成 10

11.

手法 (論文の論旨とは関係ない文化的な補足) 図中の“Send the package for return”というタスクについて • 最初,図中のタスクの説明の意味(英語)がわからなかった… • 海外の郵便受けは,横についている旗を立てておくと「集荷してほ しい郵便物が入っている」という意味になっているらしい • なお,郵便局員が郵便を持ってきたときも旗を立ててくれるらしい • つまりタスクの説明は「戻したい小包を送って」的な意味 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q148879454 11

12.

手法 - ① データセットの生成 ①-a Simplify: プランニングと分解 LLMを使って実行すべきタスクの説明からタスクツリーを生成 • タスクの説明・シミュレータの状態を入力 • タスクの説明が複数の物体との相互作用なのか,一つの物体との相 互作用なのかを判定させる • 複数の物体の場合は分解させる • プロンプトで分解の例を入れる https://github.com/columbia-ai-robotics/scalingup/tree/master/scalingup/prompts/policy/multichoice 12

13.

手法 - ① データセットの生成 ①-b Ground: ロボットの動作を組み合わせて生成 生成されたタスクツリーをもとに,動作のプランナ(把持・移 動・多関節の物体の操作のためのプリミティブ)のAPIを呼ぶ • プランナはサンプリングベースのもの(RRTなど)を利用 • シミュレータ内の特権情報を利用して動作プランを作れる 13

14.

手法 - ① データセットの生成 ①-c Verify&Retry: LLMで成功判定器を作りサブタスクが成功するまで探索 • シミュレータの特権情報を利用してタスクの成功or失敗の2値を返 す成功判定器(コード)を生成 • 失敗したら,サンプリングベースのプランナのシードを変更してリ トライする(リセットはしない) • 同じ失敗にハマり続けず,失敗から復帰するためのデータが得られる 14

15.

手法 ② 方策の学習 Diffusion policyを言語による条件付けに拡張 • サンプリングベースのプランナを使って作った多峰性の高いデータを学習に用い るためdiffusionを採用 • テキストの埋め込みにはCLIPのtext encoderを利用 • 2つの画像をResNet-18で埋め込み • ノイズスケジューラにDDIMを利用 • 学習50ステップ,推論5ステップ • A6000で35Hzで推論可能 (10次元の行動空間) • Diffusion policy自体は山根さんがDL輪読会で紹介済み • https://www.slideshare.net/DeepLearningJP2016/dldiffusion-policyvisuomotor-policy-learning-via-action-diffusion 15

16.

実験 5ドメイン18タスクのベンチマーク環境を作成 • MuJoCo上にGoogle Scanned Datasetから物体を配置 • 複雑な幾何形状への汎化や,多関節の物体の操作,直感的な物理の 理解,常識的な推論や道具の利用,マルチタスク,長期の動作の観 点からタスクを整理 16

17.

実験 データ生成の方法の評価 • 複雑な幾何形状の物体の操作には6DoFでの制御が必要 • 例:MailboxやDrawer • さらに,6DoFでの探索によって軌道に多様性が生まれ蒸留の際に性能 向上に役立つ • Verify & Retryのステップによって全てのドメインでの性能向上が 見られた • LLMによる成功判定器が有用 17

18.

実験 学習した方策の評価 • 推論した成功判定器を用いてフィルタしたデータから学習した 方策は失敗してもリカバリーできる(緑色の線) • Diffusion policyを使っているおかげで 同じ観測,同じテキスト入力でも 多様な軌道を生成できる https://www.cs.columbia.edu/~huy/scalingup/ https://github.com/columbia-ai-robotics/scalingup/blob/master/docs/visualization.md 18

19.

実験 Sim2Realで学習した方策を実世界に転移 シミュレータで学習した方策を実世界に転移するためにDomain Randomizationを実施 • 光源環境,テクスチャ,カメラ姿勢をランダマイズ • 学習した方策をzero-shot転移(fine-tuningしない) https://www.cs.columbia.edu/~huy/scalingup/ 19

20.

考察(ウェブサイトに掲載されているQ&A) Q. このフレームワークの限界は? • A. シミュレーションのprivillaged stateを利用することを前提に LLMで報酬関数を推論してデータセットを生成しているの • Sim2realの特権情報を使った方が良い報酬関数が作れる(接触など) • https://www.cs.columbia.edu/~huy/scalingup/ 20

21.

まとめ LLMを言語で条件づけられた方策学習のためのデータ生成に活用 • 利用方法はタスクの分解(プランニング)や,コード生成など多様 • SayCanやCode as policyは実行時にLLMを用いているというところ がこの研究とは異なる • 動作プランナとLLMによる成功判定器を用いてタスクに成功したデ ータを大量に集めることに成功 集められたデータを使って言語で条件づけられたdiffusion polciyを学習 • 動作プランナの出力した多峰な軌道からの学習に成功 21

22.

感想 LLMをロボット制御の文脈で(zero-shotで)使い倒すという点 で面白い • タスク推論にも使うし,常識的な推論にも使うし,コード生成にも 使う LLM x ロボティクスの論文でスキルを事前に定義しておいて,そ れの組み合わせを推論する系の研究は多いが,そのスキルどうや って用意するのかという問題はずっと気になっていた • システム全体としてはスキル自体を改善するような枠組みが欲しい • この研究はスキルを学習するという面で上記の多くの研究と一線を 画している(はず) 22

23.

おしらせ 日本ロボット学会(RSJ)学術講演会「OS4: 基盤モデルの実ロボット応用」 • 2023/9/11‒12 @仙台 • 「…本セッションでは,大規模言語モデル, 大規模視覚-言語モデルに代表される 事前学習済みの基盤モデルを活用し,知能的に振る舞うロボットについて議論する.」 • OS初年度にして21件の発表が集まった 英文誌Advanced Roboticsの特集号 • 日本ロボット学会の英文誌 • Google・Metaなど海外で基盤モデルのロボット応用を研究する 第一人者(Andy Zeng, Chris Paxton)たちも本特集号のエディタ陣を務める • サーベイ論文も歓迎 • 原稿〆切:2024/1/31 • ただし,採録が決定次第,順次web上で公開予定(プレプリント公開も規定のもとOK) 論文投稿・参加をぜひご検討ください!! 23