【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data

1K Views

July 29, 22

#deep learning #Deep Learning #Robotics #Imitation Learning #Transfer Learning #Language Conditioned Learning

スライド概要

2022/7/29
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Language Conditioned Imitation Learning over Unstructured Data Koki Ishimoto http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Title: Language Conditioned Imitation Learning over Unstructured Data • Author: Corey Lynch* and Pierre Sermanet* • *Robotics at Google • Conference: Robotics: Science and Systems 2021(Held Virtually: July 12-16, 2021) • Project page: https://language-play.github.io/ 2

https://language-play.github.io/

概要 • Generalist robotを作るためにどうするか • 人間は幼児が行動、保護者が言語を与え、それを関連づけて学習を進めることが一般的 • ロボットの場合にも同じようなことができないか 3

研究の概要 • Cover the space with teleoperational play(Learning from Play) • テレオペでstate-action logを取る • Pair play with human language • 行動を後付けで言語にペアリングする • Multicontext imitation learning • 自己教師あり模倣学習により、行動と言語のペアリング数を減らせる(全データ中1%程度) • Condition on human language at test time • テスト時に言語指示で複数のスキルを連続実行 • Transfer learning from unlabeled text corpora to robotic manipulation • ラベル付されてないテキストコーパスからロボットマニピュレーションへの転移学習 4

研究の概要 • Open-endedなロボットマニピュレーション • 狭い観測空間(ゲーム、2D grid) • 簡略化されたシミュレータ(binary pick&placeなど) • 合成言語データ • サブタスクの任意の組み合わせができる • ロボットのもつセンサからの学習 • General task specification • これらについてテスト 5

関連研究 • Learning from Play(LfP) • テレオペレーションのデータで状態空間をカバーし、relabeled imitation learningを使って行動をgoal-directed policyに再利用する • LfPはgoal画像を用いてタスク指定する必要があるが、オープンワールドでは非実用的 6

Relabeled Imitation Learning • GCBC • Learning from Play(LfP) • Teleopeによる状態空間の確保 8

Learning to Follow Human Language Instructons • Pairing robot experience with human language • Hindsight Instruction Pairingを導入 • ロボットセンサデータと関連する言語をペアリングする手法 • Multicontext Imitation Learning • LangLfP: Following image and Language Goals 9

Multicontext Imitation Learning • 各トレーニングステップにおいて、各データセットについて軌道とコンテキストのペミニバッチをサンプリングし、潜在目標空間でエンコード、最尤コンテキスト模倣目標を計算 10

10.

LangLfP: Following image and Language Goals 11

11.

LangLfP • Hindsight goal image tasksとHindsight instruction tasksからなるデータセットに対して、multicontext policyを学習させる。 • Perception module • Language module • テキストをサブワードにトークン化し、ルックアップテーブルからサブワード embeddingを取得し、空間上の点に関連付ける。 • Control module • Latent Motor Plansを利用 • Seq2seq CVAE 12

12.

Transferring knowledge from generic text corpora • 大規模自然言語コーパスの知識をロボットマニミュレーションに転用できるか？ • 本研究では、ラベル化されていないテキストコーパスで事前学習された言語モデルを semantic vector spaceにマッピングできると仮定。 TransferLangLfPを導入 13

13.

Experimental Setup • ”Ask me anything”シナリオ • 言語指示によるマニピュレーションタスクを連続で行う • Transfer from unlabeled text corpora • 新規のテキストによる指示へのzero-shotでのmanipulation 14

14.

Appendix: Environment • Observation space • 200*200 RGB画像+8-DoFのロボット関節・位置センサ • ドア開閉量、可動ブロックの姿勢、ボタンの押し具合、引き出し開閉量 • 30Hz • Action space • Actionは256binに量子化 15

15.

Methods • LangBC: 18個のタスク x 100 expert demonstrations • LfP: ベースラインLfPモデル • LangLfP(proposed): test時は言語指示 • Restricted LangLfP: データサイズを制限したモデル • TransferLangLfP(proposed): LangLfPの転移学習 • 観測は、画像(pixels) or object位置のground truth(states)のどちらかを使用 16

16.

“Ask Me Anything” Experiments • Long-Horizon Evaluation • 複数のサブタスクを連続して指示 • 例:「棚からブロックを取ってきて、引き出しを開けて、ブロックを引き出しの中に入れて、引き出しを閉めてください。」 17

17.

Long Horizon Results • Goal image conditioned comparison • LfPとLangLfPが誤差の範囲内で一致 • LangLfPは制御の大部分を自己教師あり模倣学習で学習(言語ペアリングは0.1%) 18

18.

Long Horizon Results • Conventional multitask imitation comparison • 手法ごとの比較 • LangLfPがLangBCを上回った。 • Playデータセットを従来のデモデータセットと同じ数にしてもLanbBCを上回った。 19

19.

Play scales with model capacity • モデルを大きくすると、 • LangLfPでは順調に性能が向上 • LangBCではスケールアップしない 20

20.

Knowledge Transfer Expriments • LangLfPに転移学習を行った。 • 目的 • 一般的なテキストコーパスから言語指示ロボットマニピュレーションへの転移は可能か？ • 事前学習させたembeddingsを用いて学習させることで、学習させたことのない命令にも対応できるようになるか？ 21

21.

Knowledge transfer results • Positive transfer to robotic manipulation • TransferLangLfPがLangLfPよりも良い性能を示した • 大量のテキストに反映された世界の知識が、言語指示ロボット操作の改善に活用されたと考えられる • Following out of distribution “synonym instructions” • 同義語の指示に関して、TransferLanngLfP の方が優位な性能を示した • 例：「ブロックを拾う」と「レンガを拾う」などの同じような指示に対する汎化性の高い対応 22

22.

Knowledge transfer results • Following out of distribution instructions in 16 different Languages 23

23.

Limitations and Future Work • LfPのデータセットの範囲が広いため、従来のBCに比べて失敗確率は下がるが、腕が複雑な姿勢に遷移するなどのエラーが発生する • LangLfPは基本的には goal-oriented bcであり、自律的にpolicyの改善できない • RLなどを組み合わせた自律的な改善、新しい環境への汎化などが今後の方向性 24

24.

Conclusion • 言語ペアリングのコスト削減のためのマルチコンテキスト模倣学習 • 一つのpolicyw、ゴール画像と言語タスクの両方で学習させ、テスト時には言語指示だけを使用 • 言語ペアリングを1%未満に抑えることに成功 • 大規模なテキストコーパスをロボットマニピュレーションへの指示に転移学習させることができた。 25

25.

Appendix : Relabeling play 26

26.

Appendix: LangLfP Implementation Details • Perception module • Image goal encoder • Language understanding module 27

27.

Appendix: LangLfP Implementation Details • Control module • Multicontext LMP • Training details 28

28.

Appendix: Datasets • Play dataset: ~10M個 x 1-2秒, ~7h relabeled データ • (Play, Language) dataset: • (Demo, Lanuage) dataset • Restricted play dataset 29

29.

30.

Appendix: Models 31

31.

Appendix: Long Horizon Evaluation • Task construction • Eval walkthrough • Neutrality in multitask evaluation 32

32.

Appendix: Qualitative Examples 33

33.

Appendix: Ablation: How much language is neccesary_? 34

34.

Appendix: Knowledge transfer with language pretraining 35