【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data

613 Views

July 29, 22

スライド概要

2022/7/29
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Language Conditioned Imitation Learning over Unstructured Data Koki Ishimoto http://deeplearning.jp/ 1

2.

書誌情報 • Title: Language Conditioned Imitation Learning over Unstructured Data • Author: Corey Lynch* and Pierre Sermanet* • *Robotics at Google • Conference: Robotics: Science and Systems 2021(Held Virtually: July 12-16, 2021) • Project page: https://language-play.github.io/ 2

3.

概要 • Generalist robotを作るためにどうするか • 人間は幼児が行動、保護者が言語を与え、それを関連づけて学 習を進めることが一般的 • ロボットの場合にも同じようなことができないか 3

4.

研究の概要 • Cover the space with teleoperational play(Learning from Play) • テレオペでstate-action logを取る • Pair play with human language • 行動を後付けで言語にペアリングする • Multicontext imitation learning • 自己教師あり模倣学習により、行動と言語のペアリング数を減らせる(全デー タ中1%程度) • Condition on human language at test time • テスト時に言語指示で複数のスキルを連続実行 • Transfer learning from unlabeled text corpora to robotic manipulation • ラベル付されてないテキストコーパスからロボットマニピュレーションへの 転移学習 4

5.

研究の概要 • Open-endedなロボットマニピュレーション • 狭い観測空間(ゲーム、2D grid) • 簡略化されたシミュレータ(binary pick&placeなど) • 合成言語データ • サブタスクの任意の組み合わせができる • ロボットのもつセンサからの学習 • General task specification • これらについてテスト 5

6.

関連研究 • Learning from Play(LfP) • テレオペレーションのデータで状態空間をカバーし、relabeled imitation learningを使って行動をgoal-directed policyに再利用する • LfPはgoal画像を用いてタスク指定する必要があるが、オープンワール ドでは非実用的 6

7.

Relabeled Imitation Learning • GCBC • Learning from Play(LfP) • Teleopeによる状態空間の確保 8

8.

Learning to Follow Human Language Instructons • Pairing robot experience with human language • Hindsight Instruction Pairingを導入 • ロボットセンサデータと関連する言語をペアリングする手法 • Multicontext Imitation Learning • LangLfP: Following image and Language Goals 9

9.

Multicontext Imitation Learning • 各トレーニングステップにおいて、各 データセットについて軌道とコンテキ ストのペミニバッチをサンプリングし 、潜在目標空間でエンコード、最尤コ ンテキスト模倣目標を計算 10

10.

LangLfP: Following image and Language Goals 11

11.

LangLfP • Hindsight goal image tasksとHindsight instruction tasksからなるデ ータセットに対して、multicontext policyを学習させる。 • Perception module • Language module • テキストをサブワードにトークン化し、ルックアップテーブルからサ ブワード embeddingを取得し、空間上の点に関連付ける。 • Control module • Latent Motor Plansを利用 • Seq2seq CVAE 12

12.

Transferring knowledge from generic text corpora • 大規模自然言語コーパスの知 識をロボットマニミュレーシ ョンに転用できるか? • 本研究では、ラベル化されて いないテキストコーパスで事 前学習された言語モデルを semantic vector spaceにマッピ ングできると仮定。 TransferLangLfPを導入 13

13.

Experimental Setup • ”Ask me anything”シナリオ • 言語指示によるマニピュレー ションタスクを連続で行う • Transfer from unlabeled text corpora • 新規のテキストによる指示へ のzero-shotでのmanipulation 14

14.

Appendix: Environment • Observation space • 200*200 RGB画像+8-DoFのロボッ ト関節・位置センサ • ドア開閉量、可動ブロックの姿 勢、ボタンの押し具合、引き出 し開閉量 • 30Hz • Action space • Actionは256binに量子化 15

15.

Methods • LangBC: 18個のタスク x 100 expert demonstrations • LfP: ベースラインLfPモデル • LangLfP(proposed): test時は言語指示 • Restricted LangLfP: データサイズを制限したモデル • TransferLangLfP(proposed): LangLfPの転移学習 • 観測は、画像(pixels) or object位置のground truth(states)のどちら かを使用 16

16.

“Ask Me Anything” Experiments • Long-Horizon Evaluation • 複数のサブタスクを連続して指示 • 例:「棚からブロックを取ってきて、引き出しを開けて、ブロックを引 き出しの中に入れて、引き出しを閉めてください。」 17

17.

Long Horizon Results • Goal image conditioned comparison • LfPとLangLfPが誤差の範囲内で一致 • LangLfPは制御の大部分を自己教師あり模倣学習で学習(言語ペアリング は0.1%) 18

18.

Long Horizon Results • Conventional multitask imitation comparison • 手法ごとの比較 • LangLfPがLangBCを上回った。 • Playデータセットを従来のデモデータセットと同じ数にしてもLanbBCを上回った 。 19

19.

Play scales with model capacity • モデルを大きくすると、 • LangLfPでは順調に性能が向上 • LangBCではスケールアップしない 20

20.

Knowledge Transfer Expriments • LangLfPに転移学習を行った。 • 目的 • 一般的なテキストコーパスから言語指示ロボットマニピュレーション への転移は可能か? • 事前学習させたembeddingsを用いて学習させることで、学習させたこ とのない命令にも対応できるようになるか? 21

21.

Knowledge transfer results • Positive transfer to robotic manipulation • TransferLangLfPがLangLfPよりも良い性能 を示した • 大量のテキストに反映された世界の知 識が、言語指示ロボット操作の改善に 活用されたと考えられる • Following out of distribution “synonym instructions” • 同義語の指示に関して、TransferLanngLfP の方が優位な性能を示した • 例:「ブロックを拾う」と「レンガを拾 う」などの同じような指示に対する汎化 性の高い対応 22

22.

Knowledge transfer results • Following out of distribution instructions in 16 different Languages 23

23.

Limitations and Future Work • LfPのデータセットの範囲が広いため、従来のBCに比べて失敗確 率は下がるが、腕が複雑な姿勢に遷移するなどのエラーが発生 する • LangLfPは基本的には goal-oriented bcであり、自律的にpolicyの改 善できない • RLなどを組み合わせた自律的な改善、新しい環境への汎化など が今後の方向性 24

24.

Conclusion • 言語ペアリングのコスト削減のためのマルチコンテキスト模倣 学習 • 一つのpolicyw、ゴール画像と言語タスクの両方で学習させ、テ スト時には言語指示だけを使用 • 言語ペアリングを1%未満に抑えることに成功 • 大規模なテキストコーパスをロボットマニピュレーションへの 指示に転移学習させることができた。 25

25.

Appendix : Relabeling play 26

26.

Appendix: LangLfP Implementation Details • Perception module • Image goal encoder • Language understanding module 27

27.

Appendix: LangLfP Implementation Details • Control module • Multicontext LMP • Training details 28

28.

Appendix: Datasets • Play dataset: ~10M個 x 1-2秒, ~7h relabeled デ ータ • (Play, Language) dataset: • (Demo, Lanuage) dataset • Restricted play dataset 29

30.

Appendix: Models 31

31.

Appendix: Long Horizon Evaluation • Task construction • Eval walkthrough • Neutrality in multitask evaluation 32

32.

Appendix: Qualitative Examples 33

33.

Appendix: Ablation: How much language is neccesary_? 34

34.

Appendix: Knowledge transfer with language pretraining 35