551 Views
July 29, 22
スライド概要
2022/7/29
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Language Conditioned Imitation Learning over Unstructured Data Koki Ishimoto http://deeplearning.jp/ 1
書誌情報 • Title: Language Conditioned Imitation Learning over Unstructured Data • Author: Corey Lynch* and Pierre Sermanet* • *Robotics at Google • Conference: Robotics: Science and Systems 2021(Held Virtually: July 12-16, 2021) • Project page: https://language-play.github.io/ 2
概要 • Generalist robotを作るためにどうするか • 人間は幼児が行動、保護者が言語を与え、それを関連づけて学 習を進めることが一般的 • ロボットの場合にも同じようなことができないか 3
研究の概要 • Cover the space with teleoperational play(Learning from Play) • テレオペでstate-action logを取る • Pair play with human language • 行動を後付けで言語にペアリングする • Multicontext imitation learning • 自己教師あり模倣学習により、行動と言語のペアリング数を減らせる(全デー タ中1%程度) • Condition on human language at test time • テスト時に言語指示で複数のスキルを連続実行 • Transfer learning from unlabeled text corpora to robotic manipulation • ラベル付されてないテキストコーパスからロボットマニピュレーションへの 転移学習 4
研究の概要 • Open-endedなロボットマニピュレーション • 狭い観測空間(ゲーム、2D grid) • 簡略化されたシミュレータ(binary pick&placeなど) • 合成言語データ • サブタスクの任意の組み合わせができる • ロボットのもつセンサからの学習 • General task specification • これらについてテスト 5
関連研究 • Learning from Play(LfP) • テレオペレーションのデータで状態空間をカバーし、relabeled imitation learningを使って行動をgoal-directed policyに再利用する • LfPはgoal画像を用いてタスク指定する必要があるが、オープンワール ドでは非実用的 6
Relabeled Imitation Learning • GCBC • Learning from Play(LfP) • Teleopeによる状態空間の確保 8
Learning to Follow Human Language Instructons • Pairing robot experience with human language • Hindsight Instruction Pairingを導入 • ロボットセンサデータと関連する言語をペアリングする手法 • Multicontext Imitation Learning • LangLfP: Following image and Language Goals 9
Multicontext Imitation Learning • 各トレーニングステップにおいて、各 データセットについて軌道とコンテキ ストのペミニバッチをサンプリングし 、潜在目標空間でエンコード、最尤コ ンテキスト模倣目標を計算 10
LangLfP: Following image and Language Goals 11
LangLfP • Hindsight goal image tasksとHindsight instruction tasksからなるデ ータセットに対して、multicontext policyを学習させる。 • Perception module • Language module • テキストをサブワードにトークン化し、ルックアップテーブルからサ ブワード embeddingを取得し、空間上の点に関連付ける。 • Control module • Latent Motor Plansを利用 • Seq2seq CVAE 12
Transferring knowledge from generic text corpora • 大規模自然言語コーパスの知 識をロボットマニミュレーシ ョンに転用できるか? • 本研究では、ラベル化されて いないテキストコーパスで事 前学習された言語モデルを semantic vector spaceにマッピ ングできると仮定。 TransferLangLfPを導入 13
Experimental Setup • ”Ask me anything”シナリオ • 言語指示によるマニピュレー ションタスクを連続で行う • Transfer from unlabeled text corpora • 新規のテキストによる指示へ のzero-shotでのmanipulation 14
Appendix: Environment • Observation space • 200*200 RGB画像+8-DoFのロボッ ト関節・位置センサ • ドア開閉量、可動ブロックの姿 勢、ボタンの押し具合、引き出 し開閉量 • 30Hz • Action space • Actionは256binに量子化 15
Methods • LangBC: 18個のタスク x 100 expert demonstrations • LfP: ベースラインLfPモデル • LangLfP(proposed): test時は言語指示 • Restricted LangLfP: データサイズを制限したモデル • TransferLangLfP(proposed): LangLfPの転移学習 • 観測は、画像(pixels) or object位置のground truth(states)のどちら かを使用 16
“Ask Me Anything” Experiments • Long-Horizon Evaluation • 複数のサブタスクを連続して指示 • 例:「棚からブロックを取ってきて、引き出しを開けて、ブロックを引 き出しの中に入れて、引き出しを閉めてください。」 17
Long Horizon Results • Goal image conditioned comparison • LfPとLangLfPが誤差の範囲内で一致 • LangLfPは制御の大部分を自己教師あり模倣学習で学習(言語ペアリング は0.1%) 18
Long Horizon Results • Conventional multitask imitation comparison • 手法ごとの比較 • LangLfPがLangBCを上回った。 • Playデータセットを従来のデモデータセットと同じ数にしてもLanbBCを上回った 。 19
Play scales with model capacity • モデルを大きくすると、 • LangLfPでは順調に性能が向上 • LangBCではスケールアップしない 20
Knowledge Transfer Expriments • LangLfPに転移学習を行った。 • 目的 • 一般的なテキストコーパスから言語指示ロボットマニピュレーション への転移は可能か? • 事前学習させたembeddingsを用いて学習させることで、学習させたこ とのない命令にも対応できるようになるか? 21
Knowledge transfer results • Positive transfer to robotic manipulation • TransferLangLfPがLangLfPよりも良い性能 を示した • 大量のテキストに反映された世界の知 識が、言語指示ロボット操作の改善に 活用されたと考えられる • Following out of distribution “synonym instructions” • 同義語の指示に関して、TransferLanngLfP の方が優位な性能を示した • 例:「ブロックを拾う」と「レンガを拾 う」などの同じような指示に対する汎化 性の高い対応 22
Knowledge transfer results • Following out of distribution instructions in 16 different Languages 23
Limitations and Future Work • LfPのデータセットの範囲が広いため、従来のBCに比べて失敗確 率は下がるが、腕が複雑な姿勢に遷移するなどのエラーが発生 する • LangLfPは基本的には goal-oriented bcであり、自律的にpolicyの改 善できない • RLなどを組み合わせた自律的な改善、新しい環境への汎化など が今後の方向性 24
Conclusion • 言語ペアリングのコスト削減のためのマルチコンテキスト模倣 学習 • 一つのpolicyw、ゴール画像と言語タスクの両方で学習させ、テ スト時には言語指示だけを使用 • 言語ペアリングを1%未満に抑えることに成功 • 大規模なテキストコーパスをロボットマニピュレーションへの 指示に転移学習させることができた。 25
Appendix : Relabeling play 26
Appendix: LangLfP Implementation Details • Perception module • Image goal encoder • Language understanding module 27
Appendix: LangLfP Implementation Details • Control module • Multicontext LMP • Training details 28
Appendix: Datasets • Play dataset: ~10M個 x 1-2秒, ~7h relabeled デ ータ • (Play, Language) dataset: • (Demo, Lanuage) dataset • Restricted play dataset 29
30
Appendix: Models 31
Appendix: Long Horizon Evaluation • Task construction • Eval walkthrough • Neutrality in multitask evaluation 32
Appendix: Qualitative Examples 33
Appendix: Ablation: How much language is neccesary_? 34
Appendix: Knowledge transfer with language pretraining 35