[DL輪読会]Learning Latent Dynamics for Planning from Pixels

0.9K Views

January 04, 19

#deep learning #Deep Learning #State Representation Learning #Model-Based Problems #Latent Space Planning #Recursive State Space Model

スライド概要

2018/12/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.1K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Learning Latent Dynamics for Planning from Pixels Shohei Taniguchi, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 Learning Latent Dynamics for Planning from Pixels Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson • 2018年11月12日にarXivに投稿された論文 • 著者はGoogle Brain, DeepMind, Google Research 選定理由 • 状態表現学習への興味 • 最近自分が考えていたことに近い気がした • (hardmaruがツイートしていて気になった) 2

アウトライン 1. 背景知識 – – 状態表現学習モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング再帰的な状態空間モデル複数ステップ先の予測モデル 3. 実験 4. まとめ 3

状態表現学習 • 強化学習においてエージェントの観測と行動の系列から、各タイムステップにおけるエージェントの状態の抽象表現（状態表現）を学習する枠組みのこと • モデルベース強化学習の文脈で用いられる用語 • 詳しくはこのレビュー論文と解説スライドを参照 State Representation Learning for Control: An Overview https://arxiv.org/abs/1802.04181 [DL輪読会]`強化学習のための状態表現学習－より良い「世界モデル」の獲得に向けて－ https://www.slideshare.net/DeepLearningJP2016/dl-124128933 4

状態表現学習なぜ状態表現学習が大事なのか • モデルフリーの深層強化学習は多くの分野で成功 e.g. 囲碁, 将棋, ゲームAI (Atariなど), etc. • 実世界に適応可能なエージェントの実現には未だ多くの課題 ① サンプル効率 • 学習に膨大なサンプルを要するが実世界で集められるサンプルには限りがある ② 汎化 • 別のタスクへの転移ができない（タスクへの汎化） • 環境が変化すると全く機能しない（環境への汎化） • 環境のダイナミクスを含んだ状態表現学習とプランニングを分けて考えるモデルベースが今後重要 – 状態表現は他タスクにおいても有用な表現であるため、容易に転移可能 – 状態表現をメタ学習できれば環境の変化にもfew shotに適応できるはず 5

状態表現学習いい状態表現とは ([Böhmer et al., 2015] の定義) ① マルコフ性 – 現在の状態と行動のみから次の状態が予測できるほど圧縮された表現 – マルコフ決定過程を仮定したRLアルゴリズムとの相性が良い ② 方策 (policy) の改善に使える ③ 未知だが似た特徴をもつ状態に対して汎化する ④ 低次元 6

モデルベースの難点 1. モデルの学習のミスがプランニングに大きな影響を及ぼす – – 基本的にモデルが環境の全てを学習しきることは不可能しかし、プランニング側はモデルがミスをしていたら対処する術がない 2. モデルの学習のためのデータをどう集めるか – [Ha et al., 2018]のWorld modelsのようにランダムポリシーで環境を適当に探索させることもできるが、効率的ではない 3. モデルの学習においてタスクを解くために必要な知識が状態表現から欠落してしまう可能性がある – これについては、モデルの学習に報酬情報を含めることで解決できるが、逆にその場合は他タスクへの転移が難しくなる 7

アウトライン 1. 背景知識 – – 状態表現学習モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング再帰的な状態空間モデル複数ステップ先の予測モデル 3. 実験 4. まとめ 8

提案手法 Deep Planning Network (PlaNet) ① 潜在空間上でのプランニング – – ダイナミクス（状態表現）のモデルの学習のためのデータの収集を潜在空間上でのプランニングを用いてオンラインで行なった約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し、D4PGとほぼ同等のスコアを達成 ② 再帰的な状態空間モデル – 状態表現の不確実性を考慮しつつ、長い系列情報を失うことなく良い表現を獲得するためのモデルを提案 ③ 複数ステップ先の予測モデル – 通常のダイナミクスモデルは1ステップ先の予測のみを考慮するが、任意ステップ先の予測 (overshooting)を考慮した状態表現学習を行う 9

10.

潜在空間上でのプランニングモデルの学習データの収集プランニングの学習 • ダイナミクスモデルの学習とそのためのデータの収集を交互に行う • データの収集の際、エージェントはモデルの潜在空間上でのプランニングで得られる方策を用いて探索する • プランニングの学習にはCross Entropy Method (CEM) を使用 10

11.

アウトライン 1. 背景知識 – – 状態表現学習モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング再帰的な状態空間モデル複数ステップ先の予測モデル 3. 実験 4. まとめ 11

12.

再帰的な状態空間モデルプランニングのための良い状態表現の要素として以下の２つを主張 ① 不確実性を考慮している – 完全観測でない限り、エージェントの状態は常に不確実性を含んでいる – 決定論的なモデルでは不十分 ② 長期の系列情報を保持している – 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしいこれらを包括したRecurrent state-space model (RSSM) を提案 12

13.

再帰的な状態空間モデル比較手法提案手法 13

14.

再帰的な状態空間モデル RSSMのアーキテクチャ • 細かいアーキテクチャについては論文内に記述がないが、おそらく以下のような形 • SSMではDeterministic RNNがなく、InferenceとPriorに𝑠𝑡−1 と𝑎𝑡−1 が直接入る 𝑜𝑡 , 𝑟𝑡 , ℎ𝑡 Inference 𝑞(𝑠𝑡 |𝑜𝑡 , ℎ𝑡 ) 𝑠𝑡 , ℎ𝑡 Generation 𝑝(𝑜𝑡 |𝑠𝑡 ) 𝑜𝑡 , 𝑟𝑡 KL ℎ𝑡−1 𝑠𝑡−1 𝑎𝑡−1 Deterministic RNN 𝑓(ℎ𝑡−1, 𝑠𝑡−1, 𝑎𝑡−1) ℎ𝑡 Prior 𝑞(𝑠𝑡 |ℎ𝑡 ) 𝑠𝑡 14

15.

再帰的な状態空間モデル確率的な潜在表現のモデリングにはVAEを使用 SSMの変分下限 15

16.

再帰的な状態空間モデル疑問点 • 論文内では提案手法 (RSSM) も前頁の変分下限で学習できるとしているが、明らかに違う気がする（なぜhを完全に無視しているのかわからない） – おそらく正しい下限は↓ ln 𝑝(𝑜1:𝑇 , |𝑎1:𝑇 ) 𝑇 ≥ E𝑝 ℎ , 𝑠 , 𝑎 E𝑞 ෍ 1:𝑇 1:𝑇 1:𝑇 𝑠𝑡 ln 𝑝 𝑜𝑡 , 𝑠𝑡 , ℎ𝑡 − DKL [𝑞(𝑠𝑡 )||𝑝(𝑠𝑡 |ℎ𝑡 )] 𝑡=1 – 期待値はモンテカルロ近似するので実装上は確かに変わらない • SSMのマルコフ性を壊しているのでそもそも良いモデルなのか疑問ここでは一旦この辺りは気にしないことにして進めます 16

17.

アウトライン 1. 背景知識 – – 状態表現学習モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング再帰的な状態空間モデル複数ステップ先の予測モデル 3. 実験 4. まとめ 17

18.

複数ステップ先の予測モデル • p13の変分下限は1ステップ先の予測のみに基づいて導かれている • もしモデルが完璧に学習できているとすれば、それを用いて複数ステップ先の予測もできるので問題ない e.g. 𝑝 𝑠𝑡+2 𝑠𝑡 , 𝑎𝑡 , 𝑎𝑡+1 = ‫𝑡𝑠 𝑝 ׬‬+2 𝑠𝑡+1 , 𝑎𝑡+1 𝑝 𝑠𝑡+1 𝑠𝑡 , 𝑎𝑡 𝑑𝑠𝑡+1 • しかし、現実にはモデルが環境を完全に学習しきることはあり得ない • そこで以下のような下限を考えてdステップ先の予測 (overshooting) を学習させる 18

19.

複数ステップ先の予測モデル • 前頁の下限はdステップ先のみを考えているが、これを任意のステップ先の予測に拡張して、以下の下限を目的関数として採用する (ただし、𝛽𝑑 はハイパラ) 19

20.

アウトライン 1. 背景知識 – – 状態表現学習モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング再帰的な状態空間モデル複数ステップ先の予測モデル 3. 実験 4. まとめ 20

21.

実験 DeepMind control suiteの4つのタスクで実験 • 結果はモデル間 (RNN, SSM, RSSM) の比較と、overshootingの有無での比較を行なっている • 2つのモデルフリーの手法 (A3C, D4PG) との比較も行なっている 21

22.

実験結果 https://www.youtube.com/watch?v=TeUceNCmq34 22

https://www.youtube.com/watch?v=TeUceNCmq34

23.

実験結果 Overshootingの有無長期の予測が重要なWalker Walkで顕著な差がついている 23

24.

実験結果モデル比較 Cheetah Runでは提案手法がD4PGを上回る結果に 24

25.

まとめ • モデルベース強化学習のフレームワークとして３つの新規性を持つ手法を提案 ① モデルの学習とデータ収集・プランニングをオンラインで行う手法を提案し、サンプル効率を向上 ② 状態表現の不確実性を考慮し、かつ長い系列情報をうまく圧縮するための VAEベースのダイナミクスモデルを提案 ③ モデルの学習において複数ステップ先の予測モデルを考慮させることで、モデルの不完全性による長期の予測での誤差の蓄積を避けることを実現 • 提案手法は強力なモデルフリーの手法に匹敵するスコアを記録感想 • overshootingは面白いがハイパラ増えるしどうなんだろうという感想 • モデルが完全に学習しきらないことをどう考慮するかは今後のトピックの１つになりそう 25