214 Views
January 04, 19
スライド概要
2018/12/21
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Learning Latent Dynamics for Planning from Pixels Shohei Taniguchi, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 Learning Latent Dynamics for Planning from Pixels Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson • 2018年11月12日にarXivに投稿された論文 • 著者はGoogle Brain, DeepMind, Google Research 選定理由 • 状態表現学習への興味 • 最近自分が考えていたことに近い気がした • (hardmaruがツイートしていて気になった) 2
アウトライン 1. 背景知識 – – 状態表現学習 モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング 再帰的な状態空間モデル 複数ステップ先の予測モデル 3. 実験 4. まとめ 3
状態表現学習 • 強化学習においてエージェントの観測と行動の系列から、各タイムス テップにおけるエージェントの状態の抽象表現(状態表現)を学習す る枠組みのこと • モデルベース強化学習の文脈で用いられる用語 • 詳しくはこのレビュー論文と解説スライドを参照 State Representation Learning for Control: An Overview https://arxiv.org/abs/1802.04181 [DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデ ル」の獲得に向けて- https://www.slideshare.net/DeepLearningJP2016/dl-124128933 4
状態表現学習 なぜ状態表現学習が大事なのか • モデルフリーの深層強化学習は多くの分野で成功 e.g. 囲碁, 将棋, ゲームAI (Atariなど), etc. • 実世界に適応可能なエージェントの実現には未だ多くの課題 ① サンプル効率 • 学習に膨大なサンプルを要するが実世界で集められるサンプルには限りがある ② 汎化 • 別のタスクへの転移ができない(タスクへの汎化) • 環境が変化すると全く機能しない(環境への汎化) • 環境のダイナミクスを含んだ状態表現学習とプランニングを分けて考 えるモデルベースが今後重要 – 状態表現は他タスクにおいても有用な表現であるため、容易に転移可能 – 状態表現をメタ学習できれば環境の変化にもfew shotに適応できるはず 5
状態表現学習 いい状態表現とは ([Böhmer et al., 2015] の定義) ① マルコフ性 – 現在の状態と行動のみから次の状態が予測できるほど圧縮された表現 – マルコフ決定過程を仮定したRLアルゴリズムとの相性が良い ② 方策 (policy) の改善に使える ③ 未知だが似た特徴をもつ状態に対して汎化する ④ 低次元 6
モデルベースの難点 1. モデルの学習のミスがプランニングに大きな影響を及ぼす – – 基本的にモデルが環境の全てを学習しきることは不可能 しかし、プランニング側はモデルがミスをしていたら対処する術がない 2. モデルの学習のためのデータをどう集めるか – [Ha et al., 2018]のWorld modelsのようにランダムポリシーで環境を適当に 探索させることもできるが、効率的ではない 3. モデルの学習においてタスクを解くために必要な知識が状態表現か ら欠落してしまう可能性がある – これについては、モデルの学習に報酬情報を含めることで解決できるが、逆 にその場合は他タスクへの転移が難しくなる 7
アウトライン 1. 背景知識 – – 状態表現学習 モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング 再帰的な状態空間モデル 複数ステップ先の予測モデル 3. 実験 4. まとめ 8
提案手法 Deep Planning Network (PlaNet) ① 潜在空間上でのプランニング – – ダイナミクス(状態表現)のモデルの学習のためのデータの収集を潜在空間 上でのプランニングを用いてオンラインで行なった 約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し、D4PGと ほぼ同等のスコアを達成 ② 再帰的な状態空間モデル – 状態表現の不確実性を考慮しつつ、長い系列情報を失うことなく良い表現を 獲得するためのモデルを提案 ③ 複数ステップ先の予測モデル – 通常のダイナミクスモデルは1ステップ先の予測のみを考慮するが、任意ス テップ先の予測 (overshooting)を考慮した状態表現学習を行う 9
潜在空間上でのプランニング モデルの学習 データの収集 プランニングの学習 • ダイナミクスモデルの学習とそのためのデータの収集を交互に行う • データの収集の際、エージェントはモデルの潜在空間上でのプランニングで得ら れる方策を用いて探索する • プランニングの学習にはCross Entropy Method (CEM) を使用 10
アウトライン 1. 背景知識 – – 状態表現学習 モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング 再帰的な状態空間モデル 複数ステップ先の予測モデル 3. 実験 4. まとめ 11
再帰的な状態空間モデル プランニングのための良い状態表現の要素として以下の2つを主張 ① 不確実性を考慮している – 完全観測でない限り、エージェントの状態は常に不確実性を含んでいる – 決定論的なモデルでは不十分 ② 長期の系列情報を保持している – 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしい これらを包括したRecurrent state-space model (RSSM) を提案 12
再帰的な状態空間モデル 比較手法 提案手法 13
再帰的な状態空間モデル RSSMのアーキテクチャ • 細かいアーキテクチャについては論文内に記述がないが、おそらく以 下のような形 • SSMではDeterministic RNNがなく、InferenceとPriorに𝑠𝑡−1 と𝑎𝑡−1 が 直接入る 𝑜𝑡 , 𝑟𝑡 , ℎ𝑡 Inference 𝑞(𝑠𝑡 |𝑜𝑡 , ℎ𝑡 ) 𝑠𝑡 , ℎ𝑡 Generation 𝑝(𝑜𝑡 |𝑠𝑡 ) 𝑜𝑡 , 𝑟𝑡 KL ℎ𝑡−1 𝑠𝑡−1 𝑎𝑡−1 Deterministic RNN 𝑓(ℎ𝑡−1, 𝑠𝑡−1, 𝑎𝑡−1) ℎ𝑡 Prior 𝑞(𝑠𝑡 |ℎ𝑡 ) 𝑠𝑡 14
再帰的な状態空間モデル 確率的な潜在表現のモデリングにはVAEを使用 SSMの変分下限 15
再帰的な状態空間モデル 疑問点 • 論文内では提案手法 (RSSM) も前頁の変分下限で学習できるとしてい るが、明らかに違う気がする(なぜhを完全に無視しているのかわか らない) – おそらく正しい下限は↓ ln 𝑝(𝑜1:𝑇 , |𝑎1:𝑇 ) 𝑇 ≥ E𝑝 ℎ , 𝑠 , 𝑎 E𝑞 1:𝑇 1:𝑇 1:𝑇 𝑠𝑡 ln 𝑝 𝑜𝑡 , 𝑠𝑡 , ℎ𝑡 − DKL [𝑞(𝑠𝑡 )||𝑝(𝑠𝑡 |ℎ𝑡 )] 𝑡=1 – 期待値はモンテカルロ近似するので実装上は確かに変わらない • SSMのマルコフ性を壊しているのでそもそも良いモデルなのか疑問 ここでは一旦この辺りは気にしないことにして進めます 16
アウトライン 1. 背景知識 – – 状態表現学習 モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング 再帰的な状態空間モデル 複数ステップ先の予測モデル 3. 実験 4. まとめ 17
複数ステップ先の予測モデル • p13の変分下限は1ステップ先の予測のみに基づいて導かれている • もしモデルが完璧に学習できているとすれば、それを用いて複数ス テップ先の予測もできるので問題ない e.g. 𝑝 𝑠𝑡+2 𝑠𝑡 , 𝑎𝑡 , 𝑎𝑡+1 = 𝑡𝑠 𝑝 +2 𝑠𝑡+1 , 𝑎𝑡+1 𝑝 𝑠𝑡+1 𝑠𝑡 , 𝑎𝑡 𝑑𝑠𝑡+1 • しかし、現実にはモデルが環境を完全に学習しきることはあり得ない • そこで以下のような下限を考えてdステップ先の予測 (overshooting) を学習させる 18
複数ステップ先の予測モデル • 前頁の下限はdステップ先のみを考えているが、これを任意のステッ プ先の予測に拡張して、以下の下限を目的関数として採用する (ただし、𝛽𝑑 はハイパラ) 19
アウトライン 1. 背景知識 – – 状態表現学習 モデルベースの難点 2. 提案手法 – – – 潜在空間上でのプランニング 再帰的な状態空間モデル 複数ステップ先の予測モデル 3. 実験 4. まとめ 20
実験 DeepMind control suiteの4つのタスクで実験 • 結果はモデル間 (RNN, SSM, RSSM) の比較と、overshootingの有無 での比較を行なっている • 2つのモデルフリーの手法 (A3C, D4PG) との比較も行なっている 21
実験結果 https://www.youtube.com/watch?v=TeUceNCmq34 22
実験結果 Overshootingの有無 長期の予測が重要なWalker Walkで顕著な差がついている 23
実験結果 モデル比較 Cheetah Runでは提案手法がD4PGを上回る結果に 24
まとめ • モデルベース強化学習のフレームワークとして3つの新規性を持つ手 法を提案 ① モデルの学習とデータ収集・プランニングをオンラインで行う手法を提案し、 サンプル効率を向上 ② 状態表現の不確実性を考慮し、かつ長い系列情報をうまく圧縮するための VAEベースのダイナミクスモデルを提案 ③ モデルの学習において複数ステップ先の予測モデルを考慮させることで、モ デルの不完全性による長期の予測での誤差の蓄積を避けることを実現 • 提案手法は強力なモデルフリーの手法に匹敵するスコアを記録 感想 • overshootingは面白いがハイパラ増えるしどうなんだろうという感想 • モデルが完全に学習しきらないことをどう考慮するかは今後のトピッ クの1つになりそう 25