[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization

877 Views

July 05, 19

#deep learning #DeepLearning #ReinforcementLearning #Meta-PolicyOptimization #ModelBasedLearning #AI

スライド概要

2019/07/05
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Model-Based Reinforcement Learning via Meta-Policy Optimization Keno Harada, UT PSI 3rd http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • タイトル: Model-Based Reinforcement Learning via Meta-Policy Optimization(CoRL 2018) • 著者: Ignasi Clavera, Jonas Rothfuss, John Schulman, Yasuhiro Fujita, Tamim Asfour, Pieter Abbeel (UC Berkeley, KIT, OpenAI, PFN) • ICMLでのPieter Abbeelのセッション中に紹介(しかしskipされていた) – Some of our Explorations of Exploration in RL • ダイナミクスモデル学習の探索 • その他: – – – – Arxiv: https://arxiv.org/pdf/1809.05214.pdf Webpage: https://sites.google.com/view/mb-mpo/home?authuser=0 Talk: https://www.facebook.com/icml.imls/videos/2265408103721327/ Slides: https://www.dropbox.com/s/4t1a3dpldgqtqk6/2019_06_15_ICML%20Exploration% 20in%20RL%20workshop.pdf?dl=0 – 松嶋さん評価: 星5つ 2

ICML セッションより 10分でレゴブロックを積むタスクを学習したらしい(論文中には言及なし, 動画も最後まで見れなかった) 3

アジェンダ 1. 2. 3. 4. 5. 6. 背景概要提案手法実験結果まとめ疑問点 4

背景背景 • モデルフリー – 良い性能を発揮するが学習にdataが大量に必要 • NN使うとよりデータが必要に • Roboticsのようなtaskではdataを集めるのに時間がかかる • モデルベース – 環境のダイナミクスをモデル化し学習を効率的に – 正確な環境のダイナミクスの学習難しい – モデルバイアス問題 • ダイナミクスモデルの学習が不十分なため良い方策を学習できない 5

背景モデルバイアス問題 Image from http://mlg.eng.cam.ac.uk/pub/pdf/DeiRas11.pdf Image from http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec12.pdf 6

背景ダイナミクスモデルの不正確性への対応策(先行研究) • ダイナミクスモデルのアンサンブルを使用した方法 – Model-Ensemble Trust-Region Policy Optimization(ME-TRPO)など • オンライン適応していく方法 – One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priorsなど • 困難なタスクではうまくいかない • Model Predictive Control – 各ステップにおいてre-planning – 計算コストの大きさや行動の評価の難しさ • Robust policy optimization – どのようなダイナミクスモデルでもよく立ち回るような方策を学習 – over-conservative(?)な方策になりがち 7

概要提案手法: Model-Based Meta-Policy-Optimization(MB-MPO)の気持ち • ダイナミクスモデルが正しく学習されるという望み?前提?から依存性をなくす • ダイナミクスモデルを複数学習し, その中の任意のモデルに対して 1step方策勾配を更新すれば適応するようなpolicyをメタ学習する • 異なるダイナミクスモデルでも最適な行動をとる方策を学ぶのではなく, ダイナミクスモデルに対して1step更新方策をとることで対応させ, メタpolicyがアンサンブル全体において一貫性のあるダイナミクスの予測を内部化するよう方向づける – ??? 8

概要モデルベース強化学習 • Dyna-style – リアルデータを集めダイナミクモデルを学習し, そのモデルが仮想データを作成し(simulationし)それを元に方策を更新 • ME-TRPO, SLBO, MB-MPO • Policy Search with Backpropagation through Time – ダイナミクスモデルの勾配を使って方策を更新 • PILCO, iLQG, GPS, SVG • Shooting Algorithm – Model predictive control系 • RS, MB-MF, PETS-RS, PETS-CEM 9

10.

概要 • メタ学習: – 新しいシナリオやタスクに少数のサンプルでうまく適応するようなモデルを学習 • メタ強化学習 – 報酬関数あるいは遷移関数が異なるMDPタスクの集合から一つのMDPタスクを取り出した時に素早く最適方策を学ぶような学習アルゴリズムを学ぶ Image from https://drive.google.com/file/d/1DuHyotdwEAEhmuHQWwRosdiVBVGm8uYx/view 10

https://drive.google.com/file/d/1DuHyotdwEAEhmuHQWwRosdiVBVGm8uYx/view

11.

概要 MAML: どんなtaskにも数stepで最適化できるような共通の初期パラメータを求める – 近藤さんの過去資料https://www.slideshare.net/DeepLearningJP2016/modelagnostic-metalearning-for-fastadaptation-of-deep-network Slide from https://drive.google.com/file/d/1DuHyotdwEAEhmuHQW wRosdiVBVGm8uYx/view 11

12.

提案手法 MB-MPO 12

13.

提案手法ダイナミクスモデルの学習 • それぞれのモデル初期値ランダム, 学習に使うデータも異なるように設定 • 適応stepを経た方策でサンプルデータを集め, ダイナミクスモデルの学習に使用 13

14.

提案手法 • ダイナミクスモデルの学習 14

15.

提案手法ダイナミクスモデルを使った方策のメタ学習 • Gradient-based メタ学習のMAMLを使用 • 環境のダイナミクスが異なるタスク間においてのメタ学習問題 – Reward functionは同じ • 方策更新の際にはダイナミクスモデルを使用してroll-outを行い報酬を計算し更新 15

16.

提案手法ダイナミクスモデルを使った方策のメタ学習 VPG TRPO 16

17.

実験結果 • 既存のモデルベース・モデルフリーの手法と比べてサンプル効率・性能はどうか – Mujocoの6つのタスクで検証 – https://sites.google.com/view/mb-mpo/videos?authuser=0 • ダイナミクスモデルの不確実性と方策の可塑性 • MB-MPOの頑健性 17

https://sites.google.com/view/mb-mpo/videos?authuser=0

18.

実験結果(モデルフリーとの比較) 18

19.

実験結果(既存モデルベースとの比較) 19

20.

実験結果(ダイナミクスモデルの不確実性と方策の可塑性) [0, 0]から離れるにつれ低い精度予測と高いKL-divergence 20

21.

実験結果(MB-MPOの頑健性) ダイナミクスモデルの予測にノイズを加えた実験の比較(half-cheetah) 21

22.

実験結果(MB-MPOの頑健性(?)) α=0.001とα=0(no-adapt)の比較 Planningを行なっているわけではないのに何故この実験を? メタ学習の必要性を言いたいのか? 22

23.

まとめと今後の展望 • 複数のダイナミクスモデルを使い方策をメタ学習するMB-MPOを提唱 • モデルフリー並みの性能をよりsample efficientに出す • 既存のモデルベースで課題であったモデルバイアス問題への新たな対応策 • 複数のダイナミクスモデルを使用するのではなくベイジアンNNを使ってダイナミクスモデルを学習する • Real-worldロボティクスへの応用(すでに進行中?) 23

24.

Benchmarking Model-based Reinforcement Learning(7/3) いくつかのタスクでmodel basedで最高性能 Long horizon complex domainsにはあまりいい性能を示さない 24

25.

Tailored data collection • 適応step後のpolicyでリアルデータをサンプルしているため集められるデータが多様(という主張) – Post-update方策がoverfit, ダイナミクスモデルの予測が正しく予測できていないところのサンプルを集める(という主張) 25

26.

Hyperparameter study 26