[DL輪読会]逆強化学習とGANs

3.2K Views

November 28, 17

#deep learning #逆強化学習 #GANs #Guided Cost Learning #Behavior Cloning #Inverse RL

スライド概要

2017/8/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.8K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 65.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 46.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.9K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.9K

各ページのテキスト

逆強化学習とGANs 冨山翔司東京大学松尾研究室，株式会社DeepX 2017/08/24

自己紹介 • • • • • 冨山翔司東京大学松尾研究室修士２年株式会社DeepX 趣味：ボルダリング興味：系列モデリング 2023/10/9 2

今日の話 • Guided Cost Learning – 今日の中心 • Guided Cost Learning and GANs • Generative Adversarial Imitation Learning 2023/10/9 3

報酬関数の定義は実世界では難しいことがある [0] 2023/10/9 4

逆強化学習の枠組み [0] 2023/10/9 5

Behavior Cloning VS Inverse RL • Behavior Cloning – デモンストレーションのデータで教師あり学習（尤度最大化） – 行動空間が大きい場合に，全てを網羅するようなデモンストレーションを確保するのが困難 – 仮に十分なデモンストレーションを確保できても，良いポリシーを獲得できない • 尤度最大化による学習は．全てのモードをカバーするような分布になってしまう – e.g. 理解不能な画像の生成 • Inverse RL – 少量のデモンストレーションからでも方策を学習できる – Behavior Cloningに比べ良い方策を獲得する • 尤度ではなくコストの最適化をしているから – モードとモードの間に確率密度を置かない – あれGANっぽい 2023/10/9 6

エントロピー最大逆強化学習 [0] 2023/10/9 7

アルゴリズム・ダイナミクスがわからない・コスト関数が複雑（e.g. NN) な場合は，このアルゴリズムを適用できない [0] 2023/10/9 8

分配関数Zの計算が最大の問題分配関数Zは状態が連続だったりすると計算できないサンプリングでどうにか回避する（Guided Cost Learning） 2023/10/9 9

10.

Guided Cost Learning [1] 2023/10/9 10

11.

Guided Cost Learning [1] 2023/10/9 11

12.

コスト関数のパラメータに関する勾配 • 𝑝(𝜏)の負の対数尤度 𝑤𝑗とする 𝑞(𝜏)からの重点サンプリングでZを近似 • 上の，コスト関数のパラメータ𝜃に関する勾配 ※この𝑍は 𝑍 = σ𝑗 𝑤𝑗 2023/10/9 12

13.

𝑞(𝜏)はどうすればいい？？？ • 理想的な𝑞(𝜏)は求めたい分配関数が‫ ׬‬exp −𝑐𝜃 𝜏 なので明らかに 𝑑𝜏 𝑞(𝜏) ∝ exp −𝑐𝜃 𝜏 • 𝑞(𝜏)を，その時点でのコスト関数𝑐𝜃 𝜏 に関して毎回最適化． – 𝑞(𝜏)がより（現在の）コストの低い軌道を生成するようになる – 𝑚𝑖𝑚𝑞 𝐸𝑞 𝑐𝜃 𝜏 − 𝐻(𝜏)を目的関数にすることで 𝑞(𝜏) ∝ exp −𝑐𝜃 𝜏 を復元可能 [Ziebart, 2010] • どうやって𝑞(𝜏)を現在のコスト関数に関して最適化？ – Guided Policy Search • ダイナミクスが未知でもオッケー • サンプルが少量で済む 2023/10/9 13

14.

（エントロピー正則での強化学習の目的関数） RL objective 𝐿𝑅𝐿 𝜃; 𝜏, 𝐷 = ෍ {−𝜏ℍ 𝑝𝜃 − ෍ 𝑝𝜃 𝑦 𝑥 𝑟 𝑦, 𝑦 ∗ } 𝑥,𝑦 ∗ ∈𝐷 𝑦∈𝑌 ℍ 𝑝𝜃 ・・・エントロピー 𝑟 𝑦, 𝑦∗ ・・・報酬関数 Energy-based model for behavior 𝑞 𝑦 𝑦∗: 𝜏 = where 𝑍 ෍ 𝑥,𝑦∗ ∈𝐷 1 exp{𝑟(𝑦, 𝑦 ∗ )/𝜏} ∗ 𝑍(𝑦 , 𝜏) 𝑦∗ , 𝜏 = 𝑟 𝑦,𝑦 ∗ σ𝑦∈𝑌 exp{ 𝜏 } Re-expressed RL objective 1 𝐷𝐾𝐿( 𝑝𝜃 𝑦 𝑥) || 𝑞(𝑦|𝑦∗ ; 𝜏)) = 𝐿𝑅𝐿 𝜃; 𝜏 + 𝑐𝑜𝑛𝑠𝑡 𝜏 2023/10/9 14

15.

（証明） 2023/10/9 15

16.

（おまけ） [0] 2023/10/9 16

17.

Guided Policy Search (Trajectory Optimization) 𝑙𝑖𝑛𝑒𝑎𝑟 𝐺𝑎𝑢𝑠𝑠𝑖𝑎𝑛 𝑝(𝑥𝑡+1|𝑥𝑡, 𝑢𝑡 ) 𝑙𝑜𝑐𝑎𝑙𝑙𝑦 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐 𝑐𝑜𝑠𝑡 𝑞 𝑢𝑡 𝑥𝑡 ) = 𝑁(𝑘𝑡 + 𝐾𝑡 𝑥𝑡 , Σ𝑡 ) [2] 2023/10/9 17

18.

Guided Cost Learning 2023/10/9 18

19.

𝑞(𝜏)はGPSで最適化をしているが・・・ • とはいえ分配関数Zは不安定になりがち – 特に𝑞(𝜏)からのサンプル数が少ない時 • ロボットとかだとサンプル数はできるだけ少なくありたい 𝑤𝑗 2023/10/9 19

20.

工夫１：𝐷𝑠𝑎𝑚𝑝 にデモンストレーションを加える • 分配関数が小さくなりすぎる（= 𝑙𝑜𝑔𝑍が発散）ことを防ぐことができる – デモンストレーションの𝑤𝑗 は基本大きい 𝑤𝑗 2023/10/9 20

21.

工夫２：過去の𝑞(𝜏)の平均を使う • 𝑞(𝜏)は毎イテレーションで更新されるので，過去の 𝑞𝑘 (𝜏)をつかって，𝜏に対する𝑞𝑘 (𝜏)の平均を重点重みとする – （𝐷𝑠𝑎𝑚𝑝 は今まで生成した軌道全てを含んでます）元の目的関数重点重みをのように置くと 2023/10/9 21

22.

Guided Cost Learning (over all algorithm) [1] 2023/10/9 22

23.

実験結果 [1] 2023/10/9 23

24.

動画 2023/10/9 24

25.

ちょっと休憩 • ここまでがGCL • 質問ある方今のタイミングでした方がいいと思います！ • つぎに，GCLとGANの関係について説明 2023/10/9 25

26.

逆強化学習とGANsはなんか似てる [0] 2023/10/9 26

27.

ここからの話は少しややこしいです． • GANsとGuided Cost Learning(GCL)は色々な条件を揃えると完全に同じことをしていますっていう話です． • まず，その色々な条件について説明します． 2023/10/9 27

28.

Special Form of Generative Adversarial Network Optimal Discriminator 通常のGANはDを[0,1]の値を出すNNとするのでpもqも確率密度を評価する必要が無い．しかし，qを確率密度を評価できる関数とし， 1 更に෦ pθ = exp(−cθ τ )とすると， Z ※ qが確率密度が評価可能なのに尤度最大化をしない理由は冒頭の通り 2023/10/9 28

29.

Guided Cost Learning再訪工夫１を思い出す．つまりZの推定にデモンストレーションpからのサンプリングを使う．今，pからの軌道とqからの軌道を半々ずつ使うとすると， where 1 1 𝜇= 𝑝𝜏 + 𝑞 𝜏 2 2 𝑝෤ 𝜏 はデモンストレーションの密度推定器 1 e.g.) 𝑝𝜃 = 𝑍 exp(−𝑐𝜃 𝜏 ) (GANと揃えるため） ※前述のGuided Cost Learningの時は，デモンストレーションのτは qによって密度計算している 2023/10/9 29

30.

確認 • GANsもGCLも，リアル（デモンストレーション）デー 1 タ分布𝑝(𝜏)の推定を𝑝෤𝜃 = exp(−𝑐𝜃 𝜏 ) によって行う 𝑍 • GANsにおけるGenerator（=GCLにおけるポリシー） 𝑞 𝜏 は密度計算可能なモデル – ガウシアンとか出力にSoftmaxかけたRNNとか • GCLは分配関数𝑍の推定に際し𝑝,𝑞から半々ずつ軌道を重点サンプリング • GANsのGの目的関数をBCEとする 2023/10/9 30

31.

DとCの目的関数以下の三つを証明・Dの目的関数を最小化するZは，重点サンプリングによるCostのZの推定器・上のZのとき，Dの勾配はCの勾配と一致・Gの目的関数は，エントロピー正則化の元での方策の目的関数と一致 2023/10/9 31

32.

Dの目的関数を最小化するZは，CのZを推定する 𝜇෤ [3] 2023/10/9 32

33.

Dの勾配はCの勾配と一致 𝜇෤ [3] 2023/10/9 33

34.

Gの目的関数は,エントロピー正則化の元での方策の目的関数 [3] 2023/10/9 34

35.

結論 • 色々な条件を揃えると，GANのDとGの目的関数にGCL の目的関数が一致する 2023/10/9 35

36.

ちょっと休憩 • 質問があれば • 次にGAILについて軽く説明します 2023/10/9 36

37.

Generative Adversarial Imitation Learning(GAIL) • Inverse RLによるコスト関数推定と，RLによる方策の学習を交互に行っていたが，お互いの関係性は不明だった．それらの関係を明らかにし，IRLとRLを統一的に見るフレームワークを提案 – GANみたいなアルゴリズムが有名だが，こっちの方が理論的貢献として重要 • 上のフレームワークの中から，特定のΨ正則化がGAN とほぼ同一の学習アルゴリズムを導く • わかりにくいですこの論文．．． – 間違ったこと言っている可能性大アリ 2023/10/9 37

38.

２つのモチベーション • RLとIRLを統一的に見たい – コスト関数の更新と方策の更新を交互にやるのはめんどくさい．エキスパートからそのまま方策を獲得できないか • っていってるのに結局GAN • (NNのような)表現力が高いコスト関数を最適化したい – 表現力の高いコスト関数を少量のエキスパートから推定すると過学習してしまうが，頑張る． 2023/10/9 38

39.

通常のIRLとRL IRLによるコスト推定 RLによる方策学習 2023/10/9 39

40.

凸関数Ψ付きIRL IRLによるコスト推定 RLによる方策学習 ψ付きIRLによるコスト推定 Ψをかける理由はひとまず置いておく． 2023/10/9 40

41.

凸関数Ψ付きIRLでのRL • – occupancy measureと呼ぶ。 – 方策πの元でstateとactionのペアがどれだけ発生するか • 一般に凸関数fに対して – ψ付きIRLによるコスト推定 RLによる方策学習 2023/10/9 41

42.

つまりどういうことかというと • ΨIRLでのRLは凸共役関数𝜓 ∗のもとでエキスパートの occupancy measureとマッチするように方策を学習 – Ψ＝constantのとき（＝正則化が無い），IRLによるコスト関数の推定はoccupancy measureのマッチングと双対問題であることが示されている – 確かに式を見るとコスト関数を求める必要がなくなっているように見える ψ付きIRLによるコスト推定 RLによる方策学習 2023/10/9 42

43.

整理 IRLによるコスト推定 RLによるポリシー学習 ψ付きIRLによるコスト推定 RLによるポリシー学習 2023/10/9 43

44.

Ψをかける実用的な理由 • 𝑐 ∈ 𝑅 𝑆∗𝐴で表現力の高いコスト関数を使うとすぐに過学習する – それを防ぐための正則化Ψ – 従来のIRLは方策最適化を行えるようにコスト関数を線形関数に限定 – うまくΨを設定すれば表現力が高いコスト関数の元でエキスパートに過学習しない方策が獲得できる→GAIL ψ付きIRLによるコスト推定 RLによる方策学習 2023/10/9 44

45.

GAIL • 上のようにψを設定する。と、これは – コストがいたるところで負であるような任意のコスト関数を表現可能 – このψの凸共役関数は – エキスパートとのoccupancy measureのJSDを最小化する • 方策はエキスパートを完全に模倣可能 – Discriminatorはコスト関数のように振る舞う • RLIRLからGANが出てきた（！） 2023/10/9 45

46.

GAIL [4] 2023/10/9 46

47.

GAILとGCLの関係 • GAILはDをそのまま出す – pやqの密度を計算しない – logDをコストとして方策勾配法(TRPO) • GAILのほうがコスト関数の表現力は高い – GCLはNNによって特徴抽出した状態と行動の二次形式 • GAILはコスト関数がDの中に隠蔽されており，取り出すことができない（？） – と[3]論文内に書いてあったが本当なのか？ • （GAILはそもそも方策学習のために大量のサンプリングをすることを厭わないという点でGCLと大きく異なる） 2023/10/9 47

48.

まとめ [0] 2023/10/9 48

49.

まとめ [0] 2023/10/9 49

50.

References • • • • • [0] ICML 2017 Deep RL Tutorial (https://sites.google.com/view/icml17deeprl) [1] Finn, Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization [2] Levine, Talk: Sergey Levine, UC Berkeley - Learning Dynamic Manipulation Skills (https://www.youtube.com/watch?v=CW1s6psByxk&t=921s) [3] Finn & Christiano, A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models [4] Ho, Generative Adversarial Imitation Learning 2023/10/9 50