[DL輪読会]Learning Self-Imitating Diverse Policies

>100 Views

November 16, 18

#deep learning #Deep Learning #Self-Imitating Diverse Policies #Reinforcement Learning #Generative Adversarial Imitation Learning #Machine Learning

スライド概要

2018/11/16
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Learning Self-Imitating Diverse Policies (ICLR2019 under review)” 國吉新山研究室/DeepX 吉田岳人 DL輪読会2018/11/15発表 1 http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 •URL –OpenReview, ArXiv •著者 –Tanmay Gangwani, Qiang Liu, Jian Peng –イリノイ大学アーバナ・シャンペーン校 •ステータス –ICLR2019 under review –Score: 8,8,5 •似た論文 –ICLR2019 under reviewのGenerative Adversarial Self-Imitation Learning –Score:6,5,4 –本論文とほぼ同じ手法を用いているが、本論文はSelf-Imitationの定式化と局所解にハマる欠点の改良をしている分評価が高い 2

概要 •背景：強化学習はエピソード報酬・スパース報酬・ノイジー報酬に弱い –エピソード報酬：エピソードの最後のみ報酬が得られる –スパース報酬：ある条件下でのみ報酬が得られる(eg. Montezuma’s Revenge ) –ノイジー報酬：時々報酬が得られないタイムステップがある –どれも毎タイムステップ報酬が得られないため、信用割り当てが難しい •定式化 –Self ImitationをJS-Divergence最小化問題と定義して、それが方策勾配法で実現学習できることを示した •手法 1. 自身が生成した収益の高いTop-k軌道に近いかどうかを追加報酬として学習 2. Stein Variational Policy Gradientを用いて複数の方策を別々の役割を持つように学習 •結果 –手法1はエピソード報酬とノイジー報酬に強かった –手法1や純粋なRLはスパース報酬下で局所解にハマった –手法2はスパース報酬に強かった 3

背景(RLの問題点とSelf Imitation) •強化学習は毎ステップ報酬が得られないと学習しづらい –従来の打手 •最終収益のみ使って方策学習(e.g. Cross Entropy Method、Evolutionary Strategy) –サンプル効率が相当悪い •未知の状態に行くと追加報酬(Curiosity RL)(e.g. RND) –スパース報酬には効くが、エピソード報酬の信用割り当ての解決は難しそう •Self Imitation Learning[Oh et al., ICML2018] –本論文とは直接関係なし –Actor Criticにおいて過去の良い行動を再現させる手法 –Replay Bufferに(s,a,R)の組を保存しておき、R>Vすなわち、推定値より実際の収益が大きいとき行動a の尤度up 4

背景（GAIL） •Generative Adversarial Imitation Learning[Ho et al., NIPS2016] –エキスパートかどうか見分けるDiscriminatorと方策πをAdversarial Trainingで学習する模倣学習手法 –Dはエキスパートなら0,エージェントなら1になるよう学習 –πは−𝑙𝑜𝑔𝐷𝜙(𝑠, 𝑎)を報酬として学習。すなわち、エキスパートだと識別器を騙せれば報酬 argmax 𝜃 E𝜋𝜃 [−𝑙𝑜𝑔𝐷𝜙 𝑠, 𝑎 ] –識別器が最適であるとき、エキスパートとエージェントの状態行動訪問分布をJSDivergenceの尺度の下、最小化することと等価 argm𝑖𝑛𝜃 𝐷𝐽𝑆 𝜌𝜋𝜃 , 𝜌𝜋𝐸 − 𝜆𝐻(𝜋𝜃 ) •状態行動訪問分布：方策𝜋𝜃 を何回もロールアウトした時に状態行動ペアがどのくらい訪問されるか 𝜌𝜋𝜃 𝑠, 𝑎 = 𝜌𝜋𝜃 𝑠 𝜋𝜃 𝑎 𝑠 , 𝜌𝜋𝜃 𝑠 = σ∞ 𝑡=0 𝑃(𝑠𝑡 = 𝑠|𝜋) 5

定式化と手法１ •Self-ImitationをTopKの軌道分布と行動状態訪問分布の距離を最小化する問題と定式化 •分布間距離JS-Divergenceを使う(dは𝜌の推定値) •𝜃で微分すると方策勾配法と同じ形になる •識別器𝑟 𝜙と方策𝜋𝜃 を交互学習(エキスパート軌道を自身のTopK軌道にしたGAIL) •外部報酬rと組み合わせる（手法１） 6

手法２ •手法１の欠点 –スパース報酬：そもそもReplay Bufferにいい軌道が入らず報酬を稼ぐことができない –局所解：Replay Bufferに局所解にハマった軌道が入ると局所解にトラップしてしまう –ノイジー報酬：報酬にランダム性があるとうまくいかない（理解できていない。。） •Stein Variational Policy Gradient(SVPG)の利用（手法２） –複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布するよう学習する手法 •第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方策から離れるExploration •第二項のKernelには∇𝜃𝑗 𝑘(𝜃𝑗 , 𝜃𝑖 ) = − ∇𝜃𝑖 𝑘(𝜃𝑗 , 𝜃𝑖 )となるものを使用(勝手に解釈してます) –先行研究ではRBF kernelだった –本論文では、 •αは次第に減少させる –複数の方策で別々のReplay Bufferを保持 –テスト時には一番性能の良い方策を選ぶ 7

アルゴリズム 8

実験 •手法１の実験 –Episodic reward •MuJoCoのタスクでエピソードの終わりのみ累積報酬が得られる –Noisy rewards •密な報酬 •確率pm(=0.9or0.5)でそのタイムステップの報酬が得られない •手法２の実験 –2D Navigation •密な報酬 •赤の上にいると1ポイント、緑だと10ポイント •赤は局所解 –Sparse Locomotion(Hopper, HalfCheetah, Ant) •MuJoCoの走るタスクで、走った距離がある距離を越えると、速度報酬が入る •全ステップで、トルクの絶対値分の罰則と生存ボーナスあり 9

10.

手法１の実験結果 •Episodic rewardに強い。毎ステップ識別器から報酬を得られるから •Episodic rewardとNoisy rewardsどちらにも強い。密な報酬には効果があったりなかったり – ν=0はSelf ImitationなしのPPOを表す 10

11.

手法2の実験結果 •2D Navigationの結果 –8つの方策を学習 –SI-independent（手法１）はバラバラに学習、SI-interact-JS（手法２）はSVPGを使って学習 –局所解にはまっていないこと、方策の距離が離れるように学習できていることがわかる 11

12.

手法2の実験結果 •Sparse Locomotion –PPOと手法１、RBF kernelを使ったSVPGと比較 –手法２が一番性能がいいことがわかる –他の手法では、ただ立ち止まって、トルクのペナルティを避けて、生存ボーナスのみ稼ぐ挙動が見られた 12

13.

実験（Ablation Study） •self imitationの割合νとバッファーサイズCによってどれだけ性能が変わるか、Episodic Rewardで実験 •C=10で固定して、νを変化 –ν=1の場合が最良↔︎エピソードの最後のみで報酬が得られる場合、報酬そのものは全く使わずにSelf Imiationだけしたほうがいい •ν=0.8で固定して、Cを変化 –Bufferサイズに最適のものはないが、どのCでもPPOのみより性能がいい 13

14.

まとめ＆感想 •まとめ –自身の生じた軌道のTopKを真似ると追加報酬が入るSelf Imitationを提案した •Self ImitationはEpisodic rewardやNoisy rewardsに強いことがわかった –さらに、SVPGを用いることで探索を促す手法を提案した •Self Imitation +SVPGはSparse rewardに強いことがわかった –SVPGで学習するそれぞれの方策にCuriosityを持たせるのはいいかもしれない •おまけ –無報酬でSVPG使ったらDiversity Is All You Needのように様々な挙動が見られた（動画） •感想 –SVPGは使えそう •Soft~~系の方策に多峰性を持たせる手法とは対照的 •方策勾配法に使えるのが良い –類似の論文（GASIL）の方では観測ノイズに強いという結果が出ていたので、観測ノイズにも強いはず 14

https://sites.google.com/site/tesr4t223424