139 Views
May 17, 19
スライド概要
2019/05/17
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Active Domain Randomization DeepX 吉田岳人 DL輪読会2019/05/17 http://deeplearning.jp/ 1
書誌情報 • 著者 – Bhairav Mehta, Manfred Diaz, Florian Golemo, Christopher J. Pal, Liam Paull – モントリオール大学の修士の学生 • ステータス – Arxive, Preprint • 投稿日 – 2019/04/09 2
概要 • 思想: – Domainを一様にサンプリングするDomain Randomization(UDR)より、 – 難しいDomainにフォーカスしてサンプリングするDR(ADR)の方が、 – Domainに対する汎化性能が高い • 手法: – Domainをサンプリングする方策を用意して強化学習する • サンプリングされたDomainに置いてタスクを解くためにも強化学習する(2種類のRLを回 す) • 結果: – ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった – ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた 3
背景:Domain Randomization • Domain Randomization(DR)は、機械学習モデルをRandomizeしたDomainで 訓練し、汎化させ、Target Domainにzero-shotで転移する手法 – 強化学習の文脈では、 • RandomizeしたDomain= RandomizeしたDomain、 • Target Domain=実機、 • として、Sim2Realすることが多い • 通常のDR考えうるDomain群から一様にサンプリングしてモデルを学習する • UDRは、Target Domainのみで訓練することに比べて、過剰に難しい条件で訓 練してしまい、結果として、性能が低くなってしまう問題点がある →重要なDomainに絞って訓練したい 4
手法: • 参照環境を用意(シミュレータのデフォルト値) • シミュレータのパラメータをサンプリングするサンプリング方策μ – SVPG+A2Cで学習 – 報酬は、 • ここで、サンプリングされた環境ならy=1 , 参照環境ならy=0 • サンプリングされたタスクを解くタスク方策πを用意 – DDPGで学習 – 報酬はタスクの報酬そのまま • 識別器Dは、参照環境かどうかを0/1で出力 – (s,a,s’)の組を軌道分入力して、軌道分の出力を 平均する ※Dとサンプリング方策μはMaxMaxの関係 – 用意に局所解に陥るのでSVPGを使ってると 思われる 5
参考:Stein Variational Policy Gradient • 複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布する よう学習する手法 • 右辺第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方 策から離れるExploration – 第二項のKernelには∇𝜃𝑗 𝑘(𝜃𝑗 , 𝜃𝑖 ) = − ∇𝜃𝑖 𝑘(𝜃𝑗 , 𝜃𝑖 )となるものを使用 • KernelにはRBF kernelを用いる 6
実験:LunarLander • 垂直・水平方向のエンジンを使って着陸するタスク • パラメータ:エンジンの出力 – エンジンの出力が小さいほど難しい 7
結果:LunarLander • タスク方策の性能 – サンプリング方策により、より難しい左したの領域に着目 している(右(b)) • サンプリング方策の挙動 – サンプリング方策がより難しい、エンジンの出力が小さい 領域に 着目しているのがわかる(右下(b)) • タスク方策が解ける領域は軌道が似通 ってくるため、識別できなくなり、 サンプリング方策の報酬が下がり、 サンプリングされなくなる(本当か?) 8
実験:Pusher-3DOF • パックをゴール位置まで押すタスク • パラメータ:パックの摩擦・減衰係数 – 小さいほど滑りやすく難しい 9
結果: Pusher-3DOF • タスク方策の性能 – UDRより摩擦・減衰に対してロバストなタスク方策が得られた(右 (a)) • 学習していない領域に対してUDRよりいい結果が得られた – UDRでは破滅的忘却が生じている(下) ピンク、紫、水色の順で難しい 黒枠で囲った部分が学習に用いた箇所 • サンプリング方策の挙動 – サンプリング方策により、より難しい左したの領域に着目している (右(b)) 10
実験:4軸ロボットアームのリーチング • パラメータ: – 各軸の最大トルクとゲイン • どちらも小さい方が重力に負けるので難しい • 結果 – Sim内(右) – Sim2Real(下) 11
結論と感想 • 結論 – ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった – ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた • 感想 – タスクが解けると、軌道が似てくる、という説明が曖昧 – 行なっている実験がどれも、パラメータのどの領域が難しいのかわかる設定だったの で、あまり旨味を感じられなかった – 難しいタスクを中心に訓練すると性能が上がるというのを実験して示しているのは有 用 12