1.1K Views
October 10, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] Do Differentiable Simulators Give Better Policy Gradients? Ku Onoda, Matsuo Lab, B4 http://deeplearning.jp/ 1
書誌情報 • Do differentiable simulators give better policy gradients? – ICML2022 Outstanding Paper • 著者 – H.J. Terry Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake • リンク – https://arxiv.org/abs/2202.00817 – https://github.com/hjsuh94/alpha_gradient 2
概要 • 微分可能シミュレータ上の勾配の0次推定量と1次推定量の比較 – 非連続性を持つような複雑な環境において1次推定量の有効性を損なう可能性 を指摘 • 0次推定量と1次推定量を組み合わせた手法(α-order estimator) を提案 3
設定 • 確率的勾配最適化問題を考える • Zeroth-order batched gradient(ZoBG) = REINFORCE, score function, likelihood-ratio gradient • First-order bathed gradient(FoBG) = reparameterization gradient, pathwise derivative 4
微分可能シミュレータ上の勾配 • 微分可能シミュレータ – シミュレータ内部の遷移関数・報酬関数内の計算を微分可能な演算のみに限定 – 勾配の1次推定量を利用可能 • 連続的で滑らかな環境では – により学習の効率化が期待される – 1次推定量、0次推定量ともにバイアスなし 5
非連続環境における1次推定量 • Empirical Bias – 厳密に非連続な場合に1次推定量にバイアスが発生することはわかっている – 実際には微分可能シミュレータ自体が非連続な環境を近似によって表すが、そ こでもバイアスが発生 • 有限のサンプルの場合にバイアスが発生 6
非連続環境における1次推定量 • High Variance – empirical biasがない状況においても高バリアンスな場合がある stiffness(バネ定数)が増えるにつれて高バリアンスに 7
提案手法 • α-order gradient estimator – 連続な時には1次推定量を使用(αを1に近づけたい) – 非連続な時には0次推定量を使用(αを0に近づけたい) ・制約条件を満たしていれば最適な値 Objective 満たしていなければ制約の上限に設定 ・また、信頼区間を満たさない(ε > γ)場合には α = 0とし、0次推定量を使用する 8
実験 • Landscape分析 Ball with wall • AoBGにより、連続時のVariance減、非連続時のBias減 9
実験 • 軌道最適化 • StiffではFoBG < ZoBG • SoftではFoBG > ZoBG • AoBGはどちらにも対応 Pushing 10
実験 • 方策最適化 • FOBGではうまく打ち返せていない • AoBGの方がZoBGより速く収束 11
まとめ • 非連続な環境ではバイアスのある1次推定量、バイアスがないが高バ リアンスの0次推定量のトレードオフが発生 • 1次推定量、0次推定量を組み合わせた手法で弱点を補填し合う 12