【DL輪読会】 Do Differentiable Simulators Give Better Policy Gradients?

1.2K Views

October 10, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Do Differentiable Simulators Give Better Policy Gradients? Ku Onoda, Matsuo Lab, B4 http://deeplearning.jp/ 1

2.

書誌情報 • Do differentiable simulators give better policy gradients? – ICML2022 Outstanding Paper • 著者 – H.J. Terry Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake • リンク – https://arxiv.org/abs/2202.00817 – https://github.com/hjsuh94/alpha_gradient 2

3.

概要 • 微分可能シミュレータ上の勾配の0次推定量と1次推定量の比較 – 非連続性を持つような複雑な環境において1次推定量の有効性を損なう可能性 を指摘 • 0次推定量と1次推定量を組み合わせた手法(α-order estimator) を提案 3

4.

設定 • 確率的勾配最適化問題を考える • Zeroth-order batched gradient(ZoBG) = REINFORCE, score function, likelihood-ratio gradient • First-order bathed gradient(FoBG) = reparameterization gradient, pathwise derivative 4

5.

微分可能シミュレータ上の勾配 • 微分可能シミュレータ – シミュレータ内部の遷移関数・報酬関数内の計算を微分可能な演算のみに限定 – 勾配の1次推定量を利用可能 • 連続的で滑らかな環境では – により学習の効率化が期待される – 1次推定量、0次推定量ともにバイアスなし 5

6.

非連続環境における1次推定量 • Empirical Bias – 厳密に非連続な場合に1次推定量にバイアスが発生することはわかっている – 実際には微分可能シミュレータ自体が非連続な環境を近似によって表すが、そ こでもバイアスが発生 • 有限のサンプルの場合にバイアスが発生 6

7.

非連続環境における1次推定量 • High Variance – empirical biasがない状況においても高バリアンスな場合がある stiffness(バネ定数)が増えるにつれて高バリアンスに 7

8.

提案手法 • α-order gradient estimator – 連続な時には1次推定量を使用(αを1に近づけたい) – 非連続な時には0次推定量を使用(αを0に近づけたい) ・制約条件を満たしていれば最適な値 Objective 満たしていなければ制約の上限に設定 ・また、信頼区間を満たさない(ε > γ)場合には α = 0とし、0次推定量を使用する 8

9.

実験 • Landscape分析 Ball with wall • AoBGにより、連続時のVariance減、非連続時のBias減 9

10.

実験 • 軌道最適化 • StiffではFoBG < ZoBG • SoftではFoBG > ZoBG • AoBGはどちらにも対応 Pushing 10

11.

実験 • 方策最適化 • FOBGではうまく打ち返せていない • AoBGの方がZoBGより速く収束 11

12.

まとめ • 非連続な環境ではバイアスのある1次推定量、バイアスがないが高バ リアンスの0次推定量のトレードオフが発生 • 1次推定量、0次推定量を組み合わせた手法で弱点を補填し合う 12