【DL輪読会】 Do Differentiable Simulators Give Better Policy Gradients?

1.6K Views

October 10, 24

#微分可能シミュレータ #勾配推定 #強化学習 #Policy Gradient #α-order estimator

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Do Differentiable Simulators Give Better Policy Gradients? Ku Onoda, Matsuo Lab, B4 http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Do differentiable simulators give better policy gradients? – ICML2022 Outstanding Paper • 著者 – H.J. Terry Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake • リンク – https://arxiv.org/abs/2202.00817 – https://github.com/hjsuh94/alpha_gradient 2

概要 • 微分可能シミュレータ上の勾配の０次推定量と１次推定量の比較 – 非連続性を持つような複雑な環境において1次推定量の有効性を損なう可能性を指摘 • ０次推定量と１次推定量を組み合わせた手法（α-order estimator）を提案 3

設定 • 確率的勾配最適化問題を考える • Zeroth-order batched gradient（ZoBG） = REINFORCE, score function, likelihood-ratio gradient • First-order bathed gradient（FoBG） = reparameterization gradient, pathwise derivative 4

微分可能シミュレータ上の勾配 • 微分可能シミュレータ – シミュレータ内部の遷移関数・報酬関数内の計算を微分可能な演算のみに限定 – 勾配の1次推定量を利用可能 • 連続的で滑らかな環境では – により学習の効率化が期待される – 1次推定量、0次推定量ともにバイアスなし 5

非連続環境における1次推定量 • Empirical Bias – 厳密に非連続な場合に1次推定量にバイアスが発生することはわかっている – 実際には微分可能シミュレータ自体が非連続な環境を近似によって表すが、そこでもバイアスが発生 • 有限のサンプルの場合にバイアスが発生 6

非連続環境における1次推定量 • High Variance – empirical biasがない状況においても高バリアンスな場合がある stiffness（バネ定数）が増えるにつれて高バリアンスに 7

提案手法 • α-order gradient estimator – 連続な時には１次推定量を使用（αを1に近づけたい） – 非連続な時には0次推定量を使用（αを0に近づけたい）・制約条件を満たしていれば最適な値 Objective 満たしていなければ制約の上限に設定・また、信頼区間を満たさない（ε > γ）場合には α = 0とし、0次推定量を使用する 8

実験 • Landscape分析 Ball with wall • AoBGにより、連続時のVariance減、非連続時のBias減 9

10.

実験 • 軌道最適化 • StiffではFoBG < ZoBG • SoftではFoBG > ZoBG • AoBGはどちらにも対応 Pushing 10

11.

実験 • 方策最適化 • FOBGではうまく打ち返せていない • AoBGの方がZoBGより速く収束 11

12.

まとめ • 非連続な環境ではバイアスのある1次推定量、バイアスがないが高バリアンスの0次推定量のトレードオフが発生 • 1次推定量、0次推定量を組み合わせた手法で弱点を補填し合う 12