【DL輪読会】 Gradient Informed Proximal Policy Optimization

485 Views

February 13, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Gradient Informed Proximal Policy Optimization Ku Onoda, Matsuo-Iwasawa Lab, B4 http://deeplearning.jp/ 1

2.

書誌情報 • Gradient Informed Proximal Policy Optimization – NeurIPS 2024 • 著者 – Sanghyun Son, Laura Zheng, Ryan Sullivan, Yi-Ling Qiao, Ming Lin • リンク – https://proceedings.neurips.cc/paper_files/paper/2023/hash/1bd8cfc0e4c 53869b7f1d0ed4b1e78e1-Abstract-Conference.html – https://github.com/SonSang/gippo 2

3.

概要 • 背景 – 強化学習(RL)の⽅策最適化では⽅策の勾配推定が必要 – 解析的勾配は環境の情報を活⽤し学習の⾼速化が期待できるが,分散やバイア スの問題がある – PPOは学習の安定性を向上させる優れた⼿法だが解析的勾配は扱わない • 提案⼿法 – GI-PPO:解析的勾配をPPOフレームワークに統合 – αポリシー:局所的に最適なポリシーへ更新 • 結果 – 微分可能な環境上の最適化問題において多くのタスクで既存⼿法よりも⾼性能 3

4.

問題設定 • MDP(マルコフ決定過程)(𝑆, 𝐴, 𝑃, 𝑟, 𝜌!, 𝛾) – 𝑆: 状態空間, 𝐴: ⾏動空間, 𝑃: 遷移確率, 𝑟: 報酬モデル, 𝜌! : 初期状態の確率分布, 𝛾: 割引率 • ⽅策最適化:累積報酬の期待値を最⼤化する⽅策𝜋 𝜃 を得る(𝜃はパラメータ) – 累積報酬の期待値 • 勾配を推定し,勾配降下法などでパラメータを更新していくことで解を得る 4

5.

背景(解析的勾配,RP勾配) • 解析的勾配 – 状態遷移と報酬の勾配を直接求めることができ,アドバンテージ関数の勾配も計算可能 • RP勾配 – reparameterization trickによって解析的勾配を利⽤して勾配推定 – 低分散で効率的な学習が可能 • 課題 – ⻑時間のホライズン→勾配消失・爆発の問題 – 環境のカオス的な場合→分散が⾼くなる – 物理システム上の物体の衝突→ ”Empirical Bias” 現象を引き起こす • 既存のアプローチ – SHAC:⻑いホライズンを短いウィンドウに区切って学習(論⽂内のRP) 5

6.

背景(LR勾配,LR+RP勾配) • LR勾配 – 尤度⽐(Likelihood Ratio, LR)勾配 • 代表的な⼿法はREINFORCE – log-derivative trickを使って計算される – 分散が⼤きく学習が遅い • LR + RP 勾配 – 両者の利点を活かすためにLR勾配とRP勾配を重み付けパラメータで線型結合 – LRとRPの両⽅を計算する必要がある 6

7.

背景(PPO) • PPO:Proximal Policy Optimization – TRPOから派⽣したOn-Policyアルゴリズム – 勾配の更新幅に制約をかけて急激な変化を抑制する – 性能の⾼い⼿法としていまだに使⽤されている • 期待報酬はアドバンテージ関数𝐴!"! を使⽤して • 更新幅が⼗分⼩さければ𝜌!" を𝜌!"! で近似でき,損失関数は以下のようになる • 全ての状態-⾏動ペアに対して定数𝜖"#$% を使⽤して以下の制約をかける – 解析的勾配を扱わない(gradient-free) LR勾配を明⽰的に計算するわけではない 7

8.

⽬的と貢献 • 貢献 1. LR勾配を使⽤することなく解析的勾配をPPOに組み込む (LR勾配の計算コストを削る) 1. 解析的勾配の分散とバイアスを評価しながら動的に切り替える(𝛼-policy) 2. GI-PPOを提案 解析的勾配に基づく⽅策更新と,PPOの従来の⽅策更新のバランスを取るこ とでベースライン⼿法を上回る 8

9.

提案⼿法(𝜶-policy) • モチベーション:アドバンテージ関数の解析的な勾配∇" 𝐴#"! (𝑠, 𝑎)を組み込みたい • 解析的勾配の⽅向に⾏動を更新 𝛼の解釈 - 𝛼 = 0は元の⽅策 - 𝛼が⼗分に⼩さいなら𝜋# は𝜋$ と同じ確率でより良い期待リターンを実現する • 𝛼⽅策に基づく⾏動分布を𝑔! , 元の⽅策に基づく⾏動分布を𝑔" として,以下の損失関数を最⼩化 9

10.

提案⼿法(𝜶の動的な調整) 解析的勾配の影響度を決めるパラメータ𝛼を動的に調整 • 分散 – 状態-⾏動ペアごとに を計算し,[1 − 𝛿, 1 + 𝛿]の範囲に収める • 実装上は閾値がハイパーパラメータ – ⼤きな固有値によって勾配の分散が⼤きくなることを防ぐ • バイアス – 𝜋$ によって期待リターンが下がるなら最適化が逆効果(バイアスの発⽣) → 𝛼を減少させる • PPOの制約違反 – インジケータ関数(条件が満たされれば1) – 制約を超える割合が⼤きい場合は 𝛼を減少させる • 実装上は閾値を設定 • 安定時には𝛼を増加させる 10

11.

提案⼿法(GI-PPO) • アルゴリズム(3ステップ) Step 1 𝜋 ' を𝜋( に近づけるように更新(損失関数の最⼩化) Step 2 𝛼を更新 Step 3 𝜋 ' を更新 PPOの損失関数を最⼤にするように更新 ここで,Step1の更新をPPOの更新により打ち消すことを回避するために,仮想⽅策𝜋# を考えている PPOの制約を元の⽅策だけでなく,Step1の⽅策にも近づけることをしている 以下の式で𝜋$! を𝜋% で置き換える 11

12.

実験(古典的な数値最適化) • 関数上の最⼤値を求める問題 – De Jong:smoothな関数で単⼀の極⼤値を持つ – Ackley:ruggedな関数で局所最適解を持つ 12

13.

実験(微分可能な物理シミュレーション) • 微分可能な物理シミュレーション上の最適化問題 – LR+RPは実装の都合上なし – 代わりにPE(policy enhance)戦略 – PPOより良い性能 – RP(SHACアルゴリズム)には劣る • out-of-range-ratioの影響でRPを完全に活かせない – Hopperでは時間の経過とともに適切な𝛼の分散が⼤きくなる 13

14.

実験(交通制御環境) • mixed-autonomy traffic environment:gradient freeのRLアルゴリズムのベンチマーク – pace car problem:1台の⾞を他の⾞両の速度を考慮しながら制御するタスク • 連続操作と離散操作が共存する環境→解析的勾配に強いバイアスが発⽣ – レーンが増えるごとに⾮連続性が強まる – 複数レーンの時はGI-PPOが最も早い収束 14

15.

まとめ • 解析的勾配をPPOに組み込むアルゴリズムGI-PPOを提案 • 解析的勾配を取得できる微分可能な環境上の多くのタスクにおいて 既存⼿法を上回る性能を発揮 • ⼀⽅で,アルゴリズムがPPOに強く依存しており,PPOの制約を超 える場合に解析的勾配を⼗分に活かせないなどの課題も存在する 15