【DL輪読会】Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form (ICLR2025)

1.

DEEP LEARNING JP [DL Papers] Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form (ICLR2025) Toshinori Kitamura, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

自己紹介北村俊徳（Toshinori Kitamura） • 松尾研博士３年 • 研究内容： • 強化学習（マルコフ決定過程）の理論 • 主に安全性やロバスト性など • 紹介する論文 Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form (ICLR2025) https://openreview.net/forum?id=G5sPv4KSjR&noteId=kPGMvQckyn 2

https://openreview.net/forum?id=G5sPv4KSjR&noteId=kPGMvQckyn

3.

目次１．問題設定：ロバスト制約付きマルコフ決定過程 • ロバストマルコフ決定過程 • 制約付きマルコフ決定２．提案手法：EpiRC-PGSアルゴリズム貢献：ロバスト制約付きマルコフ決定過程で (近似)最適方策を求めるアルゴリズムを初めて提案した重要性：ロボットなど，実世界での強化学習で重要な理論とアルゴリズム

4.

目次１．問題設定：ロバスト制約付きマルコフ決定過程 • ロバストマルコフ決定過程 • 制約付きマルコフ決定２．提案手法：EpiRC-PGSアルゴリズム貢献：ロバスト制約付きマルコフ決定過程で (近似)最適方策を求めるアルゴリズムを初めて提案した重要性：ロボットなど，実世界での強化学習で重要な理論とアルゴリズム

5.

前提：シミュレータでの方策の設計（ロボットの）方策の設計は二段階ある：１．シミュレータで方策を設計＆挙動を確認２．本番環境に方策をデプロイ＆調整シミュレータで方策を設計方策をデプロイ本番環境（未知） 5

6.

ロバスト設計：未知のデプロイ環境でも性能を保証する技術シミュレータ 𝑃 本番環境 𝑃 ⋆ シミュレータと本番環境は一般に異なる（sim-to-real gap問題） → シミュレータで動く方策が実環境で動くとは限らない 6

7.

ロバスト設計：未知のデプロイ環境でも性能を保証する技術何が問題？→「シミュレータのみで方策を設計」するのが良くないロバスト設計：単一の環境ではなく，環境の集合に対して設計しよう環境の集合 𝒰 「集合𝒰内の全ての環境で80点の方策」が作れたとしようシミュレータ 𝑃 → もし「本番環境𝑃⋆ ∈ 環境の集合𝒰」ならば，本番環境でも80点出せる → 環境の摂動にロバストな方策本番環境 𝑃⋆ 7

8.

ロバスト設計の前に準備：マルコフ決定過程（MDP） for ℎ = 0, 1, 2, … マルコフ決定過程状態空間 𝒮 行動空間 𝒜 報酬関数 𝑟: 𝒮 × 𝒜 → ℝ 1. 行動をサンプル： 𝑎 ℎ ∼ 𝜋 ⋅∣ 𝑠 ℎ 2. 報酬が発生：𝑟 ℎ = 𝑟 𝑠 ℎ , 𝑎 ℎ 3. 次状態に遷移：𝑠 ℎ+1 ∼ 𝑃 ⋅∣ 𝑠 ℎ , 𝑎 ℎ 遷移関数 𝑃: 𝒮 × 𝒜 → 0, 1 |𝒮| 割引率 𝛾 ∈ [0, 1) 行動 𝑎 ℎ エージェント行動 𝑎 ℎ+1 方策 𝜋: 𝒮 → 0, 1 𝒜 状態 𝑠 ℎ 報酬 𝑟 ℎ 状態 𝑠 ℎ+1 報酬 𝑟 ℎ+1 MDPでの最適方策：𝜋 ⋆ ∈ argmax 収益𝑟,𝑃 𝜋 ≜ 𝔼𝜋 𝑟 0 + 𝛾𝑟 1 + 𝛾 2 𝑟 2 + ⋯ 𝜋 (補足)↑は強化学習の背景にある数理 8

9.

準備：ロバストマルコフ決定過程 MDPでの最適方策：𝜋 ⋆ ∈ argmax 収益𝑟,𝑃 𝜋 𝜋 単一の環境 𝑃 から環境の集合 𝒰 に拡張しようロバストMDP：𝜋 ⋆ ∈ argmax min 収益𝑟,𝑃 𝜋 𝜋 𝑃∈𝒰 𝒰の中の最悪な環境でも動く方策を設計する直観：台風で動くロボットは大体の環境で動くはず 9

10.

余談：Domain-randomizationとの関係 Domain-randomizationはロバストMDPの期待値版 MDPでの最適方策：𝜋 ⋆ ∈ argmax 収益𝑟,𝑃 𝜋 𝜋 ロバストMDP：𝜋 ⋆ ∈ argmax min 収益𝑟,𝑃 𝜋 𝜋 𝑃∈𝒰 Domain Randomization：𝜋 ⋆ ∈ argmax 𝔼𝑃∼𝕌 収益𝑟,𝑃 𝜋 𝜋 環境の集合 𝒰 𝑷∼ 𝒰上のなんらかの分布𝕌からサンプル 10

11.

目次１．問題設定：ロバスト制約付きマルコフ決定過程 • ロバストマルコフ決定過程 • 制約付きマルコフ決定２．提案手法：EpiRC-PGSアルゴリズム貢献：ロバスト制約付きマルコフ決定過程で (近似)最適方策を求めるアルゴリズムを初めて提案した重要性：ロボットなど，実世界での強化学習で重要な理論とアルゴリズム

12.

制約付き制御のモチベ：収益の最大化以外のことがしたい「収益関数の最大化」は様々なアプリケーションで不十分例：自動運転は「目的地までの到着時間を最小化」が目標．ただし，「障害物と距離を保つ」制約が必要．方策の集合 Π 制約を満たす方策の集合 Πsafe 収益を最大にする方策 𝜋 ⋆ ∈ argmax𝜋 収益𝑟,𝑃 𝜋 Πsafe 内で最適な方策： 𝜋 ⋆ ∈ argmax𝜋∈Πsafe 収益𝑟,𝑃 𝜋 12

13.

制約付きMDP 制約付きMDPは安全性に関する制約が追加された最適化問題通常のMDP ：max 収益𝑟0 ,𝑃 𝜋 𝜋 制約付きMDP：max 収益𝑟0 ,𝑃 𝜋 𝜋 𝑟0 は目的用の報酬関数制約収益𝑟𝑛 ,𝑃 𝜋 ≥ 𝑏𝑛 ∀𝑛 ∈ 1, … 𝑁 𝑟1 ~𝑟𝑁 は制約用の報酬関数 13

14.

問題設定：ロバスト制約付きMDP 現実ではロバスト性と制約のどっちも重要通常のMDP ：max 収益𝑟0 ,𝑃 𝜋 𝜋 ロバストMDP：max min 収益𝑟,𝑃 𝜋 𝜋 𝑃∈𝒰 制約付きMDP：max 収益𝑟0 ,𝑃 𝜋 𝜋 制約収益𝑟𝑛 ,𝑃 𝜋 ≥ 𝑏𝑛 ロバスト制約付き：max min 収益𝑟0 ,𝑃 𝜋 𝜋 𝑃∈𝒰 ∀𝑛 ∈ 1, … 𝑁 制約 min 収益𝑟𝑛 ,𝑃 𝜋 ≥ 𝑏𝑛 𝑃∈𝒰 ∀𝑛 ∈ 1, … 𝑁 環境の集合 𝒰 最適解 𝜋 ⋆ は任意の 𝑷 ∈ 𝓤 に対して制約を満足 → 𝑷 ∈ 𝓤 ならば実環境でも安全な方策 14

15.

研究のモチベ：ロバスト制約付き制御の既存技術研究１ LQRなど，制御理論の文脈で活発に研究されてきたロバスト制約付きLQR [Anderson+, 2019] 最適化： min max σ𝑇𝑡=0 𝑠𝑡⊤𝑄𝑡 𝑠𝑡 𝑠,𝑎 𝑤 2 ≤1 制約：𝑠𝑡+1 = 𝐴𝑠𝑡 + 𝐵𝑎𝑡 + 𝑤𝑡 & 𝐹𝑢 𝑠𝑡 ≤ 𝑏 ∀ 𝑤𝑡 ∈ 𝑤 𝑤 2 ≤ 1 累積コストの最小化＋何らかの安全性の制約 +システム誤差の最悪ケースでも性能保証基本のテーブルMDPですら，ロバスト安全方策の設計技術は未達成論文で扱う未解決問題：テーブルMDPでロバスト安全方策は計算できるか？ [Anderson+, 2019] “System Level Synthesis” 15

16.

目次１．問題設定：ロバスト制約付きマルコフ決定過程 • ロバストマルコフ決定過程 • 制約付きマルコフ決定２．提案手法：EpiRC-PGSアルゴリズム

17.

先行研究：ロバスト制約付きMDPを解くのは難しいロバスト制約付きMDPでは理論保障のついたアルゴリズムが存在しなかった MDP 動的計画法 (e.g., 価値反復法) 最適解に収束使用不可 [Bellman+, 1957] 線形計画法収束ラグランジュ形式＋方策勾配法収束 [Agarawal+, 2021] [Wang+, 2022], [Mankowitz, 2020], [Russel+, 2020] 制約付きMDP ロバストMDP 収束収束 [Iyengar+, 2005] ロバスト制約付きMDP 使用不可使用不可使用不可収束収束 [Ding+, 2024] [Wang+, 2023] 実装は可能だが理論保証なし [Altman+, 1999] [Bellman+, 1957] “Dynamic Programming” [Iyengar+, 2005] “Robust Dynamic Programming” [Altman+, 1999] “Constrained Markov Decision Processes” [Agarwal+, 2021] “On the Theory of Policy Gradient Methods: Optimality, Approximation, and Distribution Shift” [Ding+, 2024] “Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs” [Wang+, 2023] “Policy Gradient in Robust MDPs with Global Convergence Guarantee” [Wang+, 2022] “Robust Constrained Reinforcement Learning” [Mankowitz+, 2020] “Robust Constrained Reinforcement Learning for Continuous Control with Model Misspecification” [Russel+, 2020] “Robust ConstrainedMDPs: Soft-constrained Robust Policy Optimization under Model Uncertainty” 17

18.

提案手法：制約付き最適化とエピグラフ形式制約を目的に合体目的を制約に合体制約付き最適化問題目的 max 𝑓 𝑥 𝑥 制約 ℎ 𝑥 ≥ 𝑏 エピグラフ形式[Boyd+, 2004] ラグランジュ形式目的 max min 𝑓 𝑥 + 𝜆 ℎ 𝑥 − 𝑏 𝑥 [Boyd+, 2004] “Convex Optimization” 𝜆≥0 目的 max max 𝑏0 𝑏0 ≥0 𝑥 制約 𝑓(𝑥) ≥ 𝑏0 かつ ℎ 𝑥 ≥ 𝑏 max 𝑓 𝑥 エピグラフ形式の直観：「max 𝑓 𝑥 を解く」 x → 制約「 𝒇 𝒙 ≥ 𝒃𝟎 を満たす𝒙が存在する」を満たす 𝑏0 のうち，最大の𝑏0 を見つける 𝑥 𝑓(𝑥) 𝑏0 𝑥 18

19.

提案手法：エピグラフ形式のロバスト制約付きMDP ロバスト制約付きMDP ＝「 max 𝑏0 ここで，Δ𝑏0 𝜋 ≜ 𝑏0 ≥0 min 𝑛∈ 0…𝑁 制約 max Δ𝑏0 𝜋 ≥ 0 」 min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 𝜋 𝑃∈𝒰 制約 0 … 𝑁 と環境𝑃 ∈ 𝒰の全組み合わせで生じる最悪の制約違反エピグラフの部分問題と呼ぶ部分問題 ≥ 0の領域 min 収益𝑟0,𝑃 𝜋 𝑏0 𝑃∈𝒰 ロバスト安全方策が存在する領域 𝜋 定理 2：エピグラフの最適解を 𝑏0⋆ とする．𝑏0⋆ における部分問題を解くと𝜋 ⋆ が求まる： 𝜋 ⋆ ∈ argmax𝜋 Δ𝑏0⋆ 𝜋 19

20.

提案手法：エピグラフ形式のロバスト制約付きMDP ロバスト制約付きMDP ＝「 max 𝑏0 ここで，Δ𝑏0 𝜋 ≜ 𝑏0 ≥0 min 𝑛∈ 0…𝑁 制約 max Δ𝑏0 𝜋 ≥ 0 」 min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 𝑃∈𝒰 (補題2) 部分問題は「𝑏0 が大きすぎるか？」を教えてくれる研究１ 𝜋 エピグラフの部分問題と呼ぶ max𝜋 𝛥𝑏0 𝜋 最適解 𝑏0⋆ 1. max𝜋 𝛥𝑏0 𝜋 は 𝑏0 について単調減少 2. 最適解 𝑏0⋆ は max𝜋 𝛥𝑏0⋆ 𝜋 = 0 を満たす → エピグラフ形式は部分問題を解いて 𝑏0 を調整すれば解ける（次ページ） 20

21.

提案手法：エピグラフ形式のロバスト制約付きMDP ロバスト制約付きMDP ＝「 max 𝑏0 ここで，Δ𝑏0 𝜋 ≜ 𝑏0 ≥0 min 𝑛∈ 0…𝑁 研究１制約 max Δ𝑏0 𝜋 ≥ 0 」 min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 𝜋 エピグラフの部分問題と呼ぶ 𝑃∈𝒰 𝑏0 max𝜋 𝛥𝑏0 𝜋 ≥ 0なら 𝑏0 を増やす max𝜋 𝛥𝑏0 𝜋 最適解 𝑏0⋆ 最適解 𝑏0⋆ min 収益𝑟0 ,𝑃 𝜋 𝑏0 𝑃∈𝒰 ロバスト安全方策が存在する領域 𝜋 21

22.

提案手法：エピグラフ形式のロバスト制約付きMDP ロバスト制約付きMDP ＝「 max 𝑏0 ここで，Δ𝑏0 𝜋 ≜ 𝑏0 ≥0 min 𝑛∈ 0…𝑁 制約 max Δ𝑏0 𝜋 ≥ 0 」 min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 𝑃∈𝒰 研究１ 𝜋 エピグラフの部分問題と呼ぶ 𝑏0 max𝜋 𝛥𝑏0 𝜋 < 0なら 𝑏0 を減らす max𝜋 𝛥𝑏0 𝜋 最適解 𝑏0⋆ 𝑏0 最適解 𝑏0⋆ min 収益𝑟0 ,𝑃 𝜋 𝑃∈𝒰 ロバスト安全方策が存在する領域 𝜋 22

23.

提案手法：部分問題 max𝜋 Δ𝑏0 𝜋 をロバスト方策勾配法で解く部分問題：max 𝜋 Δ𝑏0 𝜋 ≜ max min 𝜋 𝑛∈ 0…𝑁 min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 研究１ 𝑃∈𝒰 ＝「 𝑛 ∈ 0 … 𝑁 」×「 𝑃 ∈ 𝒰 」における最悪ケースでの最適方策を求める問題 23

24.

提案手法：部分問題 max𝜋 Δ𝑏0 𝜋 をロバスト方策勾配法で解く部分問題：max 𝜋 Δ𝑏0 𝜋 ≜ max min 𝜋 𝑛∈ 0…𝑁 min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 研究１ 𝑃∈𝒰 ＝「 𝑛 ∈ 0 … 𝑁 」×「 𝑃 ∈ 𝒰 」における最悪ケースでの最適方策を求める問題＝「制約なしのロバストMDP」なので，ロバスト方策勾配法で解ける. 1. 最悪ケースの制約と遷移を計算： 𝑛 𝑡 , 𝑃 𝑡 ∈ arg min min 収益𝑟𝑛 ,𝑃 𝜋 − 𝑏𝑛 2. 方策勾配で更新： 𝜋 𝑡+1 = Proj方策 𝜋 𝑡 + 𝛼 ∇収益𝑟 ,𝑃 𝑡 𝑛∈ 0…𝑁 𝑛 𝑡 𝑃∈𝒰 𝜋 (𝑡) ロバスト方策勾配法は部分問題の大域的最適解*に収束する定理5：上記のロバスト方策勾配を繰り返すと， ෩ ≤ 𝜀 を満たす値 Δ ෩ が𝑂 𝜀 −4 の更新で求まる． max Δ𝑏 𝜋 − Δ 𝜋 0 * 初期状態分布が全ての状態をカバーする仮定が必要（𝜇 𝑠 > 0）．ただし，この仮定は方策勾配法を使用する際に外すことが不可能 24

25.

提案手法の全体研究１提案手法：Epigraph Robust Constrained Policy Gradient Search アルゴリズム (EpiRC-PGSアルゴリズム) 𝑘 1. 𝑏0 について，エピグラフの部分問題をロバスト方策勾配法で解く： ෩ 𝑘 とする． max 𝜋 𝛥𝑏(𝑘) 𝜋 の解を𝜋 (𝑘) ，最適値を𝛥 0 (𝑘+1) 2. 𝑏0 ←「𝛥෩ 𝑘 ≥ 0なら 𝑏0 を増やす．𝛥෩ 𝑘 < 0なら 𝑏0 を減らす．」 𝛥෩ 𝑘 𝑏0⋆ 系 1：𝜋 (𝐾) は 𝑂෨ 𝜀 −4 回の方策評価で次の𝜀-最適方策に至る min 収益𝑟0 ,𝑃 𝜋 𝐾 + 𝜀 ≥ min 収益𝑟0 ,𝑃 𝜋 ⋆ 𝑃∈𝒰 かつ min 収益𝑟𝑛 ,𝑃 𝜋 𝐾 𝑃∈𝒰 𝑃∈𝒰 + 𝜀 ≥ 𝑏𝑛 ∀𝑛 ∈ 1, … 𝑁 25

26.

まとめ：エピグラフ＋方策勾配法ならロバスト制約付きMDPが解ける MDP 制約付きMDP ロバストMDP ロバスト制約付きMDP 動的計画法 (e.g., 価値反復法) 最適解に収束使用不可収束使用不可線形計画法収束収束使用不可使用不可ラグランジュ形式＋方策勾配法収束収束収束理論保証なし EpiRC-PGS (本研究) 収束収束収束収束研究１ 26

【DL輪読会】Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form (ICLR2025)

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト