248 Views
May 10, 19
スライド概要
2019/05/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] 高周波数制御における深層強化学習 Reiji Hatsugai, DeepX http://deeplearning.jp/ 1
制御周波数と強化学習の難易度の関係 学習困難性 ? 制御周波数 2
Bipedal Walkerでの例 • https://ctallec.github.io/continuous-rl/ 3
制御周波数と強化学習の難易度の関係 学習困難性 ? 制御周波数 4
制御周波数が大きくなる(制御周期が0に近づく)と生じる問題 1. 探索の振動が、行動に対して大きくなりすぎる 2. 行動の継続時間が小さくなり、行動のAdvantageが小さくなる – 関数近似誤差よりも小さくなると、学習が難しくなる 3. 適切な割引率を選択できなくなる 4. 適切な学習率を選択できなくなる • 1 -> Autoregressive Policies (2019, D.korenkevych) • 1, 2, 3, 4 -> Deep Advantage Updating (2019, C.Tallec) 5
Autoregressive Policies for Continuous Control Deep Reinforcement Learning • 著者 – – – – Dmytro Korenkevych A. Rupam Mahmood Gautham Vasan James Bergstra • 機関 – Kindred • Arxiv 27, Mar/2019 6
論文概要 • 高周波制御環境において、ガウシアンノイズによる探索は振動的になる – 特に疎な報酬環境においてその影響は大きい • 分散値について、自己回帰性を持つ形で探索方策を構成する • 探索の滑らかさを変化させるパラメータを用いて、 タスク、周波数毎に最適な探索方法を決定することができる 7
高周波制御環境にてガウシアンノイズが振動的になってしまう動画 • https://www.youtube.com/watch?v=NCpyXBNqNmw&feature=youtu.be • https://ctallec.github.io/continuous-rl/ 8
方策の構成 • ガウシアン方策 – 𝑎 = μ 𝑠𝑡 + σ 𝑠𝑡 ∗ 𝑍𝑡 , 𝑍𝑡 ~𝑁 0, 𝐼 – 分散値σに標準正規分布からサンプルされるノイズをかけて足すことで探索とする • 自己回帰方策 – 𝑎 = μ 𝑠𝑡 + σ 𝑠𝑡 ∗ 𝑋𝑡 , 𝑋𝑡 ~𝐴𝑅 – 分散値σに自己回帰分布からサンプルされるノイズをかけて足すことで探索とする 9
自己回帰分布について pは何個前まで見るかのパラメータ 定常性 • 自己回帰分布は、上の式で定義される(φは係数) • 平均は時間ステップに非依存かつ、共分散が時間ステップ幅にのみ依存する時、 共分散はユール・ウォーカー方程式に従い、唯一の分散項(σ)が求まる 10
論文内での係数φの取扱について • 係数φを以下のように定めることによってサンプルされるノイズの滑らかさを 一つのパラメータ(α)で変化させられるようにしている • この時、自己回帰分布は定常性を持つ(詳しくは論文で) 11
パラメータを変化させることによるノイズの滑らかさの変化 12
疎な報酬環境での実験 • 環境情報 – – – – 10x10の2D Dotの速度制御 目標のdotにたどり着くまで-1の報酬 位置、速度、目標へのベクトルが観測情報 • 結果 13
Mujoco環境での実験 14
結論 • • • • • 自己回帰分布を使った新しいガウシアン方策を提案 自己回帰分布の滑らかさはパラメータによって変化させることが可能 疎な報酬タスクにおいて高周波環境での優位性を確認 密な報酬に関しては通常ガウシアン方策に対してcompetitive 滑らかな探索は、実機における探索を安全にする 15
感想 • DDPGなどで使われるOUプロセスとの比較も見てみたい(ARは一般化されて いるらしいが) • 既存の方策に勝っていると言えるのが、疎な報酬の高周波環境だけ、、 • 振動的になった時のハードウェアへの悪影響を述べているが、定量評価する方 法などあるか • 高周波時の探索に対してノイズを滑らかにするというのは一つの解決策 • 2つ目の論文で行っているような工夫をしていないので、比較が不正確な可能 性 16
Making Deep Q-learning Methods Robust to Time Discretization • 著者 – Corntin Tallec – Leonard Blier – Yann Ollivier • 機関 – University of Paris – FAIR • Arxiv 29, Jan/2019 17
論文概要 • 深層学習はハイパーパラメータに敏感であり、 実世界応用を考えると、それは重要な課題である • 制御周波数に関してロバストに学習できるような工夫、アルゴリズムを提案 – 各制御周波数に関して、1つずつハイパーパラメータを探索する必要がない • 提案された工夫、アルゴリズムを用いて、周波数を変化させた環境で学習を行 い、empiricalにロバスト性能を確かめた 18
提案された工夫、アルゴリズム • Advantage関数を使った学習アルゴリズム – 制御周波数が高くなると行動の継続時間が短くなり、Q関数の行動による影響が小さ くなり、連続時間においてはV関数と一致してしまう • 適切な割引率の設定 – 制御周波数が高くなると割引率によって考慮される実時間の「先読み」が短くなる • 適切な学習率の設定 – 一回更新あたりのモデルに対する影響を考慮する • これらの工夫、アルゴリズムの根底にある連続時間における強化学習の話を先 にします 19
MDPの連続時間化 • MDPの構成要素 – <S, A, T, R> 𝑑𝑠 • S, Aについては変わらず、遷移の時間微分について 𝑡 = 𝐹 𝑠𝑡 , 𝑎𝑡 を定義して、 𝑑𝑡 ′ 𝑠 = 𝑠 + δt ∗ 𝐹(𝑠𝑡 , 𝑎𝑡 )で微小δ𝑡についての差分式で遷移確率を定義 • Rについて報酬関数の密度𝑟(𝑠𝑡 , 𝑎𝑡 )を考える – 軌跡の報酬は右のように積分で求められる – Δtでの離散化の場合は、以下のようになる 20
高周波制御においてQ関数が無効化される説明1 • なぜQ関数を使った学習アルゴリズムは高周波数制御では使えないのか ➢ Δtを0に近づけた時、Q関数はV関数と同一になってしまう • 連続時間MDPを用いたδtでのベルマン方程式 • Fを使った状態遷移の書き下しを、右辺第二項に適用 21
高周波制御においてQ関数が無効化される説明2 • ベルマン方程式第二項に、状態遷移を適用 • Δt->0において、QとVが一致 • (定性的には)δt->0の時、行動の継続時間->0となり、行動による期待報酬 への寄与がほとんどなくなってしまう 22
Advantage関数を用いた学習アルゴリズム • 基本アイデア – Δtの一次の項によって行動の意味が失われている – Advantage関数をδtでrescaleしてあげることで行動に関しての意味を持たせる • Adavantage関数を最大化するように方策を学習 • パラメタライズ方法などの詳細は論文に – V関数とA関数をパラメタライズする – VとAをそのままベルマン方程式で学習すると定数ズレに対して同定できないため、 Aのmaxを引く(2015 wang, Dueling networkのテクニック) 23
高周波制御環境でのγについて 1 • γを使用した時、ざっくりと1−γステップ先までを考慮していると考える • 高周波制御の時、考慮する実時間はステップ数かける微小時間で δ𝑡 、これは 1−γ δt->0で0になってしまう • γにγδ𝑡 を代入することでこれを回避 24
高周波制御環境での適切な学習率 • Advantage関数がδtでrescaleされているため、勾配はO(1)である 1 δ𝑡 • 一方で更新回数はO( )となる • オーダーを揃えるために学習率にδtを乗じる 25
定性実験 • Pendulumについて異なる周波数で学習させた時の、状態価値関数を可視化 • DAU(提案手法)では早期に異なる周波数で同じ状態価値関数が生じる 26
定量実験 • Pendulum, Bipedal Walker, CartPole, Ant, HalfCheetahに対して、異なる周波 数で実験を行う • DAUでは、周波数に対してロバスト 27
結論 • • • • Q関数をつかった学習は高周波制御環境で上手く機能しない それに対して理論的に妥当な学習アルゴリズムを提案 その他高周波制御環境で学習可能にするための工夫を提案 実験によって周波数に対するロバスト性を確認 28
感想 • ここで説明されている工夫などは、実際にタスクの周波数を考慮して設計する 際に有用な知見になると思った • 高周波制御環境に関して理論的にアプローチをした初めての論文?(連続時間 強化学習については先行研究あり) • まだ考えきれていない部分等がある気がしている • 強化学習の枠組みで考えると理論的にアプローチできるが、例えばヒトは異な るフレームレートのゲームをどのように区別して、学習しているだろうか • 最終的に目指すべきは、異なる制御周波数が混ざった環境で良い性能を出すよ うな学習アルゴリズムでないか 29