131 Views
November 12, 21
スライド概要
2021/11/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineering beyond Reward Maximization [DL Papers] Hiroki Furuta http://deeplearning.jp/
書誌情報 • タイトル: Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineering beyond Reward Maximization • 著者・所属: Shixiang Shane Gu1, Manfred Diaz2, Daniel C. Freeman1, Hiroki Furuta3, Kamyar Ghasemipour1, Anton Raichuk1, Byron David1, Erik Frey1, Erwin Coumans1, Olivier Bachem1 ➢ 1Google Brain, 2Mila / University of Montreal, 3The University of Tokyo • URL: https://arxiv.org/abs/2110.04686 • 概要: 相互情報量の最大化(MI-MAX)、または距離の最小化(D-MIN)に基づ く、教師(報酬)なし強化学習のベンチマークを提案した。シミュレーター Brax上で学習することで、わずか数分で複雑な動作を生成することが可能。 2
データ中心の機械学習 • 深層学習の進展と大量かつ高品質なデータセットを背景にして、教師あり 学習の手法は発展してきた ➢ Computer Vision (Resnet, ViT, YOLO, MobileNet, CLIP, etc.) ➢ Natural Language Processing (Transformer, BERT, GPT-3, etc.) ➢ Molecular Biology (AlphaFold2, etc.) • 強化学習においても、過去の経験や知識をデータから抽出し、学習の効率 化を進める研究が盛んになってきている ➢ Policy Distillation (方策の蒸留) ➢ Hindsight BC/RL (データの再ラベル付け) ➢ Offline RL (オフラインデータの活用) 3
強化学習における課題 • 教師あり学習 ➢ 大量かつ高品質なデータを集めるのは比較的簡単 ➢ ImageNetに始まり、様々なペアデータ (音声-テキスト、テキス-+テキスト、画像-テ キスト、画像-画像)を持つ様々なデータセットが提案されている ➢ アノテーションなどの問題さえクリアすれば、webなどで簡単に用意できる • 強化学習 ➢ まずタスクのデザインが難しい (状態、行動、報酬関数) ➢ 実世界でのデータ収集は大きなボトルネック (並列化が難しかったりする) ➢ 有用な行動のデモ生成、タスク設計が並列可能で大規模に行えるようになれば、教師 あり学習と同様のパラダイムが起こせるはず 4
RL-driven Behavior Generation • RLによる行動生成のiterationにおいて、programmaticにできる処理 を最大化し、人間の介入を最小化することで効率化を図るツール 5
Braxlinesの特徴 1. 連続値制御の環境のprogrammatic procedural generationを可能にする Composer API 2. 報酬なしで有用な行動を学習する、Mutual Information Maximization (MIMax)とDivergence Minimization (D-Min)のアルゴリズムの実装 3. タスク報酬に依存しない、生成された行動の質の評価指標 4. TPU上で高速に動作するBraxを基にすることで、Google Colabで数分の実行で 動作生成が可能 6
関連研究: 強化学習のベンチマーク • 既存のRLのベンチマーク/ライブラリは様々な連続値制御のアルゴリズムを網羅 している • 一方で教師なし強化学習の手法をカバーしているものはほとんどない 7
Composer • 実装されている全ての要素が再利用可能なライブラリ ➢ 例) Ant + ball, parameterized morphologies, multi-agentが簡単に設計できる ➢ 環境の構築APIもシンプル 8
教師(報酬)なし強化学習 • 大きく分けて2つのアプローチがある • 環境の”操作可能性”を報酬信号と見て、その最大化を行う ➢ Empowerment: Klyubin et al. 2005, Salge et al. 2014, Jung et al. 2011, Mohamed and Rezende 2015 ➢ Skills/Option discovery: ➢ Goal-Conditioned RL: Gregor et al. 2016, Sharma et al. 2020, Warde-Farley et al. 2019, Hansen et al. 2020, Eysenbach et al. 2019 Choi et al. 2021 ➢ Mutual Information Maximization (MI-Max) • 与えられた軌道の模倣 ➢ Imitation Learning: GAIL, AIRL, FAIRL, DAC, ValueDICE, etc… ➢ Divergence Minimization (D-Min) 9
Mutual Information Maximization (MI-Max) • abstracted action (skills) z と stateの間の相互情報量を最大化する方 策を学習する • Posterior p(z|s)にアクセスできないため、変分下界を用いる ➢ 変分下界を報酬とみなして強化学習でz-conditioned policy を学習 10
Divergence Minimization (D-Min) • Maximum-Entropy Inverse RLがstate-action marginal distributionの分布マッチ ングの問題とみなせる→ Adversarial IL • State-marginal distributionの場合を考えると、IRLの手法はexpert以外の軌道、 また実現可能かどうかを一切考慮しないstateの分布さえも模倣することができる 11
Algorithm Family / Implementation • MI-MaxやD-Minによる行動生成では、高次元の状態入力ではうまくいかないこ とが知られている • 行動を生成したい状態の次元を指定する必要がある o(s) (x-velocityなど) 12
MI-Max Metrics: Particle-based Mutual Information Approximation • 状態のそれぞれの次元について、agentがどの程度予測可能な制御を学習したか を計測する • Rolloutで得られた状態の各次元を離散化してMIのモンテカルロ推定を行う 13
MI-Max Metrics: Latent Goal Reaching • Goal-Conditional RL が MI-MaxのSpecial Caseであることを利用した指標 • 適当にGoalの状態をサンプルしてきて、推論したSkillの下で、実際にどれだけそ のGoalに到達できたかを測る 14
D-Min Metric: Energy Distance • 任意の二つの分布の距離をサンプルで近似する • MI-Max, D-Min共に、学習を通してstaticでスケールの揃った評価指 標で生成した行動の良さを評価できる 15
Experiments: MI-Max • 左からdiscriminator reward, state entropy, MI, LGR • discriminator rewardのスケールはアルゴリズムごとに異なるが、他の3つは同じ で比較可能 • Full stateのDIAYNやcontinuous DIAYNよりも、DIAYNやGCRLの方がMIやLGR の観点で良い 16
Experiments: D-Min • 左からepisodic reward, energy distance • 報酬のスケールとは反対にGAILが最もターゲットを”模倣”できている 17
まとめ • 高速かつ効率的な報酬なしでの行動生成を可能にするツールBraxlinesを提案 • 高速な環境の生成, reward engineering, イタレーション速度の遅さ, 教師なしRL のための評価指標といった既存の強化学習研究のボトルネックを解消 • 少ない労力で大量かつ多様な行動が生成でき、教師あり学習と同様のブレークス ルーをもたらすことが期待される 課題 • 高次元な状態空間で動作するアルゴリズム & 評価指標 • 物体とのインタラクションがあるような環境における行動生成など 18