332 Views
June 15, 22
スライド概要
2022/06/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] 論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem Ryoichi Takase http://deeplearning.jp/ 1
書誌情報 採録:NeurIPS 2021 (Spotlight) 関連するDL Papers: 2022/06/03: A Generalist Agent 2022/03/18: ODT: Online Decision Transformer 2021/07/09: Decision Transformer: Reinforcement Learning via Sequence Modeling 概要: ダイナミクスモデルの学習にTransformerを使用 TransformerとBeam Searchと組み合わせ、Imitation Learning・Goal-conditioned RL・Offline RLで 既存手法と同等以上の性能を発揮 ※注釈無しの図は本論文から抜粋 2
背景 Offline RL: 環境との相互作用なしにデータセットから方策を学習 モデルベース強化学習: ダイナミクスモデルを学習し、学習したモデルを用いて方策を改善 ダイナミクスモデルの学習の課題: 短いステップ数では予測誤差は小さいが 長い予測では誤差が積み重なり大きくなる 3
提案手法 軌跡に関する長い時系列データ: 軌跡のデータは自然言語処理の系列データと類似 Transformerの利点をいかして予測精度の向上を検討 ダイナミクスモデルの学習にTransformerを応用したTrajectory Transformerを提案 4
系列データの扱い方 T個の 「状態、行動、報酬」 のセットで構成される時系列データ 性能向上のためにデータを離散化 N:状態の次元数、M:行動の次元数 → 系列データの長さはT(N+M+1) 2通りの離散化 ①Uniform: データの最大値と最小値の差を語彙数で割り、データの値を等間隔に分割 ②Quantile: データの分布を等分割し、データ量を均等に分割 5
モデル構造と損失関数 モデル構造: 大規模言語モデルGPTの縮小版 ブロック数とSelf-Attentionヘッド数はともに4つ 学習方法: 時刻t-1までのデータから時刻tの状態、行動、報酬を予測するように学習 交差エントロピー誤差を使用 𝜏<𝑡 : 時刻0からt-1までの軌跡データ 𝑠𝑡<𝑖 : 時刻tでの0からi-1次元までの状態 𝑎𝑡<𝑖 : 時刻tでの0からi-1次元までの行動 6
予測精度の比較 Transformer (提案手法): 長い予測ステップでも高性能を維持 Markovian Transformer: マルコフ性を持たせたTransformer (直前のデータのみを用いて予測) Transformerと同程度の性能を発揮 Feedforward (既存手法) : ステップ数が長くなると誤差が拡大 7
部分観測での精度比較 部分観測(観測値の50%をマスク)の場合の性能比較 Transformer (提案手法): 部分観測の場合でも一定の性能を維持 Markovian Transformer: 長い予測ステップでは提案手法と比べて性能が低下 マルコフ性の条件付けだけでは不十分であることを示唆 → 提案するTransformerの妥当性を強調 8
Attentionの解析 2つのAttentionパターン ①マルコフ性の条件付け → 現在の状態と行動に予測が大きく依存 ②数ステップ前への依存 線状の状態:過去の同じ次元の状態に依存 点状の行動:過去の自身の行動に依存 9
Beam Searchとの組み合わせ Trajectory TransformerとBeam Searchを組み合わせ、以下の問題を解く Imitation Learning: Algorithm 1をそのまま使用 と定式化 Goal-conditioned RL: Offline RL: Reward-to-go: でデータを拡張 10
Imitation Learning・Goal-Conditioned RLの結果 Imitation LearningやGoal-reachingで有用であることを確認 → Beam Searchと組み合わせてTrajectory Transformerを様々なタスクに応用可能 スタート ゴール 11
Offline RLの結果 D4RLベンチマークを用いて性能検証 UniformとQuantileの2種類の離散化手法: HalfCheetah Med-Expert以外は同等の性能 → 既存手法と同等以上の性能を発揮 BC MBOP BRAC CQL DT : behavior-cloning : model-based offline planning : behavior-regularized actor-critic : conservative Q-learning : decision transformer 12
学習済み価値関数の利用 報酬が疎な環境では方策の改善が困難 → Transformerが予測する報酬や価値を学習済み価値関数で置換 AntMazeで性能検証 → 報酬が疎な環境で高性能を発揮 BC CQL IQL DT : behavior-cloning : conservative Q-learning : implicit Q-learning : decision transformer 13
まとめ ダイナミクスモデルの学習: 長期の予測による誤差を小さくするためにTrajectory Transformerを提案 → 予測精度を高水準で維持 既存手法との性能比較: Beam searchと組み合わせてImitation Learning, Goal-reaching, Offline RLの問題へ応用 → 既存手法と同等以上の性能を発揮 14