【論文読み会】Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning

>100 Views

June 01, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025年度 第1回 論文読会 Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning 視覚的連続制御タスクにおける効率的、堅牢なモデルフリー強化学習アルゴリズムの提案 ICLR 2022 · Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto KaiRA社会人メンバー 柴田 たけお 0

2.

1 目次 ■ 概要(Abstract) ■ はじめに(Introduction) ■ 背景(Background) ■ DrQ-v2:アルゴリズム ■ 実験(Experiments) ■ 関連研究と結論 ■ 再現結果 ■ 読者所感 論文の実装は下記のレポジトリで公開されています コード:https://github.com/facebookresearch/drqv2 コード実験環境の構築に一部ソースの改修をした忘備録 環境設定: https://zenn.dev/takeofuture/articles/744ce398ce1b9f

3.

DrQ-v2 概要: 主要成果 モデルフリー手法の改善 前例のない性能達成 オフポリシーactor-criticアルゴリズムDrQを改良。 DeepMind Control Suiteの12タスク平均で最先端性能 ピクセルデータから直接学習する効率的手法を実現。 複雑なヒューマノイド歩行をピクセル入力のみで解決した初め DrQ にデータ拡張(ランダムシフト)を組み込み強化 ての手法 計算効率の飛躍的向 上 単一GPUで大半のタスクが約8時間(1M Step)で学習 改良点 シンプルな実装で計算コストを大幅に削減 学習更新頻度・バッチ管理の最適化。 エンコーダの過学習抑制。 フレームスループットの大幅向上(28→96 FPS)

4.

はじめに ●画像からの連続制御の難しさ ● DrQ-v2 の貢献 - 高次元ピクセル入力からのサンプル効率良い学習は - 長年の課題 - 近年はオートエンコーダ/VAE、対比学習、自己予測、 データ拡張などで進展 シンプルなオフポリシー actor–critic+データ拡張で ヒューマノイド歩行を初めて実現 - DeepMind Control Suite 12タスクで最大サンプル効率を達成 - 単一GPU 8時間でトレーニング (DreamerV2と同程度、4×高速) ☆ 既存モデルフリー手法の限界 ☆ 主要技術的改良点 - 四足歩行・ヒューマノイド動作といった - ベースを SAC→DDPG に変更(n-step リターン導入簡易化) 難タスクを解けない - ランダムシフトにバイリニア補間を追加 - 大規模分散GPUで長時間学習が必要 - 探索スケジュール導入 - 設計要素(データ拡張/バッファ容量等)の - リプレイバッファ容量拡大 効果が不明瞭 - 実装最適化でフレームスループット28→96FPS

5.

背景: 画像入力の連続制御強化学習の基礎 MDPとしての画像ベース制御 状態Xは直近3フレームのスタックで近似する。 目的は期待割引報酬Σγᵗ rₜの最大化。完全観測でないため画像スタックが必須。 DDPGアルゴリズム Actor-Critic構造で決定論的方策πφを学習。 CriticをTD誤差と2つのQで最適化。n-step収益で報酬伝搬を加速。 データ拡張の重要性 Random shift/cropで位置ずれに不変な表現を獲得。 DrQv2系列手法はシンプルな拡張とDDPGで、少量データでSoTA達成。 良質な画像表現(畳み込みエンコーダ)にシンプルな拡張とDDPGを組合せることで、高次元視覚入力でも効率的なモデルフ リー強化学習が実現できる。

6.

DrQ-v2:アルゴリズム概要(Actor-Clitic部分) ** DrQ-v2 の全学習過程は完全に オフポリシ( replay buffer)で実行 ** 観測前処理として ランダムシフト拡張+ CNN 埋込を経由、 ** 決定論的 Actor(DDPG) と 二重 Q+n-step TD Critic を同時最適化 ** 探索ノイズの分散を 線形スケジュール で減衰 ** ソフトターゲット更新 で安定性を確保

7.

実験環境の全体像

8.

実験: 実験の流れ モデルフリー :“何が” 遷移と報酬を用意し、 “何が” 学習するのか?

9.

実験: 総合ベンチマーク結果 ● 視覚入力だけで 二足・四足・ロボティック操作タスクを高効率に解決。 ● Dreamer-v2 とサンプル効率は拮抗 , しかし 計算効率で4倍速

10.

実験: 大規模アブレーション シンプルな改変 + 実装最適化だけで モデルフリーでも Humanoid Walk を 1 GPU-8h で達成

11.

関連研究と結論 視覚入力強化学習の系譜 DrQ-v2 は 「ランダムシフト拡張+ DDPG+n-step TD」だけのシンプルな構成で,従来のモデルフリー法が解けなかった Humanoid など DMC の 高難度タスクを 単一 GPU・約 8 時間 で突破した. 計算量・実装の軽さとサンプル効率の両立を示し,視覚強化学習における表現学習の最小限要素を再定義した点が最大の貢献である .

12.

再現結果 1: quadruped_walk NVIDIA RTX 4000 (VRAM 20GB) 24 CPU, 256 GB BATCH SIZEを256から128に落として実行 論文 難易度中のquadruped_walkのTASKではほぼ 論文の結果と同じような収束をしている

13.

再現結果 2: humanoid_run NVIDIA RTX 4000 (VRAM 20GB) 24 CPU, 256 GB BATCH SIZEを256から128に落として実行 論文 難易度高のhumanoid_runのTASKでは論文の 場合と違い収束に時間がかかった。 また論文が220~230くらいの報酬を得ていた のに対して、150くらいで収束している。

14.

読者所感 ❖ 論文が主張するように20GB程度のVRAMでも一応高難易度のHUMANOID系のタスクは実行できた ❖ DMC:MuJoCoで用意された決められた状態遷移、報酬をDRQv2に返すシンプルな設定 ❖ 仮想から実機に発展させるにはさらに工夫やチューニングが必要(Sim to Realの実践テクニック) ❖ それでもMuJOCoは高速・精度重視の汎用剛体動力学エンジンとしてロボット研究の標準ツールではある らしいのでまずはこれを利用して仮想空間で設計時に基礎的なテストをするのに有用? ❖ 現在のロボティクスの世界では効率性からモデルベースが多いようである。しかしいいシミュレータがある 場合はモデルフリー+転移(Sim 2 Real)やハイブリッドも増えてきているらしい ❖ まずは仮想空間でいい動きができることが必要(ベンチマークでの高評価と実際の人との観察のギャップ の解消は必要?報酬割り当てロジックの高性能化?)