【論文読み会】Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning

236 Views

June 01, 25

#強化学習 #モデルフリー #視覚的連続制御 #データ拡張 #DrQ-v2

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22.9K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 21K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 18.3K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 12.1K

各ページのテキスト

2025年度第1回論文読会 Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning 視覚的連続制御タスクにおける効率的、堅牢なモデルフリー強化学習アルゴリズムの提案 ICLR 2022 · Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto KaiRA社会人メンバー柴田たけお 0

1 目次 ■ 概要(Abstract) ■ はじめに(Introduction) ■ 背景(Background) ■ DrQ-v2：アルゴリズム ■ 実験(Experiments) ■ 関連研究と結論 ■ 再現結果 ■ 読者所感論文の実装は下記のレポジトリで公開されていますコード：https://github.com/facebookresearch/drqv2 コード実験環境の構築に一部ソースの改修をした忘備録環境設定: https://zenn.dev/takeofuture/articles/744ce398ce1b9f

DrQ-v2 概要: 主要成果モデルフリー手法の改善前例のない性能達成オフポリシーactor-criticアルゴリズムDrQを改良。 DeepMind Control Suiteの12タスク平均で最先端性能ピクセルデータから直接学習する効率的手法を実現。複雑なヒューマノイド歩行をピクセル入力のみで解決した初め DrQ にデータ拡張（ランダムシフト）を組み込み強化ての手法計算効率の飛躍的向上単一GPUで大半のタスクが約8時間(1M Step)で学習改良点シンプルな実装で計算コストを大幅に削減学習更新頻度・バッチ管理の最適化。エンコーダの過学習抑制。フレームスループットの大幅向上（28→96 FPS)

はじめに ●画像からの連続制御の難しさ ● DrQ-v2 の貢献 - 高次元ピクセル入力からのサンプル効率良い学習は - 長年の課題 - 近年はオートエンコーダ／VAE、対比学習、自己予測、データ拡張などで進展シンプルなオフポリシー actor–critic＋データ拡張でヒューマノイド歩行を初めて実現 - DeepMind Control Suite 12タスクで最大サンプル効率を達成 - 単一GPU 8時間でトレーニング（DreamerV2と同程度、4×高速） ☆ 既存モデルフリー手法の限界 ☆ 主要技術的改良点 - 四足歩行・ヒューマノイド動作といった - ベースを SAC→DDPG に変更（n-step リターン導入簡易化）難タスクを解けない - ランダムシフトにバイリニア補間を追加 - 大規模分散GPUで長時間学習が必要 - 探索スケジュール導入 - 設計要素（データ拡張／バッファ容量等）の - リプレイバッファ容量拡大効果が不明瞭 - 実装最適化でフレームスループット28→96FPS

背景: 画像入力の連続制御強化学習の基礎 MDPとしての画像ベース制御状態Xは直近3フレームのスタックで近似する。目的は期待割引報酬Σγᵗ rₜの最大化。完全観測でないため画像スタックが必須。 DDPGアルゴリズム Actor-Critic構造で決定論的方策πφを学習。 CriticをTD誤差と2つのQで最適化。n-step収益で報酬伝搬を加速。データ拡張の重要性 Random shift/cropで位置ずれに不変な表現を獲得。 DrQv2系列手法はシンプルな拡張とDDPGで、少量データでSoTA達成。良質な画像表現（畳み込みエンコーダ）にシンプルな拡張とDDPGを組合せることで、高次元視覚入力でも効率的なモデルフリー強化学習が実現できる。

DrQ-v2：アルゴリズム概要(Actor-Clitic部分) ** DrQ-v2 の全学習過程は完全にオフポリシ（ replay buffer）で実行 ** 観測前処理としてランダムシフト拡張＋ CNN 埋込を経由、 ** 決定論的 Actor（DDPG）と二重 Q＋n-step TD Critic を同時最適化 ** 探索ノイズの分散を線形スケジュールで減衰 ** ソフトターゲット更新で安定性を確保

実験環境の全体像

実験: 実験の流れモデルフリー :“何が” 遷移と報酬を用意し、 “何が” 学習するのか？

実験: 総合ベンチマーク結果 ● 視覚入力だけで二足・四足・ロボティック操作タスクを高効率に解決。 ● Dreamer-v2 とサンプル効率は拮抗 , しかし計算効率で４倍速

10.

実験: 大規模アブレーションシンプルな改変 + 実装最適化だけでモデルフリーでも Humanoid Walk を 1 GPU-8h で達成

11.

関連研究と結論視覚入力強化学習の系譜 DrQ-v2 は「ランダムシフト拡張＋ DDPG＋n-step TD」だけのシンプルな構成で，従来のモデルフリー法が解けなかった Humanoid など DMC の高難度タスクを単一 GPU・約 8 時間で突破した．計算量・実装の軽さとサンプル効率の両立を示し，視覚強化学習における表現学習の最小限要素を再定義した点が最大の貢献である．

12.

再現結果 1: quadruped_walk NVIDIA RTX 4000 (VRAM 20GB) 24 CPU, 256 GB BATCH SIZEを256から128に落として実行論文難易度中のquadruped_walkのTASKではほぼ論文の結果と同じような収束をしている

13.

再現結果 2: humanoid_run NVIDIA RTX 4000 (VRAM 20GB) 24 CPU, 256 GB BATCH SIZEを256から128に落として実行論文難易度高のhumanoid_runのTASKでは論文の場合と違い収束に時間がかかった。また論文が220~230くらいの報酬を得ていたのに対して、150くらいで収束している。

14.

読者所感 ❖ 論文が主張するように20GB程度のVRAMでも一応高難易度のHUMANOID系のタスクは実行できた ❖ DMC:MuJoCoで用意された決められた状態遷移、報酬をDRQv2に返すシンプルな設定 ❖ 仮想から実機に発展させるにはさらに工夫やチューニングが必要(Sim to Realの実践テクニック) ❖ それでもMuJOCoは高速・精度重視の汎用剛体動力学エンジンとしてロボット研究の標準ツールではあるらしいのでまずはこれを利用して仮想空間で設計時に基礎的なテストをするのに有用？ ❖ 現在のロボティクスの世界では効率性からモデルベースが多いようである。しかしいいシミュレータがある場合はモデルフリー+転移(Sim 2 Real)やハイブリッドも増えてきているらしい ❖ まずは仮想空間でいい動きができることが必要（ベンチマークでの高評価と実際の人との観察のギャップの解消は必要？報酬割り当てロジックの高性能化？）