【DL輪読会】Open-World Reinforcement Learning over Long Short-Term Imagination

1.2K Views

July 03, 25

#Reinforcement Learning #Model-Based RL #Open-World RL #Long-Term Imagination #Affordance Map

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Open-World Reinforcement Learning over Long Short-Term Imagination Ku Onoda, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • Open-World Reinforcement Learning over Long Short-Term Imagination – ICLR 2025 Oral • 著者 – Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin,Yang Li, Wenjun Zeng, XiaokangYang • リンク – プロジェクトページ https://qiwang067.github.io/ls-imagine 2

https://qiwang067.github.io/ls-imagine

概要 • LS-Imagineを提案 – 短期かつ長期の想像を統合した世界モデル • 短期的な報酬しか見ない従来のMBRLの弱点を克服 – Affordance map • 目標と関連する画像領域を強調し、探索先の判断とintrinsic rewardに活用 • オープンワールド環境のエージェントの探索効率の向上 3

背景 • オープンワールドにおける探索と意思決定 – 状態空間が広大 – エージェントの視野が限られている – スパース報酬 – 観測が高次元画像のみで、環境の内部構造は不明 • 視覚観測のみでタスクを解きたい – モデルフリー手法 • 試行錯誤のコストが高い→探索・サンプル効率が悪い – モデルベース手法 • 15ステップ程度の短期的な経験で方策を改善するため近視眼的 4

関連研究 • 視覚モデルベース強化学習（長期的なダイナミクスのモデリング） – Lee et al. 2024 • 長期・スパース報酬タスクに対応するため、時間的に平滑化された報酬の予測を提案 – Samsami et al., 2024 (R2I) • 長期的な記憶と長期的なクレジット割り当ての改善を図る • 階層的行動戦略・世界モデル – Hafner et al., 2022 (Director) • 高レベルのポリシーが潜在的なゴールを生成し、低レベルのポリシーをガイド – Hamed et al., 2024 (Dr. Strategy) • 潜在ランドマークを使った戦略的夢想 – Gumbsch et al., 2024 • 高低レベルの予測を切り替える適応型階層世界モデル 5

本論文の貢献 • Instantな状態遷移とJumpyな状態遷移の両方を捉えるMBRLアルゴリズムを提案 →オープンワールドにおける探索効率を向上させた ① long-short world model architecture ② 画像のズームイン操作を通じたaffordance mapの生成 ③ affordance mapに基づくintrinsic reward ④ 長期価値を利用した、想像経路上で動作する行動学習手法 6

問題設定 • 問題設定 – POMDP（部分観測マルコフ決定過程） • 高次元画像観測：𝑂𝑡 • スパース報酬：𝑟 𝑒𝑛𝑣 • 制御信号：𝑎𝑡 • Notation 7

手法：概要 • LS-Imagine Step 1. アフォーダンスマップ生成 Step 2. 高速なマップ生成モデル学習 Step 3. 世界モデル学習 Step 4. 行動学習 Step 5. データ収集と更新 Step 6. Step 3~5を繰り返し 8

手法：Affordance map • Affordance Map作成 ① 1. 環境とのインタラクションランダムエージェントで観測画像𝑜𝑡 を収集 2. 仮想探索のシミュレーション 15%サイズ*9*9で画像を切り出し、各領域ごとにズームインするような画像列𝑋𝑡 を生成 3. MineCLIPによる相関スコア計算各画像列とタスク文𝐼の関連どをスコアとして出力 4. アフォーダンスマップ生成プクセル単位のマップ𝑀𝑜𝑡,𝐼 を作成 9

10.

手法：Affordance map • Affordance Map作成 ② – Step1のアフォーダンスマップを教師データとして、学習 • モデル構成 – 視覚処理：Swin-Unet – 言語処理：タスク指示をMineCLIPでエンコード – 出力：ピクセル単位のアフォーダンスマップ • 推論時にリアルタイムに動作可能 10

11.

手法： reward • Intrinsic reward – affordance mapに基づく内的報酬（視野の中心に目標をとらえるため） – 未来の探索のための報酬は中央を高く重み付けする2次元ガウス分布 → 目標らしき領域を中央に捉えるほど報酬が高い • MineCLIP reward – 解きたいタスクと画像の近さから報酬を与える – 過去の行動に対する報酬 • 最終的な報酬 11

12.

手法：Jumping Flag • Jumping Flag 𝑗𝑡 – 遠くに重要なターゲットが見えたら、ジャンプ的に未来を想像したい – Affordance mapを用いてターゲットの存在を測る • 相対尖度 𝐾𝑟 , 絶対尖度 𝐾𝛼 を導入 • ジャンプ確率 – ジャンプ確率が閾値を越えれば 𝑗𝑡 = 𝑇𝑟𝑢𝑒 12

13.

手法：世界モデルの学習 • Short-term branch：通常の1ステップずつ遷移 • Long-term branch：ジャンプ的に目標へ向かう状態遷移ジャンプ距離と累積報酬の予測損失を追加 13

14.

手法： Behavior Learning • Actor-Criticによる方策学習 – 想像上の状態系列から、各ステップでジャンプフラグ𝑗𝑡 に基づいて短期/長期モデルを選択・𝜆-return 短期：長期：区間累積報酬（報酬予測器より）・Criticの損失関数・Actorの損失関数 14

15.

実験設定 • MineDoJoベンチマーク – harvest log in plains – harvest water with bucket – harvest sand – shear sheep – mine iron ore • 比較手法 15

16.

実験 • 他手法に比べて高い性能 16

17.

実験 • 必要なステップ数も少ない 17

18.

実験 • 長期的な想像の寄与 – 潜在変数からの再構成とaffordance mapの可視化 – 目標達成に関連性の高い領域に焦点を当てている 18

19.

実験 • 対象が視覚に入っていない場合 – 対象が視野になくともいく価値のある場所を提示する – ただし、MineCLIPが見たことのない環境では精度が落ちる可能性 19

20.

実験 • 長期的なタスク – Tech Tree（ピッケルを一から作る）タスク – タスク分解、プランニングは外部の手法に任せ、各サブタスクをLS-Imagine で実行 • 結果 – DreamerV3を上回った 20

21.

Ablation study • w/o 長期的想像 – 性能が劣化 →ジャンプ的な想像が重要 • w/o アフォーダンスに基づく内在報酬 – 学習の初期で性能が劣化 →初期の探索に効いている 21

22.

実験 • 設計の違いと性能差 – Series（直列型）：1つのシーケンス内で組み合わせる – Parallel（並列型）：ジャンプしたら新しいシーケンスをスタート – Seriesの方が性能が良い • （Parallelではジャンプ前の行動がジャンプ後にガイドされない） 22

23.

議論 • 制約された環境のみで有効 – 3Dナビゲーション、エージェントが移動しながら対象物に近づくタスク、ズームイン可能な視点がある（中心に捉えることが意味を持つ） – 視野固定環境、2D環境、複雑な報酬設計（運転など）複雑な意思決定が必要なものには適用不可 →手法の汎化が必要 • MineCLIPの性能に依存 – データにない環境に対しては性能劣化 → MineCLIPのファインチューニング → ターゲットが見えない時に、探索用プロンプトを導入予定 23

24.

まとめ • 提案手法：LS-Imagine – 短期と長期の状態遷移を切り替える「長短期世界モデル」 – 遠くの目標が見えたらジャンプ的に将来を想像（長期遷移） – アフォーダンスマップを生成 • 結果 – DreamerV3などの手法に対し、成功率・効率ともに向上 24