【DL輪読会】Open-World Reinforcement Learning over Long Short-Term Imagination

-- Views

July 03, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Open-World Reinforcement Learning over Long Short-Term Imagination Ku Onoda, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • Open-World Reinforcement Learning over Long Short-Term Imagination – ICLR 2025 Oral • 著者 – Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin,Yang Li, Wenjun Zeng, XiaokangYang • リンク – プロジェクトページ https://qiwang067.github.io/ls-imagine 2

3.

概要 • LS-Imagineを提案 – 短期かつ長期の想像を統合した世界モデル • 短期的な報酬しか見ない従来のMBRLの弱点を克服 – Affordance map • 目標と関連する画像領域を強調し、探索先の判断とintrinsic rewardに活用 • オープンワールド環境のエージェントの探索効率の向上 3

4.

背景 • オープンワールドにおける探索と意思決定 – 状態空間が広大 – エージェントの視野が限られている – スパース報酬 – 観測が高次元画像のみで、環境の内部構造は不明 • 視覚観測のみでタスクを解きたい – モデルフリー手法 • 試行錯誤のコストが高い→探索・サンプル効率が悪い – モデルベース手法 • 15ステップ程度の短期的な経験で方策を改善するため近視眼的 4

5.

関連研究 • 視覚モデルベース強化学習(長期的なダイナミクスのモデリング) – Lee et al. 2024 • 長期・スパース報酬タスクに対応するため、時間的に平滑化された報酬の予測を提案 – Samsami et al., 2024 (R2I) • 長期的な記憶と長期的なクレジット割り当ての改善を図る • 階層的行動戦略・世界モデル – Hafner et al., 2022 (Director) • 高レベルのポリシーが潜在的なゴールを生成し、低レベルのポリシーをガイド – Hamed et al., 2024 (Dr. Strategy) • 潜在ランドマークを使った戦略的夢想 – Gumbsch et al., 2024 • 高低レベルの予測を切り替える適応型階層世界モデル 5

6.

本論文の貢献 • Instantな状態遷移とJumpyな状態遷移の両方を捉えるMBRLアルゴリ ズムを提案 →オープンワールドにおける探索効率を向上させた ① long-short world model architecture ② 画像のズームイン操作を通じたaffordance mapの生成 ③ affordance mapに基づくintrinsic reward ④ 長期価値を利用した、想像経路上で動作する行動学習手法 6

7.

問題設定 • 問題設定 – POMDP(部分観測マルコフ決定過程) • 高次元画像観測:𝑂𝑡 • スパース報酬:𝑟 𝑒𝑛𝑣 • 制御信号:𝑎𝑡 • Notation 7

8.

手法:概要 • LS-Imagine Step 1. アフォーダンスマップ生成 Step 2. 高速なマップ生成モデル学習 Step 3. 世界モデル学習 Step 4. 行動学習 Step 5. データ収集と更新 Step 6. Step 3~5を繰り返し 8

9.

手法:Affordance map • Affordance Map作成 ① 1. 環境とのインタラクション ランダムエージェントで観測画像𝑜𝑡 を収集 2. 仮想探索のシミュレーション 15%サイズ*9*9で画像を切り出し、各領域ごとに ズームインするような画像列𝑋𝑡 を生成 3. MineCLIPによる相関スコア計算 各画像列とタスク文𝐼の関連どをスコアとして出力 4. アフォーダンスマップ生成 プクセル単位のマップ𝑀𝑜𝑡,𝐼 を作成 9

10.

手法:Affordance map • Affordance Map作成 ② – Step1のアフォーダンスマップを教師データとして、学習 • モデル構成 – 視覚処理:Swin-Unet – 言語処理:タスク指示をMineCLIPでエンコード – 出力:ピクセル単位のアフォーダンスマップ • 推論時にリアルタイムに動作可能 10

11.

手法: reward • Intrinsic reward – affordance mapに基づく内的報酬(視野の中心に目標をとらえるため) – 未来の探索のための報酬 は中央を高く重み付けする2次元ガウス分布 → 目標らしき領域を中央に捉えるほど報酬が高い • MineCLIP reward – 解きたいタスクと画像の近さから報酬を与える – 過去の行動に対する報酬 • 最終的な報酬 11

12.

手法:Jumping Flag • Jumping Flag 𝑗𝑡 – 遠くに重要なターゲットが見えたら、ジャンプ的に未来を想像したい – Affordance mapを用いてターゲットの存在を測る • 相対尖度 𝐾𝑟 , 絶対尖度 𝐾𝛼 を導入 • ジャンプ確率 – ジャンプ確率が閾値を越えれば 𝑗𝑡 = 𝑇𝑟𝑢𝑒 12

13.

手法: 世界モデルの学習 • Short-term branch:通常の1ステップずつ遷移 • Long-term branch:ジャンプ的に目標へ向かう状態遷移 ジャンプ距離と累積報酬の予測損失を追加 13

14.

手法: Behavior Learning • Actor-Criticによる方策学習 – 想像上の状態系列から、各ステップでジャンプフラグ𝑗𝑡 に基づいて短期/長期モデルを選択 ・𝜆-return 短期: 長期:区間累積報酬(報酬予測器より) ・Criticの損失関数 ・Actorの損失関数 14

15.

実験設定 • MineDoJoベンチマーク – harvest log in plains – harvest water with bucket – harvest sand – shear sheep – mine iron ore • 比較手法 15

16.

実験 • 他手法に比べて高い性能 16

17.

実験 • 必要なステップ数も少ない 17

18.

実験 • 長期的な想像の寄与 – 潜在変数からの再構成とaffordance mapの可視化 – 目標達成に関連性の高い領域に焦点を当てている 18

19.

実験 • 対象が視覚に入っていない場合 – 対象が視野になくともいく価値のある場所を提示する – ただし、MineCLIPが見たことのない環境では精度が落ちる可能性 19

20.

実験 • 長期的なタスク – Tech Tree(ピッケルを一から作る)タスク – タスク分解、プランニングは外部の手法に任せ、各サブタスクをLS-Imagine で実行 • 結果 – DreamerV3を上回った 20

21.

Ablation study • w/o 長期的想像 – 性能が劣化 →ジャンプ的な想像が重要 • w/o アフォーダンスに基づく内在報酬 – 学習の初期で性能が劣化 →初期の探索に効いている 21

22.

実験 • 設計の違いと性能差 – Series(直列型):1つのシーケンス内で組み合わせる – Parallel(並列型):ジャンプしたら新しいシーケンスをスタート – Seriesの方が性能が良い • (Parallelではジャンプ前の行動がジャンプ後にガイドされない) 22

23.

議論 • 制約された環境のみで有効 – 3Dナビゲーション、エージェントが移動しながら対象物に近づくタスク、 ズームイン可能な視点がある(中心に捉えることが意味を持つ) – 視野固定環境、2D環境、複雑な報酬設計(運転など)複雑な意思決定が必要 なものには適用不可 →手法の汎化が必要 • MineCLIPの性能に依存 – データにない環境に対しては性能劣化 → MineCLIPのファインチューニング → ターゲットが見えない時に、探索用プロンプトを導入予定 23

24.

まとめ • 提案手法:LS-Imagine – 短期と長期の状態遷移を切り替える「長短期世界モデル」 – 遠くの目標が見えたらジャンプ的に将来を想像(長期遷移) – アフォーダンスマップを生成 • 結果 – DreamerV3などの手法に対し、成功率・効率ともに向上 24