【DL輪読会】Learning Hierarchical World Models with Adaptive Temporal Abstractions from Discrete Latent Dynamics

18.4K Views

July 05, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.6K

各ページのテキスト

Learning Hierarchical World Models with Adaptive Temporal Abstractions from Discrete Latent Dynamics Tomoshi Iiyama, Matsuo Lab

1 書誌情報 Learning Hierarchical World Models with Adaptive Temporal Abstractions from Discrete Latent Dynamics 離散潜在ダイナミクスからの適応的な時間的抽象化による階層世界モデルの学習 Christian Gumbsch, Noor Sajid, Georg Martius, Martin V. Butz Tübingen大学 (ドイツ) , UCL イギリス) ICLR 2024 Spotlight https://openreview.net/forum?id=TjCDNssXKU ( 2

https://openreview.net/forum?id=TjCDNssXKU

Learning Hierarchical World Models with Adaptive Temporal Abstractions from Discrete Latent Dynamics 概要階層的な世界モデル THICK を提案（低レベル＆レベルの2層）低レベルは正確で細かい予測を維持しつつレベルは時間的に抽象化された解釈可能な表現を学習階層的な予測をモデルベース強化学習などのプランニングに利 → 従来の世界モデル（1層）と較して性能が向上した用高 3 比高 1 書誌情報

2 背景世界モデル World Model) 間の脳に形成されているといわれている内部モデルにヒントを得た、環境の遷移を予測する David Haの “World Models” Ha+ 18 が付け役となり、研究が進められている状態表現状態表現遷移の予測推論モデル現在時刻次時刻状態表現状態表現成動観測 4 生火 ] [ ( 小行人生成モデル

2 背景世界モデルとプランニング良い状態表現の獲得外界の情報を分に集約した低次元の特徴量を、学習によって獲得可能 → 強化学習の状態表現を間が決める必要がなくなる将来予測による意思決定現実世界で実際に動しなくても、反実仮想を → 遠くの未来まで先読みしてから、成可能番良さそうな動をとるサンプル効率の向上現実世界で実際に動しなくても、反実仮想を → 想像したデータを使って強化学習の成可能策を訓練する（イメトレ）行生生方一人行行十 5

世界モデルの課題間はさまざまな時間スケールを柔軟に切り替えることが可能パーティーを主催する招待状を書くペンを持ち上げる筋指令を送る脳内には感覚運動経験を通じて複雑な階層的表現が形成されている既存の世界モデルは、事前に固定されたタイムケールでの予測しかできない → 期 (long-horizon) タスクにおけるプランニング能 → 階層構造の要素を取りに限界があるれたい力入長 6 肉人 2 背景

時間的抽象化 Temporal Abstraction) 時間向に抽象化されたレベルの表現の獲得法はまだ確されていないレベル低レベル時間事前固定の階層的な時間スケールに縛られていけないということが重要どのように適切な時間スケールを発し、抽象化するべきなのか？立方見高 ( 7 方高 2 背景

3 法提案 C RSSM THICK RSSM を改良した低レベルの世界モデル階層世界モデルレベルが低レベル（C RSSM）時系列データの中からスパースに変化する潜在因（context）を学習の変化を予測適応的な時間スケールで動作プランニング THICKの予測をどうプランニングにいるか Dreamer および PlaNet と組み合わせる 8 - 用 × 子子 - 手高の潜在因 THICK

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSMの潜在状態の値は、時間とともに連続的に変化する時間階層世界モデルの確定定まばらに変化する定時間立 ( - 手一一一には、時間的にスパースに変化するような潜在状態 ”context” が必要 9

10.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM min KL min KL ( - 手 10

11.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM ( - 手 11

12.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM ( - 手 12

13.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM ( - 手 13

14.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM ( - 手 14

15.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM min KL ( - 手 15

16.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM min KL ( - 手 16

17.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM min KL ( - 手 17

18.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM min KL ( - 手 18

19.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM min KL min KL ( - 手 19

20.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM 潜在状態決定論的状態確率的状態 Prior 確率的状態 Posterior 遷移 ( - 手 20

21.

法 3 C RSSM Context-specific Recurrent State Space Model) 潜在状態コンテキスト確率的状態細かいPrior 決定論的状態確率的状態粗いPrior 遷移細かいダイナミクス Posterior 粗いダイナミクス ( - 手 21

22.

法 3 C RSSM Context-specific Recurrent State Space Model) min KL min KL ( - 手 22

23.

法 3 C RSSM Context-specific Recurrent State Space Model) ( - 手 23

24.

法 3 C RSSM Context-specific Recurrent State Space Model) ( - 手 24

25.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM 確率的状態について、2つの予測をう決定的状態から求める正確で細かい prior コンテクストから求める粗い prior （をいない）行 ( 用 - 手 25

26.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM 確率的状態について、2つの予測をう決定的状態から求める正確で細かい prior コンテクストから求める粗い prior （をいない）行 ( 用 - 手 26

27.

法 3 C RSSM Context-specific Recurrent State Space Model) 従来のRSSM 確率的状態について、2つの予測をう決定的状態から求める正確で細かい prior コンテクストから求める粗い prior （をいない） min KL 行 ( 用 - 手 27

28.

法 3 C RSSM Context-specific Recurrent State Space Model) min KL min KL ( - 手 28

29.

法 3 C RSSM Context-specific Recurrent State Space Model) 観測変数画像報酬割引率予測ヘッドも2種類細かい予測粗い予測 29 用 ( - 力手入意する

30.

法 3 C RSSM Context-specific Recurrent State Space Model) 粗いダイナミクス粗いPrior 粗い予測これらの予測経路は連続的に変化する → を使わずにから独しているのみによるroll-out（将来予測）が可能となる立 ( - 手 30

31.

法 3 GateL0RD Gumbsch+ 21 RNNの潜在状態を NeurIPS 同著者定にしたい → 変化量ができるだけ少なくなるように学習させたい L -ノルムによる正則化によってこれを実現新しいコンテキストの提案値コンテキストを更新するゲートコンテキストの更新式 ] 一一 [ 1 2 0 2 0 手 31

32.

法 3 GateL0RD Gumbsch+ 21 NeurIPS 同著者コンテキストの各要素の変化量を抑えたい変化量のL -ノルム（ゼロ成分の数）をペナルティとするそのままだと微分できない状態が変化する＝更新ゲートが開いている → 開いている更新ゲートの個数をペナルティとすればよい : Heavisideステップ関数 ] 非一 [ 1 2 0 0 2 手少しでも開いているゲートの個数を数え上げる 32

33.

法 3 C RSSM の学習予測＆再構成 KLダイバージェンスコンテキストのL -正則化 0 - 手 33

34.

法 3 THICK Temporal Hierarchies from Invariant Context Kernels) 低レベルの世界モデル（C-RSSM）をもとにレベルの世界モデルを構築したい低レベルを抽象化分割する低レベルレベルのタイムスケールはどう決定するべきか？ → C-RSSMの離散的（スパース）に変化する context レベルの適応的なタイムスケールとしてのダイナミクスをいる核となっている仮定コンテキストの更新は、潜在因の重要な変化と致している（特徴量の劇的な変化＝系列の適切な分割点とみなす） 34 一用子・ ( 高手高高高レベル

35.

3 法 THICK Temporal Hierarchies from Invariant Context Kernels) コンテキストが変化する位置が、意味のある系列の区切りであるこの重要な状態（変化点）をレベル予測予測低レベル時間高 ( 手高レベルの世界モデルが予測する 35

36.

3 法 THICK Temporal Hierarchies from Invariant Context Kernels) コンテキストが変化する位置が、意味のある系列の区切りであるこの重要な状態（変化点）をレベル予測予測低レベル 36 高 ( 手高レベルの世界モデルが予測する

37.

3 法 THICK Temporal Hierarchies from Invariant Context Kernels) 次にコンテキストが変化する（任意の）タイムステップを表す関数を定義を次のコンテキスト変化点の時刻へマッピング現在より後の時刻 1 かつコンテクストの更新が起こる 2 3 4 5 6 7 8 9 低レベル ( 手 37

38.

3 THICK Temporal Hierarchies from Invariant Context Kernels) レベルは低レベルのcontext の変化を引き起こすための変数（1ステップ前）を予測確率的状態動 38 ( 手行高法

39.

3 THICK Temporal Hierarchies from Invariant Context Kernels) レベルは低レベルのcontext の変化を引き起こすための変数（1ステップ前）を予測確率的状態動 39 ( 手行高法

40.

法 3 THICK Temporal Hierarchies from Invariant Context Kernels) レベルは低レベルのcontext プランニングにいるために以下の2つも予測する経過時間報酬和 40 用 ( 手高の変化を引き起こすための変数（1ステップ前）を予測

41.

法 3 THICK Temporal Hierarchies from Invariant Context Kernels) レベルの予測時の環境＆エージェントが従う異なる結果がじる 41 方力入生 ( 手高策に依存して

42.

3 法 THICK Temporal Hierarchies from Invariant Context Kernels) レベルの予測時の Skillやoptionのような動”を考える 42 行高力入 ( 手高レベルの”

43.

3 法 THICK Temporal Hierarchies from Invariant Context Kernels) Prior One-hot のカテゴリカル分布 Posterior Posteriorではゴール条件付けのエンコーディングをう Action State 行 ( 手 43

44.

3 THICK の学習低レベルに対する予測レベルの動 44 行手高法

45.

4 実験 THICKは時間的抽象化を学習できるのか？ → 学習されたレベルのモデルは、様々なシナリオで意味のある解釈可能な抽象化ができていた THICKの階層的な予測でモデルベース強化学習 (MBRL) の性能は改善するか？ → 通常のDreamerよりも long-horizonタスクにおいてい性能を出した THICKの階層的な予測でモデル予測制御 (MPC) の性能は改善するか？ → フラットな世界モデルをいるよりも long-horizonタスクにおいてい性能を出した高高用高 45

46.

4 実験タスク 46

47.

コンテキストの変化コンテキストの更新がシーンの変化点と致している鍵をみつけてドアを開ける時（KeyRoom）、ドアノブを握る時（Door）などレベルはcontextの変化の1ステップ前を予測している（抽象化されているのでぼやける）部屋の正確なレイアウトを与えられなくても、「部屋を出る」という抽象的な動を予測している行 47 一高 4 実験

48.

4 実験コンテキストの変化 48

49.

4 実験コンテキストの変化 49

50.

レベルの 2つの異なる動レベルの動をとった時の予測ボールを掴む、ボールを押す、パッドを踏むといった違う相互作がエンコードされていることがわかる用行行 50 高高 4 実験

51.

4 実験モデルベースRL 51

52.

4 実験モデルベースRL 52

53.

4 実験 MPC 53

54.

階層世界モデルの構築のためにC-RSSMとTHICKを提案抽象的なコンテキストの遷移と正確な低レベルのダイナミクスの両 → 階層的な予測により予測がフラット＆策が階層的（Director）よりも THICKはプランニングがうまくいく法の提案ではないそもそもDreamer等が解けないタスクは、THICKを論内では2層のを予測可能期的タスクの学習を改善できる策がフラット＆予測が階層的（THICK）のいても解けない法を提案したが、N層のレベルに再帰的に拡張することも可能とのこと方用方長手方手 54 文方 5 まとめ