158 Views
February 05, 19
スライド概要
2018/11/30
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Temporal Difference Variational Auto-Encoder Presenter: Masahiro Suzuki, Matsuo Lab 2018/11/30(発表後一部修正) http://deeplearning.jp/ 1
輪読内容について • Temporal Difference Variational Auto-Encoder – Karol Gregor, Frederic Besse • GregorさんはDRAWを提案した人 • ICLRに採録(オーラル,スコアが8,9,7) • TD-VAEを提案した論文 – 系列情報を扱う深層生成モデル – ある任意ステップまで「飛び越えて」推論ができる点がすごい -> 汎用AIの大きな課題の一つである「時系列の抽象化」に挑んだ研究 • 本論文についての私見 – 強化学習(特にPOMDP)との関係を意識しており,世界モデル研究の1つと位置づけられる. • どうでもいいけど最近「世界モデル」がバズワード化しないか勝手に心配している. – 非常に素直なモデルだが,ぱっと見分かりづらい. • ICLR版でだいぶ改善されている. • 謝罪 – 関連研究についてあまり調べられませんでした. – 完全版はまた別の勉強会(強化学習アーキテクチャとか)で話すかもしれない. 2
論文に載ってるTD-VAEの概要図 ちょっとよくわからない・・・ 3
背景 4
研究背景 • 系列の生成モデルは様々な領域で応用されている. – 音声合成(WaveNet,PixelRNN) – 翻訳(NMT) – 画像キャプショニング • 本研究では部分観測環境の強化学習の問題を考える – エージェントはこれまで収集した情報から計算した,世界の不確実性を表現する必要がある. – モデルベースで考えると,エージェントは過去と一貫性のある遠い未来を想像しなければなら ない. • ステップごとにプランニングするのは認知学的にも計算量的にも現実的ではない. -> これらを一気に解決できるような世界モデルを考えたい 5
部分観測環境における世界モデルに求められること • 著者らは次の3つの性質を同時に持つことが必要であるとしている. 1. データから抽象的な状態表現を学習して,状態表現を利用した予測を行える必要がある. 2. ある時間までの全ての観測データが与えられた下での,状態のフィルタリング分布の決定論的かつコード 化された表現(信念状態)を学習しなければならない. • この信念状態にはエージェントが世界について知っている全ての情報が含まれている. • つまり,最適化するための行動に関する情報も含まれている. 3. 時間方向について抽象化している必要がある. • ステップを飛び越えて(jumpy)未来を予測することができる. • 時間的に離れたデータから(その間のステップを誤差逆伝播せずに)学習できる必要がある. • 既存研究ではこれらをすべて満たす研究は存在しない. -> Temporal Difference Variational Auto-Encoder (TD-VAE)を提案 6
既存の系列モデル 7
系列情報の扱い方:自己回帰モデル 系列データ(𝑥1 , … , 𝑥 𝑇 )をモデル化する方法としては,自己回帰モデルと状態空間モデ ルが知られている. • 自己回帰モデル – 尤度を条件付き分布の積で表す. log 𝑝(𝑥1 , … , 𝑥 𝑇 ) = log 𝑝(𝑥𝑡 |𝑥1, … , 𝑥𝑡−1 ) 𝑡 – RNNをつかって,これまでのデータを内部状態ℎにまとめることで簡単に計算できる. ℎ𝑡 = 𝑓(ℎ𝑡−1, 𝑥𝑡 ) • 欠点: – 元の観測空間でしか学習しない(圧縮した表現を学習しない). – 計算コストがかかる(各ステップでデコードとエンコードを繰り返す必要性). – 不安定(実データを入れるRNNには,テスト時に前の予測が入ってくる). 8
系列情報の扱い方:状態空間モデル • 状態空間モデル – 状態系列𝐳 = (𝑧1 , … , 𝑧𝑇 )および観測系列𝐱 = (𝑥1 , … , 𝑥𝑇 )が与えられたときに, 𝑧𝑡−1 𝑧𝑡 𝑥𝑡−1 𝑥𝑡 同時分布:𝑝(𝐱, 𝐳) = ς𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑝(𝑥𝑡 |𝑧𝑡 ) 推論分布:𝑞(𝐳|𝐱) = ς𝑡 𝑞 𝑧𝑡 𝑧𝑡−1 , 𝜙𝑡 (𝐱) (自己回帰) とすると,ELBO(変分下界)は次のようになる. log 𝑝(𝐱) ≥ 𝐸𝑧~𝑞 𝑧|𝑥 log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝 𝑧𝑡 𝑧𝑡−1 − log 𝑞 𝑧𝑡 𝑧𝑡−1 , 𝜙𝑡 (𝐱) 𝑡 • 特徴: – 入力𝑥を確率的な状態(潜在変数)𝑧に圧縮する. • ちなみに,この辺りの研究ではxとzを逆にしたりするらしい. – 状態空間内での遷移が可能(自己回帰モデルのように毎回エンコードとデコードをする必要が ない) 9
TD-VAE 10
状態空間モデルにおける未来の入力の予測 • 時系列モデルでは,過去の入力が与えられた下での未来の入力を予測したい. – つまり条件付き分布𝑝(𝑥𝑡+1 , … , 𝑥𝑇 |𝑥1 , … , 𝑥𝑡 ) の推論 • 状態空間モデルでは,推論分布を使って入力𝐱から𝑧を推論してから未来の入力を 生成する – 𝑧への推論は自己回帰的な事後分布𝑞 𝐳 𝐱 = ς𝑡 𝑞(𝑧𝑡 |𝑧𝑡−1 , 𝐱)で計算していた. – しかし,入力𝐱における状態𝑧𝑡 を得るためには,𝑧𝑡−1の再サンプリングが必要であり,𝑧𝑡−1につ いても・・・と考えると,𝑧1 から全て再サンプリングしなければならない. 𝑧𝑡−1 𝑧𝑡 𝑥𝑡−1 𝑥𝑡 11
フィルタリング分布と信念状態 • そこで,新たにフィルタリング分布 𝑝(𝑧𝑡 |𝑥1 , … , 𝑥𝑡 ) を導入する. – 𝑧𝑡 の推論は現在までの入力(𝑥1 , … , 𝑥𝑡 )のみに依存する(未来の𝑥や他の時点の𝑧には依存しない). – 強化学習(POMDP)における信念状態といわれるものに相当. • フィルタリング分布を使うと,未来の入力の予測分布は次のように導出できる. 𝑝 𝑥𝑡+1 , … , 𝑥 𝑇 𝑥1 , … , 𝑥𝑡 = 𝑡𝑥 𝑝 +1 , … , 𝑥𝑇 𝑧𝑡 𝑝 𝑧𝑡 𝑥1 , . . , 𝑥𝑡 𝑑𝑧𝑡 𝑧𝑡−1 𝑧𝑡 𝑥𝑡−1 𝑥𝑡 𝑝 𝑧𝑡 𝑥1, . . , 𝑥𝑡 • 信念状態とPOMDP – POMDPにおける最適方策との関わりでこれまでも知られていたが,学習した深層モデルにおける信 念状態を考える研究は殆どなかった. 12
状態空間モデルにおける条件付き分布のELBO • 状態空間モデルの尤度を条件付き分布の積で表す(自己回帰的に分解). log 𝑝 𝐱 = log 𝑝(𝑥𝑡 |𝑥<𝑡 ) 𝑡 – このとき条件付き分布のELBOは,信念状態𝑝(𝑧𝑡 |𝑥≤𝑡 )を導入することで,2つの潜在変数(𝑧𝑡−1 , 𝑧𝑡 ) だけを使って表現できる. log 𝑝(𝑥𝑡 |𝑥<𝑡 ) ≥ 𝔼𝑞(𝑧𝑡−1𝑧𝑡|𝑥≤𝑡) 𝑝(𝑥𝑡 , 𝑧𝑡−1 𝑧𝑡 |𝑥<𝑡 ) log 𝑞 𝑧𝑡−1 , 𝑧𝑡 𝑥≤𝑡 生成モデル 信念状態 生成モデル = 𝔼𝑞(𝑧𝑡|𝑥≤𝑡)𝑞(𝑧𝑡−1|𝑧𝑡,𝑥≤𝑡)[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝(𝑧𝑡−1|𝑥<𝑡 ) + log 𝑝(𝑧𝑡 |𝑧𝑡−1) 信念状態 推論モデル − log 𝑞 𝑧𝑡 𝑥≤𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡 , 𝑥≤𝑡 )] さりげなく過去への推論になってる 𝑧𝑡−1 𝑧𝑡 𝑥𝑡−1 𝑥𝑡 13
信念状態のコードの導入 • 信念状態の「コード」𝑏𝑡 = 𝑓(𝑏𝑡−1 , 𝑥𝑡 )を導入する. – 𝑓は任意の関数(RNNとか) – すると信念状態は𝑝 𝑧𝑡 𝑥≤𝑡 = 𝑝(𝑧𝑡 |𝑏𝑡 )と表せる(入力が𝑏になる). – また,推論分布はコードを使って𝑞 𝑧𝑡−1 𝑧𝑡 , 𝑥≤𝑡 = 𝑞(𝑧𝑡−1 |𝑧𝑡 , 𝑏𝑡−1, 𝑏𝑡 ) となる. 𝑧𝑡−1 𝑧𝑡 𝑥𝑡−1 𝑥𝑡 𝑧𝑡−1 𝑧𝑡 • 以上より,目的関数(ELBO)は次のようになる. 生成モデル 信念状態 生成モデル ℒ = 𝔼𝑝𝐵 (𝑧𝑡|𝑏𝑡 )𝑞(𝑧𝑡−1 |𝑧𝑡,𝑏𝑡−1,𝑏𝑡 )[log 𝑝 𝑥𝑡 𝑧𝑡 + log 𝑝𝐵 (𝑧𝑡−1|𝑏𝑡−1 ) + log 𝑝(𝑧𝑡 |𝑧𝑡−1) 信念状態 推論モデル − log 𝑝𝐵 𝑧𝑡 𝑏𝑡 − log 𝑞(𝑧𝑡−1|𝑧𝑡 , 𝑏𝑡−1, 𝑏𝑡 )] 𝑏𝑡−1 𝑏𝑡 𝑥𝑡−1 𝑥𝑡 14
Jumpy状態のモデリング • ここまで導出したモデルは,あるステップから次のステップで状態がどのように変わる かを表したモデル • しかし実際のプランニングでは,各ステップで観測を受け取って単純に行動する訳では ない. – 例:海外旅行のプランニングでは,旅行オプションの議論,目的地の選択,チケット購入など – それぞれは異なるタイムスケールになっており,一秒ごとにプランニングを立てる訳ではない. -> 直接将来の状態を想像できる(jumpy)モデルが必要 • その他にも未来を直接モデル化する幾つかのモチベーションがある. – 未来からの訓練信号は時間ステップ間の小さな変化に対して頑健であるべき. – 時間を任意に取りたい場合,データの時間的なサブサンプリングと独立であるべき. – Jumpy予測は,時間効率的にもいい. • 類似の研究はあるが,状態の学習を行わず,完全観測問題のみに焦点を当てている. 15
TD-VAE • 前ページの議論から,時間について抽象化できるようにモデルを拡張する. – 𝑡から𝑡 + 1の遷移をモデル化するのではなく,任意のステップ𝑡1 ,𝑡2間の状態をjumpyに推論するモデル を考える. – ELBOは次のように変わる(時間ステップが変わっただけ) ℒ 𝑡1,𝑡2 = 𝔼𝑝𝐵 (𝑧𝑡 2 |𝑏𝑡2 )𝑞(𝑧𝑡1 |𝑧𝑡2 ,𝑏𝑡1 ,𝑏𝑡2 ) [log 𝑝 𝑥𝑡2 𝑧𝑡2 + log 𝑝𝐵 (𝑧𝑡1 |𝑏𝑡1 ) + log 𝑝(𝑧𝑡2 |𝑧𝑡1 ) − log 𝑝𝐵 𝑧𝑡2 𝑏𝑡2 − log 𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )] – 学習するときには𝑡2 − 𝑡1 として[1, 𝐷]の任意の範囲をサンプリングして学習する. • 𝑝(𝑧𝑡2 |𝑧𝑡1 )と𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )はどう設計するの???? – これらの分布は任意の時間幅で飛べるらしい(𝑡2 − 𝑡1 = 𝛿𝑡 として𝑝(𝑧2|𝑧1 , 𝛿𝑡 )といった感じ) – arXiv版をみると, という感じでパラメータ化している. 16
改めて図をみる やっぱりよくわからん・・・ Gregor先生のお気持ち解説(4.2節)を読むといいかも 17
ポイント ℒ 𝑡1,𝑡2 = 𝔼𝑝𝐵 (𝑧𝑡 2 |𝑏𝑡2 )𝑞(𝑧𝑡1 |𝑧𝑡2 ,𝑏𝑡1 ,𝑏𝑡2 ) [log 𝑝 𝑥𝑡2 𝑧𝑡2 + log 𝑝𝐵 (𝑧𝑡1 |𝑏𝑡1 ) + log 𝑝(𝑧𝑡2 |𝑧𝑡1 ) − log 𝑝𝐵 𝑧𝑡2 𝑏𝑡2 − log 𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )] 𝑧𝑡−1 𝑧𝑡 𝑏𝑡 𝑏𝑡−1 • 重要なのは,第2項と第5項 – 学習するときには(先ほどの図では)KLダイバージェンスになっている. 𝑥𝑡−1 𝑥𝑡 𝐷𝐾𝐿 [𝑞(𝑧𝑡1 |𝑧𝑡2 , 𝑏𝑡1 , 𝑏𝑡2 )| 𝑝(𝑧𝑡1 𝑏𝑡1 )] – これはつまり,現在の推論を未来からの推論と近づけているということ – 𝑡1 の時点で利用可能な情報だけを使って,どれだけ未来からの推論と同じくらいの推論ができたか?を評 価している -> CVAEやGQNなどと共通する考え方 – “TD”-VAEという名前は,このあたりとTD誤差との関連性から. 18
補足:VAE×RNN Zoo • VAE×RNNの研究一覧(生成モデル(上段)で分類,VSMC系は載せていない) ※分布(矢印)は概ね時刻𝑡に関するもののみ描画 𝑧𝑡 −1 𝑧𝑡 𝑧𝑡 −1 𝑧𝑡 𝑥𝑡 −1 𝑥𝑡 𝑧𝑡 −1 𝑧𝑡 𝑥𝑡 −1 𝑥𝑡 𝑝 𝑥, 𝑧 = Π𝑡 𝑝 𝑥𝑡 𝑧𝑡 𝑝 𝑧𝑡 𝑧𝑡−1 𝑥𝑡 −1 𝑧𝑡−1 状態空間モデル ※actionは省略 𝑥𝑡 𝑝 𝑥, 𝑧 = Π𝑡 𝑝 𝑥𝑡 𝑥1:𝑡−1 , 𝑧1:𝑡 𝑝𝑝𝑟𝑖𝑜𝑟 (𝑧𝑡 ) 𝑧𝑡 𝑝𝑝𝑟𝑖𝑜𝑟 (𝑧𝑡 ) = 𝑝(𝑧𝑡 ) ℎ𝑡−1 𝑝 𝑥, 𝑧 = Π𝑡 𝑝 𝑥𝑡+1 𝑥1:𝑡 , 𝑧1:𝑡 𝑝𝑝𝑟𝑖𝑜𝑟 (𝑧𝑡 ) Deep Markov Model [Krishnan+ 17] (Deep Kalman Filter [Krishnan+ 15]) ℎ𝑡 𝑝𝑝𝑟𝑖𝑜𝑟 (𝑧𝑡 ) = 𝑝(𝑧𝑡 |𝑧1:𝑡−1 , 𝑥1:𝑡−1 ) ※推論分布は論文内でいくつか提案されている 𝑥𝑡−1 𝑧𝑡−1 ℎ𝑡−1 ℎ𝑡−1 𝑧𝑡 𝑧𝑡−1 𝑥𝑡−1 ℎ𝑡 𝑏𝑡−1 𝑑𝑡−1 𝑏𝑡 𝑥𝑡 VRNN [Chung+ 16] 𝑧𝑡 ℎ𝑡−1 ℎ𝑡 ℎ𝑡−1 ℎ𝑡 𝑑𝑡−1 𝑑𝑡 𝑏𝑡−1 𝑏𝑡 ℎ𝑡 𝑧𝑡 𝑧𝑡−1 𝑧𝑡 𝑧𝑡 𝑥𝑡 𝑧𝑡−1 𝑧𝑡−1 𝑝𝑝𝑟𝑖𝑜𝑟 (𝑧𝑡 ) = 𝑝(𝑧𝑡 |𝑧𝑡−1 , 𝑥) 𝑥𝑡−1 𝑥𝑡 STORN [Bayer+ 15] 𝑥𝑡−1 𝑥𝑡 Z-forcing [Goyal+ 17] 𝑑𝑡 𝑥𝑡−1 𝑥𝑡 SRNN [Fraccaro+ 16] 𝑥𝑡−1 𝑥𝑡 TD-VAE [Gregor+ 18] 19
実験 20
実験1 Under review as a conference paper at ICLR 2019 • 部分観測なMiniPacman [Racanière et al., Under review as a conference paper2017] at ICLR 2019 ELBO Filtering model Mean-field model TD-VAE − log p(x ) (est.) 0.1169 ± 0.0003 0.0962 ± 0.0007 0.1987 ± 0.0010 ELBO± 0.0004− log0.1678 p(x) (est.) 0.0773 ± 0.0002 0.0553 ± 0.0006 Filtering model 0.1169 ± 0.0003 0.0962 ± 0.0007 Mean-field model 0.1987 ± 0.0004 0.1678 ± 0.0010 – エージェントは幽霊を避けながら迷路内のすべての食物を食べようとする. Figure 2: M iniPacman. L eft: A full TD-VAE frame from the game (size 15 ⇥ 19). Pacman (green) is 0.0773 ± 0.0002 0.0553 ± 0.0006 – 観測できるのは5×5のウィンドウ(右) navigating the maze trying to eat all the food (blue) while being chased by a ghost (red). Top r ight: A sequence of observations, of frame consecutive 5⇥ 5 windows Bottomis r ight: -> 高いスコアを達成するためには(過去の経験や環境の不確実性を考慮しつつ)信念状態を形成する必要 Figure 2: MiniPacman. consisting Left: A full from the game (size 15around ⇥ 19). Pacman. Pacman (green) ELBO and estimated negative a test set being of MiniPacman Lower is better. navigating the maze trying tolog eatprobability all the food on (blue) while chased by a sequences. ghost (red). Top right: がある. Log probability estimated using importance sampling the encoder as proposal. A sequence ofisobservations, consisting of consecutive 5 ⇥ 5with windows around Pacman. Bottom right: ELBO and estimated negative log probability on a test set of MiniPacman sequences. Lower is better. • この実験では,non-jumpyなTD-VAEが適切に学習できるか確認する. Log probability is estimated using importance sampling with the encoder as proposal. – 標準的なELBOの下での2つの状態空間モデルと比較 -> TD-VAEのELBOの有効性を評価 21
Under review as a conference paper at ICLR 2019 実験1 • 実験結果 – テスト集合に対する(恐らく負の)変分下界と負の対数尤度での評価 – 小さい方が良いモデル. Filtering model Mean-field model TD-VAE ELBO − log p(x ) (est.) 0.1169 ± 0.0003 0.1987 ± 0.0004 0.0773 ± 0.0002 0.0962 ± 0.0007 0.1678 ± 0.0010 0.0553 ± 0.0006 Figure 2: M iniPacman. L eft: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating the maze trying to eat all the food (blue) while being chased by a ghost (red). Top r ight: – TD-VAEが最も良い結果 A sequence of observations, consisting of consecutive 5 ⇥ 5 windows around Pacman. Bottom r ight: – 平均場モデルが低い結果になっている ELBO and estimated negative log probability on a test set of MiniPacman sequences. Lower is better. • estimated 平均場モデルでは𝑏 Log probability is using importance sampling with the encoder as proposal. 𝑡 が信念状態のコードになっているが,フィルタリングモデルではそうなっていないことに注意(フィルタリン グモデルでは,エンコーダで前のステップの𝑧に依存しているので) 信念状態を得るために単純にエンコーダを制限するだけでは精度が下がる 22
Figure 2: M iniPacman. L eft: A full frame from the game (size 15 ⇥ 19). Pacman (green) is navigating the maze trying to eat all the food (blue) while being chased by a ghost (red). Top r ight: A sequence of observations, consisting of consecutive 5 ⇥ 5 windows around Pacman. Bottom r ight: ELBO and estimated negative log probability on a test set of MiniPacman sequences. Lower is better. Log probability is estimated using importance sampling with the encoder as proposal. 実験2 • Moving MNIST Filtering model Mean-field model TD-VAE ELBO − log p(x ) (est.) 0.1169 ± 0.0003 0.1987 ± 0.0004 0.0773 ± 0.0002 0.0962 ± 0.0007 0.1678 ± 0.0010 0.0553 ± 0.0006 re 2: M iniPacman. L eft: A full frame from the game (size 15 ⇥ 19). Pacman (green) is gating the maze trying to eat all the food (blue) while being chased by a ghost (red). Top r ight: quence of observations, consisting of consecutive 5 ⇥ 5 windows around Pacman. Bottom r ight: Figure M oving NI ST. L eft: Rows are example inputissequences. O and estimated negative log probability on a3:test set ofM MiniPacman sequences. Lower better. Right: Jumpy rollouts from – 各ステップで移動するMNIST the model. We see that the the model is able roll forward by skipping frames, keeping the correct digit probability is estimated using importance sampling with encoder as to proposal. – [1,4]の範囲でステップを飛び越えて学習し,生成できるかを実験 and the direction of motion. • 実験結果: 5.2 M OV I NG MNIST In this experiment, we show that the model is able to learn the state and roll forward in jumps. We consider sequences of length 20 of images of MNIST digits. For each sequence, a random digit from the dataset is chosen, as well as the direction of movement (left or right). At each time step, the digit moves by one pixel in the chosen direction, as shown in Figure 3. We train the model with t 1 and t 2 separated by a random amount t 2 − t 1 from the interval [1, 4]. We would like to see whether the model at a given time can roll out a simulated experience in time steps t 1 = t + δ1 , t 2 = t 1 + δ2 , . . . with δ1 , δ2 , . . . > 1, without considering the inputs in between these time points. Note that it is not – ステップ数を飛ばしても生成できた. sufficient to predict the future inputs x t 1 , . . . as they do not contain information about whether the digit moves left or right. We need Right: to sampleJumpy a state that contains this information. re 3: M oving M NI ST. L eft: Rows are example input sequences. rollouts from – (明示的に書いてないが恐らく)一番左が元画像で各列が飛ばしたステップ数[1,4]に対応している model. We see that the model is able toWe rollroll forward by skipping frames, the digit by the aggregation recurrent out a sequence from the model keeping as follows: (a)correct bt is computed 23 he direction of motion. network from observations up to time t; (b) a state zt is sampled from pB (zt | bt ); (c) a sequence 0 0
実験3 • ノイズの多い高調波発振器から得られた1次元シーケンス – 各観測で情報がほとんどなくても(ノイズが入っていても)モデルが状態を構築できることを示す. – RNNにはLSTMを用いて,階層TD-VAEを使って学習. • bが階層化している(説明は省略) – ステップ幅は確率0.8で[1,10]の間,確率0.2で[1,120]の間として学習 • 実験結果: Under review as a conference paper at ICLR 2019 – 20ステップ及び100ステップ飛ばした結果 – ノイズが多い観測データでも生成できている. Figure 4: Skip-state pr ediction for 1D signal. The input is generated by a noisy harmonic oscillator. Rollouts consist of (a) a jumpy state transition with either dt = 20 or dt = 100, followed by 20 state transitions with dt = 1. The model is able to create a state and predict it into the future, correctly predicting frequency and magnitude of the signal. predict as much as possible about the state, which consists of frequency, magnitude and position, and it is only the position that cannot be accurately predicted. 24
実験4 • DeepMInd Lab環境 – アーキテクチャはConvDRAWを参考したものに変更(恐らくGQNと同じ使い方) • 実験結果: – モデルの信念の確認(ある信念からランダムに𝑧を生成) – 左の画像:それぞれの𝑧サンプルから画像を生成 -> 同じフレームが生成できている – 右の画像:それぞれの𝑧サンプルから任意にステップを飛んで生成 • 各信念内では同じような画像が生成されているが,信念によって出てくるフレームが異なる ->各信念で取りうる未来が異なっている 25
実験4 • 実験結果: – ステップを飛び越えて行動を進めることができる. – 図をどう見ればいいかは正直不明(rolloutと書いているので,多分MNISTと同じ感じ) 26
まとめ 27
まとめ • 本研究では,時系列を扱う世界モデルとしてTD-VAEを提案した. – 特に,時間方向の抽象化を意識している. – arXiv版ではあまり強調されていなかった気がする. • 感想: – 世界モデルにおいて「時間を抽象化」できるようになった初めての研究(ICLR的には結構受けそう) – 個人的にはGQNよりも好き. – 細かい記述がなかったりするので,とりあえずPixyzとかで実装して動作確認してみたい(公式の実装は 公開されていない). 28