[DL輪読会]High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks

302 Views

January 10, 20

#deep learning #Japanese #video prediction #large stochastic recurrent neural networks #capacity of model #SVG

スライド概要

2020/01/10
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks

概要 ● High Fidelity Video Prediction with Large Stochastic Recurrent Neural Networks ● University of Michigan, Google Research, Adobe Research ● NeurIPS2019 ● 映像予測系。 ● 映像の自由度が高く、未来が一意に定まらない場合に広く使える手法を提案 ○ モデルのキャパシティを大きくすることは正義 ● (自分の卒論の上位互換説…)

生成されたもの ● 映像 ○ https://sites.google.com/view/videopredictioncapacity ● すごい ● 厳しめに見ると、 ● タオル ○ ◎引っ張られることは理解してそう ○ △テクスチャはとろけてる ● Human ○ ◎予測した動きは違っても鮮明 ○ △smallは足がもつれてそう・人がフェードアウトしがち ● KITTI ○ ◎並木道の木はヒントがなくても生成できてる。 ○ △前方車両、歩道の白線がフェードアウトしてる

https://sites.google.com/view/videopredictioncapacity

モチベーション ● 映像予測は大事。 ○ 映像を予測できる ≒ 環境のダイナミクスを捉えている ○ 人間は結果を予測しながら行動してる(ボール投げる/車を運転する) ● モデルベース強化学習でもやってる ○ 先に内部モデルを学習して、内部モデルでプランニングをする ○ PlaNet (Learning Latent Dynamics for Planning from Pixels, ICML 2019) ■ world model + cross entropy method (方策のネットワークなし) ○ SimPle (Model-Based Reinforcement Learning for Atari, CoRR 2019) ■ world model (1フレームだけ予測) + PPO ○ Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control ● inductive bias(帰納バイアス)多すぎ ○ データの構造というメタ知識をモデル/学習の制約に入れる ○ segmentation mask, optical flow, 前景・背景の分割, adversarial loss

モチベーション ● 深層学習は、モデルの大きさが正義だったことが多い ○ 画像分類、自然言語処理、GAN… ● inductive bias なしでどこまでできるか ● 調べること ○ モデルを大きくすると定量・定性的に改善するのか ○ 結局recurrentが大事か ○ 結局確率的な遷移を仮定することは大事か ● →すごくよくなった

ベースモデル ● SVG (Stochastic Video Generation with a Learned Prior, ICML2018) ○ SSMっぽい ○ 当時のsota ○ ConvLSTMあり ○ skip connectionあり ○ (actionは捨てて実験してる)

ベースモデル ● 普通のSSMは ● ELBO = 再構成誤差 + KL divergence(sの距離)

ベースモデル ● SVG (Stochastic Video Generation with a Learned Prior, ICML2018) ○ zのprior(生成過程)、posterior(近似)に今までのxを全部入れる ○ β = 0.0001

ベースモデル ● SVG (Stochastic Video Generation with a Learned Prior, ICML2018) ○ ○ ○ ○ 確率的なサンプリングになっている LSTMθは1レイヤー、LSTMθは2レイヤー zは64(タオル), 128次元(人、車) M, Kは後述

10.

提案手法(大きくしかた) ● モデルのキャパシティによる性能の比較 ● 単純に、 ○ LSTMのunit数をM倍(M=1~3)。デフォルト512 ○ FC層のunit数をK倍(K=1~5)。 ● パラメータ数は30万~7.5億 ● BERTが3億

11.

Ablation Study ● SVG(デフォルト) ● LSTM ○ 確率的な遷移を取り払う ● CNN ○ LSTMも取り払う ○ 直前の画像+初期状態の画像で次の画像を予測

12.

評価指標 ● FVDスコア(FVD(Frechet Video Distance)ﾌﾚｼｪ) ○ FIDスコアがベース Frechet Inception Distance ■ 画像系GANの綺麗さの評価に使うやつ ○ 各フレームのクオリティ+時間的一貫性を評価 ○ 本物と生成物のビデオの分布の距離(正規分布を仮定) ○ FIDではinceptionモデルだったのを、 Inflated 3D Convnet(kietics600で学習)に変える ■ DeepMindのaction recongition用データセット

13.

実験 ●

14.

実験 ● 主観評価 ○ (CNNが勝ってるところがある…)

15.

高解像度(128x128 ver)

16.

まとめ ● モデルのキャパシティを大きくすればよい。 ● リカレントは大事(CNN比) ● 確率的は大事(LSTM比) ○ (階層的な気が…)