[DL輪読会]Efficient Video Generation on Complex Datasets

>100 Views

August 26, 19

スライド概要

2019/08/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Efficient Video Generation on Complex Datasets” Matsuo Lab, Ryo Okada http://deeplearning.jp/ 1

2.

Outline 1. 2. 3. 4. 5. 6. 書誌情報 論文の概要 背景・先行研究 提案手法 実験 まとめ 2

3.

書誌情報 • タイトル – Efficient Video Generation on Complex Datasets • 著者: – Aidan Clark, Jeff Donahue, Karen Simonyan(Deepmind) 3

4.

概要 • 概要 – DVD-GANの提案 • DVD: Digital versatile discではなくDual Video Discriminatorの意味 – 高解像度(最大256 x 256)で、長い(最大48 フレーム/4秒くらい)の動画を生成可能 – Kinetics-600の動画予測タスクとUCF-101の 動画生成タスクでSOTA • Contribution – 高解像度(最大256 x 256)で、長い(最大48 フレーム)の動画を生成可能なDVD-GANの提 案 – UCF-101の動画生成とKinetics-600の動画予 測タスクにおけるSOTA – ビデオ生成における新しいベンチマークとし 4

5.

背景 • 動画生成と予測タスクの例 – 訓練データの分布に従って様々な動画も生成する(条件付けしない) – ある動画をもとにコンテンツトランスファーやフレームごとのセグメンテー ション、姿勢推定として利用する(強く条件付けする) – クラスで条件付けした動画生成タスク / Class conditional video synthesis • 与えられたカテゴリのビデオを生成する – 将来動画予測 / Future video prediction • 与えられた最初のフレームから続くビデオを生成する – いずれのタスクにもリアルな動画を生成したいモチベーションは共通する 5

6.

背景 • 先行研究 – 物体の質感と時間的な流れの一貫性の分解するアプローチが多い • MoCoGAN – GでRNNを使用し系列性を考慮 – 画像の品質を判定するフレームごとのDと動きを判定するビデオ全体を処理するDを用意 • オプティカルフローの活用(GとD) – その他以下のような計算量を下げる工夫を用いた研究が多い • フレームのグループごと処理 • 異なる解像度ごとのサブバッチ単位で処理 6

7.

DVD-GAN 工夫① 事前学習やOptical Flowを利用しない代わ りに計算量の大きなネットワークを使用 工夫③ Separable self Attention 工夫② それぞれのフレームの特徴をRNNにて系列で抽出し、self attentionを通り、フレームごとResNetに入力。これによりそれ ぞれのフレーム内のピクセルが関連性を持って出力される。 工夫④ Dual Discriminator 7

8.

Separable Self Attention Self Attentionによって特徴マッ プ上の大域的な情報を取り出した いが、 self attentionは必要な計算量とメ モリサイズが大きい Separable self attentionを導入 3つの並列なAttention層を用意 し、 それぞれ横幅(W)、縦幅(H)、 時間(T)に絞って計算すること で計算量を削減 計算量: (𝐻𝑊𝑇)2 計算量: 最大 𝐻 2𝑊𝑇, 𝐻𝑊 2𝑇, 𝐻𝑊𝑇 2 8

9.

Dual Discriminator • 2つのDiscriminator – 空間的Discriminator: 𝐷𝑠 • K個の解像度のフレームをランダムにサンプ リングし、単一フレーム内の内容や構成を 識別する(今回はk=8を選択) • 処理データ量:K x H x W – 時間的Discriminator: 𝐷𝑡 • Dsでは識別されない、動きを生成するため の学習信号を捉えたい。 • スケーリングのため、resolutionを落として 扱いたい。空間的ダウンサンプリングとし てφ(2 x 2のAverage Pooling)を動画全体 に処理し、その出力をDtへ入力する。 • 処理データ量: T x H/2 x W/2 9

10.

実験 • 計算機環境 – TPU v3 pods – TF-Replicatorで並列処理 – 訓練時間12~96時間 • データセット – Kinetics-600 • 10秒間のYouTube HDビデオクリッ プ(元々human action recognition 用) • 600のカテゴリ。 • 全部で約50万個のビデオ • 実験タスク – Class conditional video synthesis • クラスで条件付けした動画生成タスク – Future video prediction • 将来動画予測 – Dにおけるパラメータ検証 – フレーム補間の検証 • 評価指標 – 一般的な評価指標のISとFID – UCF-101 • より小さい13,320個の動画(human actions) 10

11.

実験結果 • Kinetics-600における動画生成結果 • 本結果は今後の研究の指標となるベンチマークを提示 – 比較できる先行研究の結果はなく、本研究におけるContributionの1つ • 全てのビデオは入力の際リサイズされるので、フレーム数が同じであれば サイズが異なっても比較できる数字 11

12.

実験結果 • UCF-101における動画生成 タスク • SOTAを達成 12

13.

生成例 13

14.

生成例 14

15.

64x64_12frame 15

16.

256x256_12frame 16

17.

128x128_48frame 17

18.

• 12 frames of 64 x 64 – https://drive.google.com/file/d/1YJtaQgVDnt_r35xKghelgd4V8PoUeaz/view • 12 frames of 256 x 256 – https://drive.google.com/file/d/1wagcMpBAnIfYSEgnOoAbEJoqmHTnrpcr/v iew • 48 frame of 128 x 128 – https://drive.google.com/file/d/19kXShENC-7KCVjkIR3GixcdLVgSGSW5/view 18

19.

生成例 • サイズが小さい動画は質感も綺麗で、一貫性のある動画を生成でき ている。サイズが大きくなると、一貫性の物体を生成するのはより 難しくなり乱れている。一方、背景は綺麗に見える • フレームが異なっても今回kの値は固定で8にしているため、48フ レームの方が12より解像度は高くならないはずだが、48でも高い解 像度で生成できているように見える 19

20.

Dにおけるパラメータ検証 • 𝐷𝑇 におけるφ(Average pooling) を変化 • FIDスコアはあまり変化しないがIS はダウンサンプリングが大きくな るにつれてスコアが劣化 • 𝐷𝑠 におけるk(サンプリング個 数)を変化 • Kを大きくするといずれのスコア も改善 20

21.

フレーム補間 • フレーム補間 – 𝑧0 と𝑧1 の間を潜在ベクトルより補間する – いずれの場合も比較的スムーズな動画を生成できているように見える 21

22.

まとめ • まとめ – 高解像度(最大256 x 256)で、長い(最大48フレーム)の動画を生成可能な DVD-GANの提案 – UCF-101の動画生成とKinetics-600の動画予測タスクにおけるSOTA – ビデオ生成における新しいベンチマークとしてKinetic-600を確立 • 感想 – 単に高精細なものを生成する意識だけでなく、処理サイズを軽減する工夫に配 慮しなければならない領域 – 計算量の多い動画生成の分野においてself attentionをうまく活用することに よって高精細な生成に成功 – これで動画生成ができた、と言うよりこの分野の方向性を示したような意味合 いが強い 22

23.

THANK YOU. 23