[DL輪読会]Efficient Video Generation on Complex Datasets

>100 Views

August 26, 19

#deep learning #Deep Learning #Video Generation #DVD-GAN #Kinetics-600 #UCF-101

スライド概要

2019/08/23
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 86.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 57K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 40.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 34.9K

【拡散モデル勉強会】拡散モデルのサンプラーまとめ

Deep Learning JP 34.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Efficient Video Generation on Complex Datasets” Matsuo Lab, Ryo Okada http://deeplearning.jp/ 1

http://deeplearning.jp/

Outline 1. 2. 3. 4. 5. 6. 書誌情報論文の概要背景・先行研究提案手法実験まとめ 2

書誌情報 • タイトル – Efficient Video Generation on Complex Datasets • 著者： – Aidan Clark, Jeff Donahue, Karen Simonyan（Deepmind） 3

概要 • 概要 – DVD-GANの提案 • DVD: Digital versatile discではなくDual Video Discriminatorの意味 – 高解像度（最大256 x 256）で、長い（最大48 フレーム/４秒くらい）の動画を生成可能 – Kinetics-600の動画予測タスクとUCF-101の動画生成タスクでSOTA • Contribution – 高解像度（最大256 x 256）で、長い（最大48 フレーム）の動画を生成可能なDVD-GANの提案 – UCF-101の動画生成とKinetics-600の動画予測タスクにおけるSOTA – ビデオ生成における新しいベンチマークとし 4

背景 • 動画生成と予測タスクの例 – 訓練データの分布に従って様々な動画も生成する（条件付けしない） – ある動画をもとにコンテンツトランスファーやフレームごとのセグメンテーション、姿勢推定として利用する（強く条件付けする） – クラスで条件付けした動画生成タスク / Class conditional video synthesis • 与えられたカテゴリのビデオを生成する – 将来動画予測 / Future video prediction • 与えられた最初のフレームから続くビデオを生成する – いずれのタスクにもリアルな動画を生成したいモチベーションは共通する 5

背景 • 先行研究 – 物体の質感と時間的な流れの一貫性の分解するアプローチが多い • MoCoGAN – GでRNNを使用し系列性を考慮 – 画像の品質を判定するフレームごとのDと動きを判定するビデオ全体を処理するDを用意 • オプティカルフローの活用（GとD） – その他以下のような計算量を下げる工夫を用いた研究が多い • フレームのグループごと処理 • 異なる解像度ごとのサブバッチ単位で処理 6

DVD-GAN 工夫① 事前学習やOptical Flowを利用しない代わりに計算量の大きなネットワークを使用工夫③ Separable self Attention 工夫② それぞれのフレームの特徴をRNNにて系列で抽出し、self attentionを通り、フレームごとResNetに入力。これによりそれぞれのフレーム内のピクセルが関連性を持って出力される。工夫④ Dual Discriminator 7

Separable Self Attention Self Attentionによって特徴マップ上の大域的な情報を取り出したいが、 self attentionは必要な計算量とメモリサイズが大きい Separable self attentionを導入３つの並列なAttention層を用意し、それぞれ横幅（W）、縦幅(H)、時間（T）に絞って計算することで計算量を削減計算量： (𝐻𝑊𝑇)2 計算量：最大 𝐻 2𝑊𝑇, 𝐻𝑊 2𝑇, 𝐻𝑊𝑇 2 8

Dual Discriminator • ２つのDiscriminator – 空間的Discriminator: 𝐷𝑠 • K個の解像度のフレームをランダムにサンプリングし、単一フレーム内の内容や構成を識別する（今回はk=8を選択） • 処理データ量：K x H x W – 時間的Discriminator: 𝐷𝑡 • Dsでは識別されない、動きを生成するための学習信号を捉えたい。 • スケーリングのため、resolutionを落として扱いたい。空間的ダウンサンプリングとしてφ（2 x 2のAverage Pooling）を動画全体に処理し、その出力をDtへ入力する。 • 処理データ量： T x H/2 x W/2 9

10.

実験 • 計算機環境 – TPU v3 pods – TF-Replicatorで並列処理 – 訓練時間12~96時間 • データセット – Kinetics-600 • 10秒間のYouTube HDビデオクリップ（元々human action recognition 用） • 600のカテゴリ。 • 全部で約50万個のビデオ • 実験タスク – Class conditional video synthesis • クラスで条件付けした動画生成タスク – Future video prediction • 将来動画予測 – Dにおけるパラメータ検証 – フレーム補間の検証 • 評価指標 – 一般的な評価指標のISとFID – UCF-101 • より小さい13,320個の動画（human actions） 10

11.

実験結果 • Kinetics-600における動画生成結果 • 本結果は今後の研究の指標となるベンチマークを提示 – 比較できる先行研究の結果はなく、本研究におけるContributionの１つ • 全てのビデオは入力の際リサイズされるので、フレーム数が同じであればサイズが異なっても比較できる数字 11

12.

実験結果 • UCF-101における動画生成タスク • SOTAを達成 12

13.

生成例 13

14.

生成例 14

15.

64x64_12frame 15

16.

256x256_12frame 16

17.

128x128_48frame 17

18.

• 12 frames of 64 x 64 – https://drive.google.com/file/d/1YJtaQgVDnt_r35xKghelgd4V8PoUeaz/view • 12 frames of 256 x 256 – https://drive.google.com/file/d/1wagcMpBAnIfYSEgnOoAbEJoqmHTnrpcr/v iew • 48 frame of 128 x 128 – https://drive.google.com/file/d/19kXShENC-7KCVjkIR3GixcdLVgSGSW5/view 18

19.

生成例 • サイズが小さい動画は質感も綺麗で、一貫性のある動画を生成できている。サイズが大きくなると、一貫性の物体を生成するのはより難しくなり乱れている。一方、背景は綺麗に見える • フレームが異なっても今回kの値は固定で8にしているため、48フレームの方が12より解像度は高くならないはずだが、48でも高い解像度で生成できているように見える 19

20.

Dにおけるパラメータ検証 • 𝐷𝑇 におけるφ（Average pooling）を変化 • FIDスコアはあまり変化しないがIS はダウンサンプリングが大きくなるにつれてスコアが劣化 • 𝐷𝑠 におけるk（サンプリング個数）を変化 • Kを大きくするといずれのスコアも改善 20

21.

フレーム補間 • フレーム補間 – 𝑧0 と𝑧1 の間を潜在ベクトルより補間する – いずれの場合も比較的スムーズな動画を生成できているように見える 21

22.

まとめ • まとめ – 高解像度（最大256 x 256）で、長い（最大48フレーム）の動画を生成可能な DVD-GANの提案 – UCF-101の動画生成とKinetics-600の動画予測タスクにおけるSOTA – ビデオ生成における新しいベンチマークとしてKinetic-600を確立 • 感想 – 単に高精細なものを生成する意識だけでなく、処理サイズを軽減する工夫に配慮しなければならない領域 – 計算量の多い動画生成の分野においてself attentionをうまく活用することによって高精細な生成に成功 – これで動画生成ができた、と言うよりこの分野の方向性を示したような意味合いが強い 22

23.

THANK YOU. 23