[DL輪読会]Textured Neural Avatars

103 Views

September 13, 19

#deep learning #Deep Learning #Neural Avatars #Artificial Intelligence #Machine Learning #Image Generation

スライド概要

2019/09/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.3K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.8K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Textured Neural Avatars Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 書誌情報 Ø Textured Neural Avatars Ø 著者: Aliaksandra Shysheya (Samsung AI Center, Moscow、Skolkovo Institute of Science and Technology, Moscow) 、その他共著者 11⼈ Ø CVPR2019 oral (2019/05/21 on arXiv) • Project Page: https://saic-violet.github.io/texturedavatar/ • Demo Page: https://youtu.be/3rrnUX8wWZ8 2

提案⼿法の概要 • カメラ位置と⼈物の姿勢を指定すれば、それにあった⼈物画像を⽣成してくれるモデルを提案した。 • 学習は特定⼈物の動画で⾏うため、⽣成される⼈物は⼀意である。 1. 学習データにない視点からでも⼈物画像を⽣成できる。 2. 学習データにない姿勢の⼈物画像を⽣成できる。 3

提案⼿法の概要 • 3Dの姿勢の⼊⼒に応じた、（学習に使⽤した）⼈物画像を⽣成するモデル • Input poseはboneごとにラスタライズ(点を結んで線にする)したもののstackの形式となっている。 Neural Textured Avatars 4

⽬次 1. 関連研究 2. 提案⼿法 3. 実験 4. まとめ 5

⽬次 1. 関連研究 Ø 姿勢を指定した⼈物の動画像⽣成 Ø UVマッピングの利⽤ 2. 提案⼿法 3. 実験 4. まとめ 6

姿勢を指定した⼈物の動画像⽣成 • 姿勢 (2D key pointやDense Pose等)を⼊⼒にしてそれに合うような⼈物の動画像を⽣成するタスク。 Everybody dance now [Chan+ ICCVʼ19] 2D keypointを取得して、特定の⼈物動画を⽣成 Vid2Vid [Wang+ NeurIPSʼ18] DensePoseの出⼒を取得して、特定の⼈物動画を⽣成 7

姿勢を指定した⼈物の動画像⽣成 • 姿勢 (2D key pointやDense Pose等)を⼊⼒にしてそれに合うような⼈物の動画像を⽣成するタスク。 Everybody dance now [Chan+ ICCVʼ19] Vid2Vid [Wang+ NeurIPSʼ18] ただし、 Ø カメラの視点が固定である (検証はされていない) Ø ⼤量のデータセットが必要になる (提案⼿法は300フレームでも学習可能である) 8

UVマッピングとその推定 UVマッピング 3Dモデリングにおける3Dと2Dの橋渡しの処理で、展開された3Dモデルの表⾯のテクスチャを3Dにマッピングする。 DensePose [Guler+ CVPRʼ18] ⾝体モデルを仮定して画像上の各ピクセルが3Dモデル上のどこに位置するのかを推定する。 9

10.

UVマッピングの利⽤ Dense Pose Transfer [N.Neverova+ ECCVʼ18] DensePoseの出⼒を利⽤した姿勢の変換。 2Dのテクスチャ上で不⾜部分の補完を⾏う。 360-Degree Textures [V.Lazova+ 19] UVテクスチャを利⽤して、1枚の RGB画像から3Dアバターを⽣成。 10

11.

⽬次 1. 関連研究 2. 提案⼿法 Ø モデル概要 Ø 学習 (損失関数) Ø 初期化戦略 3. 実験 4. まとめ 11

12.

提案⼿法の概要 Part assignments Part coordinates 12

13.

学習 • 予測したマスクに対するBinary cross entropy lossと予測したRGB画像に対する Perceptual lossによって学習を⾏う。 • Texture stack は初期化によって得られ（この後説明）、学習によって更新される。 13

14.

Generatorの初期化 • Generatorを前もって学習しておく。教師データとしてDensePoseの出⼒を使う。 • DenseposeはRGB画像を⼊⼒にTextureとのマッピング関係を推定するが、3D Poseからそれを推定できるように学習を⾏う。⼊⼒の3D Poseに対応する RGBが画像から推定した DensePoseの出⼒結果。 14

15.

Generatorの初期化（転移） • データが⼗分にない場合はGeneratorを学習するのではなく、他のデータで学習したGeneratorの重みをそのまま使う。 • 体型が⼤きく変わらない場合は、ネットワークはほとんど変える必要がない。⼗分なデータ量転移 15

16.

テクスチャの初期化 • 初期化したGeneratorの出⼒を使って、テクスチャを初期化する。各flameごとの処理各flameでTexture を取得し平均を取って初期値とする。動画 16

17.

学習による更新の影響 • 学習によってテクスチャやGeneratorの出⼒がアップデートされる。初期化時学習後 17

18.

推論 • 最終的な結果としてavatarを画像として背景と合成する。 : 最終結果の画像 : 背景画像 18

19.

⽬次 1. 関連研究 2. 提案モデル 3. 実験 Ø Direct (baseline⼿法) Ø 定性評価 (multi/single video training) Ø 定量評価 4. まとめ 19

20.

Direct translation baseline • 既存⼿法以外に、Textureは使わず、直接マスクとRGB画像を予測するようなネットワークをbaselineのモデルとして提案・⽐較する。 20

21.

Direct translation baseline • 既存⼿法以外に、Textureは使わず、直接マスクとRGB画像を予測するようなネットワークをbaselineのモデルとして提案・⽐較する。 21

22.

定性評価 • • • • 実験のデータにはCMUデータセット(同じ⼈物を同時に複数視点から撮影)を使⽤。複数視点の2D姿勢推定の結果を三⾓測量によって3D姿勢を計算し、⼊⼒にした。複数視点のカメラの動画で学習を⾏い、学習にない視点で結果を出⼒している。 GT: Ground Truth、Direct: 前述のbaseline、V2V: Vid2Vid 22

23.

定量評価 • User study: Ground Truthと⽐較する⼿法の2つの計3つを並べて、Ground Truthにマッチするほうを選択してもらうユーザーテスト。数字は提案⼿法が選択された割合（のはず）。 • SSIM score: ⾒た⽬の近さを測る評価指標。1に近いほうがよい。 • Frechet distance (FID): 実画像と⽣成画像の分布距離。0に近いほうがよい。 • 提案⼿法は、User studyでは他⼿法にすべて勝っている。ただし、各視点からの光を平均してしまっていることが悪影響を受けているとのこと。 • ⾏名はデータセットで1、2はデータのサブセット、6、16がフレームを表す。 23

24.

定性評価 (single video training) • 単⼀視点のカメラの動画で学習を⾏った場合の結果。(vid2vidとの⽐較) 24

25.

定性評価 (single video training) • • • • 単⼀視点のカメラの動画で学習を⾏った場合の結果。 Video Based Reconstruction of 3D People Models [Alldieck+ CVPRʼ18]との⽐較。左側が提案⼿法で右が[Alldieck+ CVPRʼ18]。（論⽂中にはさくっとこの⽐較が載っているだけで⾔及はなかったが、提案⼿法はデータの制約が少ないことと学習時間が⽐較的短いことが利点になりそう。） 25

26.

⽬次 1. 関連研究 2. 提案⼿法 3. 実験 4. まとめ 26

27.

まとめ • 任意の視点と任意の姿勢の⼈物画像を⽣成するモデルを提案した。 • 2Dのテクスチャを明⽰的に使⽤することで汎化性能を⾼めた。 (感想) • テクスチャ部分を学習によって更新するというのが賢いと思った。 • 動画像⽣成側の発展と動画像からの3Dモデルの構築の発展のブランチがマージされそうな雰囲気を感じる。 • 動画像⽣成において、⾒た⽬部分と幾何的部分を分けて考える研究や、特に2Dテクスチャを介して3Dモデルを考慮する⽅法は個⼈的に注⽬していきたい。 27

28.

References • C.Chan, S.Ginosar, T. Zhou, A.A. Efros. Everybody Dance Now. ICCV 2019. • T-C.Wang, M-Y.Liu, J-Y.Zhu, G.Liu, A.Tao, J.Kautz, B.Catanzaro. Video-to-Video Synthesis. NeurlPS 2018. • R.A.Guler, N.Neverova, I.Kokkinos. DensePose: Dense Human Pose Estimation In The Wild. CVPR 2018. • N.Neverova, R.Aguler, I.Kokkinos. Dense Pose Transfer. ECCV 2018. • V.Lazova, E.Insafutdinov, G.Pons-Moll. 360-Degree Textures of People in Clothing from a Single Image. 2019.8.20 on arXiv. • T.Alldieck, M.Magnor, W.Xu, C.Theobalt, G.Pons-Moll. Video Based Reconstruction of 3D People Models. CVPR 2018. 28