>100 Views
June 23, 22
スライド概要
2022/06/17
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Authentic Volumetric Avatars from a Phone Scan Kento Doi, Matsuo Lab. http://deeplearning.jp/ 1
概要 • スマートフォンの自撮りから高精細なアバターを作成 • カメラを縦横に動かし無表情の顔をスキャン • カメラを正面に固定したまま様々な表情をスキャン • 大量のデータで事前学習したモデルを用いることで少コストで作成可能 • アバターはカメラ視点,表情,視線方向を操作可能 • リアルタイムのテレプレゼンスシステム等に応用可能
書誌情報 • Conference: SIGGRAPH 2022 • Research team: Reality Labs • Paper url: • https://drive.google.com/file/d/1i4NJKAggS82wqMamCJ1OHRGgViuyoY6R /view?usp=sharing • YouTube: • https://www.youtube.com/watch?v=t7_TMD7v0Xs
Agenda • Method • • • • • • • Overview Universal Prior Method Dataset Training and Loss Conditioning Data Acquisition Personalized Decoder Generation Finetuning a Personalized Decoder • Experiments
Overview a. Priorとなるモデルを事前学習 b. 無表情のユーザー動画と (a) の位置合わせ c. 様々な表情のユーザー動画で (b) をfine-tuning
Universal Prior Model
Universal Prior Model • 数式で書くと,以下のようになる • e, Θidはそれぞれ表情,identityの特徴 • (ただし,論文でΘidはハイパーネットワークのパラメータとして説明されて いる) • v, gはそれぞれカメラポーズと視線方向
Universal Prior Model
Dataset • ドーム状の環境 (右図) で人物の頭部を 撮影 • 計90個のカメラ (color 40, mono. 50) • 255人の被験者 • 画像データから顔の3Dmeshを復元 (下 図) J. R. Tena et al. Interactive Region-Based Linear 3D Face Models. SIGGRAPH, 2011.
Training & Losses • 前ページで説明したデータセットを用い,以下の損失関数でUPMを訓練 • ただし, • L_mvpは再構成誤差を除いたレンダリング用の損失 • geometryの損失や,正則化の損失で構成される (先行研究のものを使っていて,詳細はよく理 解できませんでした.)
Conditional Data Acquisition • Universal Prior Modelを新しい個人に適 応させたい ➢iPhone12で新しいユーザの画像 (無表情) をキャプチャ a. b. c. d. スマホを縦横に動かし動画を撮影 ランドマークを検出 シルエットを検出 3Dメッシュを復元
Personalized Decoder Generation • Identity Encoderに新しく撮影した個人の画像とmeshを入力すると, その個人のアバターを生成することができる
Personalized Decoder Generation • しかし,対処すべきdomain gapが2つ存在する 1. 照明条件の差異 • スタジオと環境が異なるため照明条件も異なる • テクスチャの正規化 (本文9ページ左上) を実施 (詳細はよくわかりませんでし た) 2. 撮影する視点の数と範囲 • スタジオで撮影するより,視点の範囲と数が少ない • スタジオのデータからスマホによる撮影の軌跡に重なる画像を選択し, Universal Prior Modelを学習
Finetuning a Personalized Decoder • 任意の表情の画像とmeshをexpression encoderに入力すると,アバターの 表情を操作できる ➢しかし,シワなどの細かい特徴が失われてしまうことがある
Finetuning a Personalized Decoder • 正面から撮影した様々な表情 (65種類) の写真を使ってネットワーク をfine-tuningすることで,さらにアバターの本物らしさを増加させる • ただし,汎化性能を失わないように,元のデータセットも混ぜて学習を行う
Experiments: Universal Prior Model
Experiments: Universal Prior Model
Experiments: Finetuning Personalized Models
Experiments: Finetuning Personalized Models
Experiments: Finetuning Personalized Models
Experiments: Comparison
Experiments: Comparison
Experiments: Comparison
Experiments: Limitations
Examples
Examples