【DL輪読会】NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and Animation

109 Views

February 10, 23

#@deep learning jp #NeuWigs #ニューラルダイナミックモデル #体積髪キャプチャ #髪空間生成 #State compression

スライド概要

2023/2/10
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and Animation Naruya Kondo (Digital Nature Group M2) 1

書誌情報 ● NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and Animation ○ Arxiv (Submitted on 2022/12/1) ○ 著者：CMU, Meta, Google, Epic (※ Work done while at Meta) ■ Ziyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Chen Cao, Jason Saragih, Michael Zollhoefer, Jessica Hodgins, Christoph Lassner ● ひとことで言うと ○ 「Primitiveで小さなNeRF達」を逐次的に動かし、非剛体シミュレーションする ○ 髪の毛を、リアルタイムなObservation無しで、シミュレーションできる！ ■ 再生／再構成ではなく、異なる時間発展に対応できる ■ (リアルタイムに動くかは不明だけど、そんなに重くなさそう) ○ (ネタっぽいけど、非剛体sim的に凄そう) 2

プロジェクトページ 3

https://ziyanw1.github.io/neuwigs/

問題設定 ● 学習: ある1つの髪(wig) で撮った時系列データを学習 ● 評価: 新しい動きを入力にして、髪空間を生成＆描画 ● データ ○ {うなずく, 首振り, 傾げる} × {速い, 遅い} を何回も ○ 100カメラ, 30fps, 恐らく1回10秒程度大量カメラは正義 (真理) 4

Overview 学習① 評価学習② • • State compression – 各時刻の点群をAutoencoderで z_t に埋め込み。 • 出力: 点群の位置, 向き, 大きさ – Volumetric Primitivesで、小さなNeRFを組み合わせて全体を描画 Dynamic model training – z_t, 顔中心の動き, 重力から z_{t+1} を予測 • z_t が与えられるとdecodeでき、時間変化も生成できる 5

State compression 1. l-MVSで髪の点群 p_t を得る – unordered 2. PointNetでエンコード – MaxPooling等で順番に依存しない 3. MLPでデコード – 順番が揃うらしい(?) – 点群 q_t の位置、向き、スケールを得る 4. Loss: 位置、向き、Flow(変位) + N(0,1)とのKL 一番近い点との差 6

State compression 1. ⇧全部を組み合わせ、1つのNeRF Field を作る (V^{all}) sparseなNeRF 2. Volume rendeing とも言える? 3. Loss: L1 + VGG 光線上の透過率 αの差分だけ色rgbを足すつまり、z_tが与えられると、decode＆renderができる 7

Dynamic model training 1. enc, decを固定して、学習データのz_tの系列について、次の z_t を予測 h: 頭の中心, g: 重力の方向 z_tは分布で、μ, δはその平均と分散 2. Loss 8

Dynamic model testing • テストの際、そのまま予測したz_{t+1}を使うと、ノイズが蓄積する – ⇨ decodeしてencodeしてから使った – (ノイズがとれるらしい) 9

10.

評価 10

11.

感想 • primitiveの動きに注目して学習するというのが良さそう • 激しい動きにどれくらい対応できる？ • 髪の毛以外に応用できる？ • 髪の毛の周りのGhostが気になる (あるある？) • 先にencoder / decoderを学習して、後から潜在変数(の遷移)を学習するのと、end-to-endで学習するの、結局どちらが良いのだろう – 最近は前者をよく見る気がする – (本論文、diffusion系、transformer系しかり) – (松尾先生はend2end推しらしい) • primitiveの境界はどうしてる？ by 山川先生 11