【拡散モデル勉強会】A Unified Approach for Text- and Image-guided 4D Scene Generation

1.1K Views

July 02, 24

スライド概要

YouTubeはこちら→https://youtu.be/Z28E_BAD96A?si=EVFbkDymbnmGVO7F

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “A Unified Approach for Text- and Image-guided 4D Scene Generation” Kai Yamashita, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 A Unified Approach for Text- and Image-guided 4D Scene Generation Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar Hilliges, Shalini De Mello Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7300̶7309, 2024. 選定理由: CVPR2024のhighlightsに選出されていることと,4D Generationという分野に興味を持ったため 2

3.

Summary • • text promptや数枚の画像⼊⼒をもとにした4D⽣成 3つの拡散ガイダンスと,2つの学習ステージによる提案⼿法”Dream-in-4D”により,⾼いプロン プトの⼀致性,動作の品質,動画の質といった点において⾼い性能を達成した 3

4.

Background • Diffusion Modelによる,visulal contents⽣成の⺠主化 • 2D画像だけでなく,3Dコンテンツの⽣成も可能に • AR/VRなどでの利⽤を考えると,静的な3Dは不⼗分,動的な3D表現(4D)が求め られる 4

5.

Related Works NeRF(Neural Radiance Field) [B. Mildenhall et al., 2020] NeRFの手法 NeRFによるレンダリング 𝑥, 𝑦, 𝑧, 𝜃, 𝜙 → ( 𝑟, 𝑔, 𝑏 , 𝜎) 座標と向きから色と密度を推定 5

6.

Related Works Text To 3D DreamFusion [B. Poole et al., 2022] • サンプリングしたカメラ視点からのNeRFレンダリング画像を取得し,ノイズを付与する • ノイズをかけた画像とテキストプロンプトから訓練済みのDiffusion Modelによる逆拡散過程により,ノイズ推定 • 実際に付与されたノイズとの誤差よりNeRF Networkを訓練 損失関数(SDS Loss): 6

7.

Related Works MAV3D [U.Singer et al., 2023] TextTo4Dに取り組んだ最初の研究 MAV3Dの構成 static 3Dの学習と,HexPlane [A. Cao et al., 2023]を⽤いた動きの学習に分ける 品質⾯でさまざまな問題を抱えている 画像⼊⼒には⾮対応 7

8.

Method Dream-In-4Dの構成 • 学習ステップを①Static Stage② Dynamic Stageの2段階に分割 – ①Static Stage: ⾼品質な3D表現を3D & 2D Diffusion Guidanceを⽤いて⾏う – ②Dynamic Stage: Video Diffusion Guidanceによって動きの表現を獲得 • 動きの表現にHexPlaneでなく,D-NeRF [A. Pumarola et al., 2020]を⽤いる – Static Representationとentangledな変形場のHexPlaneでは動きと3D表現を分離できない 8

9.

Method Static Stage このフェーズの⽬標はテキストプロンプトに合致する⾼品質な3D表現の獲得 • • 3D表現獲得のために, 多重解像度ハッシュ符号化表現によるNeRFを採⽤(TextTo3Dの先⾏研究で よく⽤いられる⼿法) NeRFには,3D表現以外に,⽴体オブジェクトの動きを表現する変形場(deformation field)を付随 させる 3D表現に求められる要件 • view-consistent(free of the Janus Problem)であること – 変形場における異なる視点からのviewの⽭盾を減らす • テキストプロンプトに記述された空間構成と⼀致していること – 複数の物体の合理的な空間のレイアウトを提⽰することでmotion学習の難易度を下げる Janus 9

10.

Method Static Stage 3D表現の獲得のために,3D Diffusion Modelと2D Diffusion Model両⽅のガイダンスを利⽤ 3D Diffusion Modelは,①textまたはimage⼊⼒と②カメラパラメータより新たな視点画像を⽣成 学習の際には4つの異なる視点からのviewによるdiffusion guidanceを⽤いて学習 3D Diffusion Modelは, datasetの限られたscaleと,合成的性質により,これによってのみ学習されたNeRF Modelは合成的な⾒た⽬のobjectしか⽣成できず,⾃然なimageが⽣成できない場合が存在 →⼤規模な2D Imageによって訓練された2D Diffusion Modelは⾃然な⾒た⽬と合理的なレイアウトを⽣成可能 →2D Diffusion ModelだけではJanus Problemに陥るため,3Dと2D 両⽅のdiffusion guidanceを利⽤(SDS 損失 を⽤いる) 10

11.

Method Dynamic Stage このフェーズの⽬標は,Static Stageによって⽣成された3D表現に動きを与える変形場の学習 NeRF Networkは固定し,テキストプロンプトに⼀致する動きを与える変形場をVideo Diffusion Guidanceを⽤いて学習 Video Diffusion Modelのみだと,動作表現の獲得はできるものの3次元物体の整合性を考慮できず, 低品質な映像を⽣成する場合がある →3D表現にはStatic Stageで獲得したNeRF(固定)を⽤いることにより,⾼品質な映像⽣成を可能に する 11

12.

Method Dynamic Stage Motion-Disentangled 4D Representation 𝐷 𝒙! , 𝑡 → 𝒙" 𝑥! は変形場(deformation field)における時間𝑡の座標,𝑥" は正準空間における𝑥! と対応する座標 変形場は空間的にも時間的にも滑らかであると仮定を置けるため,正準NeRFよりも少ない解像度の 特徴グリッドで良いとみなせることより,最⼤解像度を⼩さくした4D多重解像度ハッシュ符号化特 徴グリッドを⽤いる 学習の際,静的なカメラパラメータをサンプリングし,⼀定間の4D表現をレンダリングし, Video diffusion guidanceを⽤いて,RGB空間と潜在空間両⽅で損失関数を計算 12

13.

Method Dynamic Stage Motionの空間的,時間的な揺らぎを低減するための損失関数(𝐷は変位) Dynamic Stageにおける最終的な損失関数 13

14.

Method Img To 4D テキストプロンプトではなく,画像を⼊⼒として4D表現を⽣成したい場合がある Static StageにおけるDiffusion Modelをimage conditionedなモデルに置き換えるだけで実装可能 A cartoon dragon is running. A rabbit is eating lettuce. 14

15.

Result HexplaneとD-NeRFを用いた本手法の違い 2D & 3D Diffusion Guidanceの有効性 2D & 3D 両方のguidanceにより自然なテクスチャ でview-consistentな 生成 15

16.

Result 被験者試験による評価 被験者による評価において,MAV3Dに対する優位性, ablation studyによる各手法の有効性が確認された 16

17.

Result レンダリング結果 Hexplane w/o 2D diffusion w/o motion reg. w/o multi resol. ours 提案手法が最も自然なレンダリングを実現している 17

18.

Conclusions 結論 • • テキスト⼊⼒または画像⼊⼒から,時間変化する3次元表現(4D)を⽣成する⼿法”Dream-in-4D”を 提案した 3D&2D Diffusion Guidanceによる静的表現の獲得,Video Diffusionによる変形場の獲得と,4D 表現の学習を分解することにより⾼品質な⽣成を達成 Limitations • 特定のプロンプトでは失敗する(e.g. a robot playing the violin) – 間違った静的表現から修正することができないため 感想 途中からオブジェクトが分裂したり,オブジェクト が消えるような映像は難しい? 18