【拡散モデル勉強会】A Unified Approach for Text- and Image-guided 4D Scene Generation

1.4K Views

July 02, 24

#4D Scene Generation #Diffusion Model #NeRF #Computer Vision #CVPR2024

スライド概要

YouTubeはこちら→https://youtu.be/Z28E_BAD96A?si=EVFbkDymbnmGVO7F

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “A Unified Approach for Text- and Image-guided 4D Scene Generation” Kai Yamashita, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 A Unified Approach for Text- and Image-guided 4D Scene Generation Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar Hilliges, Shalini De Mello Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7300̶7309, 2024. 選定理由： CVPR2024のhighlightsに選出されていることと，4D Generationという分野に興味を持ったため 2

Summary • • text promptや数枚の画像⼊⼒をもとにした4D⽣成 3つの拡散ガイダンスと，2つの学習ステージによる提案⼿法”Dream-in-4D”により，⾼いプロンプトの⼀致性，動作の品質，動画の質といった点において⾼い性能を達成した 3

Background • Diffusion Modelによる，visulal contents⽣成の⺠主化 • 2D画像だけでなく，3Dコンテンツの⽣成も可能に • AR/VRなどでの利⽤を考えると，静的な3Dは不⼗分，動的な3D表現(4D)が求められる 4

Related Works NeRF(Neural Radiance Field) [B. Mildenhall et al., 2020] NeRFの手法 NeRFによるレンダリング 𝑥, 𝑦, 𝑧, 𝜃, 𝜙 → ( 𝑟, 𝑔, 𝑏 , 𝜎) 座標と向きから色と密度を推定 5

Related Works Text To 3D DreamFusion [B. Poole et al., 2022] • サンプリングしたカメラ視点からのNeRFレンダリング画像を取得し，ノイズを付与する • ノイズをかけた画像とテキストプロンプトから訓練済みのDiffusion Modelによる逆拡散過程により，ノイズ推定 • 実際に付与されたノイズとの誤差よりNeRF Networkを訓練損失関数(SDS Loss): 6

Related Works MAV3D [U.Singer et al., 2023] TextTo4Dに取り組んだ最初の研究 MAV3Dの構成 static 3Dの学習と，HexPlane [A. Cao et al., 2023]を⽤いた動きの学習に分ける品質⾯でさまざまな問題を抱えている画像⼊⼒には⾮対応 7

Method Dream-In-4Dの構成 • 学習ステップを①Static Stage② Dynamic Stageの2段階に分割 – ①Static Stage: ⾼品質な3D表現を3D & 2D Diffusion Guidanceを⽤いて⾏う – ②Dynamic Stage: Video Diffusion Guidanceによって動きの表現を獲得 • 動きの表現にHexPlaneでなく，D-NeRF [A. Pumarola et al., 2020]を⽤いる – Static Representationとentangledな変形場のHexPlaneでは動きと3D表現を分離できない 8

Method Static Stage このフェーズの⽬標はテキストプロンプトに合致する⾼品質な3D表現の獲得 • • 3D表現獲得のために, 多重解像度ハッシュ符号化表現によるNeRFを採⽤(TextTo3Dの先⾏研究でよく⽤いられる⼿法) NeRFには，3D表現以外に，⽴体オブジェクトの動きを表現する変形場(deformation field)を付随させる 3D表現に求められる要件 • view-consistent(free of the Janus Problem)であること – 変形場における異なる視点からのviewの⽭盾を減らす • テキストプロンプトに記述された空間構成と⼀致していること – 複数の物体の合理的な空間のレイアウトを提⽰することでmotion学習の難易度を下げる Janus 9

10.

Method Static Stage 3D表現の獲得のために，3D Diffusion Modelと2D Diffusion Model両⽅のガイダンスを利⽤ 3D Diffusion Modelは，①textまたはimage⼊⼒と②カメラパラメータより新たな視点画像を⽣成学習の際には4つの異なる視点からのviewによるdiffusion guidanceを⽤いて学習 3D Diffusion Modelは, datasetの限られたscaleと，合成的性質により，これによってのみ学習されたNeRF Modelは合成的な⾒た⽬のobjectしか⽣成できず，⾃然なimageが⽣成できない場合が存在 →⼤規模な2D Imageによって訓練された2D Diffusion Modelは⾃然な⾒た⽬と合理的なレイアウトを⽣成可能 →2D Diffusion ModelだけではJanus Problemに陥るため，3Dと2D 両⽅のdiffusion guidanceを利⽤(SDS 損失を⽤いる) 10

11.

Method Dynamic Stage このフェーズの⽬標は，Static Stageによって⽣成された3D表現に動きを与える変形場の学習 NeRF Networkは固定し，テキストプロンプトに⼀致する動きを与える変形場をVideo Diffusion Guidanceを⽤いて学習 Video Diffusion Modelのみだと，動作表現の獲得はできるものの3次元物体の整合性を考慮できず，低品質な映像を⽣成する場合がある →3D表現にはStatic Stageで獲得したNeRF(固定)を⽤いることにより，⾼品質な映像⽣成を可能にする 11

12.

Method Dynamic Stage Motion-Disentangled 4D Representation 𝐷 𝒙! , 𝑡 → 𝒙" 𝑥! は変形場(deformation field)における時間𝑡の座標，𝑥" は正準空間における𝑥! と対応する座標変形場は空間的にも時間的にも滑らかであると仮定を置けるため，正準NeRFよりも少ない解像度の特徴グリッドで良いとみなせることより，最⼤解像度を⼩さくした4D多重解像度ハッシュ符号化特徴グリッドを⽤いる学習の際，静的なカメラパラメータをサンプリングし，⼀定間の4D表現をレンダリングし， Video diffusion guidanceを⽤いて，RGB空間と潜在空間両⽅で損失関数を計算 12

13.

Method Dynamic Stage Motionの空間的，時間的な揺らぎを低減するための損失関数(𝐷は変位) Dynamic Stageにおける最終的な損失関数 13

14.

Method Img To 4D テキストプロンプトではなく，画像を⼊⼒として4D表現を⽣成したい場合がある Static StageにおけるDiffusion Modelをimage conditionedなモデルに置き換えるだけで実装可能 A cartoon dragon is running. A rabbit is eating lettuce. 14

15.

Result HexplaneとD-NeRFを用いた本手法の違い 2D & 3D Diffusion Guidanceの有効性 2D & 3D 両方のguidanceにより自然なテクスチャでview-consistentな生成 15

16.

Result 被験者試験による評価被験者による評価において，MAV3Dに対する優位性， ablation studyによる各手法の有効性が確認された 16

17.

Result レンダリング結果 Hexplane w/o 2D diffusion w/o motion reg. w/o multi resol. ours 提案手法が最も自然なレンダリングを実現している 17

18.

Conclusions 結論 • • テキスト⼊⼒または画像⼊⼒から，時間変化する3次元表現(4D)を⽣成する⼿法”Dream-in-4D”を提案した 3D&2D Diffusion Guidanceによる静的表現の獲得，Video Diffusionによる変形場の獲得と，4D 表現の学習を分解することにより⾼品質な⽣成を達成 Limitations • 特定のプロンプトでは失敗する(e.g. a robot playing the violin) – 間違った静的表現から修正することができないため感想途中からオブジェクトが分裂したり，オブジェクトが消えるような映像は難しい？ 18