1K Views
July 02, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] “A Unified Approach for Text- and Image-guided 4D Scene Generation” Kai Yamashita, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 A Unified Approach for Text- and Image-guided 4D Scene Generation Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar Hilliges, Shalini De Mello Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7300̶7309, 2024. 選定理由: CVPR2024のhighlightsに選出されていることと,4D Generationという分野に興味を持ったため 2
Summary • • text promptや数枚の画像⼊⼒をもとにした4D⽣成 3つの拡散ガイダンスと,2つの学習ステージによる提案⼿法”Dream-in-4D”により,⾼いプロン プトの⼀致性,動作の品質,動画の質といった点において⾼い性能を達成した 3
Background • Diffusion Modelによる,visulal contents⽣成の⺠主化 • 2D画像だけでなく,3Dコンテンツの⽣成も可能に • AR/VRなどでの利⽤を考えると,静的な3Dは不⼗分,動的な3D表現(4D)が求め られる 4
Related Works NeRF(Neural Radiance Field) [B. Mildenhall et al., 2020] NeRFの手法 NeRFによるレンダリング 𝑥, 𝑦, 𝑧, 𝜃, 𝜙 → ( 𝑟, 𝑔, 𝑏 , 𝜎) 座標と向きから色と密度を推定 5
Related Works Text To 3D DreamFusion [B. Poole et al., 2022] • サンプリングしたカメラ視点からのNeRFレンダリング画像を取得し,ノイズを付与する • ノイズをかけた画像とテキストプロンプトから訓練済みのDiffusion Modelによる逆拡散過程により,ノイズ推定 • 実際に付与されたノイズとの誤差よりNeRF Networkを訓練 損失関数(SDS Loss): 6
Related Works MAV3D [U.Singer et al., 2023] TextTo4Dに取り組んだ最初の研究 MAV3Dの構成 static 3Dの学習と,HexPlane [A. Cao et al., 2023]を⽤いた動きの学習に分ける 品質⾯でさまざまな問題を抱えている 画像⼊⼒には⾮対応 7
Method Dream-In-4Dの構成 • 学習ステップを①Static Stage② Dynamic Stageの2段階に分割 – ①Static Stage: ⾼品質な3D表現を3D & 2D Diffusion Guidanceを⽤いて⾏う – ②Dynamic Stage: Video Diffusion Guidanceによって動きの表現を獲得 • 動きの表現にHexPlaneでなく,D-NeRF [A. Pumarola et al., 2020]を⽤いる – Static Representationとentangledな変形場のHexPlaneでは動きと3D表現を分離できない 8
Method Static Stage このフェーズの⽬標はテキストプロンプトに合致する⾼品質な3D表現の獲得 • • 3D表現獲得のために, 多重解像度ハッシュ符号化表現によるNeRFを採⽤(TextTo3Dの先⾏研究で よく⽤いられる⼿法) NeRFには,3D表現以外に,⽴体オブジェクトの動きを表現する変形場(deformation field)を付随 させる 3D表現に求められる要件 • view-consistent(free of the Janus Problem)であること – 変形場における異なる視点からのviewの⽭盾を減らす • テキストプロンプトに記述された空間構成と⼀致していること – 複数の物体の合理的な空間のレイアウトを提⽰することでmotion学習の難易度を下げる Janus 9
Method Static Stage 3D表現の獲得のために,3D Diffusion Modelと2D Diffusion Model両⽅のガイダンスを利⽤ 3D Diffusion Modelは,①textまたはimage⼊⼒と②カメラパラメータより新たな視点画像を⽣成 学習の際には4つの異なる視点からのviewによるdiffusion guidanceを⽤いて学習 3D Diffusion Modelは, datasetの限られたscaleと,合成的性質により,これによってのみ学習されたNeRF Modelは合成的な⾒た⽬のobjectしか⽣成できず,⾃然なimageが⽣成できない場合が存在 →⼤規模な2D Imageによって訓練された2D Diffusion Modelは⾃然な⾒た⽬と合理的なレイアウトを⽣成可能 →2D Diffusion ModelだけではJanus Problemに陥るため,3Dと2D 両⽅のdiffusion guidanceを利⽤(SDS 損失 を⽤いる) 10
Method Dynamic Stage このフェーズの⽬標は,Static Stageによって⽣成された3D表現に動きを与える変形場の学習 NeRF Networkは固定し,テキストプロンプトに⼀致する動きを与える変形場をVideo Diffusion Guidanceを⽤いて学習 Video Diffusion Modelのみだと,動作表現の獲得はできるものの3次元物体の整合性を考慮できず, 低品質な映像を⽣成する場合がある →3D表現にはStatic Stageで獲得したNeRF(固定)を⽤いることにより,⾼品質な映像⽣成を可能に する 11
Method Dynamic Stage Motion-Disentangled 4D Representation 𝐷 𝒙! , 𝑡 → 𝒙" 𝑥! は変形場(deformation field)における時間𝑡の座標,𝑥" は正準空間における𝑥! と対応する座標 変形場は空間的にも時間的にも滑らかであると仮定を置けるため,正準NeRFよりも少ない解像度の 特徴グリッドで良いとみなせることより,最⼤解像度を⼩さくした4D多重解像度ハッシュ符号化特 徴グリッドを⽤いる 学習の際,静的なカメラパラメータをサンプリングし,⼀定間の4D表現をレンダリングし, Video diffusion guidanceを⽤いて,RGB空間と潜在空間両⽅で損失関数を計算 12
Method Dynamic Stage Motionの空間的,時間的な揺らぎを低減するための損失関数(𝐷は変位) Dynamic Stageにおける最終的な損失関数 13
Method Img To 4D テキストプロンプトではなく,画像を⼊⼒として4D表現を⽣成したい場合がある Static StageにおけるDiffusion Modelをimage conditionedなモデルに置き換えるだけで実装可能 A cartoon dragon is running. A rabbit is eating lettuce. 14
Result HexplaneとD-NeRFを用いた本手法の違い 2D & 3D Diffusion Guidanceの有効性 2D & 3D 両方のguidanceにより自然なテクスチャ でview-consistentな 生成 15
Result 被験者試験による評価 被験者による評価において,MAV3Dに対する優位性, ablation studyによる各手法の有効性が確認された 16
Result レンダリング結果 Hexplane w/o 2D diffusion w/o motion reg. w/o multi resol. ours 提案手法が最も自然なレンダリングを実現している 17
Conclusions 結論 • • テキスト⼊⼒または画像⼊⼒から,時間変化する3次元表現(4D)を⽣成する⼿法”Dream-in-4D”を 提案した 3D&2D Diffusion Guidanceによる静的表現の獲得,Video Diffusionによる変形場の獲得と,4D 表現の学習を分解することにより⾼品質な⽣成を達成 Limitations • 特定のプロンプトでは失敗する(e.g. a robot playing the violin) – 間違った静的表現から修正することができないため 感想 途中からオブジェクトが分裂したり,オブジェクト が消えるような映像は難しい? 18