【拡散モデル勉強会】CAT3D: Create Anything in 3D with Multi-View Diffusion Models

4K Views

May 21, 24

#3Dシーン生成 #マルチビュー拡散モデル #Zip-NeRF #コンピュータビジョン #DeepMind

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 91K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 68K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 48K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.5K

各ページのテキスト

CAT3D: Create in 3DSession DL Hacks 2021Anything Introductory with Multi-View Diffusion Models 竹田悠哉東京大学大学院工学系研究科 Alfredo Solano, Matsuo Laboratory M2

書誌情報 • 公開日：2024/5/16 • 著者：Ruiqi Gao, Aleksander Holynski, Philipp Henzler, Arthur Brussee, Ricardo Martin-Brualla, Pratul Srinivasan, Jonathan T. Barron, Ben Poole • プロジェクトページ：https://cat3d.github.io/ • 備考：DeepMind、Google Researchによる研究 2

概要 • 任意の入力(∀𝑛 ≥ 0 の入力画像)とターゲットとなる新規視点のセットに対し、一貫したビューを生成 – 動画生成モデルが尤もらしい新規の3Dシーンを一貫性を保って作れるので、マルチビュー生成もうまくいくのではないか • CAT3Dはそのビューを利用し、1分で高品質な3Dシーン全体を作成 3

背景 • 詳細な3Dシーンには数百〜千枚の画像が必要 • 単一or少数画像からの生成は、品質、効率、一般性に限界がある特殊なケースでは、Reconfusion(画像条件付け)、 DreamFusion(テキスト条件付け)などがある • また、動画生成にも以下のような問題がある – サンプリングコストが高い – コントロールが困難 – 大抵、スムーズで短いカメラ軌道に限定される 4

関連研究 • Video diffusioモデルは3Dについて暗黙に学習するとされる • しかし、カメラの正確なコントロールができないため、 3D生成に使用するのは困難 – カメラの動きだけでシーンのダイナミクスがない動画は生成できない • カメラ軌道を固定 – AnimateDiff（LoRA） – MotionCtrl（条件付け） • 新規ビュー生成との組み合わせ – Vivid-1-to-3 5

手法 6

手法 • マルチビュー拡散モデルの学習 – M枚の条件付きビューが与えられたとき、 N枚のターゲット画像の同時分布を学習 – アーキテクチャ • Video LDMで、時間埋め込みの代わりに各画計算のオーバーヘッドが多く、性能にもあまり寄与しないので、32以下で3D Self-Attentnionに像に対してカメラポーズを埋め込む • • VAE（512 × 512 × 3 → 64 × 64 × 8） • MVDreamのように、1Dではなく、 3D(2D空間+画像間)のSelf-Attentionを使用動画生成と同じくバックボーンは2Dのままだが、複数の入力画像の潜在変数を結合するための層を追加 – ReconFusionのPixel NeRFとCLIP画像埋め込みが不要になることを発見 7

手法 • マルチビュー拡散モデルの学習 – 先行研究で言われているように、高次元のデータを捉えるために、ノイズスケジュールを高レベルのノイズにシフトするのが重要だった • log(S/N比)をlog (対象画像数)だけシフト – 複数の3D生成設定に対応するため、合計8つのビューとターゲットを学習 • N + M = 8 (N=1,2,3) – カメラ条件付け • raymapを使用 8

手法 • 新規ビューの生成 – オブジェクト再構成と違い、シーン生成ではカバーすべきビューが複雑 – 経験的に4つの経路を設計 • 中心シーン周辺のスケールと高さの異なる軌道経路 • • • 異なるスケールとオフセットの前方円軌道異なるオフセットのスプライン経路シーンへの出入りする円柱経路 9

10.

手法 • ロバストな3次元再構成 – 標準的なNeRFの学習手順を修正し、矛盾した入力ビューに対する頑健性を向上させる – Zip-NeRFで再構成 • 学習では、測光再構成損失、歪み損失、レベル間損失、正規化L2重み正則化器の和を最小化 • • レンダリング画像と入力画像の間にLPIPSを含む 16 A100 GPU 10

11.

手法未知の領域もそれらしく生成 11

12.

実験 • カメラポーズアノテーションを持つ4つのデータセットで、CAT3Dのマルチビュー拡散モデルを学習 – Objaverse – CO3D – RealEstate10k – MVImgNet 12

13.

実験 DTU OOD OOD 13

14.

実験 • 単一画像からの生成 14

15.

実験 • アブレーション – 3D Self Attention(時空間)とカメラポーズのraymap埋め込みを持つビデオ拡散アーキテクチャと、ロバストな再構成損失と組み合わせたときに、一貫したビューを生成 15

16.

考察（Limitation） • 学習モデルは、入力ビューが異なるintrinsicsを持つ複数のカメラによってキャプチャされるテストケースをうまく処理できない – 学習データセットは同じシーンのビューに対してほぼ一定のカメラintrinsics を持つため • シーンがOODの場合もパフォーマンスが低下 • 大規模化 – 大きなサンプルセットを生成するとき、すべてのビューが互いに3D整合しているとは限らない – オープンエンド3D環境のために設計することは困難 16

17.

Gallery 実装は非公開だが、プロジェクトページに加えてギャラリーまで存在 https://cat3d.github.io/gallery.html 17

https://cat3d.github.io/gallery.html