1.5K Views
May 21, 24
スライド概要
DL輪読会資料
CAT3D: Create in 3DSession DL Hacks 2021Anything Introductory with Multi-View Diffusion Models 竹田悠哉 東京大学 大学院工学系研究科 Alfredo Solano, Matsuo Laboratory M2
書誌情報 • 公開日:2024/5/16 • 著者:Ruiqi Gao, Aleksander Holynski, Philipp Henzler, Arthur Brussee, Ricardo Martin-Brualla, Pratul Srinivasan, Jonathan T. Barron, Ben Poole • プロジェクトページ:https://cat3d.github.io/ • 備考:DeepMind、Google Researchによる研究 2
概要 • 任意の入力(∀𝑛 ≥ 0 の入力画像)とターゲットとなる新規視点の セットに対し、一貫したビューを生成 – 動画生成モデルが尤もらしい新規の3Dシーンを一貫性を保って作れるので、 マルチビュー生成もうまくいくのではないか • CAT3Dはそのビューを利用し、1分で高品質な3Dシーン全体を作成 3
背景 • 詳細な3Dシーンには数百〜千枚の画像が必要 • 単一or少数画像からの生成は、品質、効率、一般性に限界がある 特殊なケースでは、Reconfusion(画像条件付け)、 DreamFusion(テキスト条件付け)などがある • また、動画生成にも以下のような問題がある – サンプリングコストが高い – コントロールが困難 – 大抵、スムーズで短いカメラ軌道に限定される 4
関連研究 • Video diffusioモデルは3Dについて暗黙に学習するとされる • しかし、カメラの正確なコントロールができないため、 3D生成に使用するのは困難 – カメラの動きだけでシーンのダイナミクスがない動画は生成できない • カメラ軌道を固定 – AnimateDiff(LoRA) – MotionCtrl(条件付け) • 新規ビュー生成との組み合わせ – Vivid-1-to-3 5
手法 6
手法 • マルチビュー拡散モデルの学習 – M枚の条件付きビューが与えられたとき、 N枚のターゲット画像の同時分布を学習 – アーキテクチャ • Video LDMで、時間埋め込みの代わりに各画 計算のオーバーヘッドが多く、性能にもあまり 寄与しないので、32以下で3D Self-Attentnionに 像に対してカメラポーズを埋め込む • • VAE(512 × 512 × 3 → 64 × 64 × 8) • MVDreamのように、1Dではなく、 3D(2D空間+画像間)のSelf-Attentionを使用 動画生成と同じくバックボーンは2Dのまま だが、複数の入力画像の潜在変数を結合する ための層を追加 – ReconFusionのPixel NeRFとCLIP画像 埋め込みが不要になることを発見 7
手法 • マルチビュー拡散モデルの学習 – 先行研究で言われているように、高次元のデータを捉えるために、ノイズス ケジュールを高レベルのノイズにシフトするのが重要だった • log(S/N比)をlog (対象画像数)だけシフト – 複数の3D生成設定に対応するため、合計8つのビューとターゲットを学習 • N + M = 8 (N=1,2,3) – カメラ条件付け • raymapを使用 8
手法 • 新規ビューの生成 – オブジェクト再構成と違い、シーン生 成ではカバーすべきビューが複雑 – 経験的に4つの経路を設計 • 中心シーン周辺のスケールと高さの異なる 軌道経路 • • • 異なるスケールとオフセットの前方円軌道 異なるオフセットのスプライン経路 シーンへの出入りする円柱経路 9
手法 • ロバストな3次元再構成 – 標準的なNeRFの学習手順を修正し、矛盾した入力ビューに対する頑健性を 向上させる – Zip-NeRFで再構成 • 学習では、測光再構成損失、歪み損失、レベル間損失、正規化L2重み正則化器の和を最 小化 • • レンダリング画像と入力画像の間にLPIPSを含む 16 A100 GPU 10
手法 未知の領域もそれらしく生成 11
実験 • カメラポーズアノテーションを持つ4つのデータセットで、CAT3Dの マルチビュー拡散モデルを学習 – Objaverse – CO3D – RealEstate10k – MVImgNet 12
実験 DTU OOD OOD 13
実験 • 単一画像からの生成 14
実験 • アブレーション – 3D Self Attention(時空間)とカメラポーズのraymap埋め込みを持つビデオ拡散 アーキテクチャと、ロバストな再構成損失と組み合わせたときに、一貫した ビューを生成 15
考察(Limitation) • 学習モデルは、入力ビューが異なるintrinsicsを持つ複数のカメラによ ってキャプチャされるテストケースをうまく処理できない – 学習データセットは同じシーンのビューに対してほぼ一定のカメラintrinsics を持つため • シーンがOODの場合もパフォーマンスが低下 • 大規模化 – 大きなサンプルセットを生成するとき、すべてのビューが互いに3D整合して いるとは限らない – オープンエンド3D環境のために設計することは困難 16
Gallery 実装は非公開だが、 プロジェクトページ に加えてギャラリー まで存在 https://cat3d.github.io/gallery.html 17