【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2023]

509 Views

April 14, 23

#@deep learning jp #Deep Learning #Diffusion model #Radiance Field #3D geometry #image synthesis

スライド概要

2023/4/14
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.6K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.1K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 48.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] DiffRF: Rendering-guided 3D Radiance Field Diffusion Presenter: Yuki Kondo 2023.04.14 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 2

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 3

書誌情報 • 論文名 DiffRF: Rendering-guided 3D Radiance Field Diffusion (CVPR2023 Highlight) • 著者 Norman Muller1,2, Yawar Siddiqui1,2, Lorenzo Porzi2, Samuel Rota Bulo2, Peter Kontschieder2, Matthias Nießner1 Technical University of Munich1, Meta Reality Labs Zurich 2 • URL 論文※：https://sirwyver.github.io/DiffRF/static/assets/DiffRF.pdf プロジェクトページ：https://sirwyver.github.io/DiffRF/ コード：非公開 Video : https://www.youtube.com/watch?v=qETBcLu8SUk ※出典が明記されていない図表は当論文および上記プロジェクトページより引用 4

論文概要 • Diffusion model + Radiance Field • Volumetric radiance fieldを直接操作する初のDiffusion model ⇒ 微細なフォトメトリック, ジオメトリックを表現したRadiance field priorを獲得． https://sirwyver.github.io/DiffRF/static/method/method_cut.mov (最終閲覧日：2023/4/11) 5

https://sirwyver.github.io/DiffRF/static/method/method_cut.mov

実験結果概要合成データセットでの無条件生成 3次元マスク補間 (新タスク) https://sirwyver.github.io/DiffRF/static/results/abo_res.mov (最終閲覧日：2023/4/11) https://sirwyver.github.io/DiffRF/static/masking/masking_examples.mov (最終閲覧日：2023/4/11) 単一画像からのボリューム合成 https://sirwyver.github.io/DiffRF/static/real/real0.mov (最終閲覧日：2023/4/11) 6

本論文の貢献 1. 3D radiance fieldを直接操作する初めてのDiffusion modelを提案 ⇒ 高品質かつリアリスティックな3Dジオメトリと画像合成を実現 2. 3D radiance field上でのマスク補間の新たな応用の紹介 ⇒ Image inpaintingタスクを3D空間に拡張したものと解釈可能 3. 難易度の高いPhotoShape Chairs データセット [K. Park+ ACM Trans. Graph. 2018] において，画質 (FID)および形状合成 (MMD)で，GAN ベースのアプローチを超えるスコアを達成． 7

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 8

Diffusion model • Denoising Score Matching (DSM) [Y. Song+ NeurIPS2020] や Denoising Diffusion Probabilistic Models (DDPM) [J. Ho+ arXiv2020] などの総称． • データからノイズに変換する拡散過程と，ノイズを除去し，データを復元する逆拡散過程によって，潜在変数モデルに基づく生成モデルを得る． • ホットトピックで多くの説明資料があるため，詳細は割愛．参考文献として以下を挙げる． • • • • L. Yang et al. Diffusion Models: A Comprehensive Survey of Methods and Applications. arXiv2022. F. A. Croitoru et al. Diffusion Models in Vision: A Survey. TPAMI2023. 岡野原大輔. 拡散モデルデータ生成技術の数理. 岩波書店. nnabla. 【Deep Learning研修(発展)】データ生成・変換のための機械学習第7回 • https://www.youtube.com/watch?v=10ki2IS55Q4 (最終閲覧日：2023/4/11) • https://www.youtube.com/watch?v=9Eu8WvKmkRA (最終閲覧日：2023/4/11) DDPM [J. Ho+ arXiv2020] 9

10.

Diffusion modelの応用 [ ガイド付き画像生成 ] SDEdit [C. Meng+ ICLR2022] GLIDE [A. Nichol+ arXiv2021] 大羽さんの輪読会資料：https://www.slideshare.net/DeepLearningJP2016/dlsdedit-guidedimage-synthesis-and-editing-with-stochastic-differential-equations (最終閲覧日：2023/4/11) Zhangさんの輪読会資料：https://www.slideshare.net/DeepLearningJP2016/dlglideguided-language-to-image-diffusion-for-generation-and-editing (最終閲覧日：2023/4/11) [ その他の応用 ] 分子予測： DGSM [S. Luo+ NeurIPS2021] 動画生成： Video Diffusion Models [J. Ho+ arXiv2022] https://video-diffusion.github.io/ (最終閲覧日：2023/4/11) GANと比較し，学習が安定的で生成品質も高い研究事例が多数報告 10

11.

3D生成ホットトピックで多くの説明資料があるため，詳細は割愛 Radiance Fieldを用いた Volumetric rendering 生成モデル [ Implicit neural representation ] GAN 𝜋-GAN [E. Chan+ CVPR2021] NeRF [B. Mildenhall+ ECCV2020] 土井さんの輪読会資料：https://www.slideshare.net/DeepLearningJP2016/dlnerfrepresenting-scenes-as-neural-radiance-fields-for-view-synthesis (最終閲覧日：2023/4/11) [ Explicit voxel grid representation ] Diffusion model GAUDI [M. A. Bautista+ NeurIPS2022] (赤点線を追加) RenderDiffusion [T. Anciukevicius+ arXiv2022] (赤線を追加) Direct Voxel Grid Optimization [C. Sun+ CVPR2022] いずれも，Radiance fieldを形成するための因子にノイズを加え (赤点線内)，拡散，逆拡散を適用．提案手法：Regiance fieldで直接拡散モデルが動作 ⇒ 形状補間タスクを直接可能にする 11

https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis

12.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 12

13.

提案手法概要 • DDPM [J. Ho+ arXiv2020] をベースとした3Dオブジェクト生成モデル 1. Radiance field : Voxel gridベースでRadiance fieldを生成 2. Radiance fieldの生成モデル化 : Radiance fieldに直接，拡散・逆拡散過程を処理． 3. 損失関数：拡散モデルに用いられるノイズ除去の損失に加え， Photometricなレンダリング画像への損失関数を追加． 13

14.

1. Radiance field • 明示的なVoxel grid表現を利用． • 高速な学習・推論が可能 • 良好なレンダリング品質を実現 • Voxel gridの次元：4次元 (グリッド空間(3次元)+色・密度インデックス (1次元)) • Voxel grid (離散化)表現に対する連続表現の値要求： • バイリニア補間で獲得 † ． † Related worksでは，先行研究のCNNによるアップサンプリングは，畳み込みが同じオブジェクトの異なるビューに対し，異なる処理をするため，ジオメトリの不整合が生じると論じている． 14

15.

2. Radiance fieldの生成モデル化 [拡散過程] • 「固定サイズの平坦化された4次元テンソル」として表現される，全ての可能な事前活性化 Radiance field の状態空間 𝑭 上で定義される離散時間マルコフ連鎖に支配されるとする (赤字が従来手法の問題設定との違い) ． • 𝑓0から𝑓𝑡へ徐々にノイズが印加される．すなわち下図において， 𝑓0 = 𝑥0 , 𝑓𝑡 = 𝑥𝑡 ． • 従来のDiffusion modelと同様に，徐々にデータにノイズを追加するマルコフ過程を考える． 𝛼𝑡 = 1 − 𝛽𝑡 , 0 ≤ 𝛽𝑡 ≤ 1はノイズ変動スケジュールを設定するハイパーパラメータ． • こちらも従来と同様，正規分布の再生性より，任意の時刻 𝑡 のノイズサンプリングが可能． 𝛼ത𝑡 = ς𝑡𝑖=1 𝛼𝑖 はノイズ変動スケジュールを設定するハイパーパラメータ．． 15

16.

2. Radiance fieldの生成モデル化 [逆拡散過程] • 用いるネットワークは3D-UNet [P. Dhariwal and A. Nichol NeurIPS2021]． • 逆拡散過程も従来手法に踏襲．共分散行列Σ𝑡 = 𝛽𝑡2 ഥ𝑡 2𝛼𝑡 1−𝛼 は多くの手法と同様に固定値として事前定義し，ネットワークは𝜖𝑡 を求めることで，平均 𝜃𝑡 が得られる．また𝑎𝑡 = 1 ,𝑏 𝛼𝑡 𝑡 = 𝛽𝑡 とする． ഥ𝑡 1−𝛼 16

17.

3. 損失関数 [Radiance field generation loss] • DDPM [J. Ho+ arXiv2020]に従い，ELBO最大化による最尤推定で最適化する． • ここで𝜙(𝜖) = 𝒩(𝜖|0, 𝐼)はノイズの多変量正規分布を示す． 17

18.

3.損失関数 [Radiance field rendering loss] • 生成されたRadiance fieldのレンダリング品質向上のため，Radiance field rendering lossを追加． ⇒ 実際，Radiance field generation lossだけでは，レンダリング時のアーティファクト抑制を保証しきれない． • 𝐿𝑡𝑅𝐺𝐵 (𝑓0 |𝜃)について • 視点𝑣からRadiance field 𝑓をボリュームレンダリングした画像𝑅(𝑣, 𝑓)とGT画像𝐼とのユークリッド距離を求める． • しかし，拡散，逆拡散過程で計算量が多いため， 𝐿𝑡𝑅𝐹 の定義よりを仮定し， 𝑡 近似値を導ける．これに基づき， 𝐿𝑅𝐺𝐵 (𝑓0 |𝜃)を以下とする． 18

19.

3. 損失関数 [最終的な損失関数] • 最終的な損失関数：Radiance field rendering lossとRadiance field generation lossの線形結合． • 一様分布𝜅からステップ𝑡をサンプリングした期待値と比例関係にある． 19

20.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 20

21.

実験概要 • データセット • PhotoShape Chairs : 200ビューから15,576の椅子をレンダリング． • Amazon Berkeley Objects (ABO) Tables dataset : 1,676枚のテーブル画像 (ビューは不明)． • 主なハイパーパラメータ • Voxel grid の解像度：323 ⇒ 出力画像解像度：128x128 • ステップ数：1000 • 評価指標 • 画像品質 • Frechet Inception Distance (FID) • Kernel Inception Distance (KID) • ジオメトリ品質 • Coverage Score (COV) : サンプルのジオメトリの多様性を計測． • Chamfer Distance (CD) を用いたMinimum Matching Distance (MMD) : サンプルのジオメトリ品質を評価． 21

22.

無条件のRadiance field 合成 [定量評価] • GANベースの手法と比較し，明示的にRadiance field 表現を得るため， • 幾何学的な品質と多様性を飛躍的に向上． • Rendering lossはFIDに顕著な影響を与える (w/o 2Dと比較) ． 22

23.

無条件のRadiance field 合成 [定性評価] • PhotoShape Chairs の結果のみ抜粋． • EG3D は良好な画質を実現するが，不正確な形状やアーティファクトを発生させる． • DiffRFは微細なフォトメトリック, ジオメトリックを持つRadiance fieldを生成する． 23

24.

条件付き生成 [マスクされたRadiance fieldの補間] • Diffusion modelの追加学習をせずに条件付けできる特性を用い，新たなタスク「マスクされたRadiance fieldの補間」を評価する． • RePaint [A. Lugmayr+ CVPR2022]に触発され，サンプリングプロセスを介して，徐々に既知の Radiance fieldに誘導することで，条件付き補間を行う． 𝑚: バイナリマスク,⊙∶ 要素積 24

25.

条件付き生成 [マスクされたRadiance fieldの補間：結果] • 実験概要：様々なマスクレベルの200サンプルに対してテスト．FIDと非マスク領域の PSNR (mPSNR)を評価． • 定量評価結果：EG3Dは単一の潜在変数表現で非マスク領域の構造を保持することが難しい．全体表現を壊さないためには正則化 (明示的なVoxel grid表現など)が重要． • 定性評価：非マスク領域の構造がDiffRFでは保持されている． 25

26.

条件付き生成 [単一画像からのボリューム合成] • [ P. Dhariwal and A. Nichol NeurIPS2021 ]のClassifer Guidanceの定式化を採用し，オブジェクトマスクを持つ画像に，レンダリングエラーを最小化するよう，逆拡散過程をガイドする． • 左図：ScanNetの椅子を使た単一画像再構成結果． • 右図：CLIP-embeddingsで条件付けとしたモデル結果． 26

27.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 27

28.

結論・所感 [ Limitation ] • GANベースの手法と比較し，十分な数のビューポーズが必要． • 対処：より高速なサンプリング手法の活用． • 学習時のメモリ制約により，グリッド解像度に制約がある． • 対処：適応的または疎なグリッド構造の活用， Factorized neural fields representationsの活用． [ 結論 ] • Diffusion modelのノイズ除去に基づく3D Radiance field合成のためのDiffRFを提案． DiffRFはVolumetric radiance fieldを直接操作する最初の生成的拡散ベースの手法． • GANベースのアプローチと比較し，条件付きおよび無条件の3D生成タスクで有効性を示した [ 所感 ] • シンプルな手法のため，3次元空間を扱う他のタスクへの応用・拡張可能性が高い． • 近日公開されたGeNVS [E. R. Chen+ arXiv2023]も非常に高品質な3D表現を生成しており，この手法は2D画像空間でDiffusion modelを適用している．どの表現にDiffusion modelを適用するべきかという議論が，これからさらに活発になっていくと予想される． 28