【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVPR2023.

221 Views

August 23, 23

#deep learning #Deep Learning #Stereo Pairs #Novel Views #Rendering Learning #Wide-Baseline

スライド概要

2023/8/18
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] 2023.08.18 Learning to Render Novel Views from Wide-Baseline Stereo Pairs Presenter: Yuki Kondo (Ukita Lab., Toyota Technological Institute) http://deeplearning.jp/ Yuki Kondo @ TTI 1

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 2

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 3

書誌情報 • 論文名 Learning to Render Novel Views from Wide-Baseline Stereo Pairs (CVPR2023) • 著者 Yilun Du1, Cameron Smith1, Ayush Tewari1†, Vincent Sitzmann1† 1 MIT † indicates equal advising. • URL 論文※： https://openaccess.thecvf.com/content/CVPR2023/html/Du_Learning_To_Render_Novel_Views_From_ Wide-Baseline_Stereo_Pairs_CVPR_2023_paper.html プロジェクトページ：https://yilundu.github.io/wide_baseline/ コード：https://github.com/yilundu/cross_attention_renderer ※出典が明記されていない図表は当論文および上記プロジェクトページより引用 4

実験結果概要ステレオペアからの新規ビュー生成結果 https://yilundu.github.io/wide_baseline/img/teaser.m4v (最終閲覧日：2023/8/11) 5

https://yilundu.github.io/wide_baseline/img/teaser.m4v

本論文の目標・貢献【目標】複雑なジオメトリ・遮蔽を持つ挑戦的な現実のシーンに対し，ベースラインが広いステレオペアから，ジオメトリを担保した高品質な新規ビュー生成(NVS) を実現する．【貢献】 1. カメラポーズ情報を入力し，ステレオペアから特徴量抽出する Multi-view Transformer 2. エピポーラ幾何を応用したジオメトリ担保と高効率化を実現するサンプル法 3. サンプリングされた特徴量をCross attentionによって修正する Neural Renderer 6

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 7

単一シーンボリューメトリックアプローチ • NeRF [B. Mildenhall+ECCV2020] などのニューラル場を形成し，ボリューム・レンダリングを用いるアプローチが近年は主流． • 長所：フォトリアリスティックなビュー合成が可能 • 短所：3Dシーンを高密度にサンプリングするために数百枚の入力画像を必要とする． ⇒ 学習された事前分布を用いることで，必要画像枚数を3~10枚程度に減らすことが可能． (RegNeRF [M. Niemeyer+CVPR2022]) • 主な課題：レイごとに数百のサンプリングをするため，計算コストが高い． • 対処：オクトツリーやハッシュテーブルのようなスパースなデータ構造の活用により，高速化を実現．しかし，学習された事前分布と一緒に使うことは容易でない．提案手法： • 単一ワイドベースラインステレオ画像のみを用いる，異なる問題設定． • テスト時にシーンごとの最適化を不要とし，その代わり1回のフォワードパスでシーンを再構成する． • 数百枚入力のシーンごとの最適化手法の品質に到達はしないが，非常に疎な画像観測からのNVSに大きな進歩を与える． 8

エピポーラ幾何の応用 (論文中に引用されていない先行研究も紹介) NVS： [M. Suhail+ ECCV2022] Depth estimation： DepthFormer [V. Guizilini+ CVPR2022] NVS from a single image： [H. Y. Tseng+ CVPR2023] NVSや複数の画像を利用するタスクでエピポーラ幾何は有効性を示している 9

10.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 10

11.

提案手法概要 • ワイドベースラインステレオペアから，ジオメトリを担保した高品質なNVSを実現する手法 1. カメラポーズ情報を入力し，ステレオペアから特徴量抽出する Multi-view Transformer 2. エピポーラ幾何を応用したジオメトリ担保と高効率化を実現するサンプル法 3. サンプリングされた特徴量をCross attentionによって修正するNeural Renderer 11

12.

1. Multi-View ViT Encoder • 従来のエンコード法：ViTやCNNで画像を個別に処理． ⇒コンテキスト画像間の境界領域でアーティファクトが発生する． • 提案手法： • 一貫性のあるジオメトリ再構成のために，共同処理を導入．具体的にはセルフアテンション層で，それぞれの Viewのすべてのトークンを処理する． • 外部カメラパラメータを加えることで，効果的な帰納バイアスとして機能させている． • 高周波テクスチャ情報の保持のために，浅いCNNで得た高解像度画像特徴量を連結させる． 12

13.

2. Image-Centric Epipolar Line Sampling • 従来のレンダリング法：3D空間上で粗い一様サンプルと表面近傍に分布する細かいサンプルから計算．⇒ 画素をそろえた特徴マップでは最適でない． • 提案手法： [ エピポーラ幾何に基づくサンプリングの式 ] • エピポーラ幾何に基づくサンプリング．レイを基準として，エピポーラ線を求め，それぞれのビューの特徴量からサンプリング ⇒ エピポーラ線に沿ったサンプリングのピクセル数は，最大有効サンプル数．このサンプリング戦略により，高品質・高効率なレンダリングを実現． 13

14.

3. Neural Rendering • 得たエピポーララインサンプルセットをマッピングする処理が必要． 2N • 提案手法： - 損失の正則化項に利用する指標 e : シーンの深さの大まかなアイデア 𝑑𝑘 : k番目のCross-Attention内のエピポーララインサンプルの深さ 𝛼𝑘 : k番目のCross-Attention内のソフトマックス重み • エピポーララインサンプルセットを Cross-Attention層で最終的な特徴埋め込みを得て，MLPを介してカラーマッピングを行う． • Target Ray TokensはQueryとして，浅いMLPで変換したを入力． • • • • • Key, Valueは2N(レイの深さ，プライマリ特徴量およびセカンダリ特徴量から構成されるタプル128セット)のレイ特徴量から，それぞれ2層MLPで取得． 14

15.

損失関数 • 損失関数は2項から構成される． • 第1項：レンダリング画像の差異を評価．ここでRはレンダリング画像，GはGT画像．は[R. Zhang+CVPR2018]を利用． • 第2項：レンダラーのCross-attentionの重みへの正則化：ここでeはu, v座標上での深さの期待値(実際の深さではないことに注意)，Nは u, v座標の近傍を定義する． 15

16.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 16

17.

実験概要 • データセット • RealEstate10k [T. Zhou+SIGGRAPH2018]:屋内と屋外のシーンの大規模なデータセット．学習用に 67477シーン，テスト用に7289シーンを利用． • ACID [A. Liu+ICCV2021] :屋外シーンの大規模なデータセット．トレーニング用に 11075 シーン，テスト用に 1972 シーンを利用． • データ拡張 • 入力画像とターゲット画像を中心にトリミング，拡大縮小． • 画像反転 17

18.

屋内外シーンのニューラルレンダリング [定性結果] ACID RealEstate10K • 実質的なオクルージョンを持つ屋内シーンや深さに際限のない屋外シーンに対するNVSにおいて，高い忠実度でレンダリングを実現し，すべての既存手法を上回るパフォーマンスを発揮 18

19.

屋内外シーンのニューラルレンダリング [定量結果] • 提案手法は，すべての指標ですべてのベースラインを上回る． 19

20.

中間ビューのNVS[定性結果] • 画像間の重なりが非常に限られている場合でも，入力画像とは大幅に異なる中間ビューの合成が可能 20

21.

Ablation study • Base Model の構成 • 2D エピポーララインサンプリングの代わりに，3D で点を均一にサンプリング • ジオメトリを調整するためのビュー間対応一致を使用しない • マルチビューエンコーダの代わりに単眼エンコーダを使用 • 正則化損失を利用しない • データ拡張を利用しない • 結果 • ほとんどの提案手法の構成要素が有効に機能． • 正則化損失でPSNRは減少するが，マルチビューの一貫性が向上し，SSIMとLPIPSは向上する． (近傍の滑らかさ制約のため，SSIMとは相性がいいはず) 21

22.

レンダリング品質とレンダリング速度 • 提案手法はレンダリング品質とレンダリング速度の間で最適なトレードオフを実現 • エピポーラサンプル数を48に減らしたFasterは，より高速なレンダリングを実現． 22

23.

エピポーラアテンションウェイトの可視化 • エピポーラサンプルの深度の期待値は，代理深度として見ることができ，シーンの基礎となるジオメトリにほぼ対応している． • ボリュームレンダラーではないため，正しいレンダリングのためにこれらのアテンションウェイトは実際の深度に正確に対応する必要はない． 23

24.

ポーズ不明のWilde画像からのNVS • SuperGlueで入力画像間の対応関係を取得，内部カメラパラメータをRealEstate10kの値とし， RANSACを利用して，対応関係から基本行列，基礎行列を求め，利用． • 下図はインターネットの画像を使用したいくつかの自然のシーンの結果． 24

25.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 25

26.

結論・所感 [ Limitation ] • より多くの画像を使用して単一のシーンを最適化する方法で得られるものと同じ品質ではない． • トレーニングシーンと比較して外観が大きく異なる新しいシーンにはうまく一般化されない． ⇒ いずれも事前分布に大きく依存する問題であるが，多様なデータセットでの大規模なトレーニング戦略に適した手法であるため，様々なシーンへの適応が可能になることが期待される． [ 結論 ] • 単一のワイドベースラインステレオペアからの暗黙的な 3D 再構成とNVSの手法を提案． • 困難なシーンのデータセットに対する先行研究の品質を上回る． • レンダリング速度と品質のトレードオフに対し，最適な結果を示した． [ 所感 ] • エピポーラ幾何制約の有効性が複数の研究で報告されている．複数視点条件下の様々なタスクへの応用が期待できる． • 単一画像からのNVSの研究 [E. R. Chan+ICCV2023]も発表されたため，こちらも要注目． [E. R. Chan+ICCV2023] https://nvlabs.github.io/genvs/media/co3d.mp4#t=1 26

https://nvlabs.github.io/genvs/media/co3d.mp4#t=1