【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVPR2023.

139 Views

August 23, 23

スライド概要

2023/8/18
Deep Learning JP
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] 2023.08.18 Learning to Render Novel Views from Wide-Baseline Stereo Pairs Presenter: Yuki Kondo (Ukita Lab., Toyota Technological Institute) http://deeplearning.jp/ Yuki Kondo @ TTI 1

2.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 2

3.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 3

4.

書誌情報 • 論文名 Learning to Render Novel Views from Wide-Baseline Stereo Pairs (CVPR2023) • 著者 Yilun Du1, Cameron Smith1, Ayush Tewari1†, Vincent Sitzmann1† 1 MIT † indicates equal advising. • URL 論文※: https://openaccess.thecvf.com/content/CVPR2023/html/Du_Learning_To_Render_Novel_Views_From_ Wide-Baseline_Stereo_Pairs_CVPR_2023_paper.html プロジェクトページ:https://yilundu.github.io/wide_baseline/ コード:https://github.com/yilundu/cross_attention_renderer ※出典が明記されていない図表は当論文および上記プロジェクトページより引用 4

5.

実験結果概要 ステレオペアからの新規ビュー生成結果 https://yilundu.github.io/wide_baseline/img/teaser.m4v (最終閲覧日:2023/8/11) 5

6.

本論文の目標・貢献 【目標】 複雑なジオメトリ・遮蔽を持つ挑戦的な現実のシーンに対し,ベースラインが 広いステレオペアから,ジオメトリを担保した高品質な新規ビュー生成(NVS) を実現する. 【貢献】 1. カメラポーズ情報を入力し,ステレオペアから特徴量抽出する Multi-view Transformer 2. エピポーラ幾何を応用したジオメトリ担保と高効率化を実現する サンプル法 3. サンプリングされた特徴量をCross attentionによって修正する Neural Renderer 6

7.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 7

8.

単一シーン ボリューメトリックアプローチ • NeRF [B. Mildenhall+ECCV2020] などのニューラル場を形成し,ボリューム・レンダリングを 用いるアプローチが近年は主流. • 長所:フォトリアリスティックなビュー合成が可能 • 短所:3Dシーンを高密度にサンプリングするために数百枚の入力画像を必要とする. ⇒ 学習された事前分布を用いることで,必要画像枚数を3~10枚程度に減らすことが可能. (RegNeRF [M. Niemeyer+CVPR2022]) • 主な課題:レイごとに数百のサンプリングをするため,計算コストが高い. • 対処:オクトツリーやハッシュテーブルのようなスパースなデータ構造の活用により,高速化を 実現.しかし,学習された事前分布と一緒に使うことは容易でない. 提案手法: • 単一ワイドベースラインステレオ画像のみを用いる,異なる問題設定. • テスト時にシーンごとの最適化を不要とし,その代わり1回のフォワード パスでシーンを再構成する. • 数百枚入力のシーンごとの最適化手法の品質に到達はしないが,非常に 疎な画像観測からのNVSに大きな進歩を与える. 8

9.

エピポーラ幾何の応用 (論文中に引用されていない先行研究も紹介) NVS: [M. Suhail+ ECCV2022] Depth estimation: DepthFormer [V. Guizilini+ CVPR2022] NVS from a single image: [H. Y. Tseng+ CVPR2023] NVSや複数の画像を利用するタスクでエピポーラ幾何は有効性を示している 9

10.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 10

11.

提案手法概要 • ワイドベースラインステレオペアから,ジオメトリを担保した高品質なNVSを 実現する手法 1. カメラポーズ情報を入力し,ステレオペアから特徴量抽出する Multi-view Transformer 2. エピポーラ幾何を応用したジオメトリ担保と高効率化を実現するサンプル法 3. サンプリングされた特徴量をCross attentionによって修正するNeural Renderer 11

12.

1. Multi-View ViT Encoder • 従来のエンコード法:ViTやCNNで 画像を個別に処理. ⇒コンテキスト画像間の境界領域で アーティファクトが発生する. • 提案手法: • 一貫性のあるジオメトリ再構成のため に,共同処理を導入.具体的には セルフアテンション層で,それぞれの Viewのすべてのトークンを処理する. • 外部カメラパラメータを加えることで, 効果的な帰納バイアスとして機能 させている. • 高周波テクスチャ情報の保持のために, 浅いCNNで得た高解像度画像特徴量を 連結させる. 12

13.

2. Image-Centric Epipolar Line Sampling • 従来のレンダリング法:3D空間上で粗 い一様サンプルと表面近傍に分布 する細かいサンプルから計算.⇒ 画素 をそろえた特徴マップでは最適でない. • 提案手法: [ エピポーラ幾何に基づくサンプリングの式 ] • エピポーラ幾何に基づくサンプリング. レイを基準として,エピポーラ線を求め, それぞれのビューの特徴量からサンプリング ⇒ エピポーラ線に沿ったサンプリングの ピクセル数は,最大有効サンプル数.この サンプリング戦略により,高品質・高効率な レンダリングを実現. 13

14.

3. Neural Rendering • 得たエピポーララインサンプルセット をマッピングする処理が必要. 2N • 提案手法: - 損失の正則化項に利用する指標 e : シーンの深さの大まかなアイデア 𝑑𝑘 : k番目のCross-Attention内の エピポーララインサンプルの深さ 𝛼𝑘 : k番目のCross-Attention内の ソフトマックス重み • エピポーララインサンプルセットを Cross-Attention層で最終的な特徴埋め込み を得て,MLPを介してカラーマッピングを 行う. • Target Ray TokensはQueryとして, 浅いMLPで変換した を入力. • • • • • Key, Valueは2N(レイの深さ,プライマ リ特徴量およびセカンダリ特徴量から構成 されるタプル128セット)のレイ特徴量から, それぞれ2層MLPで取得. 14

15.

損失関数 • 損失関数は2項から構成される. • 第1項:レンダリング画像の差異を評価. ここでRはレンダリング画像,GはGT画像. は[R. Zhang+CVPR2018]を利用. • 第2項:レンダラーのCross-attentionの重みへの正則化: ここでeはu, v座標上での深さの期待値(実際の深さではないことに注意),Nは u, v座標の近傍を定義する. 15

16.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 16

17.

実験概要 • データセット • RealEstate10k [T. Zhou+SIGGRAPH2018]:屋内と屋外のシーンの大規模なデータセット.学習用に 67477シーン,テスト用に7289シーンを利用. • ACID [A. Liu+ICCV2021] :屋外シーンの大規模なデータセット.トレーニング用に 11075 シーン, テスト用に 1972 シーンを利用. • データ拡張 • 入力画像とターゲット画像を中心にトリミング,拡大縮小. • 画像反転 17

18.

屋内外シーンのニューラル レンダリング [定性結果] ACID RealEstate10K • 実質的なオクルージョンを持つ屋内シーンや深さに際限のない屋外シーンに対するNVSにおいて, 高い忠実度でレンダリングを実現し,すべての既存手法を上回るパフォーマンスを発揮 18

19.

屋内外シーンのニューラル レンダリング [定量結果] • 提案手法は,すべての指標ですべてのベースラインを上回る. 19

20.

中間ビューのNVS[定性結果] • 画像間の重なりが非常に限られている場合でも,入力画像とは大幅に異なる中間ビューの合成が可能 20

21.

Ablation study • Base Model の構成 • 2D エピポーラ ライン サンプリングの代わりに,3D で点を均一にサンプリング • ジオメトリを調整するためのビュー間対応一致を使用しない • マルチビューエンコーダの代わりに単眼エンコーダを使用 • 正則化損失を利用しない • データ拡張を利用しない • 結果 • ほとんどの提案手法の構成要素が有効に機能. • 正則化損失でPSNRは減少するが,マルチビューの 一貫性が向上し,SSIMとLPIPSは向上する. (近傍の滑らかさ制約のため,SSIMとは相性が いいはず) 21

22.

レンダリング品質とレンダリング速度 • 提案手法はレンダリング品質とレンダリング速度の間で最適なトレードオフを実現 • エピポーラサンプル数を48に減らしたFasterは,より高速なレンダリングを実現. 22

23.

エピポーラ アテンション ウェイトの可視化 • エピポーラ サンプルの深度の期待値は,代理深度として見ることができ,シーンの基礎となる ジオメトリにほぼ対応している. • ボリューム レンダラーではないため,正しいレンダリングのためにこれらのアテンション ウェイ トは実際の深度に正確に対応する必要はない. 23

24.

ポーズ不明のWilde画像からのNVS • SuperGlueで入力画像間の対応関係を取得,内部カメラパラメータをRealEstate10kの値とし, RANSACを利用して,対応関係から基本行列,基礎行列を求め,利用. • 下図はインターネットの画像を使用したいくつかの自然のシーンの結果. 24

25.

Section 1.書誌情報・概要 2.先行研究 3.提案手法 4.実験結果 5.結論・所感 25

26.

結論・所感 [ Limitation ] • より多くの画像を使用して単一のシーンを最適化する方法で得られるものと同じ品質ではない. • トレーニング シーンと比較して外観が大きく異なる新しいシーンにはうまく一般化されない. ⇒ いずれも事前分布に大きく依存する問題であるが,多様なデータセットでの大規模な トレーニング戦略に適した手法であるため,様々なシーンへの適応が可能になることが期待される. [ 結論 ] • 単一のワイドベースラインステレオペアからの暗黙的な 3D 再構成とNVSの手法を提案. • 困難なシーンのデータセットに対する先行研究の品質を上回る. • レンダリング速度と品質のトレードオフに対し,最適な結果を示した. [ 所感 ] • エピポーラ幾何制約の有効性が複数の研究で報告されている. 複数視点条件下の様々なタスクへの応用が期待できる. • 単一画像からのNVSの研究 [E. R. Chan+ICCV2023]も発表されたため, こちらも要注目. [E. R. Chan+ICCV2023] https://nvlabs.github.io/genvs/media/co3d.mp4#t=1 26