【論文紹介】FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category Modelling

574 Views

October 25, 23

スライド概要

profile-image

Web Developer / Research on generative models and continual learning

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

FiG-NeRF: Figure-ground neural radiance fields for 3d object category modelling 被引用数: 23 (3DV 2021)Christopher Xie, Keunhong Park, Ricardo Martin-Brualla, Matthew Brown https://arxiv.org/abs/2104.08418 どんなもの? タスク: 3D object category modelling ・ 1つのモデルで,あるカテゴリのオブジェクトを表す in the wild ・ スマホで撮影したような動画から学習する 2-component NeRF model ・ 対象オブジェクトと背景を別のモデルで表すことで,カテゴリレベルに汎化 先行研究と比べて何がすごい? ・従来の手法の多くは,オブジェクトのシルエットや Voxelデータを前もって準 備している ・提案手法は,追加の入力を必要とせずに入力画像だけを使って学習する 技術の手法や肝は? Deformation Field ・ インスタンス間の形の違いを吸収する Foreground Template ・ オブジェクトを表すNeRF Background Model ・ 背景を表すNeRF どうやって有効だと検証した? ・ タスク: Object category modelling, Segmentation, Interpolation ・ データセット: ShapeNet, Objectron ・ 評価指標: PSNR, SSIM / LPIPS / FID / IoU ・ 比較手法: NeRF(+α), SRNs 1 2022/11/09

2.

どんなもの? タスク: 3D Object Category Modelling 1つのモデルであるカテゴリの オブジェクトを表現 (例) カテゴリ: cup インスタンス: 白いcup 黄色いcup 2

3.

先行研究と比べて何がすごい? 条件設定 in the wild - スマホで撮影したような動画から NeRFを訓練する - 背景が複雑であったり,撮影条件が異なったりする minimal supervision - 3Dモデルやsegmentationなどのsupervisionを使わない - 入力画像のみ 3

4.

技術の手法や肝は? foreground / background category level modelling + in the wild ↓ インスタンスごとに背景が異なることを想定 ↓ オブジェクトと背景を分離して扱う supervisionなしでどうやって分 離する? 4

5.

技術の手法や肝は? アーキテクチャ 2-component NeRF model - 2つのモデルに分離してシーンを表現する - インスタンスを表す Foreground Template - 背景を表す Background Model いくつかの潜在変数によって category levelにまで汎化 5

6.

技術の手法や肝は? Category-Level NeRF インスタンスごとの違いは ? - インスタンス間でAppearanceが異なっている で吸収 → Appearanceの違いを吸収する必要がある - インスタンス間で形は似ている → それぞれのインスタンスは,あるTemplateが変形したものと仮定 ( category: メガネ ) Deformation Field によって変形 6

7.

技術の手法や肝は? Appearance Embedding Appearance Embedding - - オブジェクトの外見の違いを潜在変数で表す - Foreground Appearance Embedding - Background Appearance Embedding オブジェクトの形の違い - インスタンス間で形は似ていると仮定 - - Deformation fieldで形を補正する Backgroundの形が似ていると仮定して無視 - コップは平らな面の上にある - メガネは顔の上にある 7

8.

技術の手法や肝は? Category-Level NeRF インスタンスごとの違いは ? - インスタンス間でAppearanceが異なっている で吸収 → Appearanceの違いを吸収する必要がある - インスタンス間で形は似ている → それぞれのインスタンスは,あるTemplateが変形したものと仮定 ( category: メガネ ) Deformation Field によって変形 8

9.

技術の手法や肝は? Deformation Field - あるカテゴリのTemplateとなる形をNeRFで表現したい - インスタンスの形はそれぞれ少し異なっているため,NeRFを訓練 できない (シーンが静的である必要がある) - Templateの形に合致するように,インスタンスを変形する - 変形にはShape EmbeddingをもとにDeformation fieldを使う Deformation fieldは,Shape Embeddingを使って, 入力座標 x をobservation spaceからTemplateのある空間へ写す 9

10.

技術の手法や肝は? Loss - Photometric Loss - - - 正解の画像とレンダリングした画像との間の二乗和誤差 Separation Regularization (background modelのLoss) - foregroundとbackgroundを分離させる - シーンに光線を投射したとき,foregroundの密度をどれくらい収集してしまうか Deformation Regularization - オブジェクトが大きく変形しないようにする - L2 Loss 10

11.

どうやって有効だと検証した? Ablation 11

12.

どうやって有効だと検証した? 定量評価 - +L (+ latent code): NeRFにforeground shape embeddingを加えたもの - +S (+ separate): foreground, backgroundモデルに分離したもの - +D (+ deformation field): deformation fieldを加えたもの (=Fig-NeRF) 12

13.

どうやって有効だと検証した? 定性評価: segmentation 13

14.

どうやって有効だと検証した? 定性評価: interpolation 14