LERF: Language Embedded Radiance Fields

2.9K Views

March 15, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] LERF: Language Embedded Radiance Fields 林雨亭 (国際航業株式会社) http://deeplearning.jp/

2.

書誌情報 • Title: – LERF: Language Embedded Radiance Fields(ICCV2023 oral) • 著者: – Justin Kerr*, Chung Min Kim*, Ken Goldberg, Angjoo Kanazawa, and Matthew Tancik (UC Berkeley) • Project URL: – https://www.lerf.io/ • Code: – https://github.com/kerrj/lerf 2

3.

概要 • CLIPのtext embeddingをNeRFに組み込むことで、queryに対応する 3D領域を抽出 • LERFの特徴 – 入力text queryの3D relevancy mapsをリアルタイムで生成 – Pre-trainされたCLIPのまま利用 するため、様々なqueryに対応 – 異なるスケールの物体に対応 3

4.

提案手法の概要 • 課題: – CLIPにおけるtext embeddingは画像全体を対象(global的)とする一方、 NeRFはrayを対象(local的) • 対策 – Volumeに対応した画像をcropしてtext embeddingを抽出 4

5.

提案手法- LERF Volumetric Rendering NeRF • 通常のNeRF: 𝑓 𝑥, Ԧ 𝑑Ԧ = 𝑐, Ԧ𝜎 • LERFの場合、視線方向に独立するtext embeddingを追加 – 𝐹𝑙𝑎𝑛𝑔 𝑥, Ԧ 𝑠 𝜖ℝ𝑑 , where 𝑠 = 𝑠𝑐𝑎𝑙𝑒 – Volumeを対象とするため、scaleを定義する必要がある • 焦点距離と距離で計算(幾何的に錐台のよう) • Rayのrendering(text embedding) – 𝜙෠ 𝑙𝑎𝑛𝑔 = ∫𝑡 𝑤 𝑡 𝐹𝑙𝑎𝑛𝑔 𝑟 𝑡 , 𝑠(𝑡) 𝑑𝑡 • Where 𝑤 𝑡 = ∫𝑡 𝑇 𝑡 𝜎 𝑡 𝑑𝑡 𝑇 𝑡 = ∫𝑡 exp(−𝜎 𝑠 𝑑𝑠) (透過率) – 単位球体(unit sphere)に正規化 5

6.

提案手法-Multi-Scale Supervision • 学習する際に、Crop画像毎にCLIPからtext embedding(教師信号) を推定する処理は時間を要する • 予め教師信号を作成しておく – crop画像のサイズ 𝑠𝑚𝑖𝑛 , 𝑠𝑚𝑎𝑥 に従い、crop画像を作成 – 各crop画像から、CLIPでtext embeddingを作成 – 学習する際の(ray上)画像位置に従い、最近傍4枚のcrop画像から教師を内挿法 で作成 • text embeddingの損失関数:renderされたtext embeddingと教師の cosine類似度 6

7.

提案手法- DINO Regularization • LERFの推定結果はノイジー • DINO特徴を別の正則化として追加 – DINO特徴量は教師なしで、物体を分離する効果がある(前景背景の分離) – DINOは画素毎の特徴ベクタルを推定 – MSE lossで学習 7

8.

提案手法- Querying LERF • 評価手法 – 任意のtext queryが与えられた時の3D relevancy mapsを評価 – 1) relevancy score, 2) scaleの推定 • Relevancy(language embedding) score – text queryのembedding (CLIP)、標準text(“object”, “things”, “stuff”, and “texture”)のembedding(CLIP)と、renderされたlanguage embedding (LERF)のcosine類似度で表現 • 𝑚𝑖𝑛𝑖 = exp(𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑞𝑢𝑒𝑟𝑦 ) exp 𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑖𝑐𝑎𝑛𝑜𝑛 +exp(𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑞𝑢𝑒𝑟𝑦 ) • renderされたlanguage embeddingとtext queryのembedding が近いかで評価 8

9.

提案手法- Querying LERF • Scale Selection – 一定scale範囲内のRelevancy scoreを推定して、最も高いのを最終結果 – ヒューリスティックだが、最もロバスト • Visibility Filtering – Viewの数が少ないと、ノイズが増加する傾向 – 推論時、 Viewの数<5のサンプルは捨てる 9

10.

提案手法- 実装の詳細 • Text embeddingとDINO特徴はNeRFと独立 – 勾配は独立させ、NeRFパーツを同時に最適化 • NeRFモデルはNeRFactorを採用 • Hashgridを利用 10

11.

実験 • 検証データセット – 既存のNeRF用のデータには、物体が少ないため、本手法の評価が困難 – 自ら評価用データを13個新規作成 • in-the-wild:grocery store, kitchen, book store • long-tailed: teatime, figurines, hand – Iphoneアプリpolycamでデータを作成 11

12.

定性評価 • relevancy scoreが50%以上の領域を可視化 • 異なるスケールの物体を認識可能 • 様々なqueryに対応 – 例:色、具体的な書名・キャラクターなど • 同じ物体が異なるqueryに反応 12

13.

Existence Determination • LERFは対象シーンにおける物体のありなし判定にも対応可能 – 2種類のqueryで評価 • MSCOCOのlabel • Long-tail label(自ら作成したシーン) – MSCOCOのlabel(既存手法にとってはin-distribution)において、性能は既存 手法と同程度 – Long-tail labelにおいて、LERFの性能が高い – 提案手法は、言語情報を有効に処理できることを示唆 13

14.

Localization精度 • 判定基準 – 提案手法:Relevancy scoreの最大値がGT(3D bbox)内に位置するか – 既存手法:推定したboxがGT内に位置するか • 特にlong-tail物体において、LERFは有効性を示した 14

15.

Ablation Study • DINO特徴は境界の推定において有効 – view数が少ない時 – 前景背景の分離が困難な時 15

16.

Ablation Study • Single-Scale Training – 異なるスケールの物体に効果を確認 16

17.

提案手法のLimitations • CLIPとNeRFのlimitationを引き継いでしまう • CLIP関連limitation – 否定形 (例えば:“not red” ≈ “red”) – 物体間の空間関係 – 類似物体(見た目・意味的) • NERF関連limitation – 高精度な3D reconstructionが必要 – Viewが少ない時にはノイジーになってしまう 17

18.

まとめ • LERFは、CLIPのtext embeddingをNeRFのvolumeに組み込むという、 3D Language Grounding手法 – multi-scaleでtext embeddingを融合 – DINO特徴で正則化 • Long-tailカテゴリに対し、高いロバスト性を示した • リアルタイム処理と主張するが、処理速度に関する内容は見当たらな い 18