LERF: Language Embedded Radiance Fields

3.8K Views

March 15, 24

#NeRF #CLIP #3Dシーン理解 #テキストエンベディング #ロングテール

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.6K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.1K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] LERF: Language Embedded Radiance Fields 林雨亭 (国際航業株式会社) http://deeplearning.jp/

http://deeplearning.jp/

書誌情報 • Title: – LERF: Language Embedded Radiance Fields(ICCV2023 oral) • 著者: – Justin Kerr*, Chung Min Kim*, Ken Goldberg, Angjoo Kanazawa, and Matthew Tancik (UC Berkeley) • Project URL: – https://www.lerf.io/ • Code: – https://github.com/kerrj/lerf 2

概要 • CLIPのtext embeddingをNeＲＦに組み込むことで、queryに対応する 3D領域を抽出 • LERFの特徴 – 入力text queryの3D relevancy mapsをリアルタイムで生成 – Pre-trainされたCLIPのまま利用するため、様々なqueryに対応 – 異なるスケールの物体に対応 3

提案手法の概要 • 課題： – CLIPにおけるtext embeddingは画像全体を対象（global的）とする一方、 NeRFはrayを対象（local的） • 対策 – Volumeに対応した画像をcropしてtext embeddingを抽出 4

提案手法- LERF Volumetric Rendering NeRF • 通常のNeRF: 𝑓 𝑥, Ԧ 𝑑Ԧ = 𝑐, Ԧ𝜎 • LERFの場合、視線方向に独立するtext embeddingを追加 – 𝐹𝑙𝑎𝑛𝑔 𝑥, Ԧ 𝑠 𝜖ℝ𝑑 , where 𝑠 = 𝑠𝑐𝑎𝑙𝑒 – Volumeを対象とするため、scaleを定義する必要がある • 焦点距離と距離で計算（幾何的に錐台のよう） • Rayのrendering(text embedding) – 𝜙෠ 𝑙𝑎𝑛𝑔 = ∫𝑡 𝑤 𝑡 𝐹𝑙𝑎𝑛𝑔 𝑟 𝑡 , 𝑠(𝑡) 𝑑𝑡 • Where 𝑤 𝑡 = ∫𝑡 𝑇 𝑡 𝜎 𝑡 𝑑𝑡 𝑇 𝑡 = ∫𝑡 exp(−𝜎 𝑠 𝑑𝑠) （透過率） – 単位球体（unit sphere）に正規化 5

提案手法-Multi-Scale Supervision • 学習する際に、Crop画像毎にCLIPからtext embedding（教師信号）を推定する処理は時間を要する • 予め教師信号を作成しておく – crop画像のサイズ 𝑠𝑚𝑖𝑛 , 𝑠𝑚𝑎𝑥 に従い、crop画像を作成 – 各crop画像から、CLIPでtext embeddingを作成 – 学習する際の(ray上)画像位置に従い、最近傍4枚のcrop画像から教師を内挿法で作成 • text embeddingの損失関数：renderされたtext embeddingと教師の cosine類似度 6

提案手法- DINO Regularization • LERFの推定結果はノイジー • DINO特徴を別の正則化として追加 – DINO特徴量は教師なしで、物体を分離する効果がある（前景背景の分離） – DINOは画素毎の特徴ベクタルを推定 – MSE lossで学習 7

提案手法- Querying LERF • 評価手法 – 任意のtext queryが与えられた時の3D relevancy mapsを評価 – 1) relevancy score, 2) scaleの推定 • Relevancy(language embedding) score – text queryのembedding （CLIP）、標準text(“object”, “things”, “stuff”, and “texture”)のembedding（CLIP）と、renderされたlanguage embedding （LERF）のcosine類似度で表現 • 𝑚𝑖𝑛𝑖 = exp(𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑞𝑢𝑒𝑟𝑦 ) exp 𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑖𝑐𝑎𝑛𝑜𝑛 +exp(𝜙𝑙𝑎𝑛𝑔 ∙𝜙𝑞𝑢𝑒𝑟𝑦 ) • renderされたlanguage embeddingとtext queryのembedding が近いかで評価 8

提案手法- Querying LERF • Scale Selection – 一定scale範囲内のRelevancy scoreを推定して、最も高いのを最終結果 – ヒューリスティックだが、最もロバスト • Visibility Filtering – Viewの数が少ないと、ノイズが増加する傾向 – 推論時、 Viewの数<5のサンプルは捨てる 9

10.

提案手法- 実装の詳細 • Text embeddingとDINO特徴はNeRFと独立 – 勾配は独立させ、NeRFパーツを同時に最適化 • NeRFモデルはNeRFactorを採用 • Hashgridを利用 10

11.

実験 • 検証データセット – 既存のNeRF用のデータには、物体が少ないため、本手法の評価が困難 – 自ら評価用データを13個新規作成 • in-the-wild：grocery store, kitchen, book store • long-tailed: teatime, figurines, hand – Iphoneアプリpolycamでデータを作成 11

12.

定性評価 • relevancy scoreが50%以上の領域を可視化 • 異なるスケールの物体を認識可能 • 様々なqueryに対応 – 例：色、具体的な書名・キャラクターなど • 同じ物体が異なるqueryに反応 12

13.

Existence Determination • LERFは対象シーンにおける物体のありなし判定にも対応可能 – 2種類のqueryで評価 • MSCOCOのlabel • Long-tail label(自ら作成したシーン） – MSCOCOのlabel（既存手法にとってはin-distribution）において、性能は既存手法と同程度 – Long-tail labelにおいて、LERFの性能が高い – 提案手法は、言語情報を有効に処理できることを示唆 13

14.

Localization精度 • 判定基準 – 提案手法：Relevancy scoreの最大値がGT(3D bbox)内に位置するか – 既存手法：推定したboxがGT内に位置するか • 特にlong-tail物体において、LERFは有効性を示した 14

15.

Ablation Study • DINO特徴は境界の推定において有効 – view数が少ない時 – 前景背景の分離が困難な時 15

16.

Ablation Study • Single-Scale Training – 異なるスケールの物体に効果を確認 16

17.

提案手法のLimitations • CLIPとNeRFのlimitationを引き継いでしまう • CLIP関連limitation – 否定形 (例えば：“not red” ≈ “red”) – 物体間の空間関係 – 類似物体（見た目・意味的） • NERF関連limitation – 高精度な3D reconstructionが必要 – Viewが少ない時にはノイジーになってしまう 17

18.

まとめ • LERFは、CLIPのtext embeddingをNeRFのvolumeに組み込むという、 3D Language Grounding手法 – multi-scaleでtext embeddingを融合 – DINO特徴で正則化 • Long-tailカテゴリに対し、高いロバスト性を示した • リアルタイム処理と主張するが、処理速度に関する内容は見当たらない 18