2K Views
June 27, 24
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] “LangSplat: 3D Language Gaussian Splatting (CVPR2024)” 2024.06.27 Taiki Miyanishi, Matsuo-Iwasawa Lab http://deeplearning.jp/
書誌情報 ● タイトル – LangSplat: 3D Language Gaussian Splatting ● 著者 – Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister ● 会議 – CVPR 2024 ● プロジェクトサイト – https://langsplat.github.io/ ● 選定理由 – 3D Gaussian Splattingを実世界のシミュレーターとして使いたい 2
LangSplatの概要 ● Gaussian Splatting、SAM、CLIPを組み合わせた3D言語場LangSplatを提案 ● オープンボキャブラリに対応した効率的かつ高精度な3D特徴領域抽出を実現 199 x sppe-up 図表や動画像については論文とプロジェクトサイト(https://langsplat.github.io/)から引用 3
関連研究:3D Gaussian Splatting (Kerbl+, SIGGRAPH 2023) ● 3Dシーンを3Dガウス分布の集合体として表現する3D再構成手法 ● タイルベースのラスタライザにより高解像度で効率的なレンダリングを実現 https://niujinshuchong.github.io/mip-splatting-demo/counter.html https://rmurai.co.uk/projects/GaussianSplattingSLAM/ "3D Gaussian Splatting for Real-Time Radiance Field Rendering”, Kerbl and Kopanas+, SIGGRAPH 2023 4
関連研究:Segment Anything Model (Kirllov+, ICCV 2023) ● 画像内の任意の物体を区切ること(セグメント化)ができる基盤モデル https://segment-anything.com/ "Segment Anything”, Kirillov, Mintun, Ravi, Mao+, ICCV 2023 5
関連研究:3D言語場 LERF (Kerr and Kim+, ICCV 2023) L ERF: L anguage Embedded Radiance Fields ● CLIP特徴をNeRFに覚えさせる Justin Kerr*, Chung M in K im*, Ken Goldberg, Angjoo K anazawa, and M atthew Tancik iv:2303.09553v1 [cs.CV] 16 Mar 2023 UC Berkeley ● 言語クエリを与えたときに、対応する3次元領域を抽出可能にした Figure 1: L anguage Embedded Radiance Fields (L ERF). LERF grounds CLIP representations in a dense, multi-scale 3D fi eld. A 6
関連研究:LERFの仕組み ● 座標と視線から、色情報と密度 + DINO特徴とCLIP特徴を予測 ● DINO特徴は前景と背景を分離するための正則化の役割を果たす ● 正解のマルチスケール画像パッチのCLIP特徴を予測 7
関連研究:LERFの仕組み ● 言語クエリのCLIP特徴とNeRFが予測したCILP特徴の類似度で所望の領域を特定 ● 問題点:特徴領域の境界に曖昧性がある。推論(レンダリング)スピードが遅い 8
提案手法:LangSplat ● Gaussian Splatting、SAM、CLIPを組み合わせた3D言語場を提案 – Semantic Anything Model (SAM)を使うことで、特徴領域の曖昧性を効果的に解消 – シーン固有のオートエンコーダーを用いてメモリ消費の抑制 – 3D Gaussian Splattingを使うことで、レンダリングスピードを高速化 Input Whole ... Encoder Render Part ... SAM ... ! CLIP Subpart ... Multi-view Images Hierarchical Semantics Supervise Decoder Reconstruct 3D Language Gaussians Figure 2. The framework of our LangSplat. Our LangSplat leverages SAM to learn hierarchical semantics to address the point ambiguity issue. Then segment masks are sent to the CLIP image encoder to extract the corresponding CLIP embeddings. W e learn an autoencoder 9
提案手法:LangSplat ● Segment Anything Model (SAM)を利用して、階層的な意味セグメンテーション – 画像中の1つの点が複数の意味レベルの領域に寄与(例:猫の耳、猫の頭、猫全体) – マルチビューの各画像から、全体のセグメント、パーツ、サブパーツを抽出 Input Whole ... Encoder Render Part ... SAM ... ! CLIP Subpart ... Multi-view Images Hierarchical Semantics Supervise Decoder Reconstruct 3D Language Gaussians Figure 2. The framework of our LangSplat. Our LangSplat leverages SAM to learn hierarchical semantics to address the point ambiguity issue. Then segment masks are sent to the CLIP image encoder to extract the corresponding CLIP embeddings. W e learn an autoencoder 10
提案手法:LangSplat ● CLIP特徴の教師データの作成 – CLIPを用いて、CLIPの言語(画像)特徴を抽出 – シーン固有のオートエンコーダーでCLIP特徴を次元削減 Input Whole ... Encoder Render Part ... SAM ... ! CLIP Subpart ... Multi-view Images Hierarchical Semantics Supervise Decoder Reconstruct 3D Language Gaussians Figure 2. The framework of our LangSplat. Our LangSplat leverages SAM to learn hierarchical semantics to address the point ambiguity issue. Then segment masks are sent to the CLIP image encoder to extract the corresponding CLIP embeddings. W e learn an autoencoder 11
提案手法:LangSplat ● 3D Gaussian Splattingの学習 – 次元削減したCLIP特徴を3D Gaussian Splattingの教師データとする – 各ガウシアンの言語特徴、位置、大きさ、傾き、透過度を勾配法で学習 Input Whole ... Encoder Render Part ... SAM ... ! CLIP Subpart ... Multi-view Images Hierarchical Semantics Supervise Decoder Reconstruct 3D Language Gaussians Figure 2. The framework of our LangSplat. Our LangSplat leverages SAM to learn hierarchical semantics to address the point ambiguity issue. Then segment masks are sent to the CLIP image encoder to extract the corresponding CLIP embeddings. W e learn an autoencoder 12
実験設定:3D Object Localization ● LERFデータセットを用いて、3D物体の位置特定課題で評価。Accuracyを使用 Novel viewの画像 予測した適合度マップ Query: `red apple’ 適合度の最も高い点 RGB RGB 正解の矩形 LSeg LSeg 13
実験設定:3D Semantic Segmentation ● L3D-OVSデータセットを用いて、3D意味セグメンテーション課題で評価。mIoUを使用 Ours Novel viewでの適合度マップ LERF Ground OursspatulaTruthgreen apple rubics cube pick ice cream waldo green toy chair G 予測したセグメント spatulapink ice cream waldo 正解のセグメント pink ice cream green apple green apple green toy chair 14
評価結果:3D Object Localization ● LangSplatは従来手法LERFを大幅に上回る位置特定性能を示した Lseg* LERF LangSplat Lseg* LERF LangSplat Lseg* LERF LangSplat 14.1 62.0 73.2 33.9 84.8 88.1 27.3 72.7 95.5 *Language-driven Semantic Segmentation, Boyi+, ICLR 2022 15
評価結果:3D Semantic Segmentation ● LangSplatは最新手法3D-OVSを上回るセグメンテーション性能を示した LSeg 56.0 LERF 73.5 3D-OVS* 89.5 LangSplat 92.5 LSeg 4.5 LERF 27 3D-OVS* 74 LangSplat 90 *Weakly Supervised 3D Open-vocabulary Segmentation, Liu+, NeurIPS 2023 16
評価結果:予測した3D特徴の可視化による比較 ● 予測した言語特徴にPCAを適用して、第3主成分までを0-255に正規化(色情報に変換) ● LERFが不正確で曖昧な3D特徴を生成する一方、LangSplatは物体の境界を正確に捉えた 17
評価結果:予測した3D特徴の可視化による比較 ● 予測した言語特徴にPCAを適用して、第3主成分までを0-255に正規化(色情報に変換) ● LERFが不正確で曖昧な3D特徴を生成する一方、LangSplatは物体の境界を正確に捉えた 18
評価結果:提案手法の各コンポーネントの影響を評価 ● SAMを使うことセグメンテーションの性能と推論スピードが改善 ● Autoencoderと3D-Gaussian Splattingを組み合わせることで、スピードが大幅に改善 LERF 199 x sppe-up LangSplat 3D-OVSデータセットのbenchシーンを使用した結果 19
まとめ ● オープンボキャブラリーに対応した効率的かつ高精度な3D言語場LangSplatを提案 – 言語特徴を組み込んだ3D-GSと、シーン固有のオートエンコーダーの導入 – SAMを用いたセマンティック階層の学習により、点の曖昧さを解消 – LERFと比較して推論スピードが199倍、言語クエリ課題の性能を大幅に改善 ● 感想 – 3D-GS、SAM、CLIPの非自明な組み合わせと、3D言語場の大幅な性能改善が勝因 – 定性評価の見栄えが良くて、プロジェクトサイトも魅力的 – Object LocalizationやSemantic Segmentationの性能改善は、ほぼSAMのおかげでは…。 – インクリメンタルだけど、手法が単純な分、応用が効きそう 20