【DL輪読会】RoMa: Robust Dense Feature Matching

19.4K Views

May 16, 24

#特徴点マッチング #コンピュータビジョン #深層学習 #自己教師あり学習 #CVPR

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.9K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] RoMa: Robust Dense Feature Matching Presenter: Yuki Kondo 2024.5.16 (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ Yuki Kondo @ TOYOTA, Frontier Research Center 1

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 2

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 3

書誌情報 • 論文名 RoMa: Robust Dense Feature Matching [CVPR’24] • 著者 Johan Edstedt1, Qiyu Sun2, Georg Bökman3, Mårten Wadenbäck1, Michael Felsberg1 1Linköping University 2East China University of Science and Technology 3Chalmers University of Technology • URL 論文：https://arxiv.org/abs/2305.15404 プロジェクトページ：https://parskatt.github.io/RoMa/ ※出典が明記されていない図表は当論文および上記URL先より引用 4

論文概要 RoMa：ロバストな密な特徴点マッチングを実現． • DINOv2の大域特徴量とCNNの局所特徴量で構成されるロバストな特徴量ピラミッド • Transformerベースのデコーダ • ロバスト損失関数 ⇒ SoTAを達成． 5

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 6

特徴点マッチングの変遷 RoMa (提案手法) Key-point 検出あり Key-point 検出なし疎なマッチング SuperPoint [D. DeTone+ CVPRW’18] 密なマッチング LoFTR [J. Sun+ CVPR’21] DKM [J. Edstedt+ CVPR’23] に焦点を当てている． Time 7

自己教師ありビジョンモデル Transformerベースの大規模言語モデルの成功 ⇒『自己教師あり学習』に基づく大規模データでの事前学習 Computer Vision での発展： DINO iBOT DINOv2 [M. Caron+ ICCV’21] [S. Zhu+ ICLR’22] [M. Oquab+ TMLR’24] 自己蒸留でMasked Image Modeling (MIM)を学習し，下流タスクに有効なロバスト特徴量を獲得．大規模なキュレーションデータを構築するパイプライン提案により，より汎用的な特徴量を獲得．自己教師あり学習のVision Transformer (ViT)が，教師あり学習モデルより意味特徴を捉える． 8

ロバスト損失の定式化ロバスト回帰損失： • Inlier分布とOutlier分布間の連続的な遷移を提供． • オプティカルフローの正則化やロバスト平滑化のために利用 • そのまま損失関数としても利用される分類による回帰定式化： • 回帰問題を，例えばBinningを介し，分類問題として扱う． • 境界付近や遮蔽で変化の激しいシーンのステレオ視差推定などで有効．分類から回帰への最適化： • 分類問題として解き，その後回帰に基づいてRefinementを実施． • 階層的構造と親和性が高い． • Visual localizationや特徴点マッチングで利用 9

10.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 10

11.

提案手法全体構成 • DKM [J. Edstedt+ CVPR’23] をベースラインとする． • 差分が提案部分． 11

12.

エンコーダ (1/2) • 特徴量抽出はそれぞれ独立に行う． • Coarse 特徴量 𝜑coarseはDINOv2, Fine 特徴量𝜑fineはConvNetで抽出． • ロバストで局所特定可能な特徴量の検討 (1/2) 1. 粗いマッチング： • 凍結モデル{DINOv2, VGG19, ResNet50}+線形層で，粗い特徴点マッチング性能を，視差や照明変化のあるデータセットMegaDepth [Z. Li+ CVPR’18]で評価． • 評価指標： • Average End-Point-Error (EPE): 平均終点誤差 • Robustness: 誤差が32ピクセル以下の割合 • DINOv2は視差等に対し，ロバスト． • 粗いマッチングでは， VGGよりResNetの方が優れている． • DINOv2は凍結モデルとして利用． • 学習セットへの過学習抑制． • 学習時の計算量削減． • DINOv2の特徴量はストライド14の特徴量であり，EPEも27.1のため，特徴点マッチングのより細かい調整が必要． 12

13.

エンコーダ (2/2) • ロバストで局所特定可能な特徴量の検討 (2/2) 2. 細かいマッチング： • Ablation study の結果より抜粋． • Fine特徴量抽出器は，それぞれで最適化(表2のII)． • Fine特徴量抽出器として，VGG19とResNet50を比較 (表2のIIIのセットアップ) ． • 細かいマッチングでは，VGGの方が優れている． ⇒ マッチングのための細かな局在性と粗いロバスト性は，固有のデザインが必要． • 𝐼𝐴 , 𝐼𝐵 毎に学習可能なVGG Fine特徴量抽出器を導入． 13

14.

デコーダ (1/3) • グローバルマッチャ― 𝐺𝜃 (1/2)：：ワープマップ，：マッチエンコーダ(ガウス過程含む)，：確信度マップ，：Transformer デコーダ • 分類による回帰定式化： • グローバルマッチャ―の離散化された出力空間を確率分布で定式化．：アンカーの推定確率，：分類アンカー数，：アンカーの代表座標：ワープ元座標，：ワープ先座標，の2次元分布(一様分布)上の値 • Refinementのための分類推定結果の変換 14

15.

デコーダ (2/3) • グローバルマッチャ― 𝐺𝜃 (2/2)： • Transformerデコーダの検討： • 予備実験より，粗いデコーダとしてのConvNetは，以下の特性があることを確認． • 解像度に過剰に適合する． • 局所性のRefinementには有効だが，粗いマッチングではワープに対し，過剰な平滑化をもたらす． ⇒ Positional encoding を除いた Transfromerデコーダを採用．位置非依存の画像特徴量の類似度のみで伝搬するようになり，モデルの頑健性が著しく向上． • 5つのViT [A. Dosovitskiy+ ICLR’21] ブロックから構成． • 損失関数： • 粗いマッチングを分類問題として解くことで，マルチモーダルに対応． ⇒ シーン内の複数の物体の動作境界などぼやけに対し，頑健制を獲得し，マッチングの不連続性に対応可能． • マルチモーダルへの最適化のために，グローバルマッチャ―は以下の損失関数で最適化 (第1項：ワープマップ項，第2項：確信度マップ項)．不連続でマルチモーダル 15

16.

デコーダ (3/3) • Refiner 𝑅𝜃 ： • Refiner モジュール仕様： • DKM と同様に，複数のConvNet( ストライド {2𝑖 | 𝑖 = 0, 1, 2, 3} ) で構成され，階層的に Refinement される． • 1階層前のワープと確信度の推定結果，特徴量ピラミッドの該当階層の特徴量を入力とする． • 1階層前のワープと確信度のオフセットを推定し， Refinement ． • 損失関数： • Charbonnier 損失 [J. T. Borron CVPR’19] を，L2 損失の代わりに利用(右辺第1項)． • 誤差が小さい場合，最適化はL2のようにふるまい，誤差が大きい場合，L1のように勾配の大きさを抑制． • 合成損失関数 L1 のように勾配の大きさを抑制勾配が区分線形 ⇒ L2 のようにふるまう • CoarseとFineの勾配は，互いにカット ⇒ スケーリング不要． 16

17.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 17

18.

Ablation study • MegaDepth データセットで検証． • 提案手法の構成がすべて性能向上に寄与． 18

19.

定量評価 • 3タスク，6データセットで検証．いずれもSoTA達成．特徴点マッチングカメラ姿勢推定 Visual Localization 19

20.

定性評価 • 提案手法はDKMよりも視点変化や照明変化に頑健． 20

21.

Section １．書誌情報・概要２．先行研究３．提案手法４．実験結果５．結論・所感 21

22.

結論・所感 [ 結論 ] • DKMをベースとし，エンコーダ，デコーダ，損失関数の再検討を行い，包括的な実験で SoTAを達成． • 制限と今後の課題： • 教師あり学習を前提としており，十分な教師ありデータが必要． (RoMa ではパラメータ固定したDINOv2を，priorとして活用することで一定の対処を実現．) • Localizationや3D再構成など，幾何を考慮する様々なダウンストリームタスクでの応用検討． [ 所感 ] • 視差・照明条件変化がかなり激しいケースでも，頑健に動作するパフォーマンスは圧巻． • DINOv2をバックボーンとする手法が増加の傾向．今回のように，CNNの特性も考察し，ハイブリッドで利用する方針が今後の主流となる？ • VGGとResNetの用途による逆転現象は興味深い．Residual接続がどう影響を与えているのか？ • ピクセル単位の密な特徴点マッチングのため，様々な応用先が考えられる． 22