19.8K Views
October 13, 23
スライド概要
DL輪読会資料
DEEP LEARNING JP [DL Papers] LightGlue: Local Feature Matching at Light Speed Takeru Oba, Ukita Lab http://deeplearning.jp/ 1
書誌情報 タイトル:LightGlue: Local Feature Matching at Light Speed 著者:Philipp Lindenberger, Paul-Edouard Sarlin, Marc Pollefeys 会議:ICCV 2023 2
概要 タスク:Feature Matching (特徴点は他の手法で与えられていて, 解くのはマッチングの部分) 応用例:カメラ位置の特定 マッピング 従来法:GNNによりマッチング 問題:計算コスト 学習が難しい 3
概要 提案手法の特徴: • 早い!! • 難しさに応じてネットワークが自動 的に計算コストを調整(adaptive) • 精度も従来手法に劣らない 4
関連研究(SuperGlue) Glue → のり,接着剤 SuperGlue(ざっくり): 従来:MSEなどによるマッチング 問題: • 角度による見え方の変化 • 遮蔽などによる対応点の消失 解決法(SuperGlue) • GNN(Transformer)の利用 • 周辺の特徴点を考慮することで見え 方の変化に頑健 • 二つの画像を同時に考慮することで 対応点がないoutlierを除去 5
SuperGlueとLightGlueの関係 Glue → のり,接着剤 SuperGlueの問題点: • 初期のTransformerベースなため計算 コストが大きい • 学習も難しい LightGlueへ: • Transformerの効率化 – rotary encoding – bidirectional attention • 動的にモデルの深さと幅を変える – 確信度に応じて特徴点を破棄 – ネットワークの深さも全体の確信度に応 じて変更 この部分を高速化 6
提案手法 全体のネットワーク図: 位置(x,y) 確信度 特徴量 手順: 1: selfとcrossのattentionにより特徴量を更新. 2: 更新された特徴量を使ってmatchabilityの計算 3: 確信度(confidence)は高いがどの点ともマッチしなかった点は削除.(計算コスト削減のため) 4: 全点の確信度の平均が閾値を超えてなければ次のlayerに進む(繰り返し) 7
提案手法(attention部分) Self-Attention 工夫:rotary encodingの採用 query 相対位置 key Positional encodingの一種で相対位置に基づいてkeyを回転させることでencode (詳しくはRoFormer: Enhanced Transformer with Rotary Position Embedding) Valueは特徴量(d)から計算する 大事な部分:相対位置はどのlayerでも変わらないので一度だけ計算すればいい 8
提案手法(attention部分) Cross-Attention 工夫:bidirectional attentionの採用 通常はqueryとkeyの内積を計算する その場合画像A->BへのAttentionの画像B->AへのAttentionと二度計算する 大事な部分: Bidirectional Attentionでは Keyのみで計算することで一度の計算だけで済む 9
提案手法(マッチングの計算) マッチングの計算手順 画像Aの点iと画像Bの点jのスコアを計算 特徴量 特徴量 その後,他のペアと比べてどれだけスコアが高いかを評価 最終スコア iの点が画像Aの他の点と比べてどれだけjとマッチしてるか 点iにマッチングする点がある確率(なければ0) 10
提案手法(マッチング部分の損失) 注:confidenceの部分は後から学習する部分なので先にマッチングの部分の損失を紹 介 対応する点の確率(スコア)を上げる 対応点ない部分の損失 11
提案手法(Confidince) Confidence: この論文ではconfidenceが高い場合は 後段のレイヤーとマッチング結果が変わらないことを示す 予測方法は以下 学習方法: マッチングの部分を事前に学習. その後,最終レイヤーのマッチング結果とその他のレイヤーの結果を比較. 一致している点は1,不一致の場合は0になるようにMLPを最適化 12
提案手法(Confidinceによる高速化) Pruning: Confidenceが閾値以上であるのに マッチする点がなかった場合はその点を削除する ネットワークの深さの自動調整: Confidenceの平均値が一定以上になった段階でマッチングの計算を終了 13
実験結果 14
実験結果 重要な点 • 計算コストはSuperGlueと比べても 半分程度で精度もほぼ同じ • Adaptiveにすることで更に計算コス トを削減 Keypoint:2048点 15
実験結果(ablation) Matchability(𝜎) はprecisionを向上 bidirectional attentionは計算 コストへの影響が大きい Keypoint:512点 16
実験結果(学習速度) 学習にかかる時間 LightGlue(2日) SuperGlue(7日) 17
まとめ LightGlueは以下の工夫により従来手法と比べて高速化した • rotary encoding • bidirectional attention • Confidenceによる難易度に応じたネットワークの深さと幅の調整 実験において,SuperGlueなどの従来手法と比べて精度が落ちず,速度を大幅に向 上できることを実証している. 18