2.9K Views
July 14, 25
スライド概要
Kaggle Image Matching 2025コンペからみた3次元復元手法のトレンドと課題を解説しました!
Kaggle IMC2025からみる 3次元復元手法のトレンドと課題 2025.07.11 Hiroki Kawauchi 株式会社ディー・エヌ・エー AI
自己紹介 河内大輝 /Hiroki Kawauchi AIエンジニア・データサイエンティスト@DeNA linkedin.com/in/hiroki-kawauchi …スポーツなどでの、Computer Vision等AI技術を用いたプロダクト開発 https://x.com/kwchrk_ 今月末MIRU行きます! 3次元Computer Vision技術が特に好きです。こちらの資料もどうぞ! AI 2
01|コンペ概要 02|上位解法 項目 03|3次元復元に残された課題 04|まとめ AI 3
01 コンペ概要 AI 4
コンペ概要 Kaggle Image Matching Challenge ▪ 3次元復元のための画像マッチング関連タスクの精度をコンペ ▪ 国際会議CVPR Workshopの併設コンペ ▪ 本資料ではworkshopホストのIntroductionの内容も参照しつつ説明 ▪ 2022~ Kaggle上で毎年開催(IMC自体は2019~) ▪ 2022:画像マッチング ▪ 2023:3次元復元(カメラ位置推定) ▪ 2024:3次元復元(時間変化有りなど難しいシーンでのカメラ位置推定) 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 5
コンペ概要 Kaggle Image Matching Challenge 2025 ▪ 2025:無関係な画像を含む入力(Messy Collections)での3次元復元(カメラポーズ推定) ▪ 入力:画像集合に、シーンに無関係な画像を含む画像群 ▪ 求められること: ▪ クラスタリング: 正しいシーンにクラスタリング ▪ ロバストな再構成: ノイズに頑健に、各シーンで正確なカメラポーズを推定する 図・出典: https://zenn.dev/yume_neko/articles/bee802ebf8b4d0 AI 6
コンペ概要 Kaggle Image Matching Challenge 2025 ▪ ▪ ▪ 評価指標 ▪ クラスタリングスコアとカメラポーズmAAスコアの調和平均 クラスタリングスコア ▪ 提出各クラスタに、そのクラスタが代表するシーン以外の画像がどれだけ混ざっていないか ▪ 正解シーンSに対して、最も一致するクラスタCを見つけて以下のように計算 カメラポーズmAAスコア ▪ まず、提出カメラポーズが正解のカメラポーズに最もよく重なる相似変換 ▪ 変換後の座標と正解座標とのユークリッド距離が閾値より小さいカメラをpositive ▪ 複数の距離閾値に対して、Average Accuracyを計算してmAAを算出 AI 7
コンペ概要 Kaggle Image Matching Challenge 2025 ▪ ▪ 全チームがホストが提供したベースパイプラインを採用 ▪ 画像ペア選択の精度が勝敗を分けた コンペ中盤まで評価指標コードにバグがあったが修正された 図・出典: https://zenn.dev/yume_neko/articles/bee802ebf8b4d0 AI 8
02 上位解法 AI 9
上位解法概観 ▪ ▪ ▪ ▪ 全体 ▪ 画像ペア選択の精度が勝敗を分けた ▪ 画像ペア選択→マッチングまで、3D基盤モデル(MASt3R)を活用したE2E手法が登場 ▪ 今年からサードパーティコードについては非商用ライセンスも許可 ▪ VGGTも使えたが、VRAM・タイムアウト的に厳しかった 画像ペア選択 ▪ 画像のGlobal特徴量による類似度に基づくペア選択が多い ▪ 段階的/網羅的なマッチングや同一シーン判定モデルなども 特徴点マッチング ▪ ALIKED(特徴点抽出)→LightGlue(マッチング)が多い ▪ MASt3RやRDDなどの手法も ▪ クロップや分割による工夫 カメラポーズ推定 ▪ COLMAPによるカメラポーズ推定で、特に目立った工夫はなく ▪ パラメータチューニングしているチームもあった AI 10
画像ペア選択 画像のGlobal特徴量による類似度に基づくペア選択 ▪ 基本的にはベースラインのDINOv2を使っているものが多い ▪ 8thなどはDINOv2の代わりにCLIP ▪ MASt3R[1st, 5th] ▪ 1stでは、MASt3R ASMK(MASt3Rのエンコーダを用いた画像検索)/SPoc(sum-pooloed covolutioal features)などを組み合わせて類似度を計算↓ 図・出典: https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion/583058 AI 11
画像ペア選択 網羅的/段階的なペア選択 ▪ 2ndでは、段階的なフロー ▪ 最初に軽量なSuperPointでペアをフィルタリング ▪ 残ったペアに対してALIKED + LightGlue、SIFTによるマッチング ▪ 更に、マッチが密集している領域をクロップして追加のマッチング ▪ 6thでは、全ペアを対象に軽量なALIKED+LightGlueでマッチングし、フィルタリング ▪ 10thでは、KeyNet-AdaLAM(local特徴を元に類似度を計算)を実行してフィルタリング 同一シーン判定モデル ▪ 4thでは、「2つの画像が同じシーンか否か」を判定する二値分類モデル(linear transformer) ▪ MegaDepthデータセットを使って学習 ▪ NetVLAD(global特徴)で取りこぼしをカバー AI 12
特徴点マッチング ALIKED(特徴点抽出)→LightGlue(マッチング):基本的にはベースラインのこれが多い MASt3R ▪ 1st, 5thは、MASt3Rでのマッチング ▪ 1stはMASt3Rのsemi-denseマッチングに加え、ALIKED・SUperpointのキーポイントも入れる↓ 図・出典: https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion/583058 AI 13
特徴点マッチング クロップや分割による工夫 ▪ 3rd ▪ Tiling: 1枚の画像を4分割+縮小画像の計5枚に変換し、ペア間で5x5=25通りのマッチングを 実行 。スケールや画角の大きな変化に頑健に対応。 ▪ Rotation: 初回マッチングに失敗したペアを90度ずつ回転させてリトライ 。画像の向きが 揃っていないデータセットに有効 図・出典: https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion/583401 AI 14
03 3次元復元に残された課題 AI 15
3次元復元に残された課題 似たシーンの問題(Doppelgangers) ▪ ▪ 対象的な建物の反対側など Doppelgangers++[Xiangli+, CVPR2025 Highlight] など、データセット提案も含め研究が続いている 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 16
3次元復元に残された課題 オーバーラップが少ない画像群の問題 ▪ ▪ 画像同士のオーバラップが少ないとマッチングに失敗する MPSfM[Pataki+, CVPR2025]のように深度や法線などを与えるも 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 17
3次元復元に残された課題 計算量・スケーラビリティの問題 ▪ ▪ ▪ NNベースの手法が基本的にSOTAだが、計算量(特に学習時)に膨大なGPUリソースが必要 数千枚の入力など、大規模シーンに対してスケーラブルとはいえない LoFTR・RoMaなどのkeypoint-freeなマッチングもコンペでは厳しく ▪ ※後段のCOLMAPに接続しにくいというハードルもある 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 18
3次元復元に残された課題 撮影条件の変化の問題 ▪ ▪ 日中と夜間、季節が異なるなどの違いでマッチングに失敗するケースもまだある 研究的な新規性が出にくいため、アカデミアで進みにくい領域 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 19
まとめ ▪ ▪ ▪ ▪ Kaggle IMC2025は、無関係な画像を含む入力(Messy Collections)での3次元復元 ▪ 画像ペア選択の精度が勝敗を分けた ▪ 画像ペア選択→マッチングまで、3D基盤モデル(MASt3R)を活用したE2E手法が登場 画像ペア選択 ▪ 画像のGlobal特徴量による類似度に基づくペア選択が多い ▪ 網羅的なマッチングや同一シーン判定モデルなども 特徴点マッチング ▪ ALIKED(特徴点抽出)→LightGlue(マッチング)が多い。 ▪ MASt3RやRDDなどの手法や、クロップや分割による工夫も Workshopホストからは3次元復元に残された課題が指摘された ▪ 似たシーンの問題(Doppelgangers) ▪ オーバーラップが少ない画像群の問題 ▪ 計算量・スケーラビリティの問題 ▪ 撮影条件の変化の問題 ▪ 来年のコンペの方向性になるかも? AI 20
参考資料 ▪ ▪ 以下の資料を参考にさせていただきました。 本資料は入口的に読んで頂き、詳細は以下の資料を参照して頂ければと思います ▪ Kaggle Discussions: ▪ https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion ▪ 20th前後の方までの解法を読むことができます(ありがたい Yumeneko san zenn記事: ▪ https://zenn.dev/yume_neko/articles/bee802ebf8b4d0 ▪ 特に今回のコンペのデータや実態を含めたソリューションの詳細が分析されています Workshop organizerのMishkin氏によるの解説スライド ▪ https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf ▪ IMCコンペの歴史や各タスクのSOTAモデルや課題が網羅的に整理されています ▪ ▪ AI 21