Kaggle Image Matching Challenge 2025 紹介

2.9K Views

July 14, 25

スライド概要

Kaggle Image Matching 2025コンペからみた3次元復元手法のトレンドと課題を解説しました!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Kaggle IMC2025からみる 3次元復元手法のトレンドと課題 2025.07.11 Hiroki Kawauchi 株式会社ディー・エヌ・エー AI

2.

自己紹介 河内大輝 /Hiroki Kawauchi AIエンジニア・データサイエンティスト@DeNA linkedin.com/in/hiroki-kawauchi …スポーツなどでの、Computer Vision等AI技術を用いたプロダクト開発 https://x.com/kwchrk_ 今月末MIRU行きます! 3次元Computer Vision技術が特に好きです。こちらの資料もどうぞ! AI 2

3.

01|コンペ概要 02|上位解法 項目 03|3次元復元に残された課題 04|まとめ AI 3

4.

01 コンペ概要 AI 4

5.

コンペ概要 Kaggle Image Matching Challenge ▪ 3次元復元のための画像マッチング関連タスクの精度をコンペ ▪ 国際会議CVPR Workshopの併設コンペ ▪ 本資料ではworkshopホストのIntroductionの内容も参照しつつ説明 ▪ 2022~ Kaggle上で毎年開催(IMC自体は2019~) ▪ 2022:画像マッチング ▪ 2023:3次元復元(カメラ位置推定) ▪ 2024:3次元復元(時間変化有りなど難しいシーンでのカメラ位置推定) 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 5

6.

コンペ概要 Kaggle Image Matching Challenge 2025 ▪ 2025:無関係な画像を含む入力(Messy Collections)での3次元復元(カメラポーズ推定) ▪ 入力:画像集合に、シーンに無関係な画像を含む画像群 ▪ 求められること: ▪ クラスタリング: 正しいシーンにクラスタリング ▪ ロバストな再構成: ノイズに頑健に、各シーンで正確なカメラポーズを推定する 図・出典: https://zenn.dev/yume_neko/articles/bee802ebf8b4d0 AI 6

7.

コンペ概要 Kaggle Image Matching Challenge 2025 ▪ ▪ ▪ 評価指標 ▪ クラスタリングスコアとカメラポーズmAAスコアの調和平均 クラスタリングスコア ▪ 提出各クラスタに、そのクラスタが代表するシーン以外の画像がどれだけ混ざっていないか ▪ 正解シーンSに対して、最も一致するクラスタCを見つけて以下のように計算 カメラポーズmAAスコア ▪ まず、提出カメラポーズが正解のカメラポーズに最もよく重なる相似変換 ▪ 変換後の座標と正解座標とのユークリッド距離が閾値より小さいカメラをpositive ▪ 複数の距離閾値に対して、Average Accuracyを計算してmAAを算出 AI 7

8.

コンペ概要 Kaggle Image Matching Challenge 2025 ▪ ▪ 全チームがホストが提供したベースパイプラインを採用 ▪ 画像ペア選択の精度が勝敗を分けた コンペ中盤まで評価指標コードにバグがあったが修正された 図・出典: https://zenn.dev/yume_neko/articles/bee802ebf8b4d0 AI 8

9.

02 上位解法 AI 9

10.

上位解法概観 ▪ ▪ ▪ ▪ 全体 ▪ 画像ペア選択の精度が勝敗を分けた ▪ 画像ペア選択→マッチングまで、3D基盤モデル(MASt3R)を活用したE2E手法が登場 ▪ 今年からサードパーティコードについては非商用ライセンスも許可 ▪ VGGTも使えたが、VRAM・タイムアウト的に厳しかった 画像ペア選択 ▪ 画像のGlobal特徴量による類似度に基づくペア選択が多い ▪ 段階的/網羅的なマッチングや同一シーン判定モデルなども 特徴点マッチング ▪ ALIKED(特徴点抽出)→LightGlue(マッチング)が多い ▪ MASt3RやRDDなどの手法も ▪ クロップや分割による工夫 カメラポーズ推定 ▪ COLMAPによるカメラポーズ推定で、特に目立った工夫はなく ▪ パラメータチューニングしているチームもあった AI 10

11.

画像ペア選択 画像のGlobal特徴量による類似度に基づくペア選択 ▪ 基本的にはベースラインのDINOv2を使っているものが多い ▪ 8thなどはDINOv2の代わりにCLIP ▪ MASt3R[1st, 5th] ▪ 1stでは、MASt3R ASMK(MASt3Rのエンコーダを用いた画像検索)/SPoc(sum-pooloed covolutioal features)などを組み合わせて類似度を計算↓ 図・出典: https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion/583058 AI 11

12.

画像ペア選択 網羅的/段階的なペア選択 ▪ 2ndでは、段階的なフロー ▪ 最初に軽量なSuperPointでペアをフィルタリング ▪ 残ったペアに対してALIKED + LightGlue、SIFTによるマッチング ▪ 更に、マッチが密集している領域をクロップして追加のマッチング ▪ 6thでは、全ペアを対象に軽量なALIKED+LightGlueでマッチングし、フィルタリング ▪ 10thでは、KeyNet-AdaLAM(local特徴を元に類似度を計算)を実行してフィルタリング 同一シーン判定モデル ▪ 4thでは、「2つの画像が同じシーンか否か」を判定する二値分類モデル(linear transformer) ▪ MegaDepthデータセットを使って学習 ▪ NetVLAD(global特徴)で取りこぼしをカバー AI 12

13.

特徴点マッチング ALIKED(特徴点抽出)→LightGlue(マッチング):基本的にはベースラインのこれが多い MASt3R ▪ 1st, 5thは、MASt3Rでのマッチング ▪ 1stはMASt3Rのsemi-denseマッチングに加え、ALIKED・SUperpointのキーポイントも入れる↓ 図・出典: https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion/583058 AI 13

14.

特徴点マッチング クロップや分割による工夫 ▪ 3rd ▪ Tiling: 1枚の画像を4分割+縮小画像の計5枚に変換し、ペア間で5x5=25通りのマッチングを 実行 。スケールや画角の大きな変化に頑健に対応。 ▪ Rotation: 初回マッチングに失敗したペアを90度ずつ回転させてリトライ 。画像の向きが 揃っていないデータセットに有効 図・出典: https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion/583401 AI 14

15.

03 3次元復元に残された課題 AI 15

16.

3次元復元に残された課題 似たシーンの問題(Doppelgangers) ▪ ▪ 対象的な建物の反対側など Doppelgangers++[Xiangli+, CVPR2025 Highlight] など、データセット提案も含め研究が続いている 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 16

17.

3次元復元に残された課題 オーバーラップが少ない画像群の問題 ▪ ▪ 画像同士のオーバラップが少ないとマッチングに失敗する MPSfM[Pataki+, CVPR2025]のように深度や法線などを与えるも 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 17

18.

3次元復元に残された課題 計算量・スケーラビリティの問題 ▪ ▪ ▪ NNベースの手法が基本的にSOTAだが、計算量(特に学習時)に膨大なGPUリソースが必要 数千枚の入力など、大規模シーンに対してスケーラブルとはいえない LoFTR・RoMaなどのkeypoint-freeなマッチングもコンペでは厳しく ▪ ※後段のCOLMAPに接続しにくいというハードルもある 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 18

19.

3次元復元に残された課題 撮影条件の変化の問題 ▪ ▪ 日中と夜間、季節が異なるなどの違いでマッチングに失敗するケースもまだある 研究的な新規性が出にくいため、アカデミアで進みにくい領域 図・出典: https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf AI 19

20.

まとめ ▪ ▪ ▪ ▪ Kaggle IMC2025は、無関係な画像を含む入力(Messy Collections)での3次元復元 ▪ 画像ペア選択の精度が勝敗を分けた ▪ 画像ペア選択→マッチングまで、3D基盤モデル(MASt3R)を活用したE2E手法が登場 画像ペア選択 ▪ 画像のGlobal特徴量による類似度に基づくペア選択が多い ▪ 網羅的なマッチングや同一シーン判定モデルなども 特徴点マッチング ▪ ALIKED(特徴点抽出)→LightGlue(マッチング)が多い。 ▪ MASt3RやRDDなどの手法や、クロップや分割による工夫も Workshopホストからは3次元復元に残された課題が指摘された ▪ 似たシーンの問題(Doppelgangers) ▪ オーバーラップが少ない画像群の問題 ▪ 計算量・スケーラビリティの問題 ▪ 撮影条件の変化の問題 ▪ 来年のコンペの方向性になるかも? AI 20

21.

参考資料 ▪ ▪ 以下の資料を参考にさせていただきました。 本資料は入口的に読んで頂き、詳細は以下の資料を参照して頂ければと思います ▪ Kaggle Discussions: ▪ https://www.kaggle.com/competitions/image-matching-challenge-2025/discussion ▪ 20th前後の方までの解法を読むことができます(ありがたい Yumeneko san zenn記事: ▪ https://zenn.dev/yume_neko/articles/bee802ebf8b4d0 ▪ 特に今回のコンペのデータや実態を含めたソリューションの詳細が分析されています Workshop organizerのMishkin氏によるの解説スライド ▪ https://cmp.felk.cvut.cz/~mishkdmy/slides/Image_Matching_in_2025_no_gif.pdf ▪ IMCコンペの歴史や各タスクのSOTAモデルや課題が網羅的に整理されています ▪ ▪ AI 21