【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

1.4K Views

July 25, 22

#@deep learning jp #Deep Learning #EPro-PnP #Monocular Object Pose Estimation #End-to-End Learning #Probabilistic Perspective-n-Points

スライド概要

2022/7/22
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation” Presenter: Takahiro Maeda D1 (Toyota Technological Institute) http://deeplearning.jp/

http://deeplearning.jp/

目次 1. 2. 3. 4. 5. 6. 書誌情報概要研究背景提案手法実験結果考察・所感 2

1. 書誌情報紹介論文タイトル: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 出典: CVPR2022 Best Student Paper 著者: Hansheng Chen, …, Hao Li. 所属: 同済大学（中国），Alibaba 選書理由 CVPR2022のBest Student Paperに興味がある ※引用は最後にまとめてあります．特に明示が無い場合は，紹介論文，動画から引3

2. 概要 • argminの学習不安定性を緩和する手法を提案 ① 物体姿勢推定は Perspective-n-Point (PnP) が比較的高精度 ② しかし，PnPはargmin処理により，微分不可・学習不安定 ③ 提案手法(EPro-PnP)では，argmin出力を確率分布とすることで微分可能にし，End-to-End学習を可能にした． Perspective-n-Point (PnP)問題[1] 4

3. 研究背景: Direct Pose Prediction 姿勢の例 ෨ ෤𝒕 姿勢 𝑅, ２D画像損失関数 6次元姿勢推定[2] 3次元位置 3次元回転良い点 • 単純 • 物体形状を必要としない悪い点 • (PnPと比べ）解釈性が低い • 過学習，汎化性能悪い（見た目の変化に過敏） 3次元物体検出（車載系）[3] 平面上2次元位置鉛直方向1次元回転 5

3. 研究背景: Perspective-n-Point (PnP) 物体形状が既知の場合．．． 3点以上の対応付けから姿勢推定が可能 (PnP) 3 𝒙3D 𝑖 ∈ ℝ : 物体表面上の3次元点 2 𝒙2D 𝑖 ∈ ℝ : 画像上の2次元点 𝒘2D 𝑖 ∈ ℝ2+ : 各2次元点の重要度良い点 • 高精度 • 計算式が明示的で解釈性が高い悪い点 • 物体形状が必要 2D ෨ 𝒕෤ = argmin𝑅,𝒕 ෍ 𝒘2D 𝑅, ∘ 𝜋 𝑅𝒙3D 𝑖 𝑖 + 𝒕 − 𝒙𝑖 𝟐 𝑖 推定姿勢投影した3次元点 End-to-End学習で物体形状もimplicitに学習可能．．．？ 2次元点 6

3. 研究背景: End-to-EndなPnPの課題 3 𝒙3D 𝑖 ∈ ℝ : 3次元点 2 𝒙2D 𝑖 ∈ ℝ : 2次元 PnP solver argmin𝑅,𝒕 ෍ 𝐞𝐫𝐫 𝟐 ෨ 𝒕෤ 姿勢 𝑅, 𝑖 不連続勾配更新前後の損失の急激な変化 2 : 重要度 𝒘2D ∈ ℝ + 𝑖 点２D画像良い点 • PnPにより（学習可能ならば）高精度 • 物体形状を必要としない悪い点 • argminに対して勾配を通すため，学習が不損失関数提案手法 7

4. 提案手法: argminから確率分布への緩和従来法 3 𝒙3D 𝑖 ∈ ℝ 𝒙2D 𝑖 ∈ ℝ2 2 𝒘2D 𝑖 ∈ ℝ+ ２D画像 PnP solver argmin𝑅,𝒕 ෍ 𝐞𝐫𝐫 𝟐 ෨ ෤𝒕 姿勢 𝑅, 𝑖 不連続損失関数 MSE 提案手法損失関数 KL divergence Softmax 3 𝒙3D 𝑖 ∈ ℝ 2 𝒙2D 𝑖 ∈ ℝ 2 𝒘2D 𝑖 ∈ ℝ+ ２D画像 EProPnP 連続確率分布 Pose GT分布[4] 8

4. 提案手法: categorical softmaxとの対比入力空間 Categorical 離散 Softmax ( クラス数 ) EPro-PnP 推定分布 GT分布損失関数 exp(𝑥𝑖 ) σ𝑖 exp(𝑥𝑖 ) onehot 1 exp(− 𝒆𝒓𝒓(𝒚, 𝑿) 2 連続値 1 ( 姿勢空間 ) ‫ ׬‬exp − 2 𝒆𝒓𝒓 𝒚, 𝑿 2 2 ) Cross Entropy KL デルタ 𝑑𝒚 関数 Divergence 3 𝒙3D 𝑖 ∈ ℝ 2 𝒙2D 𝑖 ∈ ℝ 2 𝒘2D 𝑖 ∈ ℝ+ ෨ ෤𝒕 姿勢 𝑅, 𝑿 𝒚 9

10.

4. 提案手法: 損失関数 𝐿 = 𝐷KL 𝛿gt 𝒚 = න 𝛿gt 𝑝 𝒚𝑿 𝛿gt 𝒚 𝒚 log 𝑑𝒚 𝑝 𝒚𝑿 確率密度関数におけるKLDの定義 = − න 𝛿gt 𝒚 log 𝑝 𝒚 𝑿 𝑑𝒚 + const 𝑿に関わらない項を定数に = −log 𝑝 𝒚gt 𝑿 + const 1 1 2 = 𝒆𝒓𝒓 𝒚gt , 𝑿 + log න exp − 𝒆𝒓𝒓 𝒚, 𝑿 2 2 デルタ関数の積分の定義 GT姿勢の確率を最大化 2 𝑑𝒚 𝑝(𝒚|𝑿)の定義，const省略他の姿勢の確率を最小化 𝑝(𝒚|𝑿) 確率分布確率分布損失関数 KL divergence Pose 𝛿gt (𝒚) GT分布[4] 10

11.

4. 提案手法: 重点サンプリングによる積分値の近似 log න exp − 1 𝒆𝒓𝒓 𝒚, 𝑿 2 2 𝑑𝒚 = log න 𝑓 𝒚 𝑑𝒚 𝑓 𝒚 = log න 𝑞 𝒚 𝑑𝒚 𝑞 𝒚 𝑓(𝒚)と置く 𝑞𝒚 𝑞(𝒚) = 1を掛け合わせる． = log 𝔼𝑞 ただし，𝑞(𝒚)はサンプリング可な確率分布積分を期待値とする 𝑖 𝑞(𝒚)からのサンプルによる期待値の近似（重点サンプリング） 𝑓 𝒚 𝑞 𝒚 𝑓 𝒚 ≈ log ෍ 𝑞 𝒚 重点サンプリングの近似精度は𝑞(𝒚)の選択に依存推定空間に合わせた分布を選択する必要がある．姿勢推定： 3次元位置 1次元角度 t分布 von Mises distribution と一様分布の 3次元角度 Angular Central Gaussian 混合 11

12.

5. 実験結果: 6次元姿勢推定 CDPN: PnPベースの6次元姿勢推定従来法 6次元姿勢推定[2] 12

13.

5. 実験結果: 3次元物体検出 3次元物体検出（車載系）[3] 平面上2次元位置鉛直方向1次元回転 13

14.

6. 所感・考察 • softmaxの連続空間verを提案 – 身近な場所にbest paperの種が落ちている • • • • argminは古典的アルゴリズムで頻出するため，応用範囲が広い解法がシンプル性能も向上流石best paper 14

15.

引用 [1] Perspective-n-Point問題 http://www.sankoshoko.net/note.php?id=y15w [2] EfficientPose https://github.com/ybkscht/EfficientPose [3] KITTI http://www.cvlibs.net/datasets/kitti/ [4] Dirac delta https://jp.mathworks.com/help/symbolic/sym.dirac.html 15