[DL輪読会]Objects as Points

1.3K Views

June 14, 19

#deep learning #Deep Learning #Object Detection #CenterNet #Machine Learning #Computer Vision

スライド概要

2019/06/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 37.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.2K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Objects as Points Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • 書誌情報 – Objects as Points, 通称 CenterNet – 著者: Xingyi Zhou, Dequan Wang, Philipp Krähenbühl – 2019/04/16 on arXiv 引用: https://pjreddie.com/darknet/yolo/ • 1日違い(2019/04/17)に出たCenterNet (CenterNet: Keypoint Triplets for Object Detection)もあるが、今回の論文とは別。 • 既存の物体認識モデルの考え方から離れ、シンプルな手法を提案。 • YOLOv3やM2Det(前回発表)より速くて精度のいいモデルもできる1stage物体認識のモデルを達成。 2

はじめに • シンプルな改良によって、これまで当たり前のように使われていたNMSを利用する必要がなくなった • 既存の物体認識は non-maxima suppression (NMS) によって予測のダブリを取り除く必要があった。 ➢ NMSは微分できないため学習ができず、end-toendの学習ができない。 ➢ すべての候補領域について予測を出した後に NMSを行うという処理が無駄である。 3

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 4

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 5

既存の物体認識との違い • 物体認識では重複した予測結果を抑制するためにnon-maxima suppression (NMS) という処理を行うことが一般的。 • IoU (領域の重なり度合い)を計算して、一定の閾値を超えたものを抑制する。候補領域の予測 NMS 画像引用: https://meideru.com/archives/3538 6

https://meideru.com/archives/3538

既存の物体認識との違い既存の物体認識の例 network 入力画像候補領域の計算 NMS 最終結果 7

既存の物体認識との違い提案手法 (CenterNet) network 入力画像候補領域の計算 NMS 最終結果 8

既存の物体認識との違い • (a) は暗黙的にアンカーを使うタイプの一般的な物体認識モデル(ex. SSD、YOLO、 M2Det…)の検出の様子で、(b)はCenterNetの検出の様子。 • (a)は各点に対してバウンディングボックスを予測するのに対し、(b)では中心点をヒートマップで表す。 (a) Standard anchor based model (b) CenterNet 9

10.

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 10

11.

提案手法の推論推論のステップ network 候補領域の計算 1と2 3と4 1. 入力画像をbackboneネットワークに入力する。 2. 各クラスごとにkeypoint heatmap(物体の中心を表すヒートマップ)及びをlocal offset(物体位置の微調整のため)とobject sizeを出力する。 3. Keypoint heatmapの各点のうち周囲の8つの点以上の値を持つ点を peak値として取得し、その点を物体の中心とする。 4. Keypoint heatmapとlocal offset、object sizeを用いてバウンディングボックスを計算する。 11

12.

提案手法の推論 network 候補領域の計算 • ネットワークの出力の各点に対する予測の数(チャンネル数)は height class数(C) + local offset(2) + object size(2) = C + 4 図引用 : https://medium.com/machine-learning-bites/deeplearning-series-convolutional-neural-networks-a9c2f2ee1524 width 12

https://medium.com/machine-learning-bites/deeplearning-series-convolutional-neural-networks-a9c2f2ee1524

13.

提案手法の推論 network 候補領域の計算 • Keypoint heatmapの内周囲の8つの点以上の値を持つ点を中心点として取得し(最大100個)、この中心の値(peak値)をconfidence値として使う。 • 中心点の座標に加え、Local offsetとobject size を用いて以下のようにバウンディングボックスの予測を行う。オフセット: サイズ: バウンディングボックスを計算 (ボックスの座標のx,yの上下): 13

14.

提案手法の推論 • 基本的にはこれで処理は終わりで、既存のモデルのようなNMSの処理は行わなくてよい。 • ただし、推論時にaugmentationを行うと精度を上げることができる。 • Flip augmentation: 左右反転させた画像でも予測を行い、両者の平均を取る。 • Multi-scale augmentation: (0.5, 0.75, 1.0, 1.25, 1.5)の各スケールで予測を行い、NMSを使って最終的な結果を出す。 N.Aが何もなし、FがFlip、MSが加えてMulti-Scaleの augmentationを実行。結構遅くなる。 14

15.

提案手法の推論 • 使用するネットワーク ➢ Hourglass (Hourglass-104) 図(a) ➢ ResNet (ResNet-18、ResNet-101) 図(b) ➢ DLA (DLA-34) 図(d) (一般的なDLA図(c)を少し改良している) 15

16.

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 16

17.

提案手法の学習 Loss全体 : keypoint heatmapに対するロス。(一番のキモ。) : object sizeに対するロス。 : local offsetに対するロス。実験中の係数(lambda)はsizeとoffsetそれぞれ0.1と1で行われている。 17

18.

提案手法の学習 • ネットワークへの入力画像のサイズとヒートマップの出力形式 • 教師データも以下のように同様の形式にする。提案手法では、出力はR=4のストライドが設定されている。 • ただし、教師データを中心点を中心にガウシアンカーネルを使って以下のようにヒートマップ化する。 pは教師データのkeypoint • 同じクラスの物体でヒートマップが重なる場合大きい方を採用する。 18

19.

提案手法の学習 • ヒートマップの学習は以下のfocal lossを使う。 • Focal lossは簡単に分類できているexample(物体認識ではbackground)の損失を小さくする工夫をクロスエントロピーに加えたような損失関数。 19

20.

提案手法の学習 • Offset lossとsize lossはそれぞれ教師データのオフセットとサイズに対して L1ロスをとる。どちらのロスもobjectごとに計算し、足し合わせる。 Offset loss Size loss 20

21.

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 21

22.

提案手法の実験 • Single-Stageでは非常に精度が高い。論文中の精度だけ比べるとsingle stageではもう一方のCenterNetがState-of-the-artではあるが速度とのトレードオフあり。 (論文中にあったCornerNetの比較から算出するに、AP 44.9でFPS 4.65程度) 22

23.

提案手法の実験 • NMSの必要がないことの検証も行った。 • DLA-34のモデルのAP: 39.2% → 39.7% • Hourglass-104のモデル: 42.2%から変わらず。 • その他の検証 ✓ Center pointが重なることの問題がないか ✓ 入力画像サイズの検証 ✓ Lossのとり方 (L1/smooth L1) ✓ Lossの係数のパラメータの大きさ ✓ 学習率のスケジューリング 23

24.

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 24

25.

提案手法の応用 • CenterNetは、点にサイズのプロパティを与えたように、プロパティを追加することで他のタスクに応用できる。(ex. 3D物体認識ならDepthのプロパティを追加) • 3D物体認識では、Deep3DBox、Mono3Dという手法と比較し、これらに匹敵する精度を出した。また推論速度は2つオーダーが変わるほどの速さ。 • 姿勢推定もstate-of-the-artに匹敵する精度を出せた。 • 以上の結果からCenterNetが新しいタスクにも簡単に適用できることを示した。 25

26.

目次 1. 既存の物体認識との違い 2. CenterNetの推論 3. CenterNetの学習 4. CenterNetの実験 5. CenterNetの応用 6. まとめ 26

27.

まとめ • 物体の中心をヒートマップ化して扱うというシンプルな提案で、既存の物体認識の手法では定番であったNMSの必要性をなくした。 • 物体認識において、より高速で精度の高い結果を出した。 • 2Dの物体認識だけではなく、3Dの物体認識や姿勢推定にも応用可能である。（感想） • 後処理にNMSがいらなくなる → 速度向上 • ガウシアンカーネルを使ってヒートマップ化する中心点の扱い→ 精度向上 • これまでの物体認識で長く使われていた部分を変えてきたので、これからの物体認識の提案がどう変わってくるのか楽しみ。 27