[DL輪読会]M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

>100 Views

March 08, 19

スライド概要

2019/03/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1

2.

書誌情報 • 書誌情報 – M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network – 著者: Qijie Zhao, Tao Sheng,Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai and Haibin Ling – AAAI 2019 • Single stageの一般物体認識でSOTAを 達成したモデル。 • YOLOv3より速くて精度のいいモデル (もできる)。 画像引用: https://pjreddie.com/darknet/yolo/ 2

3.

はじめに 3

4.

はじめに 図参照: https://github.com/hoya012/deep_learning_object_detection 4

5.

モチベーション • 物体認識では、Scale variation (オブジェクトの画像内で大きさのばらつき)が課題 のひとつとして存在しており、その課題を解決するための手法としてImage Pyramid方式とFeature Pyramid方式がある。 • Image Pyramid方式: 入力の画像を複数サイズにリサイズして使う。 • Feature Pyramid方式: 入力の画像からfeature pyramidを抽出し、検出を行なう。 特にFeature Pyramid方式は、メモリや計算量が比較的小さく済み、 Feature Pyramidの構造を他のDNNモデルに組み込むこともでき、 広く使われてきた。(ex. SSD、STDN、FPN、etc) 5

6.

モチベーション • しかし、Feature Pyramid方式には限界がある。その原因は以下の2点。 1. 既存のFeature Pyramidの構造はクラス分類のタスクをbackboneにしてそれを単純 にピラミッド構造にしたものであったため、物体認識のタスクにとって十分な 表現力を持っていない。 2. Single-levelの情報しか考慮されていないため、物体の(見た目の)複雑度が考慮 されていない。 • 提案手法では、この問題を解決するモデルを考案した。 6

7.

モチベーション ScaleとLevelについて Scale: 同じ物体であってもサイズが 違うことがある。 Level: 同じサイズであっても 複雑度が異なることがある。 図参照: https://github.com/qijiezhao/M2Det 7

8.

モチベーション • 以上の問題意識の元、物体認識に特化したMulti-Level Feature Pyramid Network (MLFPN)を提案する。 1. Backboneのモデルからmulti-levelの特徴を抽出、結合し、base featureとして利用する。 2. Thinned U-shape Modules (TUM)とFeature Fusion Modules (FFM)によって、multi-levelで multi-scaleな表現を獲得する。 3. 同じscaleの特徴マップを集約し、最終的な物体認識のためのfeature pyramidを出力す る。 • このMLFPNをSSDのアーキテクチャに組み込んだものがM2Detである。 8

9.

モデルの概観 SSD(Liu et al, 201) SSDの中にMLFPNの構造を組 み込んだ一般物体認識モデル がM2Detである。 M2Det 図参照: https://arxiv.org/pdf/1701.06659.pdf 9

10.

モデルの概観 Multi Levelを考慮 Multi Scaleを考慮 10

11.

Backbone networkとFFM1 • Backbone networkは特徴抽出器にあたり、物体認識の学習済みモデルを使用。 (ここでは、VGG) • ネットワーク 中の2層(conv4_3、conv5_3)の特徴マップをFFM1によって結合し、 Base featureとする。 FFM1 11

12.

TUMとFFMv2 1) モジュールがencoderとdecoderに なっている。 FPN(Lin et al, 2017) TUM 2) ひとつのTUMモジュールはMulti Scale の特徴マップを出力する。複数のTUMモ ジュールを重ねることでMulti Levelの特 徴を捉えることができる。 12

13.

TUMとFFMv2 TUMから Base feature FFMv2へ 13

14.

SFAM • SFAMは、各TUMの出力のMulti ScaleでMulti Labelな特徴をFeature Pyramidに集約 する。 14

15.

SFAM • SE Block (Hu et al, 2017)の構造を取り入れている。 • まず、各TUMの同じスケールの特徴マップを結合。 • その後、Squeeze(global pooling処理)、Excitation(2つのFC層)の処理を行ったもの を、元の特徴マップと掛け合わせる。 • 上記の処理を各スケールの特徴マップごとの行なう。 15

16.

モデルの概観 Multi Levelを考慮 Multi LevelでMulti Scaleな特徴の Feature Pyramidを取得できた! Multi Scaleを考慮 16

17.

実験 • MS-COCOのデータセットで学習を行い、既存のモデルと比較した。 • TUMの数は8個で、TUM内のチャンネル数は256としている。 (学習時間) • VGG16 backbone/入力サイズ 320x320 on 4 Titan X -> 3日 • VGG16 backbone/入力サイズ 512x512 on 4 Titan X -> 6日 • ResNet 101 backbone/入力サイズ 320x320 on 4 Titan X -> 5日 • ResNet 101 backbone/入力サイズ 512x512 on 2 V100 -> 11日 • VGG16 backbone/入力サイズ 800x800 on 2 v100 -> 14日 結構学習に時間かかる? 17

18.

物体認識の指標 Average Precision (AP) • 予測のバウンディングボックスと 正解のバウンディングボックスの IoU値をある閾値(例えば0.5)を超 えるかどうかで予測が正しいかど うかを決定。 • confidenceの値を変化させながら、 右下図のようにPrecisionとRecall のグラフにする。 • 緑の下の面積を考えてAPとなる。 • このとき閾値0.5のAPである。 図参照: https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173 18

19.

結果 19

20.

Ablation Study • 一番左はDSSDを表しており、 s-TUMはTUMから出力時の 1x1 Convを除いたもの • 各モジュールが有効に機能して いることが確認できる。 DSSD (Fu et al, 2017) 図参照: https://arxiv.org/pdf/1701.06659.pdf 20

21.

ディスカッション 最初のモチベーション通りに、MLFPNのFeature PyramidがScale、Levelを 考慮したものになっているかの確認。 • Scaleの方向にみてみると、 同じ物体で異なるオブジェクトの サイズを考慮していることがわかる。 • Levelの方向にみてみると、 異なる複雑度を持つ物体ごとに 考慮されていることがわかる。 21

22.

まとめ • Multi Scaleだけではなく、Multi Levelも考慮し、物体認識に特化した Feature PyramidのためのネットワークであるMLFPNを提案した。 • MLFPNをSSDに組み込んだM2Detはsingle stageの物体認識においてSOTA を達成した。 22