>100 Views
March 08, 19
スライド概要
2019/03/08
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network Shizuma Kubo, Matsuo Lab http://deeplearning.jp/ 1
書誌情報 • 書誌情報 – M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network – 著者: Qijie Zhao, Tao Sheng,Yongtao Wang, Zhi Tang, Ying Chen, Ling Cai and Haibin Ling – AAAI 2019 • Single stageの一般物体認識でSOTAを 達成したモデル。 • YOLOv3より速くて精度のいいモデル (もできる)。 画像引用: https://pjreddie.com/darknet/yolo/ 2
はじめに 3
はじめに 図参照: https://github.com/hoya012/deep_learning_object_detection 4
モチベーション • 物体認識では、Scale variation (オブジェクトの画像内で大きさのばらつき)が課題 のひとつとして存在しており、その課題を解決するための手法としてImage Pyramid方式とFeature Pyramid方式がある。 • Image Pyramid方式: 入力の画像を複数サイズにリサイズして使う。 • Feature Pyramid方式: 入力の画像からfeature pyramidを抽出し、検出を行なう。 特にFeature Pyramid方式は、メモリや計算量が比較的小さく済み、 Feature Pyramidの構造を他のDNNモデルに組み込むこともでき、 広く使われてきた。(ex. SSD、STDN、FPN、etc) 5
モチベーション • しかし、Feature Pyramid方式には限界がある。その原因は以下の2点。 1. 既存のFeature Pyramidの構造はクラス分類のタスクをbackboneにしてそれを単純 にピラミッド構造にしたものであったため、物体認識のタスクにとって十分な 表現力を持っていない。 2. Single-levelの情報しか考慮されていないため、物体の(見た目の)複雑度が考慮 されていない。 • 提案手法では、この問題を解決するモデルを考案した。 6
モチベーション ScaleとLevelについて Scale: 同じ物体であってもサイズが 違うことがある。 Level: 同じサイズであっても 複雑度が異なることがある。 図参照: https://github.com/qijiezhao/M2Det 7
モチベーション • 以上の問題意識の元、物体認識に特化したMulti-Level Feature Pyramid Network (MLFPN)を提案する。 1. Backboneのモデルからmulti-levelの特徴を抽出、結合し、base featureとして利用する。 2. Thinned U-shape Modules (TUM)とFeature Fusion Modules (FFM)によって、multi-levelで multi-scaleな表現を獲得する。 3. 同じscaleの特徴マップを集約し、最終的な物体認識のためのfeature pyramidを出力す る。 • このMLFPNをSSDのアーキテクチャに組み込んだものがM2Detである。 8
モデルの概観 SSD(Liu et al, 201) SSDの中にMLFPNの構造を組 み込んだ一般物体認識モデル がM2Detである。 M2Det 図参照: https://arxiv.org/pdf/1701.06659.pdf 9
モデルの概観 Multi Levelを考慮 Multi Scaleを考慮 10
Backbone networkとFFM1 • Backbone networkは特徴抽出器にあたり、物体認識の学習済みモデルを使用。 (ここでは、VGG) • ネットワーク 中の2層(conv4_3、conv5_3)の特徴マップをFFM1によって結合し、 Base featureとする。 FFM1 11
TUMとFFMv2 1) モジュールがencoderとdecoderに なっている。 FPN(Lin et al, 2017) TUM 2) ひとつのTUMモジュールはMulti Scale の特徴マップを出力する。複数のTUMモ ジュールを重ねることでMulti Levelの特 徴を捉えることができる。 12
TUMとFFMv2 TUMから Base feature FFMv2へ 13
SFAM • SFAMは、各TUMの出力のMulti ScaleでMulti Labelな特徴をFeature Pyramidに集約 する。 14
SFAM • SE Block (Hu et al, 2017)の構造を取り入れている。 • まず、各TUMの同じスケールの特徴マップを結合。 • その後、Squeeze(global pooling処理)、Excitation(2つのFC層)の処理を行ったもの を、元の特徴マップと掛け合わせる。 • 上記の処理を各スケールの特徴マップごとの行なう。 15
モデルの概観 Multi Levelを考慮 Multi LevelでMulti Scaleな特徴の Feature Pyramidを取得できた! Multi Scaleを考慮 16
実験 • MS-COCOのデータセットで学習を行い、既存のモデルと比較した。 • TUMの数は8個で、TUM内のチャンネル数は256としている。 (学習時間) • VGG16 backbone/入力サイズ 320x320 on 4 Titan X -> 3日 • VGG16 backbone/入力サイズ 512x512 on 4 Titan X -> 6日 • ResNet 101 backbone/入力サイズ 320x320 on 4 Titan X -> 5日 • ResNet 101 backbone/入力サイズ 512x512 on 2 V100 -> 11日 • VGG16 backbone/入力サイズ 800x800 on 2 v100 -> 14日 結構学習に時間かかる? 17
物体認識の指標 Average Precision (AP) • 予測のバウンディングボックスと 正解のバウンディングボックスの IoU値をある閾値(例えば0.5)を超 えるかどうかで予測が正しいかど うかを決定。 • confidenceの値を変化させながら、 右下図のようにPrecisionとRecall のグラフにする。 • 緑の下の面積を考えてAPとなる。 • このとき閾値0.5のAPである。 図参照: https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173 18
結果 19
Ablation Study • 一番左はDSSDを表しており、 s-TUMはTUMから出力時の 1x1 Convを除いたもの • 各モジュールが有効に機能して いることが確認できる。 DSSD (Fu et al, 2017) 図参照: https://arxiv.org/pdf/1701.06659.pdf 20
ディスカッション 最初のモチベーション通りに、MLFPNのFeature PyramidがScale、Levelを 考慮したものになっているかの確認。 • Scaleの方向にみてみると、 同じ物体で異なるオブジェクトの サイズを考慮していることがわかる。 • Levelの方向にみてみると、 異なる複雑度を持つ物体ごとに 考慮されていることがわかる。 21
まとめ • Multi Scaleだけではなく、Multi Levelも考慮し、物体認識に特化した Feature PyramidのためのネットワークであるMLFPNを提案した。 • MLFPNをSSDに組み込んだM2Detはsingle stageの物体認識においてSOTA を達成した。 22