354 Views
May 15, 20
スライド概要
2020/05/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
書籍情報 • タイトル Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector • 著者 Qi Fanq, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai HKUST(香港科技大学)とTencentの共同研究 • CVPR2020に採択 • Code https://github.com/fanq15/FSOD-code? https://github.com/fanq15/Few-Shot-Object- Detection-Dataset 2
概要 • 手法の概要: support画像とquery画像間の特徴をマッチングする能力を学習し、fewshot object detection手法を提案 • 提案手法のポイント Attention RPNで、proposalを対象カテゴリに絞る Multi-Relation Detectorで、query画像におけるproposalとsupport画像と マッチングすることで、推定結果を選別する Contrastive learning strategyで、マッチング性能を向上する FSODの大規模なデータセットを構築 3
既往研究 • Few-shot learning support画像とquery画像を入力とし、 query画像がsupport画像と同じカテゴリかを判別 する。基本的には、特徴抽出と、特徴間の距離で同じ物体かを判定するという二つの ネットワークがある 最近のトレンドはmeta learning的な方法で、タスク間の共通するメタな特徴を学習、 metric learningなどで特徴をマッチング 抽出する特徴に工夫:support画像からglobal/local特徴を抽出 特徴間距離の学習に工夫:ロジスティック回帰で距離を学習、Graph CNNでカテゴリ間の関係を学習 support image 距離で同じカテ ゴリかを判定 4 query image
既往研究 • few-shot object detection 問題設定: support画像(close-up image of object)を 用いて、query画像における物体を検出する 対象カテゴリは学習データに含まれない カテゴリ数=N、support画像数=Kの場合は、 N-way K-shot detectionという LSTD(Chen et al., 2018)は、大規模なデータセットでナレッジを学習し、小規模なデータ セットに適用する手法を提案したが、汎用性が課題 (Kang et al., 2019), (Karlinsky et al., 2019), (Yan et al., 2019)は、category-specific embeddingを学習することで実現するが、新たにカテゴリを追加する場合は、別途finetuningが必要となる 5
FSOD: A Highly-Diverse Few-Shot Object Detection Dataset • few-shot object detctionのキーは、新しいカテゴリーに対する汎化性能 • 学習データの多様性が重要となるが、既存データセットのカテゴリーは少ない /few-shot object detection専用の大規模なデータセットがない • Open image & ImageNetより、データセットを構築する ラベリングシステムの再構築 小さい物体を省く( >= 画像サイズ * 0.05%) train set: 800種類 test set: trainから距離が長い200種類を選定 • 特徴 High diversity in categories Challenging setting box size/aspect ratio, high box/img 6
提案手法のフレームワーク • • • • • Weight-shared backboneで特徴を抽出 Attention RPNで対象外カテゴリをフィルターする Multi-Relation Head(detector)で、同じカテゴリかを推定 N-wayの場合は、N個Attention RPN K-shotの場合は、backboneで取得した特徴の平均値を使用 7
Attention-based Region Proposal Network • 普通のRPNは、物体らしくない(背景)proposalを除外する役割 • attention機構を入れることで、対象カテゴリ以外(negative)proposalを除外 することができる depth-wise cross correlation (Li et al., 2019) where, X=support feature, Y=query feature support featureは、average poolingにした後、depth-wise kernelの役割となる Kernel size = 1の時、性能の最も良い RPNのtop layerに適用( i.e. the res4_6 in ResNet50 ) global featureに、分類用のobject priorがあるため ただし、ablation studyは欠けていた 8
Multi-Relation Detector • 三つの関係性から、supportとqueryのproposalの類似性をはかる global-relation head support feature: fs query feature: fq deep embedding for global matching concatenate(fs, fq)→FCでmatching scoreを推定 local-relation head pixel & depth-wise matching depth-wise similarity→FCでmatching scoreを推定 where, S=H=W=7 patch-relation head one-to-many pixel relationship concatenate(fs, fq)→patch-relation moduleで空間 解像度を(1, 1)に落とす→FCでmatching scoreを推定 別のFCで位置を推定 9
Two-way Contrastive Training Strategy • 性能の高いモデルは、異なるカテゴリを区別できる • 2-way contrastive training strategy: training triplet (sc, qc, sn)を用意:c=対象カテゴリ、n=対象外カテゴリ 一方、学習において、大量な背景proposalが生成される matching pairsの比率を調整 (pf, sp) : (pb, sp) : (p, sn) = 1:2:1 (pf, sp): N個(全てのforeground proposal: positive support pairs) (pb, sp): top 2N (matching scoresで選択) (p, sn): top N(matching scoresで選択) • Loss Function Lmatching : binary cross-entropy Lbox : smooth L1 loss 10
実験 • 既存SOTA手法との比較 – test data: ImageNet based 50-way 5-shot / MS COCO based 20-way 10-shot detection scenario – 提案手法および、提案データセットFSODの有効性を確認できた – FSODで学習した場合、fine-tuningしなくても、既存手法を上回る 11
実験 • 実環境における検証 • 5-shot wild penguin detection • 10-shot car detection Training data: KITTI. Validation/Test data: Cityscapes Fine-tuningなし AP50 on KITTI AP50 on Cityscapes DA Faster R-CNN 38.5 64.1 Ours 67.4 37.0 12
実験 • More Categories vs. More Samples? few-shot object detectionにおいて、カテゴリ情報の方が重要 13
Ablation Study • Attention PRN • Multi-Relation Detector Patch-Relationは関係性が複雑なため、学習 が難しくなる • Two-way Contrastive Training Strategy negative supportカテゴリは、1種類で十分 14
まとめ • Attention RPN, Multi-Relation Detector, 2-way contrastive training strategyという方法で、few-shot object detection手法を提案した • few-shot object detection専用の大規模なデータセット、FSODを構築した • 提案手法がFSODで学習した場合、Fine-tuningなしでも、既存手法の性能 を上回る • contrastive learningで、negative samplesをうまく利用する • サンプル画像を数倍用意することで、相対的に良い検出性能を達成できる 新たにラベリング作業を行う状況に対応できる 15