[DL輪読会]Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

547 Views

May 15, 20

#deep learning #Deep Learning #Object Detection #Few-Shot Learning #Attention-RPN #Multi-Relation Detector

スライド概要

2020/05/15
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.1K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 59K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.5K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 38K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1

http://deeplearning.jp/

書籍情報 • タイトル  Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector • 著者  Qi Fanq, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai  HKUST(香港科技大学)とTencentの共同研究 • CVPR2020に採択 • Code  https://github.com/fanq15/FSOD-code？  https://github.com/fanq15/Few-Shot-Object- Detection-Dataset 2

概要 • 手法の概要： support画像とquery画像間の特徴をマッチングする能力を学習し、fewshot object detection手法を提案 • 提案手法のポイント Attention RPNで、proposalを対象カテゴリに絞る Multi-Relation Detectorで、query画像におけるproposalとsupport画像とマッチングすることで、推定結果を選別する Contrastive learning strategyで、マッチング性能を向上する FSODの大規模なデータセットを構築 3

既往研究 • Few-shot learning  support画像とquery画像を入力とし、 query画像がsupport画像と同じカテゴリかを判別する。基本的には、特徴抽出と、特徴間の距離で同じ物体かを判定するという二つのネットワークがある  最近のトレンドはmeta learning的な方法で、タスク間の共通するメタな特徴を学習、 metric learningなどで特徴をマッチング  抽出する特徴に工夫：support画像からglobal/local特徴を抽出  特徴間距離の学習に工夫：ロジスティック回帰で距離を学習、Graph CNNでカテゴリ間の関係を学習 support image 距離で同じカテゴリかを判定 4 query image

既往研究 • few-shot object detection  問題設定： support画像（close-up image of object）を用いて、query画像における物体を検出する 対象カテゴリは学習データに含まれない カテゴリ数＝N、support画像数＝Kの場合は、 N-way K-shot detectionという  LSTD(Chen et al., 2018)は、大規模なデータセットでナレッジを学習し、小規模なデータセットに適用する手法を提案したが、汎用性が課題  (Kang et al., 2019), (Karlinsky et al., 2019), (Yan et al., 2019)は、category-specific embeddingを学習することで実現するが、新たにカテゴリを追加する場合は、別途finetuningが必要となる 5

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset • few-shot object detctionのキーは、新しいカテゴリーに対する汎化性能 • 学習データの多様性が重要となるが、既存データセットのカテゴリーは少ない /few-shot object detection専用の大規模なデータセットがない • Open image & ImageNetより、データセットを構築する  ラベリングシステムの再構築  小さい物体を省く（ >= 画像サイズ * 0.05%）  train set: 800種類  test set: trainから距離が長い200種類を選定 • 特徴  High diversity in categories  Challenging setting box size/aspect ratio, high box/img 6

提案手法のフレームワーク • • • • • Weight-shared backboneで特徴を抽出 Attention RPNで対象外カテゴリをフィルターする Multi-Relation Head(detector)で、同じカテゴリかを推定 N-wayの場合は、N個Attention RPN K-shotの場合は、backboneで取得した特徴の平均値を使用 7

Attention-based Region Proposal Network • 普通のRPNは、物体らしくない（背景）proposalを除外する役割 • attention機構を入れることで、対象カテゴリ以外(negative)proposalを除外することができる  depth-wise cross correlation (Li et al., 2019) where, X=support feature, Y=query feature  support featureは、average poolingにした後、depth-wise kernelの役割となる  Kernel size = 1の時、性能の最も良い  RPNのtop layerに適用（ i.e. the res4_6 in ResNet50 ） global featureに、分類用のobject priorがあるため ただし、ablation studyは欠けていた 8

Multi-Relation Detector • 三つの関係性から、supportとqueryのproposalの類似性をはかる  global-relation head support feature: fs query feature: fq  deep embedding for global matching  concatenate(fs, fq)→FCでmatching scoreを推定  local-relation head  pixel & depth-wise matching  depth-wise similarity→FCでmatching scoreを推定 where, S=H=W=7  patch-relation head  one-to-many pixel relationship  concatenate(fs, fq)→patch-relation moduleで空間解像度を(1, 1)に落とす→FCでmatching scoreを推定  別のFCで位置を推定 9

10.

Two-way Contrastive Training Strategy • 性能の高いモデルは、異なるカテゴリを区別できる • 2-way contrastive training strategy:  training triplet (sc, qc, sn)を用意：c=対象カテゴリ、n=対象外カテゴリ  一方、学習において、大量な背景proposalが生成される  matching pairsの比率を調整 (pf, sp) : (pb, sp) : (p, sn) = 1:2:1 (pf, sp): N個（全てのforeground proposal: positive support pairs） (pb, sp)： top 2N (matching scoresで選択) (p, sn): top N(matching scoresで選択) • Loss Function  Lmatching : binary cross-entropy  Lbox : smooth L1 loss 10

11.

実験 • 既存SOTA手法との比較 – test data: ImageNet based 50-way 5-shot / MS COCO based 20-way 10-shot detection scenario – 提案手法および、提案データセットFSODの有効性を確認できた – FSODで学習した場合、fine-tuningしなくても、既存手法を上回る 11

12.

実験 • 実環境における検証 • 5-shot wild penguin detection • 10-shot car detection  Training data: KITTI. Validation/Test data: Cityscapes  Fine-tuningなし AP50 on KITTI AP50 on Cityscapes DA Faster R-CNN 38.5 64.1 Ours 67.4 37.0 12

13.

実験 • More Categories vs. More Samples?  few-shot object detectionにおいて、カテゴリ情報の方が重要 13

14.

Ablation Study • Attention PRN • Multi-Relation Detector  Patch-Relationは関係性が複雑なため、学習が難しくなる • Two-way Contrastive Training Strategy  negative supportカテゴリは、1種類で十分 14

15.

まとめ • Attention RPN, Multi-Relation Detector, 2-way contrastive training strategyという方法で、few-shot object detection手法を提案した • few-shot object detection専用の大規模なデータセット、FSODを構築した • 提案手法がFSODで学習した場合、Fine-tuningなしでも、既存手法の性能を上回る • contrastive learningで、negative samplesをうまく利用する • サンプル画像を数倍用意することで、相対的に良い検出性能を達成できる  新たにラベリング作業を行う状況に対応できる 15