【深層学習による画像認識の基礎】5.3~5.5

273 Views

June 11, 26

#深層学習 #画像認識 #物体検出 #DETR #Pix2Seq

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 31.4K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 24.4K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.9K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 20.5K

【物体検出】MaskFormer

京都大学人工知能研究会KaiRA 15.9K

【物体検出】DINO

京都大学人工知能研究会KaiRA 14.6K

各ページのテキスト

2026前期輪読会 2026/06/11 深層学習による画像認識の基礎第5章物体検出 5.3 ViTによる物体検出・5.4 性能評価京都大学農学部地域環境工学科 B４金加真一郎 0

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 1

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 2

5.3.1 DETR ― バックボーンとエンコーダ従来手法（FCOS, Faster R-CNN）の課題 ■1つの正解ボックスに複数の検出候補を割り当て，重複ボックスを NMSで後処理 ■NMSのハイパーパラメータが最終性能に大きく影響し，計算コストも必要 DETR（Detection Transformer）の提案 [Carion et al., 2020] ■物体検出を集合推定問題（direct set prediction problem）として定式化 ■入力画像のクラスラベルとボックス情報の集合を直接出力 ■2部グラフマッチングで予測と正解ラベルを1対1対応 → NMS不要構成：バックボーン → Transformerエンコーダ → デコーダ → 検出ヘッド 3

5.3.1 DETR ― バックボーンとエンコーダバックボーンはResNet，エンコーダは位置符号化付きのTransformerエンコーダバックボーン ■ ResNet-50 / ResNet-101をバックボーンに使用（ImageNet-1Kで事前学習） ■ 入力 X ∈ R^(3×H×W) → 特徴マップ F ∈ R^(C×H'×W'）（C=2048, H'=H/32） Transformerエンコーダ ■ 1×1畳み込みで特徴マップのチャネル削減：Z⁰ ∈ R^(d×H'W’) ■ 位置符号化ベクトル W_pos を加算してTransformerエンコーダに入力 ■ クエリ/キーベクトル計算前に毎回 W_pos を加算（位置情報を保持） ■ L_enc 層のTransformerエンコーダで出力 Z_enc ∈ R^(d×HW) を計算 4

5.3.1 DETR ― デコーダと検出ヘッドデコーダはオブジェクトクエリでエンコーダ出力から物体情報を抽出し，クラスとボックスを予測デコーダ ■ 入力：オブジェクトクエリ H ∈ R^(d×N)（学習可能），エンコーダ出力 Z_enc ■ N は画像中の物体数より多めに設定（DETR原論文では N=100） ■ 各層で：自己注意 → クロス注意（クエリで Z_enc を参照）→ FFN 検出ヘッド ■ クラス分類：|C|+1クラス（前景＋背景）のソフトマックス ■ ボックス回帰：中心座標・縦横幅の4次元ベクトルをシグモイドで出力 DETRの特性 ■ 自己注意機構がクエリ間の相互作用を考慮 → 同一物体の重複検出を抑制 ■ 課題：学習収束が遅い（約500エポック），小物体の検出精度が低い 5

5.3.1 DETR ― 損失関数と学習 2部グラフマッチングで1対1対応を実現し，NMS不要のエンドツーエンド学習を可能にする 2部グラフマッチング ■ 出力集合 ŷ と正解集合 y を1対1対応させる最適割当 P̂ を求める ■ コスト：分類コスト C_cls（クロスエントロピー）+ 回帰コスト C_reg（L1 + GIoU） ■ ハンガリー法（SciPy: linear_sum_assignment）で効率的に最適解を算出損失関数（式5.24） ■ L = Σ [-log ĉ_P̂(i)(c_i) + 1{c_i≠∅} · L_box(b_i, b̂_P̂(i))] ■ 一般化IoU損失（GIoU）：ボックスが重ならない場合にも勾配消失しない 6

5.3.1 DETRの改良収束の遅さと小物体精度の低さを解決すべく多様なDETR後継手法が提案されている DETRの2つの課題 ■ ① 学習の収束が遅い：COCOで約500エポック（Faster R-CNNの10～20倍） ■ ② 小物体の検出精度が低い：FPNによるマルチスケール特徴を使わないため Deformable DETR [Zhu et al., 2021] ■ 各位置の近傍パッチのみをサンプリングして注意計算 → 学習・メモリ効率化 ■ マルチスケール特徴マップが利用可能 → 収束2倍以上高速化，小物体精度改善 DAB-DETR [Liu et al., 2022] ■ オブジェクトクエリをアンカー (y_q, x_q, h_q, w_q) で明示的に表現 ■ 位置に関する特徴表現を改善し，収束速度と小物体精度を大幅に改善 Group DETR：K個のクエリグループで1対多マッチングを学習に活用，収束高速化 7

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 8

10.

5.3.2 Pix2Seq Pix2Seqは物体検出を言語モデルによる系列生成として定式化し，タスク固有の構成要素を排除した DETRからPix2Seqへの動機 ■ DETRにも2部グラフマッチング・GIoU・オブジェクトクエリ等のタスク固有要素が残る ■ 複数タスクを単一モデルで扱う際，タスク固有要素は排除すべき（8章） Pix2Seqのアイデア ■ 物体検出を言語モデルによる系列生成問題として定式化 ■ ボックス座標とクラスラベルをトークン列として離散化 ■ 構成：画像エンコーダ（ResNet + Transformerエンコーダ）+ Transformerデコーダ正解ラベルの離散化 ■ 座標を画像サイズで正規化後，ビン数 N_bin で整数化 ■ 各物体を5トークン [ȳ_min, x¯_min, ȳ_max, x¯_max, c] で表現 9

11.

5.3.2 Pix2Seq ― 学習と推論デコーダが自己回帰的にトークン系列を生成し，偽トークン挿入で検出漏れを防ぐ学習方法 ■ 入力画像 X と位置 t までのトークン列から次のトークン a_{t+1} を予測 ■ 損失：各位置のクロスエントロピー損失（重み付き） ■ 学習の並列化：マスク処理で全位置を同時学習（teacher forcing）偽トークンの挿入 ■ デコーダが早期にEOSを出力する問題への対策 ■ 正解トークン系列に偽ボックス+偽クラスのトークンを追加，余分に出力させる推論方法 ■ 貪欲法（greedy search）：毎回最確率トークンを選択 ■ Nucleus sampling（p=0.4）：累積確率p以上の集合からサンプリング 10

12.

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 11

13.

5.4.1 物体検出器の性能評価 ― 平均適合率（AP）平均適合率（AP）はPR曲線下面積であり，物体検出の主要な定量評価指標平均適合率（Average Precision; AP）の算出手順 ■ ① クラス c の予測ボックスをクラススコアの高い順に並べ替え ■ ② 各予測ボックスについて正解ボックスとのIoU ≥ η か判定（TP/FP） ■ ③ Recall と Precision を計算してPR曲線を描き，AUC を AP とする ■ すべてのクラスの AP を平均したものが mAP（mean Average Precision） COCOでの評価指標 ■ AP：IoU=0.5～0.95（0.05刻み）の平均 ■ AP_50, AP_75（IoU閾値固定） ■ AP_S（小物体），AP_M（中物体），AP_L（大物体） 12

14.

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 13

15.

5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 COCOデータセットでの比較（表5.1） ■ AP（IoU=0.5～0.95）： Pix2Seq(R101-DC5) = 45.0 が最高，DETR(R101-DC5) = 44.9 ■ AP_S（小物体）：Faster R-CNN(+) が優秀，DETRは小物体を最も苦手とする ■ AP_L（大物体）：DETRが最も優秀，Faster R-CNNはDETR/Pix2Seq より劣る 14

16.

5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 ■Faster R-CNN(+)：小物体◎，FPNによるマルチスケール特徴を活用，推論速度最速 ■DETR：大物体◎，小物体△（FPN不使用），学習収束が最も遅い ■Pix2Seq：全体的にバランスが良い，FPN不使用でも小物体でも健闘，推論は最も遅い 15

17.

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 16

18.

5.4.3 FPNの効果について FPNの本質はマルチスケールではなく物体サイズの役割分担にあり，Transformer系にも有効 FPNの効果に関する従来の解釈と近年の見直し ■ 従来：CNNはマルチスケール特徴を自然に抽出できる → CNNに優位性があると考えられていた ■ 近年の知見：FPNの本質は「スケール別に担当する物体サイズを役割分担させること」 ■ 出力層近くの単一スケール特徴マップ + Simple FPN でも元のFPNと同等の精度 ViTベースモデルへの示唆 ■ ViTはマルチスケール特徴を出力しないが，Simple FPNで対応可能 ■ アーキテクチャ変更なしで物体検出タスクに転用できる ■ 大規模事前学習済みViTの汎用画像特徴量は下流タスクで高い性能を発揮物体検出精度向上のTips：FPN使用 + 大規模事前学習（自己教師あり→教師あり→物体検出） 17

19.

アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 18

20.

5.5 まとめ物体検出はTransformerの導入によりNMS不要・エンドツーエンドのシンプルな枠組みへ進化した 5.3 ViTによる物体検出 ■ DETR：2部グラフマッチングでNMS不要・エンドツーエンド学習を実現 ■ DETRの改良（Deformable, DAB, Group）：収束速度・小物体精度を改善 ■ Pix2Seq：物体検出を言語モデルの系列生成として定式化，タスク固有要素を排除 5.4 物体検出器の性能評価 ■ 主要指標：mAP = PR曲線下面積の全クラス平均，サイズ別AP_S/M/Lも評価 ■ 比較：Faster R-CNN（小物体◎），DETR（大物体◎），Pix2Seq（バランス◎） ■ FPNの本質：物体サイズの役割分担，ViTとSimple FPNの組み合わせが有効今後の展望：大規模事前学習 × 汎用Transformer構造が主流になりつつある（8章へ） 19