---
title: 【深層学習による画像認識の基礎】5.3~5.5
tags: 
author: [京都大学人工知能研究会KaiRA](https://image.docswell.com/user/kyoto-kaira)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/PER98GLWJ9.jpg?width=480
description: 【深層学習による画像認識の基礎】5.3~5.5 by 京都大学人工知能研究会KaiRA
published: June 11, 26
canonical: https://image.docswell.com/s/kyoto-kaira/ZGN22J-2026-06-11-213326
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/PER98GLWJ9.jpg)

2026前期輪読会 2026/06/11 深層学習による画像認識の基礎
第5章 物体検出
5.3 ViTによる物体検出・5.4 性能評価
京都大学 農学部 地域環境工学科 B４
金加 真一郎
0


# Page. 2

![Page Image](https://bcdn.docswell.com/page/P7XQ8XWVEX.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
1


# Page. 3

![Page Image](https://bcdn.docswell.com/page/37K9KWV57D.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
2


# Page. 4

![Page Image](https://bcdn.docswell.com/page/LJ3WZ1M1J5.jpg)

5.3.1 DETR ― バックボーンとエンコーダ
従来手法（FCOS, Faster R-CNN）の課題
■1つの正解ボックスに複数の検出候補を割り当て，重複ボックスを
NMSで後処理
■NMSのハイパーパラメータが最終性能に大きく影響し，計算コスト
も必要
DETR（Detection Transformer）の提案 [Carion et al., 2020]
■物体検出を集合推定問題（direct set prediction problem）として定
式化
■入力画像のクラスラベルとボックス情報の集合を直接出力
■2部グラフマッチングで予測と正解ラベルを1対1対応 → NMS不要
構成：バックボーン → Transformerエンコーダ → デコーダ → 検出
ヘッド
3


# Page. 5

![Page Image](https://bcdn.docswell.com/page/8JDKRX6KEG.jpg)

5.3.1 DETR ― バックボーンとエンコーダ
バックボーンはResNet，エンコーダは位置符号化付きのTransformerエンコーダ
バックボーン
■ ResNet-50 / ResNet-101をバックボーンに使用（ImageNet-1Kで事前学習）
■ 入力 X ∈ R^(3×H×W) → 特徴マップ F ∈ R^(C×H&#039;×W&#039;）（C=2048,
H&#039;=H/32）
Transformerエンコーダ
■ 1×1畳み込みで特徴マップのチャネル削減：Z⁰ ∈ R^(d×H&#039;W’)
■ 位置符号化ベクトル W_pos を加算してTransformerエンコーダに入力
■ クエリ/キーベクトル計算前に毎回 W_pos を加算（位置情報を保持）
■ L_enc 層のTransformerエンコーダで出力 Z_enc ∈ R^(d×HW) を計算
4


# Page. 6

![Page Image](https://bcdn.docswell.com/page/VEPKWPY378.jpg)

5.3.1 DETR ― デコーダと検出ヘッド
デコーダはオブジェクトクエリでエンコーダ出力から物体情報を抽出し，クラスとボックスを予測
デコーダ
■ 入力：オブジェクトクエリ H ∈ R^(d×N)（学習可能），エンコーダ出力 Z_enc
■ N は画像中の物体数より多めに設定（DETR原論文では N=100）
■ 各層で：自己注意 → クロス注意（クエリで Z_enc を参照）→ FFN
検出ヘッド
■ クラス分類：|C|+1クラス（前景＋背景）のソフトマックス
■ ボックス回帰：中心座標・縦横幅の4次元ベクトルをシグモイドで出力
DETRの特性
■ 自己注意機構がクエリ間の相互作用を考慮 → 同一物体の重複検出を抑制
■ 課題：学習収束が遅い（約500エポック），小物体の検出精度が低い
5


# Page. 7

![Page Image](https://bcdn.docswell.com/page/27VV82GN7Q.jpg)

5.3.1 DETR ― 損失関数と学習
2部グラフマッチングで1対1対応を実現し，NMS不要のエンドツーエンド学習を可能にする
2部グラフマッチング
■ 出力集合 ŷ と正解集合 y を1対1対応させる最適割当 P̂ を求める
■ コスト：分類コスト C_cls（クロスエントロピー）+ 回帰コスト C_reg（L1 + GIoU）
■ ハンガリー法（SciPy: linear_sum_assignment）で効率的に最適解を算出
損失関数（式5.24）
■ L = Σ [-log ĉ_P̂(i)(c_i) + 1{c_i≠∅} · L_box(b_i, b̂_P̂(i))]
■ 一般化IoU損失（GIoU）：ボックスが重ならない場合にも勾配消失しない
6


# Page. 8

![Page Image](https://bcdn.docswell.com/page/5JGL5R857L.jpg)

5.3.1 DETRの改良
収束の遅さと小物体精度の低さを解決すべく多様なDETR後継手法が提案されている
DETRの2つの課題
■ ① 学習の収束が遅い：COCOで約500エポック（Faster R-CNNの10～20倍）
■ ② 小物体の検出精度が低い：FPNによるマルチスケール特徴を使わないため
Deformable DETR [Zhu et al., 2021]
■ 各位置の近傍パッチのみをサンプリングして注意計算 → 学習・メモリ効率化
■ マルチスケール特徴マップが利用可能 → 収束2倍以上高速化，小物体精度改善
DAB-DETR [Liu et al., 2022]
■ オブジェクトクエリをアンカー (y_q, x_q, h_q, w_q) で明示的に表現
■ 位置に関する特徴表現を改善し，収束速度と小物体精度を大幅に改善
Group DETR：K個のクエリグループで1対多マッチングを学習に活用，収束高速化
7


# Page. 9

![Page Image](https://bcdn.docswell.com/page/47QYZV9LEP.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
8


# Page. 10

![Page Image](https://bcdn.docswell.com/page/KE4W3MX5J1.jpg)

5.3.2 Pix2Seq
Pix2Seqは物体検出を言語モデルによる系列生成として定式化し，タスク固有の構成要素を排除した
DETRからPix2Seqへの動機
■ DETRにも2部グラフマッチング・GIoU・オブジェクトクエリ等のタスク固有要素が残る
■ 複数タスクを単一モデルで扱う際，タスク固有要素は排除すべき（8章）
Pix2Seqのアイデア
■ 物体検出を言語モデルによる系列生成問題として定式化
■ ボックス座標とクラスラベルをトークン列として離散化
■ 構成：画像エンコーダ（ResNet + Transformerエンコーダ）+ Transformerデコーダ
正解ラベルの離散化
■ 座標を画像サイズで正規化後，ビン数 N_bin で整数化
■ 各物体を5トークン [ȳ_min, x¯_min, ȳ_max, x¯_max, c] で表現
9


# Page. 11

![Page Image](https://bcdn.docswell.com/page/L71Y18N2JG.jpg)

5.3.2 Pix2Seq ― 学習と推論
デコーダが自己回帰的にトークン系列を生成し，偽トークン挿入で検出漏れを防ぐ
学習方法
■ 入力画像 X と位置 t までのトークン列から次のトークン a_{t+1} を予測
■ 損失：各位置のクロスエントロピー損失（重み付き）
■ 学習の並列化：マスク処理で全位置を同時学習（teacher forcing）
偽トークンの挿入
■ デコーダが早期にEOSを出力する問題への対策
■ 正解トークン系列に偽ボックス+偽クラスのトークンを追加，余分に出力させる
推論方法
■ 貪欲法（greedy search）：毎回最確率トークンを選択
■ Nucleus sampling（p=0.4）：累積確率p以上の集合からサンプリング
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/G7WG8Z42E2.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
11


# Page. 13

![Page Image](https://bcdn.docswell.com/page/4JZL8124E3.jpg)

5.4.1 物体検出器の性能評価 ― 平均適合率（AP）
平均適合率（AP）はPR曲線下面積であり，物体検出の主要な定量評価指標
平均適合率（Average Precision; AP）の算出手順
■ ① クラス c の予測ボックスをクラススコアの高い順に並べ替え
■ ② 各予測ボックスについて正解ボックスとのIoU ≥ η か判定（TP/FP）
■ ③ Recall と Precision を計算してPR曲線を描き，AUC を AP とする
■ すべてのクラスの AP を平均したものが mAP（mean Average Precision）
COCOでの評価指標
■ AP：IoU=0.5～0.95（0.05刻み）の平均
■ AP_50, AP_75（IoU閾値固定）
■ AP_S（小物体），AP_M（中物体），AP_L（大物体）
12


# Page. 14

![Page Image](https://bcdn.docswell.com/page/YE6WPLVGEV.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
13


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GE5MK1DXE4.jpg)

5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較
COCOデータセットでの比較
（表5.1）
■ AP（IoU=0.5～0.95）：
Pix2Seq(R101-DC5) = 45.0 が最
高，DETR(R101-DC5) = 44.9
■ AP_S（小物体）：Faster R-CNN(+)
が優秀，DETRは小物体を最も苦手
とする
■ AP_L（大物体）：DETRが最も優
秀，Faster R-CNNはDETR/Pix2Seq
より劣る
14


# Page. 16

![Page Image](https://bcdn.docswell.com/page/9729W18QJR.jpg)

5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較
■Faster R-CNN(+)：小物体◎，FPNによるマ
ルチスケール特徴を活用，推論速度最速
■DETR：大物体◎，小物体△（FPN不使用），学習収束が最も遅
い
■Pix2Seq：全体的にバランスが良い，FPN不使用でも小物体でも
健闘，推論は最も遅い
15


# Page. 17

![Page Image](https://bcdn.docswell.com/page/DJY4LZ6Y7M.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
16


# Page. 18

![Page Image](https://bcdn.docswell.com/page/V7NY43ZRE8.jpg)

5.4.3 FPNの効果について
FPNの本質はマルチスケールではなく物体サイズの役割分担にあり，Transformer系にも有効
FPNの効果に関する従来の解釈と近年の見直し
■ 従来：CNNはマルチスケール特徴を自然に抽出できる → CNNに優位性があると考えられてい
た
■ 近年の知見：FPNの本質は「スケール別に担当する物体サイズを役割分担させること」
■ 出力層近くの単一スケール特徴マップ + Simple FPN でも元のFPNと同等の精度
ViTベースモデルへの示唆
■ ViTはマルチスケール特徴を出力しないが，Simple FPNで対応可能
■ アーキテクチャ変更なしで物体検出タスクに転用できる
■ 大規模事前学習済みViTの汎用画像特徴量は下流タスクで高い性能を発揮
物体検出精度向上のTips：FPN使用 + 大規模事前学習（自己教師あり→教師あり→物体検出）
17


# Page. 19

![Page Image](https://bcdn.docswell.com/page/YJ9PQ9ZZ73.jpg)

アジェンダ
5.3.1 DETR
5.3.2 Pix2Seq
5.4.1 平均適合率
5.4.2 Faster R-CNN, DETR,
Pix2Seqの性能比較
5.4.3 FPNの効果について
5.5 まとめ
18


# Page. 20

![Page Image](https://bcdn.docswell.com/page/GJ8DGDYYJD.jpg)

5.5 まとめ
物体検出はTransformerの導入によりNMS不要・エンドツーエンドのシンプルな枠組みへ進化した
5.3 ViTによる物体検出
■ DETR：2部グラフマッチングでNMS不要・エンドツーエンド学習を実現
■ DETRの改良（Deformable, DAB, Group）：収束速度・小物体精度を改善
■ Pix2Seq：物体検出を言語モデルの系列生成として定式化，タスク固有要素を排除
5.4 物体検出器の性能評価
■ 主要指標：mAP = PR曲線下面積の全クラス平均，サイズ別AP_S/M/Lも評価
■ 比較：Faster R-CNN（小物体◎），DETR（大物体◎），Pix2Seq（バランス◎）
■ FPNの本質：物体サイズの役割分担，ViTとSimple FPNの組み合わせが有効
今後の展望：大規模事前学習 × 汎用Transformer構造が主流になりつつある（8章へ）
19