>100 Views
June 11, 26
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2026前期輪読会 2026/06/11 深層学習による画像認識の基礎 第5章 物体検出 5.3 ViTによる物体検出・5.4 性能評価 京都大学 農学部 地域環境工学科 B4 金加 真一郎 0
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 1
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 2
5.3.1 DETR ― バックボーンとエンコーダ 従来手法(FCOS, Faster R-CNN)の課題 ■1つの正解ボックスに複数の検出候補を割り当て,重複ボックスを NMSで後処理 ■NMSのハイパーパラメータが最終性能に大きく影響し,計算コスト も必要 DETR(Detection Transformer)の提案 [Carion et al., 2020] ■物体検出を集合推定問題(direct set prediction problem)として定 式化 ■入力画像のクラスラベルとボックス情報の集合を直接出力 ■2部グラフマッチングで予測と正解ラベルを1対1対応 → NMS不要 構成:バックボーン → Transformerエンコーダ → デコーダ → 検出 ヘッド 3
5.3.1 DETR ― バックボーンとエンコーダ バックボーンはResNet,エンコーダは位置符号化付きのTransformerエンコーダ バックボーン ■ ResNet-50 / ResNet-101をバックボーンに使用(ImageNet-1Kで事前学習) ■ 入力 X ∈ R^(3×H×W) → 特徴マップ F ∈ R^(C×H'×W')(C=2048, H'=H/32) Transformerエンコーダ ■ 1×1畳み込みで特徴マップのチャネル削減:Z⁰ ∈ R^(d×H'W’) ■ 位置符号化ベクトル W_pos を加算してTransformerエンコーダに入力 ■ クエリ/キーベクトル計算前に毎回 W_pos を加算(位置情報を保持) ■ L_enc 層のTransformerエンコーダで出力 Z_enc ∈ R^(d×HW) を計算 4
5.3.1 DETR ― デコーダと検出ヘッド デコーダはオブジェクトクエリでエンコーダ出力から物体情報を抽出し,クラスとボックスを予測 デコーダ ■ 入力:オブジェクトクエリ H ∈ R^(d×N)(学習可能),エンコーダ出力 Z_enc ■ N は画像中の物体数より多めに設定(DETR原論文では N=100) ■ 各層で:自己注意 → クロス注意(クエリで Z_enc を参照)→ FFN 検出ヘッド ■ クラス分類:|C|+1クラス(前景+背景)のソフトマックス ■ ボックス回帰:中心座標・縦横幅の4次元ベクトルをシグモイドで出力 DETRの特性 ■ 自己注意機構がクエリ間の相互作用を考慮 → 同一物体の重複検出を抑制 ■ 課題:学習収束が遅い(約500エポック),小物体の検出精度が低い 5
5.3.1 DETR ― 損失関数と学習 2部グラフマッチングで1対1対応を実現し,NMS不要のエンドツーエンド学習を可能にする 2部グラフマッチング ■ 出力集合 ŷ と正解集合 y を1対1対応させる最適割当 P̂ を求める ■ コスト:分類コスト C_cls(クロスエントロピー)+ 回帰コスト C_reg(L1 + GIoU) ■ ハンガリー法(SciPy: linear_sum_assignment)で効率的に最適解を算出 損失関数(式5.24) ■ L = Σ [-log ĉ_P̂(i)(c_i) + 1{c_i≠∅} · L_box(b_i, b̂_P̂(i))] ■ 一般化IoU損失(GIoU):ボックスが重ならない場合にも勾配消失しない 6
5.3.1 DETRの改良 収束の遅さと小物体精度の低さを解決すべく多様なDETR後継手法が提案されている DETRの2つの課題 ■ ① 学習の収束が遅い:COCOで約500エポック(Faster R-CNNの10~20倍) ■ ② 小物体の検出精度が低い:FPNによるマルチスケール特徴を使わないため Deformable DETR [Zhu et al., 2021] ■ 各位置の近傍パッチのみをサンプリングして注意計算 → 学習・メモリ効率化 ■ マルチスケール特徴マップが利用可能 → 収束2倍以上高速化,小物体精度改善 DAB-DETR [Liu et al., 2022] ■ オブジェクトクエリをアンカー (y_q, x_q, h_q, w_q) で明示的に表現 ■ 位置に関する特徴表現を改善し,収束速度と小物体精度を大幅に改善 Group DETR:K個のクエリグループで1対多マッチングを学習に活用,収束高速化 7
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 8
5.3.2 Pix2Seq Pix2Seqは物体検出を言語モデルによる系列生成として定式化し,タスク固有の構成要素を排除した DETRからPix2Seqへの動機 ■ DETRにも2部グラフマッチング・GIoU・オブジェクトクエリ等のタスク固有要素が残る ■ 複数タスクを単一モデルで扱う際,タスク固有要素は排除すべき(8章) Pix2Seqのアイデア ■ 物体検出を言語モデルによる系列生成問題として定式化 ■ ボックス座標とクラスラベルをトークン列として離散化 ■ 構成:画像エンコーダ(ResNet + Transformerエンコーダ)+ Transformerデコーダ 正解ラベルの離散化 ■ 座標を画像サイズで正規化後,ビン数 N_bin で整数化 ■ 各物体を5トークン [ȳ_min, x¯_min, ȳ_max, x¯_max, c] で表現 9
5.3.2 Pix2Seq ― 学習と推論 デコーダが自己回帰的にトークン系列を生成し,偽トークン挿入で検出漏れを防ぐ 学習方法 ■ 入力画像 X と位置 t までのトークン列から次のトークン a_{t+1} を予測 ■ 損失:各位置のクロスエントロピー損失(重み付き) ■ 学習の並列化:マスク処理で全位置を同時学習(teacher forcing) 偽トークンの挿入 ■ デコーダが早期にEOSを出力する問題への対策 ■ 正解トークン系列に偽ボックス+偽クラスのトークンを追加,余分に出力させる 推論方法 ■ 貪欲法(greedy search):毎回最確率トークンを選択 ■ Nucleus sampling(p=0.4):累積確率p以上の集合からサンプリング 10
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 11
5.4.1 物体検出器の性能評価 ― 平均適合率(AP) 平均適合率(AP)はPR曲線下面積であり,物体検出の主要な定量評価指標 平均適合率(Average Precision; AP)の算出手順 ■ ① クラス c の予測ボックスをクラススコアの高い順に並べ替え ■ ② 各予測ボックスについて正解ボックスとのIoU ≥ η か判定(TP/FP) ■ ③ Recall と Precision を計算してPR曲線を描き,AUC を AP とする ■ すべてのクラスの AP を平均したものが mAP(mean Average Precision) COCOでの評価指標 ■ AP:IoU=0.5~0.95(0.05刻み)の平均 ■ AP_50, AP_75(IoU閾値固定) ■ AP_S(小物体),AP_M(中物体),AP_L(大物体) 12
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 13
5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 COCOデータセットでの比較 (表5.1) ■ AP(IoU=0.5~0.95): Pix2Seq(R101-DC5) = 45.0 が最 高,DETR(R101-DC5) = 44.9 ■ AP_S(小物体):Faster R-CNN(+) が優秀,DETRは小物体を最も苦手 とする ■ AP_L(大物体):DETRが最も優 秀,Faster R-CNNはDETR/Pix2Seq より劣る 14
5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 ■Faster R-CNN(+):小物体◎,FPNによるマ ルチスケール特徴を活用,推論速度最速 ■DETR:大物体◎,小物体△(FPN不使用),学習収束が最も遅 い ■Pix2Seq:全体的にバランスが良い,FPN不使用でも小物体でも 健闘,推論は最も遅い 15
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 16
5.4.3 FPNの効果について FPNの本質はマルチスケールではなく物体サイズの役割分担にあり,Transformer系にも有効 FPNの効果に関する従来の解釈と近年の見直し ■ 従来:CNNはマルチスケール特徴を自然に抽出できる → CNNに優位性があると考えられてい た ■ 近年の知見:FPNの本質は「スケール別に担当する物体サイズを役割分担させること」 ■ 出力層近くの単一スケール特徴マップ + Simple FPN でも元のFPNと同等の精度 ViTベースモデルへの示唆 ■ ViTはマルチスケール特徴を出力しないが,Simple FPNで対応可能 ■ アーキテクチャ変更なしで物体検出タスクに転用できる ■ 大規模事前学習済みViTの汎用画像特徴量は下流タスクで高い性能を発揮 物体検出精度向上のTips:FPN使用 + 大規模事前学習(自己教師あり→教師あり→物体検出) 17
アジェンダ 5.3.1 DETR 5.3.2 Pix2Seq 5.4.1 平均適合率 5.4.2 Faster R-CNN, DETR, Pix2Seqの性能比較 5.4.3 FPNの効果について 5.5 まとめ 18
5.5 まとめ 物体検出はTransformerの導入によりNMS不要・エンドツーエンドのシンプルな枠組みへ進化した 5.3 ViTによる物体検出 ■ DETR:2部グラフマッチングでNMS不要・エンドツーエンド学習を実現 ■ DETRの改良(Deformable, DAB, Group):収束速度・小物体精度を改善 ■ Pix2Seq:物体検出を言語モデルの系列生成として定式化,タスク固有要素を排除 5.4 物体検出器の性能評価 ■ 主要指標:mAP = PR曲線下面積の全クラス平均,サイズ別AP_S/M/Lも評価 ■ 比較:Faster R-CNN(小物体◎),DETR(大物体◎),Pix2Seq(バランス◎) ■ FPNの本質:物体サイズの役割分担,ViTとSimple FPNの組み合わせが有効 今後の展望:大規模事前学習 × 汎用Transformer構造が主流になりつつある(8章へ) 19