【物体検出】DINO

6.3K Views

February 06, 25

#物体検出 #DETR #Transformer #DAB-DETR #DN-DETR #Deformable DETR #DINO

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.1K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18.1K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2024年度後期輪読会#14 物体検出 DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 京都大学理学部宮本真弥 0

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 1

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 2

DETRの課題と派生モデル DETR：エンコーダ・デコーダ型Transformerベースの物体検出器・バックボーンはResNet。位置埋め込みを足してエンコーダに入力・オブジェクトクエリという学習可能なベクトル系列を用意し、各オブジェクトクエリをデコーダ・ヘッドに通してクラスとボックスの座標を予測・二部グラフマッチングによって正解ラベル・正解ボックスと対応させて損失計算・NMSが不要なモデルであり、当時のNMSが必要なモデルと同等以上の精度を達成画像：https://arxiv.org/pdf/2005.12872 3

https://arxiv.org/pdf/2005.12872

DETRの課題と派生モデル DETRの主な課題点・学習の収束が遅い…2部グラフマッチングの不安定性、オブジェクトクエリが原因・小物体の検出精度が低い・オブジェクトクエリが物体の位置情報をうまくとらえられていない・バックボーンの大きさやデータセットの大きさでスケーリングしない →様々な後続手法が提案される ■ DAB-DETR…オブジェクトリクエリをアンカー(x,y,h,w)の形式で明示的に表現することで物体の位置と大きさをオブジェクトクエリがより効果的に扱えるようにしたもの。ほかにもいろいろ改良し、収束速度と小物体検出の精度を大幅に改善。 ■ DN-DETR…denoising partを作ることで学習を安定化し、収束速度の高速化を実現した。 ■ Deformable DETR…画像の一部のみに注目するTransformerモデル。収束を速め、計算量削減・メモリ効率化を実現詳しく見ていきます 4

DETRの課題と派生モデル DAB-DETR：DETRのデコーダ部分を改良、アンカーの形式を明確に指定・DETRのところのオビジェクトクエリをアンカークエリ(𝑥, 𝑦, 𝑤, ℎ)に変更。これによって位置情報を効果的に用いることができる。・デコーダ層ごとにアンカークエリの誤差をヘッドで予測しアンカークエリを更新・アンカーボックスのスケールを考慮した Attentionを用いることで位置情報・スケール・画像の特徴量をすべてうまく活用できている。・最終的にヘッドでクラスとボックス座標を予測し、二部グラフマッチングで損失計算・誤差逆伝播（ここはDETRと同じ）画像：https://arxiv.org/pdf/2201.12329 5

https://arxiv.org/pdf/2201.12329

DETRの課題と派生モデル DN-DETR：Denoising partを追加。学習の安定化・高速化を実現・GT（画像内の正解ラベル＋Bbox）にノイズを加えたものをクエリに追加して入力・元のGTを再構築するように学習し、差分を損失とする(Denoising part) ・アンカークエリはDAB-DETRと同じ(Matching part) ・情報漏れがないようにAttention-Maskを用いる。具体的にはDenoising partはほかの情報を一切使わないように、Matching partはすべての情報を使うようにマスキング画像：https://arxiv.org/pdf/2203.01305 6

https://arxiv.org/pdf/2203.01305

DETRの課題と派生モデル Deformable DETR：画像内の各位置における近傍のパッチベクトルのみを用いて予測・近傍のパッチベクトルのみを用いて計算するためマルチスケールな画像を用いることができる(Deformable Convolution) 画像：https://arxiv.org/pdf/2010.04159 7

https://arxiv.org/pdf/2010.04159

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 8

10.

DINOの概要上述したモデルたちをさらに改良したモデル改善点は主に３つ・Contrastive denoising Training(CDN) ・Mixed Query Selection ・Look Forward Twice 画像：https://arxiv.org/pdf/2203.03605 9

https://arxiv.org/pdf/2203.03605

11.

DINOの概要 Contrastive Denoising Trainingにより「物体なし」と予測する能力を獲得 Deformable DETRは近くに物体がないアンカーに対して「物体なし」と予測する能力がなかった。これを解決するために無駄なアンカーを除く手法であるContrastive Denoising Trainingを提案 Deformable DETRではGTに誤差 λ (ハイパーパラメータ）以内のノイズを加えていた。 CDTでは２つのパラメータ 𝜆1 , 𝜆2 0 < 𝜆1 < 𝜆2 を用いて２つのクエリ(positive queries, negative queries)を作る。画像：https://arxiv.org/pdf/2203.03605 10

https://arxiv.org/pdf/2203.03605

12.

DINOの概要 Contrastive Denoising Trainingにより「物体なし」と予測する能力を獲得 Positive queries はGTに 𝜆1 以内のノイズを加えたもの。GTを再構築する際にこれは「物体あり」として正しいクラスラベルを予測するように学習 Negative queries は 𝜆1 以上 𝜆2 未満のノイズを加えたもの。GTを再構築する際に「物体なし」と予測するように学習これにより・1つの物体に複数のアンカーが重なっている場合に生じる混乱を防ぐ・遠くにある不要なアンカーを選択することを防ぐといった効果がある右がDN、左がCDN。男の子のアンカーがよくなっている。画像： https://arxiv.org/pdf/2010.04159 11

https://arxiv.org/pdf/2010.04159

13.

DINOの概要従来のモデルのQuery selection 通常のDETR、DAB-DETR、DN-DETRは(a)のように静的なアンカー（Static Anchors）を用いる。アンカー（オブジェクトクエリ）を学習し、コンテンツクエリ(decoder embedding)は0である。Query selectionはなし。 Deformable DETRは(b)のようにアンカーとコンテンツクエリ両方を学習する。エンコーダが出力した特徴から上位K個のクエリをいくつか抽出して線形変換したものをデコーダの入力（初期値）にしている。（デコーダを除去したとみなせる？論文では Two Stage Deformable DETRと呼んでいる）画像：https://arxiv.org/pdf/2203.03605 12

https://arxiv.org/pdf/2203.03605

14.

DINOの概要 DAB-DETR 画像： https://arxiv.org/pdf/2201.12329, https://arxiv.org/pdf/2203.03605 Deformable DETR 13

15.

DINOの概要 Mixed Query selection エンコーダ特徴から上位K個のクエリを抽出し、アンカークエリ（positional queries)のみこれらを用いて初期化する。コンテンツクエリは静的なままとする。抽出された特徴クエリはそのままデコーダに入力されるので、例えば特徴量に複数のオブジェクトが含まれていたりオビジェクトの一部しか含まれていなかったりすると、質の悪い入力となってうまく予測できない場合がある。Mix Query Selectionでは位置クエリだけ強化して内容クエリはそのまま学習可能であるので、よりよい位置クエリを参照にしつつコンテンツ特徴量の包括的な学習が可能となる。画像：https://arxiv.org/pdf/2203.03605 14

https://arxiv.org/pdf/2203.03605

16.

DINOの概要 Look Forward Twice Deformable DETRでは学習の安定化のため勾配の誤差逆伝播をブロック化していた。しかし、レイヤーが出力するボックスの情報は隣接する層のボックスの予想に有益であると仮説を立て、(b)のように情報を2回用いる手法を採用した。式で書くと次のようになる Δ𝑏𝑖 = 𝐿𝑎𝑦𝑒𝑟𝑖 𝑏𝑖−1 , 𝑏𝑖′ = 𝑈𝑝𝑑𝑎𝑡𝑒 𝑏𝑖−1 , Δ𝑏𝑖 𝑝𝑟𝑒𝑑 ′ 𝑏𝑖 = 𝐷𝑒𝑡𝑎𝑐ℎ 𝑏𝑖′ , 𝑏𝑖 = 𝑈𝑝𝑑𝑎𝑡𝑒(𝑏𝑖−1 , Δ𝑏𝑖 ) Update関数についてはDeformable DETRと同じものを用いる。論文参照。画像：https://arxiv.org/pdf/2203.03605 15

https://arxiv.org/pdf/2203.03605

17.

DINOの概要損失関数：L1 Loss, GIOU, focal loss, Auxiliary lossをもちいる。詳しくは論文参照 Focal loss：分類が難しい例の損失を重要視する損失関数 𝐹𝐿 𝑝𝑡 = − 1 − 𝑝𝑡 𝛾 log(𝑝𝑡 ) 簡単に分類できている例では 1 − 𝑝𝑡 𝛾 の値が小さくなるので影響が小さくなる。実際これが提案された論文できているはRetinaNetというモデルで検証されており、計算量を維持したまま従来の一段階・二段階検出モデルよりも高い精度を出した画像：https://arxiv.org/pdf/1708.02002 16

https://arxiv.org/pdf/1708.02002

18.

DINOの概要 Auxiliary Loss：主損失とは異なる補助的な損失。GoogleNetで有名になった手法 DINOではデコーダの各層のボックス予測の損失のことを指す。画像：https://magattaca.hatenablog.com/entry/2021/09/19/003636 17

https://magattaca.hatenablog.com/entry/2021/09/19/003636

19.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 18

20.

DINOの概要セットアップデータセット：COCO 2017 バックボーン：ResNet-50, SwinL そのほかは右の表を参照画像：https://arxiv.org/pdf/2203.03605 19

https://arxiv.org/pdf/2203.03605

21.

DINOの概要従来のモデルと比べて高い精度を出している上：Epoch12のみ下：12以上画像：https://arxiv.org/pdf/2203.03605 20

https://arxiv.org/pdf/2203.03605

22.

DINOの概要いろいろ優れていることが分かる。画像：https://arxiv.org/pdf/2203.03605 21

https://arxiv.org/pdf/2203.03605

23.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 22

24.

Grounding DINO 任意の物体を検出できるオープンセット物体検出モデル (2024年発表）テキストで指定した物体を画像内で検出する。入力は画像と言語(!?) 今まではインプットは画像のみ、かつあらかじめ指定された有限のクラスを予測する（クローズドセット）モデルを扱ってきた。このモデルは自然言語処理と画像認識の融合。この分野はVision and Language(V&L)などと呼ばれる。プロンプト：black cat 画像：https://arxiv.org/pdf/2303.05499 → 結果 23

https://arxiv.org/pdf/2303.05499

25.

Grounding DINO Vision and Language のタスクの例・画像質問応答（VQA）：与えられた画像に対する質問に答えるタスク・画像・テキスト検索：与えられた画像（テキスト）に最も適合するテキスト（画像）をデータベース内から選択し出力するタスク・Visual Grounding：画像・テキスト検索は画像全体とテキスト全体を対応付けするのに対し、Visual Grounding では画像内の領域とテキスト内のフレーズを対応図ける。 Grounding DINOはこれのオープンセット版。つまりえぐい。・テキストからの画像生成：与えられたテキストからその内容を表す画像を生成するタスク。敵対的生成ネットワーク（GAN）や変分自己符号化器（VAE）、拡散モデルなどが主流。・V&Lナビゲーション：ある環境下にいるエージェント（ロボット）に対して自然言語で情報を与え、視覚情報ももとに行動を決定し、目的地に到達させるタスクなどさまざまなタスクがあり、研究も長らく盛んにおこなわれてきた。 24

26.

Grounding DINO Visual and Language の難しさ V&Lのタスクを解くには画像と言語の情報を適切にむずびつける必要がある。人間は「犬」という言葉と犬の画像を結び付けることが容易にできるが、コンピュータは難しそう。よってV&Lで最も重要なのは画像表現と言語表現をいかにうまく結びつけるかこれをアライメントという。何これ？いぬ！問題：これは何？画像：https://www.irasutoya.com/ 25

https://www.irasutoya.com/

27.

Grounding DINO Grounding DINOのアーキテクチャをざっくりと・全部Transformerベース。これによりモデルの序盤から画像と言語の情報を複合できる・画像はTransformer、言語は SwinTransformerで表現生成・cross attentionという手法をより深くしたdeep cross attention を採用。・DINO（を少し改良したもの）で物体検出・画像と言語のContrastive Learning によって対応付け・さまざまなクローズドセットで学習する。画像：https://arxiv.org/pdf/2303.05499 26

https://arxiv.org/pdf/2303.05499

28.

Grounding DINO Cross-Attention:異なる情報源から算出したクエリ・キー・バリューを用いる注意機構ここでは画像特徴と言語特徴をそれぞれクエリ・キー・バリューとしている。これによって画像と言語の情報を結び付けている（アライメントしている）イメージ。画像特徴にはDeformable Self-Attention、言語特徴にはSelf-Attentionを通している。 Grounding DINOではCross-Attentionを image-to-textとText-to-imageの二層構造になっていて通常より深いCross-Attention になっている。GLIPというモデルを参考にしている画像：https://arxiv.org/pdf/2303.05499 27

https://arxiv.org/pdf/2303.05499

29.

Grounding DINO 画像特徴と言語特徴のContrastive Learning : CLIPというモデルが発祥画像特徴と言語特徴の内積をとり、正解の組み合わせは大きく、不正解の組み合わせは小さくなるように学習する。アライメントのためのAttention 画像：https://arxiv.org/pdf/2303.05499 28

https://arxiv.org/pdf/2303.05499

30.

Grounding DINO 性能精度が高い（らしい）。細かい物質もあらゆるものを検出してくれる。またFine-Tuningで様々なタスクに応用できる SAM（Segment Anything Model)との融合バージョンなんかも出ている。とりあえずすごい。画像：https://arxiv.org/pdf/2303.05499 29

https://arxiv.org/pdf/2303.05499