【物体検出】DINO

751 Views

February 06, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2024年度後期輪読会#14 物体検出 DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 京都大学 理学部 宮本真弥 0

2.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 1

3.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 2

4.

DETRの課題と派生モデル DETR:エンコーダ・デコーダ型Transformerベースの物体検出器 ・バックボーンはResNet。位置埋め込みを足してエンコーダに入力 ・オブジェクトクエリという学習可能なベクトル系列を用意し、各オブジェクトクエリを デコーダ・ヘッドに通してクラスとボックスの座標を予測 ・二部グラフマッチングによって正解ラベル・正解ボックスと対応させて損失計算 ・NMSが不要なモデルであり、当時のNMSが必要なモデルと同等以上の精度を達成 画像:https://arxiv.org/pdf/2005.12872 3

5.

DETRの課題と派生モデル DETRの主な課題点 ・学習の収束が遅い…2部グラフマッチングの不安定性、オブジェクトクエリが原因 ・小物体の検出精度が低い ・オブジェクトクエリが物体の位置情報をうまくとらえられていない ・バックボーンの大きさやデータセットの大きさでスケーリングしない →様々な後続手法が提案される ■ DAB-DETR…オブジェクトリクエリをアンカー(x,y,h,w)の形式で明示的に表現する ことで物体の位置と大きさをオブジェクトクエリがより効果的に扱えるようにしたもの。 ほかにもいろいろ改良し、収束速度と小物体検出の精度を大幅に改善。 ■ DN-DETR…denoising partを作ることで学習を安定化し、収束速度の高速 化を実現した。 ■ Deformable DETR…画像の一部のみに注目するTransformerモデル。収束を速め、 計算量削減・メモリ効率化を実現 詳しく見ていきます 4

6.

DETRの課題と派生モデル DAB-DETR:DETRのデコーダ部分を改良、アンカーの形式を明確に指定 ・DETRのところのオビジェクトクエリをアン カークエリ(𝑥, 𝑦, 𝑤, ℎ)に変更。これによって位置 情報を効果的に用いることができる。 ・デコーダ層ごとにアンカークエリの誤差を ヘッドで予測しアンカークエリを更新 ・アンカーボックスのスケールを考慮した Attentionを用いることで位置情報・スケール・ 画像の特徴量をすべてうまく活用できている。 ・最終的にヘッドでクラスとボックス座標を予 測し、二部グラフマッチングで損失計算・誤差 逆伝播(ここはDETRと同じ) 画像:https://arxiv.org/pdf/2201.12329 5

7.

DETRの課題と派生モデル DN-DETR:Denoising partを追加。学習の安定化・高速化を実現 ・GT(画像内の正解ラベル+Bbox)にノイズを加えたものをクエリに追加して入力 ・元のGTを再構築するように学習し、差分を損失とする(Denoising part) ・アンカークエリはDAB-DETRと同じ(Matching part) ・情報漏れがないようにAttention-Maskを用いる。具体的にはDenoising partはほかの情報を 一切使わないように、Matching partはすべての情報を使うようにマスキング 画像:https://arxiv.org/pdf/2203.01305 6

8.

DETRの課題と派生モデル Deformable DETR:画像内の各位置における近傍のパッチベクトルのみを用いて予測 ・近傍のパッチベクトルのみを用いて 計算するためマルチスケールな画像を 用いることができる(Deformable Convolution) 画像:https://arxiv.org/pdf/2010.04159 7

9.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 8

10.

DINOの概要 上述したモデルたちをさらに改良したモデル 改善点は主に3つ ・Contrastive denoising Training(CDN) ・Mixed Query Selection ・Look Forward Twice 画像:https://arxiv.org/pdf/2203.03605 9

11.

DINOの概要 Contrastive Denoising Trainingにより「物体なし」と予測する能力を獲得 Deformable DETRは近くに物体がないアンカー に対して「物体なし」と予測する能力がなかった。 これを解決するために無駄なアンカーを除く手法で あるContrastive Denoising Trainingを提案 Deformable DETRではGTに誤差 λ (ハイパーパラ メータ)以内のノイズを加えていた。 CDTでは2つのパラメータ 𝜆1 , 𝜆2 0 < 𝜆1 < 𝜆2 を用いて2つのクエリ(positive queries, negative queries)を作る。 画像:https://arxiv.org/pdf/2203.03605 10

12.

DINOの概要 Contrastive Denoising Trainingにより「物体なし」と予測する能力を獲得 Positive queries はGTに 𝜆1 以内のノイズを加えた もの。GTを再構築する際にこれは「物体あり」と して正しいクラスラベルを予測するように学習 Negative queries は 𝜆1 以上 𝜆2 未満のノイズを加え たもの。GTを再構築する際に「物体なし」と予測 するように学習 これにより ・1つの物体に複数のアンカーが重なっている場合 に生じる混乱を防ぐ ・遠くにある不要なアンカーを選択することを防ぐ といった効果がある 右がDN、左がCDN。男の子のアンカーがよくなっている。 画像: https://arxiv.org/pdf/2010.04159 11

13.

DINOの概要 従来のモデルのQuery selection 通常のDETR、DAB-DETR、DN-DETRは(a)のよう に静的なアンカー(Static Anchors)を用いる。ア ンカー(オブジェクトクエリ)を学習し、コンテン ツクエリ(decoder embedding)は0である。Query selectionはなし。 Deformable DETRは(b)のようにアンカーとコンテ ンツクエリ両方を学習する。エンコーダが出力した 特徴から上位K個のクエリをいくつか抽出して線形 変換したものをデコーダの入力(初期値)にしてい る。(デコーダを除去したとみなせる?論文では Two Stage Deformable DETRと呼んでいる) 画像:https://arxiv.org/pdf/2203.03605 12

14.

DINOの概要 DAB-DETR 画像: https://arxiv.org/pdf/2201.12329, https://arxiv.org/pdf/2203.03605 Deformable DETR 13

15.

DINOの概要 Mixed Query selection エンコーダ特徴から上位K個のクエリを抽出し、ア ンカークエリ(positional queries)のみこれらを用 いて初期化する。コンテンツクエリは静的なままと する。 抽出された特徴クエリはそのままデコーダに入力さ れるので、例えば特徴量に複数のオブジェクトが含 まれていたりオビジェクトの一部しか含まれていな かったりすると、質の悪い入力となってうまく予測 できない場合がある。Mix Query Selectionでは位 置クエリだけ強化して内容クエリはそのまま学習可 能であるので、よりよい位置クエリを参照にしつつ コンテンツ特徴量の包括的な学習が可能となる。 画像:https://arxiv.org/pdf/2203.03605 14

16.

DINOの概要 Look Forward Twice Deformable DETRでは学習の安定化のため勾配の誤差逆伝播をブロック化していた。 しかし、レイヤーが出力するボックスの情報は隣接する層のボックスの予想に有益であると 仮説を立て、(b)のように情報を2回用いる手法を採用した。 式で書くと次のようになる Δ𝑏𝑖 = 𝐿𝑎𝑦𝑒𝑟𝑖 𝑏𝑖−1 , 𝑏𝑖′ = 𝑈𝑝𝑑𝑎𝑡𝑒 𝑏𝑖−1 , Δ𝑏𝑖 𝑝𝑟𝑒𝑑 ′ 𝑏𝑖 = 𝐷𝑒𝑡𝑎𝑐ℎ 𝑏𝑖′ , 𝑏𝑖 = 𝑈𝑝𝑑𝑎𝑡𝑒(𝑏𝑖−1 , Δ𝑏𝑖 ) Update関数についてはDeformable DETRと同じものを用いる。論文参照。 画像:https://arxiv.org/pdf/2203.03605 15

17.

DINOの概要 損失関数:L1 Loss, GIOU, focal loss, Auxiliary lossをもちいる。詳しくは論文参照 Focal loss:分類が難しい例の損失を重要視する損失関数 𝐹𝐿 𝑝𝑡 = − 1 − 𝑝𝑡 𝛾 log(𝑝𝑡 ) 簡単に分類できている例では 1 − 𝑝𝑡 𝛾 の値が小さくなるので影響が小さくなる。 実際これが提案された論文できているはRetinaNetというモデルで検証されており、計算量 を維持したまま従来の一段階・二段階検出モデルよりも高い精度を出した 画像:https://arxiv.org/pdf/1708.02002 16

18.

DINOの概要 Auxiliary Loss:主損失とは異なる補助的な損失。GoogleNetで有名になった手法 DINOではデコーダの各層の ボックス予測の損失のことを指 す。 画像:https://magattaca.hatenablog.com/entry/2021/09/19/003636 17

19.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 18

20.

DINOの概要 セットアップ データセット:COCO 2017 バックボーン:ResNet-50, SwinL そのほかは右の表を参照 画像:https://arxiv.org/pdf/2203.03605 19

21.

DINOの概要 従来のモデルと比べて高い精度を出している 上:Epoch12のみ 下:12以上 画像:https://arxiv.org/pdf/2203.03605 20

22.

DINOの概要 いろいろ優れていることが分かる。 画像:https://arxiv.org/pdf/2203.03605 21

23.

アジェンダ ◼ DETRの課題と派生モデル ◼ DINOの概要 ◼ 検証 ◼ Grounding DINO 22

24.

Grounding DINO 任意の物体を検出できるオープンセット物体検出モデル (2024年発表) テキストで指定した物体を画像内で検出する。入力は画像と言語(!?) 今まではインプットは画像のみ、かつあらかじめ指定された有限のクラスを予測す る(クローズドセット)モデルを扱ってきた。このモデルは自然言語処理と画像認 識の融合。この分野はVision and Language(V&L)などと呼ばれる。 プロンプト:black cat 画像:https://arxiv.org/pdf/2303.05499 → 結果 23

25.

Grounding DINO Vision and Language のタスクの例 ・画像質問応答(VQA):与えられた画像に対する質問に答えるタスク ・画像・テキスト検索:与えられた画像(テキスト)に最も適合するテキスト(画像) をデータベース内から選択し出力するタスク ・Visual Grounding:画像・テキスト検索は画像全体とテキスト全体を対応付けする のに対し、Visual Grounding では画像内の領域とテキスト内のフレーズを対応図ける。 Grounding DINOはこれのオープンセット版。つまりえぐい。 ・テキストからの画像生成:与えられたテキストからその内容を表す画像を生成するタ スク。敵対的生成ネットワーク(GAN)や変分自己符号化器(VAE)、拡散モデルなど が主流。 ・V&Lナビゲーション:ある環境下にいるエージェント(ロボット)に対して自然言語 で情報を与え、視覚情報ももとに行動を決定し、目的地に到達させるタスク などさまざまなタスクがあり、研究も長らく盛んにおこなわれてきた。 24

26.

Grounding DINO Visual and Language の難しさ V&Lのタスクを解くには画像と言語の情報を適切にむずびつける必要がある。 人間は「犬」という言葉と犬の画像を結び付けることが容易にできるが、コン ピュータは難しそう。 よってV&Lで最も重要なのは画像表現と言語表現をいかにうまく結びつけるか これをアライメントという。 何これ? いぬ! 問題:これは何? 画像:https://www.irasutoya.com/ 25

27.

Grounding DINO Grounding DINOのアーキテクチャをざっくりと ・全部Transformerベース。これに よりモデルの序盤から画像と言語 の情報を複合できる ・画像はTransformer、言語は SwinTransformerで表現生成 ・cross attentionという手法をよ り深くしたdeep cross attention を採用。 ・DINO(を少し改良したもの)で 物体検出 ・画像と言語のContrastive Learning によって対応付け ・さまざまなクローズドセットで 学習する。 画像:https://arxiv.org/pdf/2303.05499 26

28.

Grounding DINO Cross-Attention:異なる情報源から算出したクエリ・キー・バリューを用いる注意機構 ここでは画像特徴と言語特徴をそれぞれクエ リ・キー・バリューとしている。これによっ て画像と言語の情報を結び付けている(アラ イメントしている)イメージ。 画像特徴にはDeformable Self-Attention、 言語特徴にはSelf-Attentionを通している。 Grounding DINOではCross-Attentionを image-to-textとText-to-imageの二層構造 になっていて通常より深いCross-Attention になっている。GLIPというモデルを参考に している 画像:https://arxiv.org/pdf/2303.05499 27

29.

Grounding DINO 画像特徴と言語特徴のContrastive Learning : CLIPというモデルが発祥 画像特徴と言語特徴の内積をとり、 正解の組み合わせは大きく、不正解 の組み合わせは小さくなるように学 習する。 アライメントのためのAttention 画像:https://arxiv.org/pdf/2303.05499 28

30.

Grounding DINO 性能 精度が高い(らしい)。細かい物質もあらゆるものを検出してくれる。 またFine-Tuningで様々なタスクに応用できる SAM(Segment Anything Model)との融合バージョンなんかも出ている。 とりあえずすごい。 画像:https://arxiv.org/pdf/2303.05499 29