【物体検出】segformer

305 Views

January 09, 25

スライド概要

profile-image

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

2024年度後期輪読会 第12回 [物体検出] SegFormer 京都大学 工学部 情報学科 宮前明生 0

2.

アジェンダ  SegFormerの概要  SegFormerのアーキテクチャ  実験結果 1

3.

アジェンダ  SegFormerの概要  SegFormerのアーキテクチャ  実験結果 2

4.

SegFormerの概要  ピクセルごとにクラス分類を行うセマン ティック・セグメンテーションモデル  Segformerは大きく2つの構造から成る 1. 階層型Trabsformerエンコーダー 2. 軽量All-MLPデコーダー 3

5.

アジェンダ  SegFormerの概要  SegFormerのアーキテクチャ  実験結果 4

6.

SegFormerのアーキテクチャ  階層型Transformerエンコーダー • Overlap Patch Embeddingsで の画像をself-attensionのため に のパッチに埋め込みをする • Transformer Blockを通して、 特徴 マップ を得る  • 軽量All-MLPデコーダー 4つの特徴マップをMLPLayerを通し て、全て に変換する • MLPで のセグメンテー ションマップを出力する( はカ テゴリ数) 5

7.

SegFormerのアーキテクチャ  Overlap Patch Embeddings • オーバーラップしながら チに分割する(パッチ数は のパッ ) • カーネルサイズが4の畳み込み処理  Overlap Patch Merging • 入力をマージしてより小さい特徴 マップ を得る • 4つのOverlap Patch Mergingは カーネルサイズ ストラ イド パディング の畳み込み処理 6

8.

SegFormerのアーキテクチャ  Efficient Self-Attention • 通常のSelf-Attensionの計算量は ( はパッチ数) • 各TrabsformerBlockで削減率 を用いて、キーとバリュー の次元を 倍に削減する • Efficient Self-Attensionの計算量は Softmax 𝑄𝐾 𝑑 Self-Attension Softmax V 𝑄𝐾 𝑑 𝑉 Efficient Self-Attension 7

9.

SegFormerのアーキテクチャ  Efficient Self-Attention • キーとバリューの削減は以下のよう に行われる 1. パッチ特徴量を特徴マップごとにリ サイズする 2. 削減率 によって、サイズが H/R×W/Rになるように畳み込みを する 3. サイズを にリサイズしてキーと バリューを得る Vision Transformer入門から 8

10.

SegFormerのアーキテクチャ  Mix-FFN • 位置情報を取り入れる役割がある • 3×3の畳み込みとMLPを組み合わせた • 以下のように定式化している • GELUはガウス累積分布関数 いて以下のように与えられる を用 9

11.

SegFormerのアーキテクチャ  MLP-Decoder • Encoderから得られた各特徴マップ から のセグメンテーショ ンマップを出力する • MLPLayerでは、各特徴マップを MLPでチャンネル数をC、 UpsumpleでサイズがH/4×W/4に 統一する • 統一した各特徴マップをMLPを通し てセグメンテーションマップを得る 10

12.

SegFormerのアーキテクチャ  Decoderがシンプルな理由 • セグメンテーションでは画像情報を含む 大きな受容野を維持しなければいけない • 受容野とは、1ピクセルが各特徴マップ でどれほどの領域で計算に利用されてい るか • DeepLabv3は、主にCNNからなる4つの 特徴マップを生成するEncoderを用いて いる • DeepLabv3とSegformerを比較すると、 Segformerは4つ目の特徴マップでも広 い受容野を持つ 11

13.

アジェンダ  SegFormerの概要  SegFormerのモデル  実験結果 12

14.

実験結果 13

15.

実験結果 14

16.

参考文献  https://arxiv.org/abs/2105.15203(Segformer)  https://arxiv.org/abs/2102.12122(階層型Transformer)  https://gihyo.jp/book/2022/978-4-297-13058-9(Vision Transformer入門) 15