【物体検出】segformer

1.2K Views

January 09, 25

#SegFormer #セマンティックセグメンテーション #Transformer #ディープラーニング #物体検出

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.2K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

２０２４年度後期輪読会第12回 [物体検出] SegFormer 京都大学工学部情報学科宮前明生 0

アジェンダ  SegFormerの概要  SegFormerのアーキテクチャ  実験結果 1

アジェンダ  SegFormerの概要  SegFormerのアーキテクチャ  実験結果 2

SegFormerの概要  ピクセルごとにクラス分類を行うセマンティック・セグメンテーションモデル  Segformerは大きく2つの構造から成る 1. 階層型Trabsformerエンコーダー 2. 軽量All-MLPデコーダー 3

アジェンダ  SegFormerの概要  SegFormerのアーキテクチャ  実験結果 4

SegFormerのアーキテクチャ  階層型Transformerエンコーダー • Overlap Patch Embeddingsでの画像をself-attensionのためにのパッチに埋め込みをする • Transformer Blockを通して、特徴マップを得る  • 軽量All-MLPデコーダー 4つの特徴マップをMLPLayerを通して、全てに変換する • MLPでのセグメンテーションマップを出力する（はカテゴリ数） 5

SegFormerのアーキテクチャ  Overlap Patch Embeddings • オーバーラップしながらチに分割する（パッチ数はのパッ） • カーネルサイズが4の畳み込み処理  Overlap Patch Merging • 入力をマージしてより小さい特徴マップを得る • 4つのOverlap Patch Mergingはカーネルサイズストライドパディングの畳み込み処理 6

SegFormerのアーキテクチャ  Efficient Self-Attention • 通常のSelf-Attensionの計算量は（はパッチ数） • 各TrabsformerBlockで削減率を用いて、キーとバリューの次元を倍に削減する • Efficient Self-Attensionの計算量は Softmax 𝑄𝐾 𝑑 Self-Attension Softmax V 𝑄𝐾 𝑑 𝑉 Efficient Self-Attension 7

SegFormerのアーキテクチャ  Efficient Self-Attention • キーとバリューの削減は以下のように行われる 1. パッチ特徴量を特徴マップごとにリサイズする 2. 削減率によって、サイズが H/R×W/Rになるように畳み込みをする 3. サイズをにリサイズしてキーとバリューを得る Vision Transformer入門から 8

10.

SegFormerのアーキテクチャ  Mix-FFN • 位置情報を取り入れる役割がある • 3×3の畳み込みとMLPを組み合わせた • 以下のように定式化している • GELUはガウス累積分布関数いて以下のように与えられるを用 9

11.

SegFormerのアーキテクチャ  MLP-Decoder • Encoderから得られた各特徴マップからのセグメンテーションマップを出力する • MLPLayerでは、各特徴マップを MLPでチャンネル数をC、 UpsumpleでサイズがH/4×W/4に統一する • 統一した各特徴マップをMLPを通してセグメンテーションマップを得る 10

12.

SegFormerのアーキテクチャ  Decoderがシンプルな理由 • セグメンテーションでは画像情報を含む大きな受容野を維持しなければいけない • 受容野とは、1ピクセルが各特徴マップでどれほどの領域で計算に利用されているか • DeepLabv3は、主にCNNからなる4つの特徴マップを生成するEncoderを用いている • DeepLabv3とSegformerを比較すると、 Segformerは4つ目の特徴マップでも広い受容野を持つ 11

13.

アジェンダ  SegFormerの概要  SegFormerのモデル  実験結果 12

14.

実験結果 13

15.

実験結果 14

16.

参考文献  https://arxiv.org/abs/2105.15203（Segformer）  https://arxiv.org/abs/2102.12122（階層型Transformer）  https://gihyo.jp/book/2022/978-4-297-13058-9（Vision Transformer入門） 15