305 Views
January 09, 25
スライド概要
AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください!
2024年度後期輪読会 第12回 [物体検出] SegFormer 京都大学 工学部 情報学科 宮前明生 0
アジェンダ SegFormerの概要 SegFormerのアーキテクチャ 実験結果 1
アジェンダ SegFormerの概要 SegFormerのアーキテクチャ 実験結果 2
SegFormerの概要 ピクセルごとにクラス分類を行うセマン ティック・セグメンテーションモデル Segformerは大きく2つの構造から成る 1. 階層型Trabsformerエンコーダー 2. 軽量All-MLPデコーダー 3
アジェンダ SegFormerの概要 SegFormerのアーキテクチャ 実験結果 4
SegFormerのアーキテクチャ 階層型Transformerエンコーダー • Overlap Patch Embeddingsで の画像をself-attensionのため に のパッチに埋め込みをする • Transformer Blockを通して、 特徴 マップ を得る • 軽量All-MLPデコーダー 4つの特徴マップをMLPLayerを通し て、全て に変換する • MLPで のセグメンテー ションマップを出力する( はカ テゴリ数) 5
SegFormerのアーキテクチャ Overlap Patch Embeddings • オーバーラップしながら チに分割する(パッチ数は のパッ ) • カーネルサイズが4の畳み込み処理 Overlap Patch Merging • 入力をマージしてより小さい特徴 マップ を得る • 4つのOverlap Patch Mergingは カーネルサイズ ストラ イド パディング の畳み込み処理 6
SegFormerのアーキテクチャ Efficient Self-Attention • 通常のSelf-Attensionの計算量は ( はパッチ数) • 各TrabsformerBlockで削減率 を用いて、キーとバリュー の次元を 倍に削減する • Efficient Self-Attensionの計算量は Softmax 𝑄𝐾 𝑑 Self-Attension Softmax V 𝑄𝐾 𝑑 𝑉 Efficient Self-Attension 7
SegFormerのアーキテクチャ Efficient Self-Attention • キーとバリューの削減は以下のよう に行われる 1. パッチ特徴量を特徴マップごとにリ サイズする 2. 削減率 によって、サイズが H/R×W/Rになるように畳み込みを する 3. サイズを にリサイズしてキーと バリューを得る Vision Transformer入門から 8
SegFormerのアーキテクチャ Mix-FFN • 位置情報を取り入れる役割がある • 3×3の畳み込みとMLPを組み合わせた • 以下のように定式化している • GELUはガウス累積分布関数 いて以下のように与えられる を用 9
SegFormerのアーキテクチャ MLP-Decoder • Encoderから得られた各特徴マップ から のセグメンテーショ ンマップを出力する • MLPLayerでは、各特徴マップを MLPでチャンネル数をC、 UpsumpleでサイズがH/4×W/4に 統一する • 統一した各特徴マップをMLPを通し てセグメンテーションマップを得る 10
SegFormerのアーキテクチャ Decoderがシンプルな理由 • セグメンテーションでは画像情報を含む 大きな受容野を維持しなければいけない • 受容野とは、1ピクセルが各特徴マップ でどれほどの領域で計算に利用されてい るか • DeepLabv3は、主にCNNからなる4つの 特徴マップを生成するEncoderを用いて いる • DeepLabv3とSegformerを比較すると、 Segformerは4つ目の特徴マップでも広 い受容野を持つ 11
アジェンダ SegFormerの概要 SegFormerのモデル 実験結果 12
実験結果 13
実験結果 14
参考文献 https://arxiv.org/abs/2105.15203(Segformer) https://arxiv.org/abs/2102.12122(階層型Transformer) https://gihyo.jp/book/2022/978-4-297-13058-9(Vision Transformer入門) 15