[DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）

1.2K Views

January 14, 22

#deep learning #Deep Learning #Vision Transformer #Deformable Attention Transformer #Image Recognition #Self-Attention

スライド概要

2022/01/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）小林範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT） https://arxiv.org/abs/2201.00520 著者： Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang 概要： • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどのSOTAとされるモデルよりも高い精度を記録した。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2

https://arxiv.org/abs/2201.00520

１. 導入背景 • Vision Transformer（ViT）が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。 • Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、より良い特徴量を取得することが可能となる。 • 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。 ViTのデメリット • • • • 必要とするメモリが大きい高い計算コスト学習の収束の遅延過学習の危険性 • これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、 Pyramid Vision Transformer (PVT）や Swin Transformer などがある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4

１. 導入背景 • PVT や SwinTransformer は、画像内の領域をある程度絞り込んだ箇所に対して Attention を行うことでメモリ効率や計算効率を向上。 • 一方で、画像内の領域を絞り込むため、本来の領域から取得できた広範な関係性の情報を失っている可能性がある。 • 領域を絞り込む際に、より影響関係がある領域を選択できるような Deformable self-attention を利用するDeformable Attention Transformer(DAT) を提案。 • 従来の画像処理モデルよりも効率や性能を向上させることに成功。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5

２. 先行研究 Vision Transformer（ViT, Dosovitskiy et al. 2020） • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として扱うことで画像処理にTransformerを適用することに成功。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことを成功。画像パッチ（9つのパッチ）として入力 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org /pdf/2010.11929.pdf 6

https://arxiv.org/pdf/2010.11929.pdf

２. 先行研究 Swin Transformer Pyramid Vision Transformer (PVT） • 計算コストを抑えるためにダウンサンプリングする • ローカルウィンドウを利用することで Attention 範囲を制限する • これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。 • ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。 • 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2102.12122.pdf https://arxiv.org/pdf/2103.14030.pdf 7

２. 先行研究 Deformable Convolution Networks（DCN） • 受容野を画像にあわせて柔軟に変形するモデル。 • このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、実用的ではなくなるという問題があった。出典：https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8

https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf

２. 先行研究 Deformable DETR • Transformer とCNN を組み合わせたことで高精度を達成した DETR に Deformable モジュールを組み込んだモデル。 • 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典：https://arxiv.org/pdf/2010.04159.pdf 9

https://arxiv.org/pdf/2010.04159.pdf

10.

３. 手法 Deformable Attention Transformer（DAT） • 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。 • 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。 Deformable Attention（DA） • Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を行うことで、効率よくトークン間の関係性をモデリングすることが可能。 • オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる Attention 領域を決定する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10

11.

３. 手法 Deformable Attention Transformer（DAT） DCNとの違い • DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。 • DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知られているため。 • このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされたキーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。計算コスト 3×3のDC（画像が𝐻 × 𝑊 × 𝐶） → 9×𝐻 ×𝑊×𝐶 Transformerに適用した場合 →𝑁𝑞 × 𝑁𝑘 × 𝐶（ 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊） ※計算コストが高すぎて、実用的でない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11

12.

３. 手法 Deformable Attentionの流れ ① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。 ② 一様格子のピクセル 𝑝 （𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする）内の点)が参照点（Reference Points）として生成される。 ③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。（Top-left＝（-1,-1）) ④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12

13.

３. 手法 Deformable Attentionの流れ ⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡 に投入され、オフセットを生成する。 ※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。（∆𝑝 ← 𝑠 tanh(∆𝑝)) ⑥ 参照点とオフセットの情報を足して、変形した参照点（Deformed Points）を得る。 ⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥෤ をサンプルする。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13

14.

３. 手法 Deformable Attentionの流れ ⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘෨ = 𝑥𝑊 ෤ 𝑘 とバリュートークン 𝑣= ෤ 𝑥෤ 𝑊𝑣 を得る。 ⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14

15.

３. 手法 Deformable Attention オフセット生成 • Deformable Attention では、オフセット生成のために、サブネットワークを利用している。 • このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。 • 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオフセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。 • そのため、非線形活性化関数を用いた２つの畳み込みモジュールをもつサブネットワークを実装している。サブネットワークの流れ ① k × k (論文では５×５）のデプスワイズ畳み込みによりローカル特徴量を獲得する。 ② GELU活性化関数に通す。 ③１×１の畳み込みを行い、オフセット値を獲得する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15

16.

３. 手法 Deformable Attention オフセットグループ • Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。（これは、 Multi-Head Self-Attention (MHSA）の手法と同様の考え方に基づくもの。） • 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用している。 • 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされるような作りとなっている。 Deformable relative position bias • 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置をエンコードする。これにより、空間情報で通常の Attention が強化されることになる。 • DATでは、正規化の値、ポジションエンベディングとして、可能なすべてのオフセット値をカバーするための連続的な相対変位が行われている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16

17.

３. 手法計算コストについて • Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など似たような計算コストになる。異なる点は、オフセットネットワークの計算量。 • 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟 2 • Swin-T（H=W = 14, Ns= 49, C= 384）との比較 • Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17

18.

３. 手法モデルアーキテクチャ • DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的特徴量ピラミッドを形成する。 • Stage１及びStage２では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンドウベースのローカルアテンション（Shift-Window Attention）でローカル部分の情報を統合している。 • Stage３及びStage４で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより広域の関係性をモデリングすることが可能となる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18

19.

３. 手法モデルアーキテクチャ • 分類タスクでは、最初に最終段階から出力された特徴マップを正規化し、次にロジットを予測するためにプールされた特徴を持つ線形分類器を採用している。 • 物体検出、セグメンテーションタスクでは、DATはモデルのバックボーンの役割を果たし、マルチスケールの特徴を抽出している。 • 物体検出、セマンティックセグメンテーションのデコーダーなどでは、 FPN のように次のモジュールにフィードする前に、各ステージの機能に正規化レイヤーを追加している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19

20.

４. 実験 ImageNet1K を用いた実験画像枚数：学習用1.28M 検証用50K オプティマイザ：AdamW エポック：300 初期学習率：1 × 10−3 （ウオームアップ 1 × 10−6→1 × 10−3）（cosine learning rate decay）データ拡張：RandAugment 、 Mixup、CutMix Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20

21.

４. 実験 COCO Object Detection を用いた実験画像枚数：学習用118K 検証用5K 実験設定事前学習：ImageNet-1K（300エポック）パラメータ：SwinTransformerと同じ • • • RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。 Swin Transformer モデルなどと比べよい成果を出している。特により大きな物体の検出が得意であることがわかった。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21

22.

４. 実験 ADE20K 画像枚数：学習用20K 検証用2K SemanticFPN と UperNet のバックボーンネットワークとして利用事前学習：ImageNet-1K 学習：SemanticFPN 40ステップ、UperNet 160K • SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。 • mIOU スコアで比較され、全体としてよりよい精度を出した。 • 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22

23.

24.

25.

５. まとめ結論 • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの SOTAとされるモデルよりも高い精度を記録した。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25

26.

Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021. • Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764–773, 2017. • Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021 • Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26