572 Views
January 14, 22
スライド概要
2022/01/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) 小林 範久 Present Square Co.,Ltd. http://deeplearning.jp/ 1
書誌情報 タイトル: Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) https://arxiv.org/abs/2201.00520 著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang 概要: • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識 分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが 可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど のSOTAとされるモデルよりも高い精度を記録した。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2
アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3
1. 導入 背景 • Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。 • Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、 より良い特徴量を取得することが可能となる。 • 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。 ViTのデメリット • • • • 必要とするメモリが大きい 高い計算コスト 学習の収束の遅延 過学習の危険性 • これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、 Pyramid Vision Transformer (PVT)や Swin Transformer などがある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4
1. 導入 背景 • PVT や SwinTransformer は、画像内の領域をある程度絞り 込んだ箇所に対して Attention を行うことでメモリ効率や計算効 率を向上。 • 一方で、画像内の領域を絞り込むため、本来の領域から取得で きた広範な関係性の情報を失っている可能性がある。 • 領域を絞り込む際に、より影響関係がある領域を選択できるよう な Deformable self-attention を利用するDeformable Attention Transformer(DAT) を提案。 • 従来の画像処理モデルよりも効率や性能を向上させることに成功。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5
2. 先行研究 Vision Transformer(ViT, Dosovitskiy et al. 2020) • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用すること に成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことを成功。 画像パッチ(9つのパッチ)として入力 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://arxiv.org /pdf/2010.11929.pdf 6
2. 先行研究 Swin Transformer Pyramid Vision Transformer (PVT) • 計算コストを抑えるためにダウンサンプリングする • ローカルウィンドウを利用することで Attention 範囲を 制限する • これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。 • ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可 能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。 • 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://arxiv.org/pdf/2102.12122.pdf https://arxiv.org/pdf/2103.14030.pdf 7
2. 先行研究 Deformable Convolution Networks(DCN) • 受容野を画像にあわせて柔軟に変形するモデル。 • このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、 実用的ではなくなるという問題があった。 出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8
2. 先行研究 Deformable DETR • Transformer とCNN を組み合わせたことで高精度 を達成した DETR に Deformable モジュールを組み 込んだモデル。 • 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 出典:https://arxiv.org/pdf/2010.04159.pdf 9
3. 手法 Deformable Attention Transformer(DAT) • 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。 • 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。 Deformable Attention(DA) • Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を 行うことで、効率よくトークン間の関係性をモデリングすることが可能。 • オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる Attention 領域を決定する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 10
3. 手法 Deformable Attention Transformer(DAT) DCNとの違い • DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。 • DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年 の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら れているため。 • このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。 計算コスト 3×3のDC(画像が𝐻 × 𝑊 × 𝐶) → 9×𝐻 ×𝑊×𝐶 Transformerに適用した場合 →𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊) ※計算コストが高すぎて、実用的でない。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
3. 手法 Deformable Attentionの流れ ① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。 ② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点 (Reference Points)として生成される。 ③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。 (Top-left=(-1,-1)) ④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 12
3. 手法 Deformable Attentionの流れ ⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡 に投入され、オフセット を生成する。 ※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。 (∆𝑝 ← 𝑠 tanh(∆𝑝)) ⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。 ⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 13
3. 手法 Deformable Attentionの流れ ⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘෨ = 𝑥𝑊 𝑘 と バリュートークン 𝑣= 𝑥 𝑊𝑣 を得る。 ⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 14
3. 手法 Deformable Attention オフセット生成 • Deformable Attention では、オフセット生成のために、サブネットワークを利用し ている。 • このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。 • 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。 • そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット ワークを実装している。 サブネットワークの流れ ① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。 ② GELU活性化関数に通す。 ③1×1の畳み込みを行い、オフセット値を獲得する。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 15
3. 手法 Deformable Attention オフセットグループ • Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、 Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。) • 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用 している。 • 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、 確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ るような作りとなっている。 Deformable relative position bias • 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置 をエンコードする。これにより、空間情報で通常の Attention が強化されることになる。 • DATでは、正規化の値、ポジションエンベディングとして、可能な すべてのオフセット値をカバーするための連続的な相対変位が行 われている。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 16
3. 手法 計算コストについて • Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など 似たような計算コストになる。異なる点は、オフセットネットワークの計算量。 • 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟 2 • Swin-T(H=W = 14, Ns= 49, C= 384)との比較 • Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程 度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 17
3. 手法 モデルアーキテクチャ • DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的 特徴量ピラミッドを形成する。 • Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も 広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。 • Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより 広域の関係性をモデリングすることが可能となる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 18
3. 手法 モデルアーキテクチャ • 分類タスクでは、最初に最終段階から出力された特徴マップを正規 化し、次にロジットを予測するためにプールされた特徴を持つ線形 分類器を採用している。 • 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー ンの役割を果たし、マルチスケールの特徴を抽出している。 • 物体検出、セマンティックセグメンテーションのデコーダーなどでは、 FPN のように次のモジュールにフィードする前に、各ステージの機能 に正規化レイヤーを追加している。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19
4. 実験 ImageNet1K を用いた実験 画像枚数:学習用1.28M 検証用50K オプティマイザ:AdamW エポック:300 初期学習率:1 × 10−3 (ウオームアップ 1 × 10−6→1 × 10−3) (cosine learning rate decay) データ拡張:RandAugment 、 Mixup、CutMix Copyright (C) Present Square Co., Ltd. All Rights Reserved. 20
4. 実験 COCO Object Detection を用いた実験 画像枚数:学習用118K 検証用5K 実験設定 事前学習:ImageNet-1K(300エポック) パラメータ:SwinTransformerと同じ • • • RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。 Swin Transformer モデルなどと比べよい成果を出している。 特により大きな物体の検出が得意であることがわかった。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 21
4. 実験 ADE20K 画像枚数:学習用20K 検証用2K SemanticFPN と UperNet のバックボーンネットワークとして利用 事前学習:ImageNet-1K 学習:SemanticFPN 40ステップ、UperNet 160K • SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。 • mIOU スコアで比較され、全体としてよりよい精度を出した。 • 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 22
4. 実験 アブレーションスタディ • オフセットとポジションエンベディングの必要性の確認 P:SRA attention S:Shift Window attention • Deformable Attention の有効なステージの確認 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 23
4. 実験 可視化実験 • より重要な領域に対して参照点が変形されていることを確認。 (各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。) Copyright (C) Present Square Co., Ltd. All Rights Reserved. 24
5. まとめ 結論 • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に 導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と なり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの SOTAとされるモデルよりも高い精度を記録した。 Copyright (C) Present Square Co., Ltd. All Rights Reserved. 25
Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021. • Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764–773, 2017. • Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021 • Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 26