527 Views
April 14, 23
スライド概要
2023/4/14
Deep Learning JP
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
書誌情報 • タイトル – One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ClassAware Cross-Domain Transformers • 著者 – Rui Gong1, Qin Wang1, Dengxin Dai2, Luc Van Gool1,3 – 1Computer Vision Lab, ETH Zurich, 2MPI for Informatics, 3VISICS, KU Leuven • 投稿時間 – 2022/12/14(Arxiv) • Paper – https://arxiv.org/abs/2212.07292 2
Introduction • モチベーション – Target domainの収集が難しいタスクを解決したい • one-shot unsupervised domain adaptation (OSUDA)の提案 – source domainの空間的な構造情報とtargetのスタイルを利用して、pseudo-target domainを生成 – class-aware cross-domain transformersという機構を提案してdomain-invariant 特徴 を抽出 – Target domainと見た目が類似する画像を入力とすることで、 one-shot domain generalization (OSDG) 手法として拡張可能 3
提案手法の概要 • ベースはpseudo-label based self-training strategy(mean-teacher framework) – intermediate domain randomization (IDR) を提案し、domain gapの削減を目指す – Teacher netは最終の出力を推定、Student netはTeacher netを更新 – domain-invariant情報を取得するためのattentionを提案 4
提案手法の詳細 - Pseudo-Target Domainの作成 • Pseudo-Target Domain for Style Alignment – Image translationで、source domainをone-shot targetのスタイルに生成(拡張) • One-shotという制約は過学習が起こりやすいため – Pseudo-Target Domain: 𝑥ො𝑖𝑠 = 𝒮 𝑥𝑖𝑠 𝑥 𝑡 – off-the-shelf手法MUNITで生成(weighted perceptual lossを採用) – Pseudo-Target Domainに対し、cross entropyで最適化(ℒ𝑝𝑡 ) • スタイルによるdomain gapを軽減 5
提案手法の詳細 - class-mixed sampling • Pseudo-Target Domainは空間的構造によるdomain gapを解消できない • class-mixed samplingでPseudo-Target Domain上で、sourceの空間的構造 をrandomize 6
提案手法の詳細 - class-mixed sampling • Pseudo targetから、c個クラスをsamplingして、maskを生成 • intermediate domain sampleを生成 • Pseudo label𝑦𝑗𝑠 を利用することで、source domainへのoverfittingを防ぐ • intermediate domainに対してもcross entropyで最適化可能(ℒ𝑖𝑑𝑟 ) 7
提案手法の詳細 - Class-Aware Cross-Domain Transformers • domain-invariant情報の学習も重要 • 既存のlocalな情報に注目する手法(local patch-wise prototypical matching など)は、globalなinvariant情報の学習が課題 – Transformerはglobalな情報を取得可能 • Cross Transformer: pseudo targetをqueryとする 8
提案手法の詳細 - Class-Aware Cross-Domain Transformers • Class-Aware Cross-Domain attention(CACDA)を提案 – Pseudo target sampleからスタイル情報、 intermediate domain sampleから空間的構 造情報からdomain-invariant情報を学習 – cross entropyで最適化(ℒ𝑐𝑑 ) 9
実験結果 - OSUDA • SOTAを達成 • Few-shot手法にも勝てる 10
実験結果 - Pseudo targetの生成 • Perceptual lossの重みを高く設定して、targetのスタイルに接近 • 学習ベースでない手法フーリエ変換は、アーティファクトが多い – OSDGでは効果あり 11
実験結果 - OSDG • OSDGでもSOTAを達成 12
実験結果 – ablation study • 提案手法の有効性を確認 – スタイルと空間的構造の情報からdomain-invariant情報を学習できた 13
実験結果 – ablation study • Class Mixed Sampling based IDR vs. other IDR methods – 空間的構造のsamplingも有効 14
実験結果 – ablation study • Comparison to Cross-Domain Transformer Variants – intermediate domain representation(IDR)に対してcross attentionをかけることは、 domain-invariant情報取得を促進(?) – Pseudo domainをattentionの対象にした方が効果的 • Pseudo domainはsourceとのgapが小さいため 15
まとめ • One-shot unsupervised domain adaptation手法を提案 – スタイル変換により、pseudo target domainを生成 – 空間的構造も同時にsamplingするintermedia domain representationを生成 – pseudo target domainとintermedia domain representationを対象に、 Class-Aware Cross-Domain attentionにより、domain-invariant情報を抽出 – One-shot domain generalizationに拡張可能 • 所感 – One-shotの画像に依存(?)関連情報がない – intermediate domainサンプルは空間的構造より、pseudo targetとsourceの中間の表 現となる。中間的な表現で、学習をしやすくする 16