5.8K Views
October 12, 23
スライド概要
"2019/06/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/ "
DL輪読会資料
DEEP LEARNING JP ドメイン転移と不変表現に関するサーベイ (ICML2019が中心) [DL Papers] Yusuke Iwasawa, Matsuo Lab http://deeplearning.jp/
ドメイン転移と不変表現に関するサーベイ • • • • • • • • • • • • • • • On Learning Invariant Representations on Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Domain Agnostic Learning with Disentangled Representations, ICML2019 Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 Bridging Theory and Algorithm for Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 Unsupervised Adversarial Induction, NIPS2018 Universal Domain Adaptation, CVPR2019 Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 2
Outline • ドメイン転移と不変表現学習 • 最近の研究動向(ICML2019が中心) – 不変表現学習とJoint Errorのトレードオフ問題 – 教師なしドメイン適応におけるモデル選択問題 – メタ正則化による転移可能な表現の学習 – より難しい問題設定への取り組みについて • まとめ 3
背景:ドメインシフト w/oドメインシフト w/ドメインシフト 訓練 データ 訓練 データ テスト データ P(X) 同じ真の分布から サンプルされたデータ P(X) テスト データ ≒ Q(X) 異なる真の分布から サンプルされたデータ • DL含む多くの検証・一般的な学習理論は左を前提 • 一部の機械学習タスクはドメインバイアスがある(つまり右) – 訓練時と異なるユーザを対象とする,ユーザの行動が変化するなど – ドメインバイアスを無視すると,テストに対して精度が悪化 4
背景:ドメインシフトによる認識精度の劣化 Image Recognition [Ganin+ 15] Semantic Segmentation [Zhang+ 18] 5
背景:ドメイン転移の問題設定 得られるソース分布 ターゲットデータ/分布への仮定 P=Q P≒Q 教師なし, 多量 P≒Q 教師あり, 少量 ~ 未知 ソース1つ 伝統的 機械学習 Unsupervised Domain Adaptation Few-Shot Domain Adaptation Domain Agnostic Learning ソース複数 Multi Domain Learning Multi Source Domain Adaptation (あんまりない? Domain Generalization 共通の仮定 • ソースはターゲットより何らかの意味でリッチな情報がある • ソースの学習(経験リスクℝ𝑠 )をターゲットの学習にどう活かすか? 6
背景:ドメイン転移の理論 [Ben-David+ 10] Theorem [Ben-David+ 10] ソース損失 H⊿H Divergence Joint Error = 理想的なhを 使うときの損失 ただし、 𝐶 = 𝑅𝑆 ℎ∗ + 𝑅𝑇 ℎ∗ where ℎ∗ is optimal joint classifier ※ S=ソース分布、T=ターゲット分布 ※上の式はソースが1つの場合を仮定(多ソースへの拡張もある) [Ben-David, 2010] “A theory of learning from different domains” 7
H⊿H Divergenceの解釈 H⊿H Divergenceが大きい状態 H⊿H Divergenceが小さい状態 • H⊿H Divergence = 分布間の距離を測る指標 • KL Divergenceなどよりサンプル効率が良い 8
背景:Domain Adversarial Neural Networks [Ganin+ 16] • Idea:H⊿H Divergenceの上界を抑えるH-Distanceは2値分類器で近似できる • Zがどちらのドメインから来たのかを分類する分類器で測って最小化 • 分類器が識別出来ないような特徴空間に飛ばす 9
DANNの効果[Ganin+ 16] 10
Outline • ドメイン転移と不変表現学習 • 最近の研究動向(ICML2019が中心) – 不変表現学習とJoint Errorのトレードオフ問題 – 教師なしドメイン適応におけるモデル選択問題 – メタ正則化による転移可能な表現の学習 – より難しい問題設定への取り組みについて • まとめ 11
以降の内容 • • • • • • • • • • • • • • On Learning Invariant Representations on Domain Adaptation, ICML2019 Domain Agnostic Learning with Disentangled Representations, ICML2019 Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 Bridging Theory and Algorithm for Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 Unsupervised Adversarial Induction, NIPS2018 Universal Domain Adaptation, CVPR2019 Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 12
以降の内容 • • • • • • • • • • • • • • On Learning Invariant Representations on Domain Adaptation, ICML2019 Domain Agnostic Learning with Disentangled Representations, ICML2019 Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 Bridging Theory and Algorithm for Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 共通の問い:不変性を高めることは本当に良いことなのか? Unsupervised Adversarial Induction, NIPS2018 Universal Domain Adaptation, CVPR2019 Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 13
不変性だけではだめな直感的な理由 [Saito+ 18] 14
不変性だけではだめな理論上の理由 Theorem [Ben-David+ 10] ソース損失 H⊿H Divergence Joint Error = 理想的なhを 使うときの損失 ただし、 𝐶 = 𝑅𝑆 ℎ∗ + 𝑅𝑇 ℎ∗ where ℎ∗ is optimal joint classifier ※ S=ソース分布、T=ターゲット分布 ※上の式はソースが1つの場合を仮定(多ソースへの拡張もある) 不変性を上げてもCが変化しないことを仮定 ≒共変量シフトの問題設定(実際は?) 15
実験:Joint ErrorとH⊿H-divergence [Liu+ 19] [Liu+ 19] VisDA-17 Dataset (左)Dataset(右)誤 差 [Chen+ 19] Office-31 Dataset 誤差 ※ DANN [Ganin+16] Domain Adversarial Neural Networks ※ MCD [Saito+ 18] Maximum Classifier Discrepancy 観測:不変にする手法を使うとJoint Errorが大きくなっている =>不変性を上げるとCが悪くなる(場合がある) 16
不変性が良くない簡単な例 [Zhao+ 19] ※ データは1次元、y軸はソースとターゲットを分けている 左はSとTは離れている Joint Errorの低い分類器は作れる 左はSとTは完全に一致 Joint Errorの低い分類器は作れない [Zhao+, 19] “On Learning Invariant Representation for Domain Adaptation” 17
問い 1. 理論的に不変性とJoint Errorはどういう関係にあるのか? – 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/ しないような状況はあるか? 2. Joint Errorを考慮するにはどうすればよいか? – ターゲットラベルを使わずに、Joint Error≒本当に最適化したい ものを最小化できるか? 18
On Learning Invariant Representations for Domain Adaptation, ICML2019 Han Zhao et al. • Notationが違うが、Ben-Davidとの差は第3項 • ソースとターゲットに共通のラベリング関数を仮定しない • Joint Errorは、ある特徴空間上での真のラベリング関数のミスマッチ • ※ちなみにこの論文では対処法については議論してない 19
On Learning Invariant Representations for Domain Adaptation, ICML2019 Han Zhao et al. Over-training hurt generalization! 理由:ラベル分布が異なる場合に学習しすぎ ると真のラベリング関数がソースとターゲッ トでずれる(RTが途中から劣化!) 20
問い 1. 理論的に不変性とJoint Errorはどういう関係にあるのか? – 言い換えれば、不変性を最大にするとJoint Errorが必ず悪化する/ しないような状況はあるか? – => 特徴空間上での真のラベリング関数がずれると悪化する – => P(Y)が異なる場合には不変性とJoint Errorは両立できない 2. Joint Errorを考慮するにはどうすればよいか? – ターゲットラベルを使わずに、Joint Error≒本当に最適化したい ものを最小化できるか? 21
Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Hong Liu et al. 手法の概念図 アルゴリズム • 特徴空間上を動かす代わりに、ドメイ ン識別器を使って新たに事例を作る • 特徴空間は変化しないので劣化しない • 事例は、(1) ドメイン識別器を騙す、 (2) Yの分類平面も騙すような事例 (決定境界の近くに移す) 22
Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Hong Liu et al. 結果 23
Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment Yifan Wu et al. 気持ち • すべてが近づかなくて も良い • β-admissible distances (定義3.3) • SとTが一定より近ければ Alignしたとみなす 具体的な実装 (DANNの拡張版) 具体的な実装 (Wasserstein版) 24
Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment Yifan Wu et al. 25
Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019 Xinyang Chen et al. 前提:特異値のプロット 提案法:BSP • DANNは特異値の最大値が大きい傾向 • Top-Kの特異値が小さくなるように制 • (1) 特徴量が一部の軸に支配されている 約 (≒縮退している) • (2) Discriminabilityが低い(詳細略) (クラス間分散/クラス内分散) 26
Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation, ICML2019 Xinyang Chen et al. 27
まとめ:Joint Errorと不変性のトレードオフ • 共通の問い:不変性を上げれば良いのか? • 部分的な答え: – 少なくともP(Y)が変化する場合にはNo – (共変量シフトの仮定が成り立たない場合) – かつ、これは結構実際的におこる(ターゲットのP(Y)は普通未知) • 対策:ここではICML2019を3つ紹介 – Transferable Adversarial Training – Batch Spectral Penalization – Asymmetric Relaxation 28
次なる疑問:結局どれを使えばいいのか? • 非常に答えにくい • 理由:モデル選択方法が確立されていない=>比較困難! – 実際に知りたいターゲットロスは使えない – 論文によっても使ってる方法が違う! • 素朴な方法1:ソースリスク – 問題:上界を明らかに抑えてない • 素朴な方法2:ターゲットリスク(少数で計測) – 問題:教師なしドメイン適応の問題設定と反している Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 29
前提:Importance Weighted Cross Validation (IWCV) • 密度非による重み付けを利用したモデル選択 重み付きソース損失 ターゲットのリスク 30
Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Kaicho You et al. IWCVの問題:アンバイアスだが分散が大きい Renyi Divergence 提案法:Deep Embedded Validation (1) 特徴空間上で密度比を計測する (ドメイン識別器を使う) (2) Control Variatesを使う(平均をベースラインに使う) 31
Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Kaicho You et al. (1) 手法問わず使える (2) ターゲットとほぼ同等 (3) Control Variateは平均すると良い 32
モデル選択手法まとめ 33
モデル選択まとめ • ドメイン転移の問題設定の多くではターゲットのラベル付き データは得られない => モデル選択が難しい! – フェアな比較がなされていない – 再現性の担保も難しい • アンバイアスで低分散な手法を提案 34
メタ正則化によるドメイン転移 • • • • • • • • • • • • • • • On Learning Invariant Representations on Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Domain Agnostic Learning with Disentangled Representations, ICML2019 Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 共通の問い: 不変性という基準を設計する必要あるのか? Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 Bridging Theory and Algorithm for Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 Unsupervised Adversarial Induction, NIPS2018 Universal Domain Adaptation, CVPR2019 Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 35
Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019 Yiying Li Inner Update NNで表されたAux. Lossを定義 条件1: 正のスカラーを出力 条件2:特徴抽出器(θ)に依存 例:Set Embedding Aux. Lossを更新 36
Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019 Yiying Li Homogeneousな設定(普通の設定)での比較 37
Feature-Critic Networks for Heterogeneous Domain Generalisation, ICML2019 Yiying Li Heterogeneousな設定(ラベル集合がSとTで異なる)での比較 38
まとめ(というか個人的な感想) • 面白いけど黒魔術っぽさがすごい – 普通こういう場合は正則化の候補をいくつか用意してどれを使うか を選ぶとかになるところを、特徴抽出器(≒特徴表現)からの関数 であれば何でも良いということになっている • よくわからない(一体何をしているのか。。。) • 関連研究: – Meta-Learning Update Rules for Unsupervised Representation Learning, ICLR2019 39
より複雑な問題設定への応用 • • • • • • • • • • • • • • • On Learning Invariant Representations on Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Domain Agnostic Learning with Disentangled Representations, ICML2019 Transferabiliity vs. Discriminability: Batch Spectral Penaralization for Adversarial Domain Adaptation, ICML2019 Transferable Adversarial Training: A General Approach to Adapting Deep Classifiers, ICML2019 Domain Adaptation with Asymmetrically-Relaxed Distribution Alignment, ICML2019 Adversarial Invariant Feature Learning with Accuracy Constraint for Domain Generalization, ECML2019 Bridging Theory and Algorithm for Domain Adaptation, ICML2019 Toward Accurate Model Selection in Deep Unsupervised Domain Adaptation, ICML2019 Learning to Generalize: Meta-Learning for Domain Generalization, AAAI2018 MetaReg: Towards Domain Generalization using Meta-Regularization, NIPS2018 Feature-Critic Networks for Heterogeneous Domain Generalization, ICML2019 Universal Domain Adaptation, CVPR2019 Importance Weighted Adversarial Nets for Partial Domain Adaptation, CVPR2018 Unsupervised Adversarial Induction, NIPS2018 40
ドメイン転移の種々の問題設定(再掲) 得られるソース分布 ターゲットデータ/分布への仮定 P=Q P≒Q 教師なし, 多量 P≒Q 教師あり, 少量 ~ 未知 ソース1つ 伝統的 機械学習 Unsupervised Domain Adaptation Few-Shot Domain Adaptation Domain Agnostic Learning ソース複数 Multi Domain Learning Multi Source Domain Adaptation (あんまりない? Domain Generalization 共通の仮定 • ソースはターゲットより何らかの意味でリッチな情報がある • ソースの学習(経験リスクℝ𝑠 )をターゲットの学習にどう活かすか? 41
新しい軸 • (1) ターゲットの変化 – ”Open Set Domain Adaptation” – “Partial Domain Adaptation” – “Universal Domain Adaptation” • (2) ドメインラベルなし – “Unsupervised Adversarial Induction”, NIPS2018 – “Learning Robust Representations by Projecting Superficial Statistics Out”, ICLR2019 42
(1) ターゲットの変化 43
(2) ラベルなし不変表現学習 • 普通の設定ではドメインにIDがついていることを仮定 • 実際は? – 例えばWebのデータは1つのドメイン? – そもそもドメインって何? • ドメインIDがない状況でも、タスクに重要な情報をそうでな い状況と分離したい • 方策1:特徴量を分離 ”Unsupervised Adversarial Invaiance”, NIPS2018 • 方策2:不変性へのドメイン知識を利用 “Learning Robust Representations by Projecting Superficial Statistics Out”, ICLR2019 44
Unsupervised Adversarial Invariance, NIPS2018 Ayush et al. 45
まとめ • より複雑な問題設定での検証も最近は進められている 46
全体まとめ • 一般的な仮定:不変性は転移に有効 • 最近の動向 – (1) Joint Errorを下げる方が大事では? – (2) 不変性とか以前にモデル選択方法ちゃんとしないと比較できな いのでは? – (3) 正則化いちいち設計しないでメタ学習しよう? – (4) ラベル集合が変化しないという仮定は現実的? 47
あまり触れられなかった話題 • 多分Joint Errorを考慮するのはAssymmetric Tri-Training – 参照:“[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017)” and Neural Domain Adaptation” • DANNの素朴な発展系の話 – Asymmetric Discriminative Domain Adaptation (ADDA) – Conditional Domain Adversarial Networks (CDAN) • その他の不変性基準 – KL-Divergence, MMD, CMD, Wasserstein • 不変性の別ドメインへの応用:フェアネス等 • 理論的な詳細 • ドメイン汎化の最近の発展 48
SUMMARY 49
Related Works: Feature Adaptation Visualization [Ganin, 2016] “Domain-Adversarial Training of Neural Networks” Mathematical Foundation 理想的なhを使う ときの損失の差 ソース損失 ドメイン間の距離 [Ben-David, 2010] “A theory of learning from different domains” 50
Maximum Mean Discrepancy (MMD) [Tzeng, 2014] (Cited)https://www.dropbox.com/s/c8vhgrtjcqmz9yy /Gretton.pdf?dl=1 (Cited) [Tzeng, 2014] • Sの事例間類似度 + Tの事例間の類似度 - SとTの間の類似度 • カーネルを使って計算(ガウシアンカーネルがよく使われているイメージ) 51
Domain-Adversarial Neural Networks [Ganin, 2014] • Zがどちらのドメインから来たのかを分類する分類器で測って最小化 • 分類器が識別出来ないような特徴空間に飛ばす 52
MMD系とDANN系(+その派生) • MMD系: 分布の差 Ps(Z) - Pt(Z)を計測 – DANN: マルチカーネルMMDを使う(MK-MMD) – VFAE: MMD+グラフィカルモデルでzとsの独立性を表現 – CORAL: 2nd order momentのみを合わせる – AdaBN: 平均と分散をドメインごとに計算して合わせるBN – CMD: k-th order momentまで計算して合わせる • DANN: 分布の比Ps(Z)/ Pt(Z)を計測 – KL-Divergence: KL(S|T) + KL (T|S),陽に1stモーメントを近づけ る ※どちらが良いかははっきりしてないと思う(例えば精度はMMD < DANN < CMD) ※GANみたいに比だと安定しないとかはあんまりない印 ※Wasserstainみたいな輸送距離が使われているのは見たことないけどどうなるのか気になる 53
DANN系の派生その他 • [Zhao+ 18] “Adversarial multiple source domain adaptation”, NIPS2018 • [Zhao+ 18] “Multiple source domain adaptation with adversarial learning”, ICML2018 • [Tzeng+17] “Adversarial discriminative domain adaptation”, ArXiv? • [Pei+18] “Multi-adversarial domain adaptation” • [Hoffman+18] “Cycada: Cycleconsistent adversarial domain adaptation”, ICML2018?(記憶) 54