277 Views
January 14, 22
スライド概要
2022/01/14
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
論文紹介: DEEP LEARNING JP Invariance Principle Meets Information Bottleneck for Out-of[DL Papers] Distribution Generalization Ryosuke Ohashi, bestat inc. http://deeplearning.jp/
書誌情報 ◆ NeurIPS 2021 (2021年12月) spotlight 論文 ◆ ◆ https://openreview.net/forum?id=jlchsFOLfeF 概要 ◆ IRMで訓練した線形分類器がOOD汎化に失敗することがある理由を考察 ◆ 成功するための必要条件と,その条件下での解法IB-IRMを提案 2
論文の主結果 ◆ 線形分類の場合「サポートオーバーラップ条件」が満たされないとOOD汎化は保障されない ◆ 著者らの提案した「IB-IRM」を使うと,上記条件の下で線形分類のOOD汎化が保障される ◆ 「IB-IRM」ではIRM同様,線形回帰のOOD汎化も保障される ◆ 注:実際にはさらにいくつかテクニカルな条件を仮定しているので,表を鵜呑みにしないほうがよいか も 3
定式化:OOD汎化問題 ◆ OOD汎化問題 ◆ 複数の環境から得られた訓練データセットを用いて,それ以外の環境から得 られるテストデータセット上でも上手く働く推定モデルを作りたい 4
定式化:データセットに対する仮定 ◆ 訓練・テストデータセットが,ある環境不変な線形SEM(構造方程式モデル)に 従うことを仮定する ◆ ◆ 全く仮定なしだとOOD汎化に最大限失敗するテスト環 境を(人為的にだが)作れてしまう まずは線形回帰・線形分類から,ということで線形 性を仮定している 5
定式化:線形不変推定器 ◆ 入力データXの線形埋め込みΦと線形推定係数wからなる推定器w・Φを考える ◆ ◆ S=idとは限らないので線形埋め込みΦも考えている 損失関数として,回帰のときは二乗誤差,二項分類のときは0-1ロスを使い,OOD 汎化問題を解きたい 6
モチベーション:「特定環境固有の特徴」を無視した い ◆ ◆ ERM(経験的リスク最小化)だと,Z_spuがZ_invやYと高い相関を持つとき,Z_spuの 回帰係数が0になってくれない (そのほうが訓練環境上でのリスクを下げやすいため) 7
定式化:IRM ◆ IRM (Arjovsky et al., 2019)では以下の目的関数を最小化する 8
定理:線形回帰の場合の汎化定理 ◆ ◆ 定理(informal)[Arjovsky et al., 2019] 線形回帰の場合,|E_tr|>2dかつE_trに属する環境達が「一般の位置関係」にある とき,Rank(Φ)>0を満たすIRMの最適解があれば,それはE_allにOOD汎化する 9
モチベーション:線形二項分類の場合 ◆ 線形回帰では「データを平面に乗せ」ることを目指すが,線形二項分類では 「データを平面で上手く分離」するので,事情がやや異なってくる ◆ ◆ 不変な特徴にしか依存しない分離器をちょっとだけ特定環境固有の特徴に依 存するようにしてもIRMの拘束条件を満たし続ける(⇒追加の拘束条件?) 分類境界付近に未知のテスト環境の不変特徴が分布しているようだと困るは ず(⇒追加の必要条件?) 10
追加の拘束条件:IB ◆ 情報ボトルネック(IB) ◆ ◆ Xをなるべく圧縮しつつ,Yについての情報はなるべく残す(というトレード オフをコントロールする方法) IB-IRMのアイデア ◆ IRMだけだとZ_invだけでなく,Z_spuを「ちょっと使ってもよい」が,Z_invだ け使ったほうがYについての情報量そのままで圧縮率が上がる ◆ 実装上は,Φ(X)のエントロピー最小化の代理としてVariance(Φ(X))を最小化 することを提案 11
定理:線形二項分類の場合の必要条件,汎化定理 ◆ 不変特徴のサポートオーバーラップ条件: ◆ (特定環境固有の特徴についても同様) 12
実験結果 ◆ 定理と整合性のある実験結果も得られている 13
まとめ,感想 ◆ ◆ まとめ ◆ 線形分類タスクでのOOD汎化保障の必要条件を示した ◆ 上記条件の下でOOD汎化問題を解くことができる手法「IB-IRM」を提案 ◆ いくつかの小規模なデータセットで効果を実証した 感想 ◆ ◆ 理論を厳密には追えてないが,直観的にも納得感のある主結果で,線形推定 の場合のIRMの理論的見通しがついた感じがする とは言え,応用上はまだまだこれからだと思うので,トイサンプルや実務 データなどで試しながら関連研究をフォローしていきたい 14
雑記 ◆ 応用上気になる点 ⚫ ⚫ トイ環境ですらIRMの拘束条件の最適化が難しい(Φの初期値次第でlocal minimaに詰まってしまうし,ハ イパラ調整もシビアな感じ) 入力の次元が高くて(画像とか)Φを非線形にせざるを得ないとき,Φが訓練環境達をある不変な線形SEM にマップできていても,テスト環境でもそこにマップしてくれるとは限らない気がする ⚫ ◆ 自己教師ありで表現学習してからIRMをくっつける,みたいなことをやるとどうか? 続けて読みたい論文 ⚫ [Rosenfield et al., ICLR 2021] The risks of invariant risk minimization. 15