270 Views
May 12, 17
スライド概要
2017/5/12
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
Unsupervised Learning by Predicting Noise Harada Ushik u Lab. M2 Fuk uta Keisuke
Paper information • arXiv preprint (posted on 18 Apr 2017) • twitterでちょっと話題になってた • 完全にランダムなノイズをラベルに学習してrepresentation learning
Paper information • arXiv preprint (posted on 18 Apr 2017) • twitterでちょっと話題になってた • 完全にランダムなノイズをラベルに学習してrepresentation learning 意味不明
Introduction 高次元データから良質な低次元特徴量を抽出したい • CNNによる表現学習はとても優秀だが、完全にラベル依存 ◦ 例えばImageNetでは後半の特徴量では背景はほぼ無視される的な • 教師無しで表現学習がしたい
Related work • 自己組織化マップ ◦ 割と発想が似てる気がする ◦ 提案手法はinputをtarget noiseに近づけるが、 SOMは逆にtargetをinputに近づけている感じ • Discriminative clustering ◦ ちょっと把握しきれませんでしたが半正定値計画問題を説いてunsupervised にクラスタリングをするみたいな話らしいです。 ◦ 著者曰く発想は近いけど、こっちはonline learningができてスケールするとの こと
Related work (deep) • Self-supervision ◦ パズル解かせてみるとか、ビデオで近い画像は特徴似てるとか • Clustering based, Retrieval based ◦ scaleしないとのこと • Random noise -> image ◦ AutoEncoder ◦ GAN ◦ 実際decoderとgeneratorとか無駄では
Method 1. 半径𝑙のd次元超球からk個 target vectorをサンプリング 2. 画像のマッピング𝑓% 𝑥' に近い target vector 𝑦' を探す 3. それぞれのTarget vector 𝑦' に 𝑓% (𝑥' )を近づける
Method • 教師なしでMapping function 𝑓% (𝑥) を学習したい • 何らかのtarget vectorを用意してそれとマッピング後の representationを近づけるよう学習をする 8 1 min 1 min6 𝑙( 𝑓% 𝑥' , 𝑦' ) % 𝑛 23 ∈5 '9: 𝑦' ∶ 𝑡𝑎𝑟𝑔𝑒𝑡 𝑣𝑒𝑐𝑡𝑜𝑟
Method Cost function 𝑙 に関して • softmax ◦ Target vectorの数に対して線形に計算量が増える -> 厳しい • L2距離 ◦ Target vectorの数には関係ない ◦ [Tygert et al., 2017]によると、出力を正規化しさえすればいい感じに 学習してくれる 1 min min 𝑓 𝑋 − 𝑌 % % D∈5 E×6 2𝑛 J K 𝑓% 𝑋 : 𝑛×𝑑, 𝑌: 𝑛×𝑑
Method 1 min min 𝑓% 𝑋 − 𝑌 E×6 % D∈5 2𝑛 J K 𝑌 ∈ 𝑅8×Oが好きに動けるとしたら普通に考えて すべての𝑋をある値に射影してしまえばいい (representation collapse problem) Target vectorを予めk個用意して、それらの割り当てを変更しよう 𝑌 = 𝑃𝐶 𝑃 ∈ 0, 1 8×R Assignment matrix 𝐶 ∈ 𝑅R×O Pre-defined target representations 𝒌 > 𝒏
Assignment matrix • 𝑃 = 𝑃 ∈ 0, 1 8×R 𝑃1R ≤ 18 , 𝑃Y 18 = 1R } • 𝑘 < 𝑛で設定するとtarget vectorのassignがかぶってしまうので 良くない • 𝑘 ≥ 𝑛だが、実際は面倒なので𝑘 = 𝑛に設定 • すべての画像に、異なるtargetが一度ずつassignされる
余談 1 min 𝑋 − PC ^∈_ 2𝑛 𝑄 = 𝑃 ∈ 0, 1 8×R J K 𝑃1R = 18 } Assign matrixの条件を少し変えて、Xを学習しないとすると、 k-meansの目的関数になる
Target representations predefined target representation 𝐶 ∈ 𝑅 R×O をどう決めるか 案1. ℝO の標準基底から k 個選ぶ (単純) • Targetがone-hot vector、つまり各画像がすべてなんらかのuniqueラ ベルにassignされ、それらすべて直交するように学習 • 画像間の関係とかも学習したいから違う
Target representations predefined target representation 𝐶 ∈ 𝑅 R×O をどう決めるか 案2. ℝO 空間上の超球 (𝑙K unit sphere) からrandom sampling • Noise as Target (NAT) • 画像から超球内の一様分布 (多様体)へのマッピングを解く問題 • K個のtarget vectorは多様体の近似
Method 1. 半径𝑙のd次元超球からk個 target vectorをサンプリング 2. 画像のマッピング𝑓% 𝑥' に近い target vector 𝑦' を探す 3. それぞれのTarget vector 𝑦' に 𝑓% (𝑥' )を近づける
Reassignment どうやってマッピングから近いtarget vectorを探して割り当てるか = どうやってassignment matrixを更新するか 𝑓% 𝑥' に対するtarget vectorの割り当てコストが 一番小さくなるようにする Hungarian algorithm
Hungarian algorithm • 割り当て問題を解くためのアルゴリズム • 例. 各支店が各業者に頼むと以下のようになる。 最適な割り当ては?? • 𝑂(𝑛e ) • 詳細は割愛
Reassignment どうやってマッピングから近いtarget vectorを探して割り当てるか = どうやってassignment matrixを更新するか ハンガリアン法でreassignment -> 𝑂(𝑛e )とか当然無理 → Minibatch学習で、そのbatch内のみでreassignmentを行う →𝑂 𝑏e 8 ×g = 𝑂(𝑛𝑏 K )となるので、スケールできる
Method 1. 半径𝑙のd次元超球からk個 target vectorをサンプリング 2. 画像のマッピング𝑓% 𝑥' に近い target vector 𝑦' を探す 3. それぞれのTarget vector 𝑦' に 𝑓% (𝑥' )を近づける
Method
Experiment • 提案手法でImagenetに対しunsupervised learning • AlexNetを使用 • 他のunsupervised, semi-supervisedと性能比較 • 実験1 ImageNetのclassification ◦ Convより上の層はfreeze (unsupervisedで得られたrepresentationの良さだけで勝負) • 実験2 Pascal VOC 2007にtransfer learning ◦ Finetune, freeze両方で比較
Experiment 他手法より良い しかしSIFT+FVに比べると惨敗
Experiment 割と良い
Nearest neighbor
Visualizing filters Alexnet with supervision NAT
予備実験 • 普通のsupervised learningでSoftmaxと𝑙K lossの比較 → 出力正規化すればそんなに変わらない! • Discrete (one-hot) target representationsは精度めっちゃ低い! • Unsupervised learningの様々なepochでのrepresentationを比較して みると、学習が進めば進むほどtransfer learningの精度が良い • Permutation (reassignment)は3 epochに1回で良い (謎)
何をやっているのか • 低次元空間上のfixed target vectorに射影したい • 画像のrepresentationの分布を超球の一様分布(近似)との Earth mover distanceを小さくしている?? • Neural Networkは基本近い感じの入力から近い感じのベクトルが出 力される (特に初期) • いい感じにrandom noiseが割り当てられる • 近いやつは近いという関係そのままで、 かつそれらをいい感じに遠ざける
Information Maximization View この人 のブログ
Information Maximization View In InfoMax principle, good representation is … • Compact (in terms of it's entropy) • Retains as much information about the input X ℍ : shannon entropy 𝕀: mutual information
Information Maximization View In this paper, 1. Restrict the domain of representation 𝑧 to a finite volume subset of ℝO (𝑙K unit sphere) → ℍ[𝑝(𝑧; 𝜃)] is upper bounded 2. Each image is assigned to different target vector → each representation is discriminative ?? (ここだけ僕の適当な考えです) 次元を落としつつ情報量最大化を満たすrepresentationの学習に相当? いまいちピンと来ず
感想 • 直観と反しすぎる気がしたけど、よくよく考えると納得できなくもない、 という感じ • 実装がすごく簡単で良い