203 Views
October 27, 17
スライド概要
2017/10/27
Deep Learning JP:
http://deeplearning.jp/workshop/
DL輪読会資料
DEEP LEARNING JP [DL Papers] Opening the Black Box of Deep Neural Networks via Information Hiromu Yokokura, Computer Science department http://deeplearning.jp/
書誌情報 • 著者: Ravid Shwartz-Ziv, Naftali Tishby • arXiv (last revised 29 Apr 2017) 2
DNN • 各レイヤを1つの高次元の確率変数 として見る • TはエンコーダP(T|X)とデ コーダP(Y|T)で特徴付けられ る→定量化したい • トレーニングデータとしてXとYの 同時分布が与えられる • 隠れ層の列はMalkov連鎖を形成す る 3
相互情報量 • 確率変数XとYの相互情報量 Xの曖昧さ Yを知っても残るXの曖昧さ 「入力XがラベルYに関して持っている平均の情報量」 • 性質1: 可逆変換に対する不変性 • 性質2: Data Processing Inequality (DPI) • 確率変数変数X, Y, ZがMalkov連鎖 X→Y→Zを形成する時、 4
Information Plane • 座標系 • 入力Xの(確率的な)写像である確率変数Tは、エンコーダ/デコーダの確率分布で特徴付 けられる • 同時分布P(X,Y)が与えられればTはinformation planeのある1点にマッピングされる • K層DNNのMalkov連鎖を考えると、次のDPI順序を満たすInformation Pathを形成する • 可逆変換に不変であったから、異なるDNNが同じInformation Pathを形成し得る 5
最小十分統計量 • Yに関して、Xの最適な表現とはどのように特徴付けられるか? • • • 例えば、最小十分統計量 十分統計量S(X) • (Fisher情報量の意味で)情報の損失のない統計量 • ラベルYについてXが持っている情報を全て捕らえるような統計量 • 入力空間の分割として見ることもできる 最小十分統計量T(X) • 最も簡単な十分統計量、最も粗い分割をする十分統計量 • 任意の他の十分統計量の関数となっているような十分統計量 6
Information Bottleneck • 最小十分統計量を見つける問題は次の最適化問題と考えらえる 緩和 確率的なマッピングを許す(P(T|X)) I(X;Y)の全てではなく、可能な限り捕らえるということを許す information bottleneck(IB) tradeoff 近似的な最小十分統計量を見つけるための計算的な枠組み Yの予測とXの圧縮の最適なトレードオフを見つける • 効率的なXの表現とは?→近似的な最小十分統計量 7
Information Bottleneck • IB tradeoffは次の最適化問題 ラングランジュ乗数 : • これの解は次の方程式を満たす Tによって捕らえる情報の度合い 8
SGDによる学習の遷移 • Error Minimization (ERM)フェーズ: DPIを保ちながら、ラベルに関する情報Iyが上昇 (数百エポック) • representation-compression フェーズ: Ixが減少(いらない情報が減っていく) 9
トレーニングデータの量による違い • ERMフェーズはどの場合も似たような感じ • compressionフェーズでの動作が大き違う • データが少ないとIyが一気に下がる→overfitting • Ixも減るが必要な情報も捨ててしまう 5% 45% 85% 10
SGDの振る舞い 11
SGDの振る舞い • driftフェーズ • 勾配の平均>標準偏差 • 勾配の確率性が低い(Hihg SNR) • 誤差が急激に減少して、Iyが上昇する • diffusion(拡散)フェーズ • 勾配の標準偏差>平均 • 経験誤差がサチってバッチ間の変動が支配的になる • 勾配が平均の小さいガウシアンノイズのように振る舞う(Low SNR) • 重みの分布が拡散過程になる→ が増大していく(stochastic relaxation) このフェーズ移行が学習のフェーズ移行と対応している が小さくなる 12
SGDの振る舞い • https://goo.gl/rygyIT 13
隠れ層の数による違い 14
隠れ層の意味 • 隠れ層を増やすことで良い汎化性能に至るまでのエポック数が減少する • 前段の圧縮されたレイヤーから始めることで、各層のcompressionフェーズ が短くなる • 深い層ほどcompressionフェーズが速い • 幅の広いレイヤーでも最終的に圧縮する。幅を増やすのはあまり意味がない。 15
レイヤー化することの計算的利点 • 拡散過程によるエントロピーの増大 • エントロピーの増大はタイムステップの対数オーダー • タイムステップ数はエントロピーの増大の指数オーダー • IB tradeoffの方程式を満たすような分布に収束する • compression • 全体の圧縮をKステップに分割すると • 少する は のオーダーになる なのでK層にすることで指数関数的にエポック数が減 16
レイヤーの最適性 • 収束したレイヤーがIB tradeoffの方程式を満たしているか? つまり近似的な 最小十分統計量になっている 17
トレーニングデータサイズの効果 • データサイズが大きくなると Iyが押し上げられてIB bound に近づく • 低い層はほとんど変わらない 18
まとめ • SGDによる最適化には2つのフェーズがある • ERMフェーズ、representation compressionフェーズ • compressionフェーズはstochastic relaxationによるもので、Ixが減少して圧縮 が起きている。(誤差最小化の制限があるのでIB boundに収束する) • 隠れ層の最も大きい利点は、stochastic relaxation time (圧縮が収束するま での時間)が急激に減少すること • 隠れ層はIB boundのcritical pointに収束する(?) 19