[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks"

478 Views

August 24, 18

スライド概要

2018/08/24
Deep Learning JP:
http://deeplearning.jp/seminar-2/

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

1 DEEP LEARNING JP [DL Papers] “Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla” (ICML2018) Kensuke Wakasugi, Panasonic Corporation. http://deeplearning.jp/

2.

書誌情報 2 タイトル: Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks (ICML2018, Oral) 著者: Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein, Samuel S. Schoenholz, Jeffrey Pennington 所属: Google Brain, Work done as part of the Google AI Residency program ICML(2018): https://icml.cc/Conferences/2018/Schedule?showEvent=2730 Arxiv:https://arxiv.org/abs/1806.05393 Wakasugi, Panasonic Corp.

3.

概要 3 10000層のCNNの学習が可能に • 10000層のCNNの学習を可能にした. skip connectionやBM,学習率減衰などを使わずに. • 平均場理論を用いて,第∞層の共分散を導出. • 重みの初期分散に応じて無限極限での消失or発散が決まる →適切な重みを設定することで,深いNNが学習可能 [Xiao et al., 2018] Wakasugi, Panasonic Corp.

4.

背景 4 性能向上のために深いNNを学習したい 高い 表現能力 • deep neural network 高い 汎化性能 学習可能 • • • 学習率の設計 Skip Connection Batch Normalization • flat minima この論文はここに着目 深いNNを如何にして学習させるか? Wakasugi, Panasonic Corp.

5.

関連研究 5 • Poole et al. (NIPS2016) →深層ネットの表現能力の推定 https://papers.nips.cc/paper/6322-exponential-expressivity-in-deep-neural-networksthrough-transient-chaos • Schoenholz et al. (ICLR2017) →ランダムネットワークにおける層の深さの限界を推定 https://openreview.net/forum?id=H1W1UN9gg • Pennington et al. (NISP2017) →深層学習における等長性について理論解析 http://papers.nips.cc/paper/7064-resurrecting-the-sigmoid-in-deep-learning-throughdynamical-isometry-theory-and-practice Wakasugi, Panasonic Corp.

6.

この後の流れ 6 • 理論解析  データの相関が第L層まで伝達するかを推定  第∞層まで伝達する初期パラメータを導出 • 実験  上記初期パラメータで学習を実施.  早く安定な学習を実現.  10000層のCNNで学習. Wakasugi, Panasonic Corp.

7.

CNNのForward Propagation preactivation(h)の漸化式 ℎ𝑙 → 共分散の漸化式 ℎ𝑙+1 𝑤 𝑙+1 𝛽 𝛼 𝑖 𝑗 𝑖 7 𝛼 𝑗 𝑏は省略 Wakasugi, Panasonic Corp.

8.

CNNのForward Propagation preactivation(h)の漸化式 → 8 共分散の漸化式 ここで𝜔~𝑁 0, 𝜎𝜔 /𝑐(2𝑘 + 1) , 𝑏~𝑁(0, 𝜎𝑏 )とおいて,中心極限定理を適用 →ℎ𝑗𝑙+1 (𝛼)が平均0のガウス分布に従うので,分散共分散に着目 𝑙+1 𝑙+1 ∑𝑙+1 = 𝐸[ℎ 𝛼 ℎ 𝛼′ ]とおくと ′ 𝑗 𝑗 𝛼,𝛼 Wakasugi, Panasonic Corp.

9.

CNNのForward Propagation 9 略記すると以下のようになる Wakasugi, Panasonic Corp.

10.

第𝑙層の共分散とその収束点 共分散の漸化式 → 10 共分散の収束点を導出 収束した場合を考えると下記のようになる. 対角成分と非対角成分に分かれる→実質的に𝑞∗ と𝑐 ∗ の2つの変数で議論できる 𝑞∗ と𝑐 ∗ は初期分散𝜎𝜔 ,𝜎𝑏 の関数となるので,𝜎𝜔 ,𝜎𝑏 の値に応じて収束点が 決まる 𝑞 ∗ と𝑐 ∗ の収束点,安定性および収束までに必要な層数を推定できる Wakasugi, Panasonic Corp.

11.

安定性解析 11 収束点の安定性を評価 𝜖 𝑙 = ∑∗ -∑𝑙 とおいて,誤差の伝播を計算する 要素毎にテイラー展開して∑∗ まわりの摂動を関数の外に出す ※𝜒𝑞∗ ,𝜒𝑐 ∗ は初期分散𝜎𝜔 ,𝜎𝑏 から求める Wakasugi, Panasonic Corp.

12.

安定性解析 12 第𝑙層までの摂動の伝播を計算 𝑙0 ~𝑙までCNNを演算すると Wakasugi, Panasonic Corp.

13.

フーリエ変換によるCNN演算の代替 13 フーリエ変換し,第𝑙層における摂動を導出 フーリエ変換をすると この後の解析のメインとなる式.基本的な解釈は𝜆, 𝜒 ≠ 1 のとき発散or消失 ※ 𝜆𝛼,𝛼′ は畳み込み領域を表す関数のフーリエ変換後の値.最大値は1. →矩形派のフーリエ変換のようなイメージ Wakasugi, Panasonic Corp.

14.

摂動の伝達の深さを推定 14 非対角項に着目し,摂動の減衰の程度を推定 ただし,𝜉𝛼,𝛼′ = −1/log(𝜆𝛼,𝛼′ 𝜒𝑐 ∗ ) よって𝜆𝛼,𝛼′ 𝜒𝑐 ∗ → 1で減衰の程度が発散 ※ 𝜆𝛼,𝛼′ は畳み込み領域を表す関数のフーリエ変換後の値.最大値は1. →矩形派のフーリエ変換のようなイメージ ※𝜒𝑞∗ ,𝜒𝑐 ∗ は初期分散𝜎𝜔 ,𝜎𝑏 から求める Wakasugi, Panasonic Corp.

15.

Back Propagationの理論解析 15 Back Propagationについても同様の議論が可能 第𝑙層の微分の計算 微分の漸化式 共分散の漸化式 → 𝜒 = 1が勾配消失/発 散しない条件 Wakasugi, Panasonic Corp.

16.

学習高速化 16 ヤコビアン𝐽に等長性を持たせる初期化 𝑊の初期値を上記アルゴで生成. 𝑊を直交にする #tensroflowに実装されている Wakasugi, Panasonic Corp.

17.

空間相関の維持 17 フィルターのフーリエ変換後の値が全て1になるように初期化 フィルターの中心のみ値を持つ(=δ関数) #tensroflowに実装されている Wakasugi, Panasonic Corp.

18.

この後の流れ 18 • 理論解析  データの相関が第L層まで伝達するかを推定  第∞層まで伝達する初期パラメータを導出 • 実験  上記初期パラメータで学習を実施.  早く安定な学習を実現.  10000層のCNNで学習. Wakasugi, Panasonic Corp.

19.

学習可能性の実験的検証 19 理論と実験の整合性を確認 • MNISTについて, 重さの初期分散(横軸)と層数(縦軸0-600)を変えて学習. • 予測性能をヒートマップに(赤:良い,黒:悪い) • step=500,2500,10000,100000回の4つを表示 理論と実験の整合性が見て取れる. 特に,相関長が発散(=第∞層まで学習)する性質も一致 [Xiao et al., 2018] Wakasugi, Panasonic Corp.

20.

対角初期化による学習の高速化 20 ガウス初期化に比べ高速に学習@4000層 • MNISTについて,4000層のCNNを学習 対角初期化(赤)とガウス初期化(青). ガウス初期化に比べ優位に早くなっている [Xiao et al., 2018] Wakasugi, Panasonic Corp.

21.

空間相関 21 空間相関のあるデータでは深くなるほど性能が劣化 • Cifar10について,2^8~2^13層のCNNを学習 点線(テスト),実線(訓練) • 層を深くするほど,テストの性能が減少 特に,FCの性能に漸近する. 理論解析から,空間相関が重要な場合は 層を深くすると性能低下すると示唆されており, 実際に確認された [Xiao et al., 2018] Wakasugi, Panasonic Corp.

22.

Delta-Orthogonal initialization 22 𝜆𝛼,𝛼′ が全て1となる初期化により空間相関の低減を抑制 • δ関数によるフィルターから一様フィルタまでの5種類を検証 • 一様フィルターに近づくほど,深層で性能が低下 [Xiao et al., 2018] Delta-Orthogonal initializationによって,空間相関を保ったまま深層ネットでの学習が可能 Wakasugi, Panasonic Corp.

23.

10000層の学習 23 10000層でも学習可能.必要Step数は1250層の場合と変わらない • MNIST(上図),Cifar10(下図)について,1250~10000層の CNNを学習.点線(テスト),実線(訓練) • 必要Step数がほぼ変わらない. 10000層(or more)でも学習ができるようになった 深いNNでも学習可能 → 次の課題は汎化性能向上 [Xiao et al., 2018] Wakasugi, Panasonic Corp.

24.

Discussion 24 • 深いNNでも学習可能 → 学習可能性の課題はほぼ解決 • 深さ以外の汎化性能向上要因の究明に研究の主軸が移る • Skip ConnectionsやBatch Normalizationは学習可能性向上以外の役割を果 たしているのではないか(define a good model class). Wakasugi, Panasonic Corp.

25.

まとめ 25 • CNNにおける学習可能性についての理論解析を実施 • 第∞層でも学習可能な重さの初期化方法を提案 • 10000層CNNが学習可能なことを実験的に検証 • 深さ以外の汎化性能向上要因の究明が必要. ご清聴ありがとうございました. Wakasugi, Panasonic Corp.