【DL輪読会】Neural Redshift: Random Networks are not Random Functions

5K Views

July 11, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.4K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.1K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 49.5K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 46.9K

各ページのテキスト

Neural Redshift: Random Networks are not Random Functions Shohei Taniguchi, Matsuo Lab

書誌情報 Neural Redshift: Random Networks are not Random Functions • CVPR 2024 • ニューラルネットが汎化する理由を分析する研究 2

背景ニューラルネットの汎化 • 古典的な統計理論 • モデルが複雑になりすぎると汎化性能は下がる • Bias–variance tradeoff 3

背景ニューラルネットの汎化 • ニューラルネットは表現力が高いのになぜか汎化する • 既存の説明 • 勾配法で最適化するとノルムが小さい解に収束しやすいから汎化する ➡ ランダム初期化 + 枝刈りだけでも汎化する理由を説明できない 4

貢献 NNの汎化について新しい解釈を提案 • NNは特定のレベルの複雑度の関数に偏っている ‣ 複雑度はアーキテクチャによって異なる ‣ このバイアスは学習前の初期化の時点で存在する ‣ ReLUなどは複雑度の低い関数に偏っていて，汎化しやすい 5

貢献 Key result • ReLUやGELUは重みが大きくなったり，深いネットワークになったりしても，関数が低周波成分に偏る • TanH系は重みや深さが大きくなると，どんどん高周波な（複雑度の高い）関数になっていく • ReLU系が実践的にうまくいく（汎化しやすい）ことの１つの説明になっている 6

実験設定ランダムネットワークの複雑度の検証 • ランダムに初期化したNNを用意 • 入力は2次元のグリッド上の座標で出力はスカラー • 複雑度を出力のヒートマップと定量的な複雑度の指標（後述）で評価 7

複雑度の定量評価 3つの指標で評価 1. フーリエ係数 • 関数を離散フーリエ変換した係数の重みつき平均で評価 ˜ | ⋅ ∥k∥2/Σk∈K | f(k) ˜ | CFourier ( f ) = Σk∈K | f(k) • 大きいほど高周波な関数で複雑度が高い 8

複雑度の定量評価 3つの指標で評価 2. 多項式オーダー • 関数を多項式近似した係数の重みつき平均で評価 CChebyshev ( f ) = N Σn1,n2=0 cn1n2 ⋅ N Σn1,n2=0 • 大きいほど高次な関数で複雑度が高い 9 [n1, n2] cn1,n2 2

10.

複雑度の定量評価 3つの指標で評価 3. LZ複雑度 • 各入力に対する出力を並べた列を考えて，それをLempl–Zivアルゴリズムで圧縮したときの，圧縮後のサイズ • 複雑な関数ほど，圧縮が難しいので，大きくなる • （あんまわかってない 10

11.

実験サマリー NNの各要素が複雑度に与える影響 • モダンなNNで使われる要素（ReLU系の活性化，レイヤー正規化，残差接続）は概ね複雑度を下げることに寄与する ➡ 汎化につながりやすい 11

12.

実験活性化関数 • ReLUは，重みを大きくしても，低周波な関数に偏り続ける • TanHは，重みが大きくなると，どんどん高周波な関数に偏っていく • どちらも表現力としては万能近似器だがネットワークがもつバイアスには大きな違いがある 12

13.

実験活性化関数 13

14.

実験その他の要素 • 残差接続やレイヤー正規化は複雑度を下げる • Gatingは複雑度が上がる

15.

実験学習後のモデルの場合 • ランダム初期化時のNNの複雑度が，学習後の性能にどう影響するかを調査 • 以下のような算術タスクで学習入力：0~15の整数のd次元ベクトル正解：1 (Σxi ≤ (M/2) mod M) ‣ 入力の和をMで割った余りがM/2よりも小さいかどうかの２値分類 • Mが大きくなるほど，高周波な関数を学習する必要がある

16.

実験学習後のモデルの場合 • ReLU系は初期化時に常に低周波な関数に偏るので，高周波な関数はうまく学習できない • 他の活性化関数だと，初期化時のバイアスによって学習できる関数が変わる ➡ 初期化時のバイアスは学習後のモデルの汎化性能にも影響する

17.

実験 Transformerの場合 • TransformerでもMLPと同様の傾向がある • ReLU系以外の活性化関数だと，層の深さや重みの大きさの増大に伴って，関数の複雑度が上がっていく

18.

まとめ • NNの汎化の謎について，ランダム初期化時の関数の複雑度の観点から調査 • 複雑度は活性化関数などの選択に依存し，必ずしも常に低いわけではない • ReLUやレイヤー正規化などの実践的によく使われるアーキテクチャ構造は，複雑度の低い関数へのバイアスがあるため汎化しやすいと考えられる • 実際，ランダム初期化時のバイアスは，学習後の汎化性能とも強く相関する