【ゼロから作るDeep Learning】6.2-6.3

1K Views

June 23, 24

#深層学習 #ニューラルネットワーク #重みの初期化 #Batch Normalization #勾配消失問題

スライド概要

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 29.2K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 22K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 18.2K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 16.6K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 12.5K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.5節）

京都大学人工知能研究会KaiRA 11.9K

各ページのテキスト

2024年度前期輪読会#9「ゼロから作るDeep Learning」 6章学習に関するテクニック 6.2~6.3 奈良女子大学藤本馨 0

概要目次１．重みの初期値２．Batch Normalization ３．まとめ 1

１．重みの初期値 2

重みの初期値  学習に適切な重みの初期値を考える  重みを小さくすることで、過学習が起こりにくくなる   （入力に過剰に反応しすぎるから？）では、全て０にしてみるのはどうか？  ニューロンが対称的に変化するため学習のパフォーマンスが低くなる    順伝播中はすべてのニューロンが０になる逆伝播中は重みがすべて同じように更新される全て定数にしても同じことがいえる  重みが対称的な構造を持つ場合、学習がうまくいかない  適度にばらけたランダムな初期値が必要参考・引用元URL：https://medium.com/@freshtechyy/weight-initialization-for-deep-neural-network-e0302b6f5bf3 3

https://medium.com/@freshtechyy/weight-initialization-for-deep-neural-network-e0302b6f5bf3

隠れ層のアクティベーション分布 ● 重みの初期値により隠れ層のアクティベーション（活性化関数を通した後の出力）がどう変化するかを観察  ５層のニューラルネットワーク  入力データ数：1000  入力するデータ：平均：0、標準偏差：1のガウス分布に従う乱数で生成  各隠れ層のニューロン数：100  ランダムに生成した入力データを流し、重みの初期値を変化させて各層のアクティベーションデータ分布をヒストグラムで描画 4

隠れ層のアクティベーション分布（活性化関数：シグモイド関数）  重みを平均：0、標準偏差：1のガウス分布に従う乱数で生成  0と1に偏った分布  シグモイド関数は出力が0または1に近づくにつれて微分の値が0に近づく  したがって、0と1に偏ったデータ分布では逆伝播時の勾配がどんどん小さくなってしまうアクティベーション結果が0と1に偏る ➡ 勾配消失  重みを平均：0、標準偏差：0.01のガウス分布に従う乱数で生成  0.5付近に集中  アクティベーションに偏りがあると、複数のニューロンがほぼ同じ値を出力するため表現力が落ちるアクティベーションが偏る ➡ 表現力が制限される参考・引用元URL：https://www.anarchive-beta.com/entry/2020/08/15/180000 5

https://www.anarchive-beta.com/entry/2020/08/15/180000

隠れ層のアクティベーション分布（活性化関数：シグモイド関数） ● Xavierの初期値  各層のアクティベーションを同じ広がりのある分布にすることを目的とした重みのスケール  前層のノードの個数を𝒏とした場合、 𝒏の標準偏差を持つ分布を使う 𝟏 ● アクティベーションはある程度の広がりを持っている ● シグモイド関数の表現力も制限されることなく、効率的な学習が行える参考・引用元URL：https://www.anarchive-beta.com/entry/2020/08/15/180000 6

https://www.anarchive-beta.com/entry/2020/08/15/180000

隠れ層のアクティベーション分布（活性化関数：ReLU） ● 重みを平均：0、標準偏差：0.01のガウス分布に従う乱数で生成 ● 各層のアクティベーションは0に近い値 ● 逆伝播の際の重みの勾配も同様に小さくなるアクティベーション結果が0に偏る ➡ 学習が進まない ● 重みを「Xavierの初期値」に従って生成 ● ReLU関数は負の値がすべて0になるので、0以外の要素に着目 ● 層が深くなるにつれて、アクティベーションに偏りが生まれているアクティベーションが偏る ➡ 表現力が制限される参考・引用元URL：https://www.anarchive-beta.com/entry/2020/08/15/180000 7

https://www.anarchive-beta.com/entry/2020/08/15/180000

隠れ層のアクティベーション分布（活性化関数：ReLU） ● Heの初期値  各層のアクティベーションを同じ広がりのある分布にすることを目的とした重みのスケール  前層のノードの個数を𝒏とした場合、 𝒏の標準偏差を持つ分布を使う 𝟐 ● アクティベーションの分布が均一に保たれている参考・引用元URL：https://www.anarchive-beta.com/entry/2020/08/15/180000 8

https://www.anarchive-beta.com/entry/2020/08/15/180000

10.

重みの初期値による学習の比較 ● 重みの初期値の与え方による学習への影響を見てみる  異なる重みの初期値によるMNISTデータを用いた学習経過を比較  ５層のニューラルネットワーク  入力データ数：784  各隠れ層のニューロン数：100  活性化関数：ReLU Xavierの初期値を用いた時と、Heの初期値を用いたときは学習が進んでいる  Heの初期値を用いた時が一番学習の進みが早い  適切な重みの初期値の設定は学習において重要  9

11.

２． Batch Normalization 10

12.

Batch Normalization ● 前章では、アクティベーションの分布が適度な広がりを持つように重みの初期値を設定した ● Batch Normalizationでは、強制的にアクティベーションの分布が適度な広がりを持つように調整する  アフィン変換を行った後にデータ分布の正規化を行う ● Batch Normalizationには以下の利点がある学習を早く進行させることが出来る  初期値にそれほど依存しない  過学習を抑制する  Afiine Batch Norm ReLU 11

13.

Batch Normalization ● ミニバッチ：𝐵 = 𝑥1 , 𝑥2 , … , 𝑥𝑚 ごとに、平均が0、分散が1になるように正規化を行う 1. 2. 3. 1 𝑚 バッチデータの平均：𝜇𝐵 ← 𝑚 𝑖=1 𝑥𝑖 1 𝑚 2 バッチデータの分散：𝜎 𝐵 ← 𝑚 𝑖=1 𝑥𝑖 − 𝜇𝐵 2 バッチデータの正規化（各データから平均を引き、標準偏差で割る）： 𝑥𝑖 ← 𝑥𝑖 −𝜇𝐵 𝜎 2 𝐵+𝜖  𝜖は0で除算されることを防止するためのもの  上記はガウス分布の場合 4. 分布の調整：𝑦𝑖 ← 𝛾𝑥𝑖 + 𝛽  𝑦𝐵 = 𝑦1 , 𝑦2 , … , 𝑦𝑚 が平均𝛽、標準偏差𝛾となるように学習に適した値に調整する 12

14.

Batch Normalizationの評価 ● MNISTデータセットを使ってBatch Normalizationがある時とない時とで学習の進みがどう変わるかを確認初期値：標準偏差0.05のガウス分布初期値：標準偏差1.0のガウス分布初期値：標準偏差0.0001のガウス分布 ● 正規化を行うことで学習が進んでいることが分かる  ただし、重みの初期値が小さすぎる場合と大きすぎる場合は学習の進みは遅くなる参考・引用元URL：https://www.anarchive-beta.com/entry/2020/08/16/180000 13

https://www.anarchive-beta.com/entry/2020/08/16/180000

15.

３．まとめ 14

16.

まとめ • 重みの初期値 Batch Norm 重みの初期値は大きすぎず、小さすぎず、適度にばらけていると、アクティベーションの分布が適度な広がりを持ち、学習がうまくいく • 活性化関数：シグモイド関数の場合、重みの初期値は「Xavierの初期値」を用いる • 活性化関数：ReLU関数の場合、重みの初期値は「Heの初期値」を用いる • アクティベーションの分布が適度な広がりを持つように調整する方法を Batch Normalizationという学習の進行を早めることが出来る過学習を抑制する重みの初期値に対してそこまで神経質にならなくてもよくなる • • • 15

17.