---
title: 【ゼロから作るDeap Learning】6.3~6.6
tags: 
author: [京都大学人工知能研究会KaiRA](https://image.docswell.com/user/kyoto-kaira)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/KJ4WG1PM71.jpg?width=480
description: 【ゼロから作るDeap Learning】6.3~6.6 by 京都大学人工知能研究会KaiRA
published: June 04, 26
canonical: https://image.docswell.com/s/kyoto-kaira/ZX24R3-2026-06-04-202041
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/KJ4WG1PM71.jpg)

2026前期輪読会#6 ゼロから作るDeep Learning
6章 学習に関するテクニック 6.3-6.6
京都大学 総合人間学部 B2
本川玄人
0


# Page. 2

![Page Image](https://bcdn.docswell.com/page/LE1YDG9Y7G.jpg)

アジェンダ
◼ 6.3 Batch Normalization
◼ 6.4 正則化
◼ 6.5 ハイパーパラメータの検証
◼ 6.6 まとめ
1


# Page. 3

![Page Image](https://bcdn.docswell.com/page/GEWGYKQ1J2.jpg)

アジェンダ
◼ 6.3 Batch Normalization
◼ 6.4 正則化
◼ 6.5 ハイパーパラメータの検証
◼ 6.6 まとめ
2


# Page. 4

![Page Image](https://bcdn.docswell.com/page/47ZLXZWXJ3.jpg)

6.3 Batch Normalization
Batch Normalization:
強制的にアクティベーションの分布を整える…Batch Normalization
Batch Normの利点
・学習を早く進行させることが出来る(学習係数を大きくできる)
・初期値にそれほど依存しない
・過学習を抑制する
Affine
Batch
Norm
ReLU
Affine
Batch
Norm
ReLU
3


# Page. 5

![Page Image](https://bcdn.docswell.com/page/YJ6W4ZGPJV.jpg)

6.3 Batch Normalization
Batch Normではミニバッチ毎の正規化を行う
具体的なアルゴリズム : データの分布が平均０・分散１になるように正規化
𝑚
𝑚
𝑖=1
𝑖=1
1
1
𝑥𝑖 − 𝜇𝐵
2
2
𝜇𝐵 = ෍ 𝑥𝑖 , 𝜎𝐵 = ෍(𝑥𝑖 − 𝜇𝐵 ) , 𝑥ෝ𝑖 =
𝑚
𝑚
𝜎2 + 𝜖
𝐵
その後、このデータを固有のスケールとシフトで変換
𝑦𝑖 = 𝛾𝑥ෝ𝑖 + 𝛽 (γ、βはパラメータ)
Batch Normalizationを活性化関数の前後どちらかに入れるかは議論あり
4


# Page. 6

![Page Image](https://bcdn.docswell.com/page/GJ5MQWVPJ4.jpg)

6.3 Batch Normalization
Batch Normalizationの評価
Batch Normを使用すると
・学習の進みが速くなる
・重みの初期値にロバストになる
5


# Page. 7

![Page Image](https://bcdn.docswell.com/page/LE3WV4D6E5.jpg)

アジェンダ
◼ 6.3 Batch Normalization
◼ 6.4 正則化
◼ 6.5 ハイパーパラメータの検証
◼ 6.6 まとめ
6


# Page. 8

![Page Image](https://bcdn.docswell.com/page/8EDK8QPM7G.jpg)

6.4 正則化
過学習とは
過学習…訓練データだけに適応しすぎてしまい、訓練データに含まれない他のデータには
うまく対応できない状態
まだ見ぬデータを正しく識別できるモデルが理想→過学習を避ける
過学習が起きる原因は、主に次の2つ
・表現力の高いモデルであること
・訓練データが少ないこと
7


# Page. 9

![Page Image](https://bcdn.docswell.com/page/V7PK8LNQJ8.jpg)

6.4 正則化
訓練データの数を少なくして学習すると、過学習が起きる
8


# Page. 10

![Page Image](https://bcdn.docswell.com/page/2JVVNQKPJQ.jpg)

6.4 正則化
過学習を抑える方法その１: Weight decay
Weight decay
過学習は重みパラメータが大きな値をとることで発生しやすい
→大きな重みをもつことに対してペナルティを課す
損失関数をL、重みをWとすると
1
𝐿 + 𝜆𝑊 2
2
λはハイパーパラメータ、
ここではL2ノルムをペナルティとして課す
勾配を求める際には、新たに正則化項の微分𝜆𝑊を加算
9


# Page. 11

![Page Image](https://bcdn.docswell.com/page/5EGLKWQQJL.jpg)

6.4 正則化
Weight decayの有無による性能の変化
ここではあえて過学習を起きやすいように少ない訓練データで学習
Weight decayなし
Weight decayあり
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/4JQYN3KW7P.jpg)

6.4 正則化
過学習を抑える方法その２: Dropout
モデルが複雑になるとweight decayだけでは不十分
→Dropoutを採用
Dropout : ニューロンをランダムに消去しながら学習
訓練時…消去するニューロンをランダムに選ぶ
テスト時…すべてのニューロンの信号を伝達
消去しなかった割合を乗算して計算
Dropoutはアンサンブル学習に類似
11


# Page. 13

![Page Image](https://bcdn.docswell.com/page/K74WG1P1E1.jpg)

6.4 正則化
Dropoutの有無による性能比較
Dropoutなし
Dropoutあり(dropout_ratio=0.20)
12


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LJ1YDG95EG.jpg)

アジェンダ
◼ 6.3 Batch Normalization
◼ 6.4 正則化
◼ 6.5 ハイパーパラメータの検証
◼ 6.6 まとめ
13


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GJWGYKQW72.jpg)

6.4 ハイパーパラメータの検証
ハイパーパラメータ
重みやバイアス以外にもパラメータは存在→ハイパーパラメータ
例)ニューロン数、バッチサイズ、weight decay…
ここまではデータセットを訓練データとテストデータに分けていたが、
テストデータでハイパーパラメータを評価してはいけない！
ハイパーパラメータの評価のために新しく検証データが必要
14


# Page. 16

![Page Image](https://bcdn.docswell.com/page/4EZLXZW273.jpg)

6.5 ハイパーパラメータの検証
検証データの分離方法
データセットは必ずしも最初から3種類のデータに分けられているわけではない
→自分でデータの分離を行う必要あり
データの分離の例
ここでは、訓練データの20％を検証データとして分離
データの偏りの影響を避けるために分離前にシャッフル
15


# Page. 17

![Page Image](https://bcdn.docswell.com/page/Y76W4ZX67V.jpg)

6.5 ハイパーパラメータの最適化
「良い値」が存在する範囲を絞り込む
ハイパーパラメータの改善方法(経験的)
Step0 最初はパラメータの範囲を大雑把に指定(10−3 ~103 など、10のべき乗スケール)
↓
Step1 指定された範囲からランダムにサンプリング
↓
Step2 サンプリングされた値を使用して学習を行う(エポック数は小さめ)
↓
Step3 1,2の操作をある回数繰り返した結果からパラメータの範囲を狭める
ある程度絞り込んだ段階でハイパーパラメータを一つ選択
※数学的な理論を使って最適化する方法もある(ベイズ最適化など)
16


# Page. 18

![Page Image](https://bcdn.docswell.com/page/G75MQWX574.jpg)

6.5 ハイパーパラメータの最適化
最適化の実装
Learning rateとWeight decayのハイパーパラメータの最適化の実装を行う
17


# Page. 19

![Page Image](https://bcdn.docswell.com/page/9J29PQXGER.jpg)

アジェンダ
◼ 6.3 Batch Normalization
◼ 6.4 正則化
◼ 6.5 ハイパーパラメータの検証
◼ 6.6 まとめ
18


# Page. 20

![Page Image](https://bcdn.docswell.com/page/DEY45W8GJM.jpg)

6.6 まとめ
本章では学習を支える様々なテクニックを紹介
・パラメータの更新方法
SGD, Momentum, AdaGrad, Adam
・重みの初期値の与え方
Xavierの初期値、Heの初期値
・Batch Normalization
・過学習を抑える正則化の手法
Weight decay, Dropout
・ハイパーパラメータの探索法
良い値が存在する範囲を絞り込む
コードはこちらから
19