パターン認識論 #12

521 Views

April 16, 26

#機械学習 #深層学習 #パターン認識 #MNIST #学習アルゴリズム

スライド概要

東北大学で2023年に開講していた「パターン認識論」のスライドです
本スライドでは、MNIST手書き数字データセットを対象に、データを学習用・検証用・評価用に分割するclosed実験とopen実験、さらに交差検証の手順を説明しています。ミニバッチを用いた確率的勾配降下法（SGD）の概要と、バッチサイズが学習速度と収束に与える影響を示し、バッチ正則化やレイヤー正則化による勾配消失対策を紹介します。また、学習率調整が難しい問題に対してAdaGrad、RMSProp、AdaDelta、Adamといった適応的最適化手法の数式と特徴を比較し、実験結果のグラフで性能差を示しています。過学習防止のためのDropout手法と、微分計算を自動化するautomatic differentiation（双数）についても説明しています。

Akinori Ito

@akinori-ito

スライド一覧

I'll be writing programs, papers, and ramblings.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

一人称AIに向けた人間―機械間コミュニケーション

Akinori Ito 60.4K

音のディジタル信号処理

Akinori Ito 12.4K

深層学習による音声処理～物理なき音声のモデル化～

Akinori Ito 5.5K

パターン認識論 #1

機械学習深層学習パターン認識

Akinori Ito 1.8K

パターン認識論 #14

機械学習深層学習パターン認識

Akinori Ito 635

パターン認識論 #2

機械学習深層学習パターン認識

Akinori Ito 350

各ページのテキスト

パターン認識論第12回伊藤彰則 1

MNIST手書き数字データセット ◦ NIST（米国標準技術研究所）の手書き数字データをもとに整備されたデータベース ◦ 28×28ピクセルのグレースケール画像 ◦ 画像認識技術のテスト用タスクとして広く使われている Wikipediaより引用 2

前回のデータ ◦ 28×28ピクセルを一列に並べて784次元ベクトルとして扱う識別器へ 3

認識実験について ◦ データDを使った認識実験を行う場合 ◦ DでモデルMを学習し、MでDを評価する (closed 実験) ◦ Mが複雑である（パラメータが多い）ほど高性能になりうる ◦ 全サンプルを使ったNearest Neighborモデルなら常に認識率100% ◦ 汎化能力が測れない ◦ Dを学習用データD1と評価用データD2に分ける (open実験) ◦ D1でMを学習してD2に対する性能を測る ◦ D1とD2のデータの分布に注意が必要 ◦ 汎化能力を測ることができる ◦ D2に対する性能でハイパーパラメータを決めると、ハイパーパラメータ選択に関してclosed実験と同じ問題が起きる 4

認識実験について ◦ Dを学習用データD1、検証用データD2、評価用データD3に分ける (open実験) ◦ D1でMを学習し、D2に対する性能でハイパーパラメータを決める ◦ 最終的な性能をD3に対して測る ◦ ハイパーパラメータに対してopenな実験になる ◦ Dが小さいときには学習データが少なくなりがち ◦ 交差検証 (cross validation) ◦ 学習・検証・評価データへの分割方法を変えて複数回実験を行い、その平均を最終結果とする 5

例 (MNIST) • 784-n-n-10のDNN • 活性化関数ReLU、softmax出力、クロスエントロピーロス 1.0 accuracy 0.9 type train_acc 0.8 valid_acc 0.7 0.6 30 100 300 size 6

交差検証 (cross validation) データ1 データ2 データ3 データ4 データ5 学習学習学習検証評価学習学習検証評価学習学習検証評価学習学習検証評価学習学習学習評価学習学習学習検証 7

ミニバッチ学習 ◦いつ重みを更新するか？ ◦1サンプルごと ◦ 元のBPの式に従って係数を更新 ◦全サンプルの平均 ◦ 係数更新量を全サンプルで平均してすべての学習サンプルに対して1回だけ係数を更新 8

Stochastic Gradient Descent (SGD) ◦ まず最急降下法（バッチ学習） ◦ パラメータ𝒘を調整して、全サンプル𝒙 = 𝑥1 , … , 𝑥𝑁 に対する損失𝐿(𝒙, 𝒘)を最小化する 𝜌 ◦ 𝒘 ← 𝒘 − 𝜌∇𝐿 𝒙, 𝒘 = 𝒘 − σ𝑖 ∇𝐿(𝑥𝑖 , 𝒘) ◦ ミニバッチによるSGD 𝑁 𝜌 ◦ 𝒘 ← 𝒘 − 𝜌∇𝐿 𝒙, 𝒘 = 𝒘 − σ𝑖∈𝐼 ∇𝐿 𝑥𝑖 , 𝒘 𝑛 ◦ Iはミニバッチのサンプル（サイズn) ◦ ランダムに選ぶのが望ましい ◦ これを繰り返して学習データ全体で学習 ◦ これを必要回数（エポック数）だけ繰り返す 9

10.

ミニバッチ学習 ◦ミニバッチ ◦ 少ないサンプルごとに更新量を平均して係数を更新 1サンプルごとミニバッチバッチ（全サンプル） 10

11.

ミニバッチ学習学習手順 ◦ 全データがNbatchサンプルずつK個のミニバッチに分かれているとする（Nbatch×K=全サンプル数) For epoch=1 to Nepoch do For k=1 to K do k番目のミニバッチを使ってロス(誤差)を計算誤差逆伝播によってネットワークの係数を更新 End for End for 全ミニバッチでのロスの値の平均値を各エポックでの平均ロスとして表示することが多い 11

12.

ミニバッチ学習の利点 ◦数十サンプル程度をまとめて更新 ◦1サンプルごと更新よりも高速 ◦全サンプル更新よりも局所最適解に陥りにくい 12

13.

例 (MNIST) Minibatch=1 損失（上）の収束は遅い精度（下）は頭打ち 93.2% 13

14.

例 (MNIST) Minibatch=5 93.8% 14

15.

例 (MNIST) Minibatch=20 良い収束、速度も速い 93.6% 15

16.

バッチ正則化 (Batch normalization) ◦ 活性化関数の項で説明したとおり、sigmoid など微分すると平らになる活性化関数を使うと、勾配消失が発生する ◦ 対処法 ◦ 勾配消失が起きにくい活性化関数を使う(ReLUなど） ◦ 入力値が-1～1付近からずれていかないように正規化するミニバッチごとに入力の各次元を平均0分散1に正規化する→バッチ正則化 16

17.

バッチ正則化 (Batch normalization) BN layer 𝐾 1 (𝑑) 𝜇 ← ෍ 𝑥𝑘 𝐾 𝑘=1 𝐾 1 2 𝑑 𝑑 𝜎 ← ෍ 𝑥𝑘 − 𝜇 𝑑 𝐾 𝑘=1 (𝑑) ミニバッチ 𝒙1 , … , 𝒙𝐾 𝒙𝒌 = 1 𝐷 (𝑥𝑘 , … , 𝑥𝑘 ) ෢𝑑 𝑥𝑘 ← 2 (𝑑) 𝑥𝑘 − 𝜇 (𝑑) 𝜎 (𝑑) 𝒚1 , … , 𝒚𝐾 ෢ (𝑑) 𝑦𝑘 ← 𝛾 (𝑑) 𝑥𝑘 + 𝛽 (𝑑) 𝛾, 𝛽は学習によって決まるパラメータ 17

18.

レイヤー正規化 (Layer Normalization) ◦バッチ正則化は、RNN（次回説明）など時間依存性のあるモデルに使えない ◦１つのレイヤー内で、ユニットの出力を平均0分散1に正規化する →レイヤー正規化 18

19.

レイヤー正規化 (Layer normalization) LN layer 入力 𝒙𝒌 = 1 𝐷 (𝑥𝑘 , … , 𝑥𝑘 ) 𝐷 1 (𝑑) 𝜇← ෍ 𝑥𝑘 𝐷 𝑑=1 𝜎2 ← 𝐷 2 1 𝑑 ෍ 𝑥𝑘 − 𝜇 𝐷 𝑑=1 𝒚1 , … , 𝒚𝐾 (𝑑) (𝑑) 𝑦𝑘 ← 𝑥𝑘 − 𝜇 𝜎 19

20.

学習係数の問題 ◦重みの学習 (𝑙) (𝑙) (𝑙) (𝑙−1) 𝑤𝑖𝑗 ← 𝑤𝑖𝑗 − 𝜌𝜀𝑗 𝑔𝑖 ◦更新は学習係数の影響を強く受ける第𝑙層第𝑙 − 1層 (𝑙) 𝑤𝑖𝑗 i (𝑙−1) 出力𝑔𝑖 j (𝑙) 誤差𝜖𝑗 MNISTの学習曲線例 20

21.

学習アルゴリズムの改良 ◦通常 ◦ 𝒘(𝑡) ← 𝒘(𝑡 − 1) − 𝜌𝜖 𝑡 𝒈(𝑡) ◦問題点 ◦ 学習係数ρを決めるのが難しい ◦ 学習の進み具合によって学習係数を変えたい ◦ 最初は大きく動かし、収束してきたら微調整 ◦ 学習回数によってρを変化させることも可能だが、できれば学習の状況によって自動的にρが変わるようにしたい 21

22.

学習アルゴリズムの改良 ◦AdaGrad ◦𝑟 𝑡 ← 𝑟 𝑡 − 1 + 𝜖 𝑡 𝒈 𝑡 2 𝜌 ◦ 𝒘(𝑡) ← 𝒘(𝑡 − 1) − 𝜖 𝑡 𝒈(𝑡) 𝑟+𝑒 ◦ 学習が進むと r が増加→学習係数が減少 ◦RMSProp ◦ 𝑟 𝑡 ← 𝛾𝑟 𝑡 − 1 + (1 − 𝛾) 𝜖 𝑡 𝒈 𝑡 2 𝜌 ◦ 𝒘(𝑡) ← 𝒘(𝑡 − 1) − 𝜖 𝑡 𝒈(𝑡) 𝑟+𝑒 ◦ AdaGradより減少が緩やか(rの更新をγで按分しているため） 22

23.

学習アルゴリズムの改良 ◦AdaDelta ◦ 𝑟 𝑡 ← 𝛾𝑟 𝑡 − 1 + (1 − 𝛾) 𝜖 𝑡 𝒈 𝑡 ◦𝒗 ← 2 𝑠(𝑡)+𝑒 𝜖 𝑡 𝒈(𝑡) 𝑟(𝑡)+𝑒 ◦ 𝒘 𝑡 ← 𝒘 𝑡 − 1 − 𝜌𝒗 ◦ 𝑠 𝑡 ← 𝛾𝑠 𝑡 − 1 + 1 − 𝛾 𝒗 2 ◦ RMSPropに対して、学習係数を減らさないための要素 s を加えた 23

24.

学習アルゴリズムの改良 ◦Adam ◦ 𝒗 𝑡 ← 𝛽𝒗 𝑡 − 1 + (1 − 𝛽)𝜖 𝑡 𝒈(𝑡) ◦ 𝑟 𝑡 ← 𝛾𝑟 𝑡 − 1 + (1 − 𝛾) 𝜖 𝑡 𝒈 𝑡 2 ◦𝒘 𝑡 ← 𝒘 𝑡 − 1 − 𝜌 𝑟(𝑡) +𝑒 1−𝛾𝑡 𝒗(𝑡) 1−𝛽 𝑡 ◦ 学習係数を減らしていく要素 r と、学習係数を保存する要素vを独立に制御する 24

25.

学習アルゴリズム比較 0.20 タスク：MNIST 手書き数字認識 0.15 Error 0.10 ◦学習係数0.01 100 sgd adagrad adadelta adam rmsprop accuracy 0.05 90 0.00 80 0 10 20 30 40 50 70 adadelta adagrad adam rmsprop sgd Epoch method 25

26.

Dropout学習 ◦過学習を防ぐテクニック ◦学習を行う係数をランダムに決める ◦アンサンブル学習に似ている 26

27.

Dropoutの例 ◦ MNIST手書き数字認識 ◦ 784→128→128→64→10 ◦ 活性化関数ReLU、出力層softmax ◦ 各層にdropout 2.2 valid_loss train_loss 2.2 2.0 1.8 1.6 factor(dropout) 2.0 1.8 factor(dropout) 0 0 0.25 0.25 0.5 0.5 0.75 0.75 1.6 2.5 5.0 epoch 7.5 10.0 2.5 5.0 7.5 10.0 epoch 27

28.

複雑なネットワークの微分係数を求める複雑なネットワークだと微係数を求めるのが難しくなる＋ (2) 𝜀𝑗 gi(2) = f (hi(2) ) hi(2) ＋ (2) × (2) = (𝑔𝑗 − 𝑏𝑗 )𝑓’(ℎ𝑗 ) 𝐾−1 (1) 𝐾 𝑓 hi(2) (1) 1 𝑔1 , … , 𝑔𝐾 =𝜎 (1) ෍ 𝑔𝑖 𝑖=1 1 𝑓 𝑔1 , … , 𝑔𝐾 (1) = 𝜎 ෍ 𝑔𝑖 (1) 𝑔𝐾 𝑖=1 28

29.

自動微分関数を計算する際に微分係数も一緒に計算する→自動微分(automatic differentiation) ◦ 微分のチェーンルール ◦ 𝑦 = 𝑓 𝑔 𝑥 = 𝑓(𝑤) 𝜕𝑦 𝜕𝑦 𝜕𝑤 ◦ = 𝜕𝑥 𝜕𝑤 𝜕𝑥 ◦ 二重数(dual number)を使う方法 ◦ 実数ではない数𝜖を仮定：𝜖 ≠ 0, 𝜖 2 = 0 ◦ 二重数 𝑧 = 𝑎 + 𝑏𝜖 ただし𝑎, 𝑏は実数（または複素数） 29

30.

二重数による自動微分二重数の性質 ◦ 𝑎 + 𝑏𝜖 + 𝑐 + 𝑑𝜖 = 𝑎 + 𝑐 + 𝑏 + 𝑑 𝜖 ◦ 𝑎 + 𝑏𝜖 𝑐 + 𝑑𝜖 = 𝑎𝑐 + 𝑏𝑐 + 𝑎𝑑 𝜖 𝑎+𝑏𝜖 𝑎 𝑏𝑐−𝑎𝑑 ◦ = + 2 𝜖 𝑐+𝑑𝜖 𝑐 𝑐 関数𝑓(𝑎 + 𝜖)を𝑎の周りでテイラー展開する ◦𝑓 𝑎+𝜖 =𝑓 𝑎 + 𝜖𝑓 ′ 𝑎 𝜖 2 ′′ + 𝑓 𝑎 2 +⋯ = 𝑓 𝑎 + 𝜖𝑓′(𝑎) ◦ 𝑓 𝑔 𝑎+𝜖 = 𝑓 𝑔 𝑎 + 𝜖𝑔′(𝑎) = 𝑓 𝑔 𝑎 + 𝜖𝑔′ 𝑎 𝑓′(𝑔 𝑎 ) 二重数で関数計算をするとεの係数が微分係数になる 30

31.

二重数で計算するすべての四則演算と関数計算を（実数の代わりに複素数を使うように）二重数で行えば、どんな計算をしても常に微係数が計算される sin(𝑎 + 𝑏𝜖) = sin 𝑎 + 𝑏𝜖 cos 𝑎 cos 𝑎 + 𝑏𝜖 = cos 𝑎 − 𝑏𝜖 sin 𝑎 𝑏𝜖 tan 𝑎 + 𝑏𝜖 = tan 𝑎 + cos 2 𝑎 𝑎 + 𝑏𝜖 𝑘 = 𝑎𝑘 + 𝜖𝑘𝑎𝑘−1 𝑏 exp 𝑎 + 𝑏𝜖 = exp 𝑎 + 𝜖𝑏 exp 𝑎 𝑏𝜖 log 𝑎 + 𝑏𝜖 = log 𝑎 + 𝑎 31

32.

二重数による自動微分 𝑎, 𝑎′ + 𝑏, 𝑏′ = 𝑎 + 𝑏, 𝑎′ + 𝑏′ a b F(a,b,c) F(a,b,c) 𝑎, 𝑎′ × 𝑏, 𝑏′ = 𝑎𝑏, 𝑎′ 𝑏 + 𝑎𝑏′ 𝑎, 𝑎′ 𝑎 𝑎′ 𝑏 − 𝑎𝑏′ = , 𝑏, 𝑏′ 𝑏 𝑏2 c 𝑎, 𝑎′ 𝑘 = 𝑎𝑘 , 𝑘𝑎 𝑘−1 𝑎′ <a,a’> <b,b’> <c,c’> F(a,b,c) <F,F’> sin 𝑎, 𝑎′ = sin 𝑎, 𝑎′ cos 𝑎 exp 𝑎, 𝑎′ = exp 𝑎, 𝑎′ exp 𝑎 𝑎′ log 𝑎, 𝑎′ = log 𝑎, 𝑎 32

33.

演習 ◦ MNISTの認識を行い、BatchNormの有無、学習アルゴリズムの違いなどで性能がどう変化するかを調べよ。 ◦ 学習アルゴリズムは2種類以上を試すこと ◦ 学習・検証セットに分けるか、交差検証をおこなうこと ◦ Wekaを使う人は、スクリーンショットを貼るだけでなく、結果を集計して示すこと 33