パターン認識論 #13

>100 Views

April 16, 26

#機械学習 #深層学習 #パターン認識 #畳み込みニューラルネットワーク #リカレントニューラルネットワーク #LSTM #画像認識 #自然言語処理

スライド概要

東北大学で2023年に開講していた「パターン認識論」のスライドです
本スライドでは、画像認識に有効な畳み込みニューラルネットワーク（CNN）として、畳み込み層の重み共有やプーリング層の種類、チャネル構造や複数畳み込みの統合手法を説明し、GoogLeNet の全体構造と ResNet のスキップ接続による学習安定化を紹介します。また、時間的依存関係を扱う手法として TDNN や 1‑D CNN、RNN の Elman 型・Jordan 型と BPTT による学習、重み共有の仕組みを解説し、LSTM の入力・忘却・出力ゲートと内部構造、双方向 LSTM が前後情報を利用できる利点を示します。さらに、単語をベクトルに変換する埋め込み手法と、映画プロットからジャンルを予測する Bi‑LSTM の応用例を取り上げています。

Akinori Ito

@akinori-ito

スライド一覧

I'll be writing programs, papers, and ramblings.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

一人称AIに向けた人間―機械間コミュニケーション

Akinori Ito 60.4K

音のディジタル信号処理

Akinori Ito 12.4K

深層学習による音声処理～物理なき音声のモデル化～

Akinori Ito 5.5K

パターン認識論 #1

機械学習深層学習パターン認識

Akinori Ito 1.8K

パターン認識論 #14

機械学習深層学習パターン認識

Akinori Ito 635

パターン認識論 #12

機械学習深層学習パターン認識

Akinori Ito 521

各ページのテキスト

パターン認識論第13回伊藤彰則 1

Convolutional NN (CNN) ◦画像の認識に有効 ◦下の方では一部のユニット間の結合だけを持つ[Fukushima+ 1983] • 最初のレイヤーでは低次元特徴（線、角、点など）を検出 • 上位レイヤーではそれらを組み合わせた「図形」に反応するユニットが学習される 2

Convolutional NN ◦畳み込み(Convolution)層の構造 ◦ある隠れユニットは前の層におけるその周辺のユニットとだけ結合する ◦ユニットは数種類に限られ、同じユニットは異なる場所でも重みを共有する 3

畳み込み(Convolution) ◦ 連続系 ∞ ◦ 𝑓 ∗ 𝑔 𝑥 = ‫׬‬−∞ 𝑓 𝑡 𝑔 𝑥 − 𝑡 𝑑𝑡 ◦ 離散系 ◦ 𝑓 ∗ 𝑔 𝑖 = σ∞ 𝑘=−∞ 𝑓 𝑘 𝑔(𝑖 − 𝑘) ◦ 𝑓がコンパクト台を持つ場合 ◦ 𝑓 ∗ 𝑔 𝑖 = σ𝐾 𝑘=−𝐾 𝑓 𝑘 𝑔 𝑖 − 𝑘 = σ𝐾 𝑘=−𝐾 𝑤𝑘 𝑥𝑖−𝑘 重み係数入力信号（フィルタ） 4

Convolutional NN ◦畳み込み(Convolution)層の構造 channels filters

Convolutional NN ◦ プーリング層の構造 ◦ 畳み込み出力をまとめる（2次元では2x2）直前の層の値の最大値を出力する (Max pooling) または平均値を出力する（Average pooling) 画像の場合は1回のプーリングでサイズが縦横半分ずつになる 6

カラー画像の場合 ◦チャネルが複数ある→3次元（テンソル）プーリング畳み込み画像（3次元）チャネル= 畳み込みユニットの種類 7

複数の畳み込み ◦異なる畳み込み（畳み込み領域の違いなど）と統合畳み込み Depth concat 8

Convolutional Neural Networkの例 Convolution layer Pooling layer Output Pooling Convolution layer layer Convolution layer layer Full connection layer Feature extraction Recognition 9

10.

CNN developed by Google (GoogLeNet) 全体像 10

11.

CNN developed by Google (GoogLeNet) 前段 11

12.

CNN developed by Google (GoogLeNet) 中段１ 12

13.

CNN developed by Google (GoogLeNet) 中段２ 13

14.

CNN developed by Google (GoogLeNet) 最終段 14

15.

ResNet ◦ ReLUなどの活性化関数を使っても、深いネットワークでは学習が難しくなり、性能が上がらない ◦ 誤差の逆伝播を容易にするため、ネットワークをスキップする結合を加える →ResNet [He+ 2016] 15

16.

時間的な依存関係の導入 ◦ NNに時間の概念を導入 ◦ 入力層にはベクトルが時間とともに入力されると仮定 1 2 3 4 ……… t 時間依存のないネットワークの場合 1 2 3 4 ……… t 時刻tの出力は時刻tの入力にのみ依存する 16

17.

Time Delay Neural Network (TDNN) ◦時刻tの前後のフレームを利用 123 t-1 1 234 t 345 t+1 2 3 4 ……… t 17

18.

1-D CNN 18

19.

プーリングをしてもよい 19

20.

Recurrent Neural Network (RNN) ◦過去の出力を入力にフィードバック 1 2 3 4 ……… t 1 2 3 4 ……… t Elman型ネットワーク 20

21.

Recurrent Neural Network (RNN) ◦過去の出力を入力にフィードバック 1 2 3 4 ……… t 1 2 3 4 ……… t Jordan型ネットワーク 21

22.

RNNの学習 ◦Backpropagation Through Time (BPTT) 1 2 3 4 ……… t 1 2 3 4 ……… t 22

23.

RNNの学習 t 無限に続くが実際には適当なところで打ち切る 1 2 3 4 ……… t t-1 t-2 重みを共有 23

24.

RNNとLSTM ◦Long Short-Term Memory ◦1つの層に複雑な内部構造通常のRNN Ct LSTM Ot It x Ct Ft x x 24

25.

LSTMの内部構造それぞれの丸はベクトルの記憶・演算 Ot It x Ft Ct x x 25

26.

LSTMの内部構造現在の状態を記憶する入力の積和に非線形演算 Ot It x Ft Ct x x 26

27.

LSTMの内部構造入力と記憶の積和から「どのくらい入力を覚えるか」を計算入力と記憶の積和から「どのくらい記憶を出力するか」を計算 Ot It x Ft Ct x x 入力と記憶の積和から「どのくらい記憶を忘れるか」を計算 27

28.

LSTMの利点 ◦過去の記憶をどのくらい保持するかを制御できる ◦タスクによってどのくらい前の入力が現在の出力に影響するかが違う ◦単純なRNNでは最近の入力によってどれくらい前からの影響を考慮するかを変えることができなかった 28

29.

例：LSTM言語モデル ◦過去の単語列から次に来る単語の確率を予測する ◦入力：現在の単語の one-hot vector ◦出力：各単語の出現確率予測値 Sundermeyer, Schlüter, Ney: LSTM Neural Networks for Language Modeling. Proc. Interspeech, 2012. 29

30.

Bidirectional LSTM ◦左→右と右→左のLSTMの組み合わせ ◦ ある時間とその前後の情報を考慮できる全結合 LSTM LSTM 30

31.

言語の扱い ◦RNN系のモデルで言語を扱う ◦言語は単語や文字などのトークンの系列 ◦トークンを比較的低次元のベクトルに変換してからニューラルネットで扱う →単語/文字埋め込み(embedding) 31

32.

Embedding ◦𝑉種類の単語を扱うと仮定 ◦ 単語𝑤→単語番号𝑛𝑤 1 ≤ 𝑛𝑊 ≤ 𝑉 1 𝑉 →ベクトル𝒙𝑤 = 𝑥𝑤 , … , 𝑥𝑤 One-hotベクトル 1 𝑛 = 𝑛𝑤 𝑛 𝒙𝑤 = ቊ 0 𝑛 ≠ 𝑛𝑤 ◦埋め込みベクトル 𝒆𝑤 = 𝒙𝑤 𝑊𝑒 ここで 𝑊𝑒 は𝑉 × 𝑁𝑒 行列 𝑁𝑒 は埋め込みベクトルの次元で数百ぐらい 32

33.

Embedding 単語番号 5 34 Embedding vector One-hot vector 1 FC 1 53 実際には、One-hot ベクトルと Full Connection の部分は、表を参照する形で実装されている FC 1 FC 𝑉 Embedding layer 33

34.

例：単語埋め込みとBiLSTMを使った映画ジャンルの分類 ◦ Ertugrul et al.,”Movie Genre Classification from Plot Summaries using Bidirectional LSTM,” Proc. Int. Conf. on Semantic Computing, 2018. 映画のプロットを入力して、その映画のジャンルを当てるスリラー、ホラー、コメディ、ドラマの4分類 34