Python ではじめる機械学習 8. ニューラルネットワークの基礎

>100 Views

November 22, 25

#機械学習

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.8K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.8K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.5K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.6K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.5K

各ページのテキスト

8. ニューラルネットワークの基礎⼊⼒ 1 正解 1階層上の更新量の重み付き和を誤差とみなして重みを更新誤差 … … … … 出⼒誤差を⼩さくするように重みを更新学習荒木雅弘 : 『Pythonではじめる機械学 8.1 ニューラルネットワークの計算ユニット 8.2 フィードフォワード型ニューラルネットワーク 8.3 フレームワークを用いたFNNのコーディング 8.4 ニューラルネットワークの深層化習』（森北出版，2025年）スライドとコード

8.1 ニューラルネットワークの計算ユニット (1/3) ニューラルネットワークとは神経細胞の情報伝達メカニズムを単純化したユニットを用いた計算機構シナプスから受け取る神経伝達物質の量が一定量を超えると，その細胞も興奮して神経伝達物質を分泌するメカニズムを数理的にモデル化したもの現時点では脳の複雑な機能分化などがモデル化できているわけではない重み付き和を計算 1 … 軸索 (a) ニューロンとその結合ほかの計算ユニットに伝播 (b) ニューロンの数理モデル

8.1 ニューラルネットワークの計算ユニット (2/3) 初期のニューロンモデル（McCulloch&Pittsモデル）活性化関数として閾値関数を用いる f (h) = { 0 1 (h < 0) (h ≥ 0) パーセプトロンの実装と等価線形分離可能なデータに対して，w T x = 0という識別面を学習可能

8.1 ニューラルネットワークの計算ユニット (3/3) 線形分離可能性に関係なく，任意のデータで学習可能なユニットへ 1 活性化関数として微分可能なシグモイド関数 σ(h) = 1+exp(−h) を用いるロジスティック回帰の実装と等価勾配降下法により，クロスエントロピー（負の対数尤度）最小となる識別面 w T x = 0 を学習可能シグモイド関数の微分は σ ′ (h) = σ(h)(1 − σ(h)) と簡単な形になる

8.2 フィードフォワード型ニューラルネットワーク (1/8) FNN (Feedforward Neural Network) の構造非線形関数ユニットの階層的組み合わせで複雑な非線形識別面が実現できる … … … … 1 ⼊⼒層隠れ層出⼒層多クラス識別の出力層には活性化関数として以下の softmax 関数を用いる y^k = exp(hk ) ∑cj=1 exp(hj ) hk : k 番目の出力層ユニットに入力される隠れ層の出力の重み付き和

8.2 フィードフォワード型ニューラルネットワーク (2/8) FNN による非線形識別面の実現

8.2 フィードフォワード型ニューラルネットワーク (3/8) 誤差逆伝播法による学習のイメージ⼊⼒ 1 正解 1階層上の更新量の重み付き和を誤差とみなして重みを更新誤差 … … … … 出⼒誤差を⼩さくするように重みを更新学習

8.2 フィードフォワード型ニューラルネットワーク (4/8) 勾配降下法による学習の準備学習データ: x ∈ Rd , y ∈ {0, 1}c （c次元one-hotベクトル） {(xi , y i )} (i = 1, … , N ) 特定のデータ xi に対する出力 y ^ i から求める二乗誤差 c 1 E(w) ≡ ∑(y^j − yj )2 2 j=1 確率的勾配降下法による重み w の更新式（η は学習率） w′ ← w − η ∂E(w) ∂w

8.2 フィードフォワード型ニューラルネットワーク (5/8) 修正量の計算第n-1層の i 番目のユニットから第n層の j 番目のユニットへの重みwij の更新を考える … … … … 第第層層第層修正量の計算に合成関数の微分公式を適用 ∂E(w) ∂E(w) ∂hj = ∂wij ∂hj ∂wij (1)

10.

8.2 フィードフォワード型ニューラルネットワーク (6/8) 修正量の計算の分解 (1)の右辺第1項を誤差信号 ϵj と置き，合成関数の微分公式を適用 ∂E(w) ∂E(w) ∂gj = ∂hj ∂gj ∂hj ϵj = (1)の右辺第2項 ∂hj hj = ∑Ii=1 wij gi から ∂w = gi ij (2)

11.

8.2 フィードフォワード型ニューラルネットワーク (7/8) 誤差項の分解 (2)の右辺第1項第n層が出力層の場合 ∂E(w) = g j − yj ∂gj 第n層が隠れ層の場合 K K ∂E(w) ∂E(w) ∂hk =∑ = ∑ ϵk wjk ∂gj ∂h ∂g k j k=1 k=1 (2)の右辺第2項 : 活性化関数（シグモイド関数）の微分 gj (1 − gj )

12.

8.2 フィードフォワード型ニューラルネットワーク (8/8) 誤差逆伝播法による学習の手順入力: 学習データ X, y 出力: 学習後の FNN 1. FNN のリンクの重み w を小さな初期値に設定 2. 事前に設定したエポック数（繰り返し回数）だけ，以下を繰り返す for x ∈ X ネットワークの出力 y ^ を計算 for 出力層から入力層に向かって順に if 出力層: 各ユニットのエラー量 ϵ = (y ^k − yk )y^k (1 − y^k ) を計算 else K 各ユニットのエラー量 ϵ = ∑k=1 ϵk wjk gj (1 − gj ) を計算各ユニットに至る重みの更新 w ′ = w − η ϵ g

13.

8.3. フレームワークを用いた FNN のコーディング (1/7) 深層学習ライブラリ keras の枠組み⼊⼒ネットワークレイヤー重みレイヤー各レイヤーがデータ変換 … 重み重み全体を調整最適化器予測正解損失関数スコア

14.

8.3. フレームワークを用いた FNN のコーディング (2/7) ネットワークはレイヤーを積み重ねて定義 2層 FNN の例 model = keras.Sequential([ keras.Input(shape=(d,)), layers.Dense(n_hidden, activation="relu"), layers.Dense(n_class, activation='softmax'), ]) レイヤーの種類 Dense: 密結合層隣接する層間のすべてのユニット間で結合をもつ Flatten: 入力情報の変換 2次元データを1次元のベクトルに変換

15.

8.3. フレームワークを用いた FNN のコーディング (3/7) 活性化関数：レイヤーの activation 属性で指定 'softmax' : ソフトマックス関数 f (x) = 1/(1 + exp(−x)) 'tanh' : 双曲線正接 f (x) = tanh(x) 'relu' : rectified linear関数 f (x) = max(0, x) 'sigmoid' : シグモイド関数

16.

8.3. フレームワークを用いた FNN のコーディング (4/7) 損失関数と最適化器を指定してモデルをコンパイル model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) metrics は，各エポックで学習が進んでいることを確認するための評価指標 'acc' : 正解率 'mse' : 平均二乗誤差

17.

8.3. フレームワークを用いた FNN のコーディング (5/7) 損失関数回帰二乗誤差: 'mean_squared_error' 外れ値の影響を小さくしたい場合はHuber損失: 'Huber' 一定の範囲内は二乗誤差，範囲外は線形損失識別 2値識別: 2値クロスエントロピー 'binary_crossentropy' E(w) = −{y log(y^) + (1 − y) log(1 − y^)} 多クラス識別: クロスエントロピー: 'categorical_crossentropy' 2つの確率分布 y と y ^ の近さを表す E(w) = − ∑cj=1 yj log(y^j )

18.

8.3. フレームワークを用いた FNN のコーディング (6/7) 最適化器確率的勾配降下法(SGD) モーメンタム（慣性）の導入準ニュートン法(L-BFGS) 2次微分（近似）を更新式に加える AdaGrad 学習回数と勾配の2乗を用いた学習係数の自動調整 RMSProp 学習係数調整の改良：勾配の2乗の指数平滑移動平均を用いることで直近の変化量を反映 Adam: Adaptive Moment Estimation 分散に関するモーメントも用いて，まれに観測される特徴軸に対して大きく更新する効果データ数が多いときは Adam，少ないときは L-BFGS が勧められている

19.

8.3. フレームワークを用いた FNN のコーディング (7/7) 学習ミニバッチのサイズとエポック数（繰り返し回数）を指定繰り返し毎に損失関数の値とmetricsで指定した値が表示される model.fit(X_train, y_train, batch_size=200, epochs=3) 評価 score0は損失関数の値 score1以降は metrics で指定したもの score = model.evaluate(X_test, y_test)

20.

8.4 ニューラルネットワークの深層化 (1/7) 勾配消失問題への初期の対処法入力側から順にオートエンコーダなどによって重みを事前学習その後，全体を誤差逆伝播法で微調整⼊⼒層隠れ層1 調整対象 (a) 事前学習対象の重み⼊⼒層隠れ層1 ⼊⼒層の複製誤差逆伝播法による学習 (b) オートエンコーダによる⾃⼰教師あり学習⼊⼒層隠れ層1 調整済み隠れ層2 調整対象 (c) 1階層上の事前学習隠れ層1 の複製

21.

8.4 ニューラルネットワークの深層化 (2/7) 勾配消失問題への対処法の発展活性化関数の工夫により，事前学習の必要は薄れてきた ReLU(rectified linear) : f (x) = max(0, x) 勾配消失が起こりにくい 0 を出力するユニットが多くなる x −x 双曲線正接 tanh : f (x) = eex −e +e−x 微分の値が大きい負の値でも勾配がある

22.

8.4 ニューラルネットワークの深層化 (3/7) 過学習への対処ドロップアウト学習時に一定割合のユニットをランダムに消す認識時には学習後の重みに消去割合を掛ける正規化のような役割重みが偏る可能性 → 汎⽤性の低下割合でランダムに下位ユニットが消える学習時 0.9 0.1 (a) 通常の学習 1.0 1.0 推論時 0.5 0.5 (b) ドロップアウト学習した重みを倍

23.

8.4 ニューラルネットワークの深層化 (4/7) 学習の安定化，高速化バッチ正規化の必要性データが空間内の特定の領域に偏ってしまうと，層による非線形変換が生じにくいたとえば活性化関数をReLUとしたとき，データが0をまたぐことで非線形性が生じるデータの平均が0近辺で，分散のスケールが一定のときは学習させやすいバッチ入力 {x(i) } i = 1, … , ∣B∣ に対して，変換結果 h(i) を平均0，分散1に変換 ∣B∣ ∣B∣ 1 1 m= ∑ x(i) , v = ∑(x(i) − m)2 ∣B∣ i=1 ∣B∣ i=1 x ′(i) x(i) − m (i) = , h = γx′(i) + β v+ϵ

24.

8.4 ニューラルネットワークの深層化 (5/7) 学習の安定化，高速化バッチ正規化の方法層正規化層層重み付き和正規化関数活性化関数層 (a) 正規化層を設定する場合 (b) 正規化関数を設定する場合

25.

8.4 ニューラルネットワークの深層化 (6/7) 学習の安定化，高速化スキップ接続層による変換を行わないデータの流れを追加して，そのデータを出力に加えるより学習が容易な残差をモデル化しているとみなせる f (wT h) = h′ − h 活性化関数 +

26.

8.4 ニューラルネットワークの深層化 (7/7) 深層学習における現実と理論のギャップ多層にすると性能が向上する理由関数がジャンプを持つ場合：階段関数で近似関数が非均一的な滑らかさを持つ場合：異なる幅を持つ短冊状の関数で近似過学習しにくい理由暗黙的正則化：巨大なDNNは小さなNNの集合体で，その中の1つが当たりを引き当てている二重降下：パラメータ数がデータ数より多くなると汎化誤差は下がり続ける最適解がみつかりやすい理由過剰パラメータを持つ層が損失関数全体を押し下げ，損失関数の値が0となるところが多く現れる

27.

まとめニューラルネットは，ロジステック回帰を多段階にしたもので，非線形識別面を実現しているニューラルネットは誤差逆伝播法で学習する kerasを用いたFNNのコーディング多階層ニューラルネットの学習参考）今泉允聡: 深層学習の原理に迫る店, 2021. 数学の挑戦 (岩波科学ライブラリー), 岩波書