Python ではじめる機械学習 5. 識別　ー生成モデルと識別モデルー

>100 Views

November 22, 25

#機械学習

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.8K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.8K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.5K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.6K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.5K

各ページのテキスト

5. 識別ー生成モデルと識別モデルー 5.1 数値特徴に対する「教師あり・識別」問題の定義 5.2 生成モデル荒木雅弘 : 『Pythonではじめる機械学 5.3 識別モデルスライドとコード 5.4 多クラスの識別習』（森北出版，2025年）

5. 識別ー生成モデルと識別モデルー問題設定教師あり学習数値入力 → カテゴリ出力機械学習数値特徴教師あり学習識別回帰中間的学習教師なし学習気温 20 湿度 60 降⽔確率 0 play yes クラス

5.1 数値特徴に対する「教師あり・識別」問題の定義 (1/3) 識別問題のデータ特徴ベクトル x と正解情報 y のペア {(xi , yi )} (i = 1, … , N ) x は要素が数値である d 次元の固定長ベクトル， y はカテゴリ xi = (xi1 , … , xid )T y ∈ {ω1 , … , ωc } x は d 次元空間（特徴空間）上の点と見なせる

5.1 数値特徴に対する「教師あり・識別」問題の定義 (2/3) 数値特徴に対する識別問題＝識別面の設定各クラスの確率分布を求めた結果として識別面（等確率点の集合）が定まる場合も含む

5.1 数値特徴に対する「教師あり・識別」問題の定義 (3/3) 識別手法の選択基準クラスが比較的きれいに分離している少数のパラメータで識別面を表現可能 ⇒ 統計的手法（第５章）クラス境界が複雑高次元へマッピング ⇒ SVM（第7章）非線形識別 ⇒ ニューラルネット（第8章）

5.2 生成モデル数値特徴に対するナイーブベイズ識別 (1/3) 各次元独立に確率密度関数 p(x ∣ ωi ) を推定する以後、関数はクラス毎に求めるので ωi は省略関数形は正規分布を仮定し，データの対数尤度を最大とする平均 μ と分散 σ 2 を求める p(x) = (x − μ)2 exp (− ) 2σ 2 2πσ 2 1 68% 95% 99.7%

数値特徴に対するナイーブベイズ識別 (2/3) データの対数尤度（最大化の対象） N L(D) = log p(D ∣ μ, σ 2 ) = ∑ log p(xi ∣ μ, σ 2 ) i=1 p(x) に正規分布の式を当てはめる N N 1 2 L(D) = − log(2πσ ) − 2 ∑(xi − μ)2 2 2σ i=1

数値特徴に対するナイーブベイズ識別 (3/3) L(D) を μ で偏微分して0とおき，μ について解く N N 1 1 (x − ∑ μ) = 0 ⇒ μ = ∑ xi i 2 σ i=1 N i=1 L(D) を σ 2 で偏微分して0とおき，σ 2 について解く N N N 1 1 1 2 2 2 (x − (x − − + ∑ μ) = 0 ⇒ σ = ∑ μ) i i 2 σ2 2(σ 2 )2 i=1 N i=1 求める分布の平均はデータの平均，分散はデータの分散

生成モデルの考え方データが生成される様子をモデル化しているとみなせる事前確率に基づいてクラスを選ぶそのクラスの尤度関数を用いて特徴ベクトルを出力する事後確率を求めるより難しい問題を解いているのではないか?

10.

生成モデルと識別モデルの比較クラスのデータクラスのデータクラスのデータクラス⽝らしさのデータ猫らしさ特徴抽出個々のクラスのデータから適切な分布を推定 (a) ⽣成モデル誤りができるだけ少なくなるように識別⾯の位置を調整 (b) 識別モデル

11.

5.3 識別モデル識別関数法確率の枠組みにはとらわれず， gi (x) > gj (x), i=  j ならば x をクラス ωi と判定する関数を推定する 2クラス問題なら g(x) = gpositive (x) − gnegative (x) の正負で判定する g(x) = 0 が識別面

12.

誤り訂正学習 (1/3) 単層パーセプトロンの定義識別関数として1次式（＝直線・平面）を仮定 wT x = 0 という特徴空間上の超平面を表現以後 w は w0 を含み，x は x0 ≡ 1 と定義した d + 1 次元ベクトルとする閾値関数

13.

誤り訂正学習 (2/3) パーセプトロンの学習規則入力: 学習データ {(xi , yi )} (i = 1, … , N yi ∈ {0, 1}) 出力: 識別関数の重み w 1. 重み w の初期値を適当に決める 2. 学習データから一つ xj を選び，g(xj ) を計算する 3. 誤識別（yj =  g(xj ) ）のときのみ w を修正する（η : 学習率） if positive のデータを negative と誤ったとき (yj = 1, g(xj ) = 0) w′ = w + η x if negative のデータを positive と誤ったとき (yj = 0, w′ = w − η x 4. repeat 2,3 をすべての学習データについて繰り返す 5. すべて正しく識別できたら終了．そうでなければ2へ戻る g(xj ) = 1)

14.

誤り訂正学習 (3/3) パーセプトロンの学習規則の適用範囲データが線形分離可能な場合は重みの学習が可能線形分離不可能な場合は学習が終了しない

15.

ロジスティック回帰 (1/4) ロジスティック回帰の考え方 h(x) = wT x の値を，シグモイド関数σ で大小関係を変えずに(0, 1)の値に変換出力を正例の確率とみなす g(x) = σ(h(x)) = 1 1 + exp(−h(x))

16.

ロジスティック回帰 (2/4) ロジスティク回帰の計算ユニットシグモイド関数

17.

ロジスティック回帰 (3/4) ロジスティク回帰の学習最適化対象：負の対数尤度（クロスエントロピー）を損失とみなして最小化する N N yi (1−yi ) E(w) = − log P (D∣w) = − log ∏ oi (1 − oi ) = − ∑{yi log oi + (1 − yi ) log(1 − oi )} i=1 i=1 oi = g(xi ) = 1 1 + exp(−wT xi ) yi ∈ {0, 1}

18.

ロジスティック回帰 (4/4) E(w) を勾配降下法で最小化適当な初期値 w から始め，E(w) の勾配の逆方向に少しずつ修正 wj ← wj − η ∂E(w) ∂wj 重みの更新量の計算 ∂E(w) ∂E(w) ∂oi yi 1 − yi )oi (1 − oi )xij = ∑ (oi − yi )xij = ∑( − = ∑ ⋅ ∂wj ∂o ∂w o 1 − o i j i i x ∈D x ∈D x ∈D i i i 重みの更新式 wj ← wj − η ∑ (oi − yi )xij x i ∈D

19.

勾配降下法勾配降下法のイメージ

20.

確率的勾配降下法勾配降下法の問題点全データに対して損失を計算するので，データが多いと重み更新に時間がかかる確率的勾配降下法ランダムに一つのデータを選択し，その損失に基づき重みを更新する更新方向が安定しないが，十分な回数繰り返せば最適解に至るデータが来る毎に学習するオンライン学習として適用可能ミニバッチ法数十～数百程度のデータで損失を計算し，修正方向を決める更新方向が比較的安定し，最適解への収束も早い GPUを用いて高速な学習が可能学習のシミュレーションサイト https://playground.tensorflow.org/

https://playground.tensorflow.org/

21.

5.4 多クラスの識別 (1/2) 2クラス分類器を用いた多クラス分類一対他法各クラスについて，そのクラスに属するかどうかを識別する識別器を作る 2つ以上のクラスに属すると判定された場合は識別面からの距離が大きいものに分類するペアワイズ法クラス対ごとに識別器を作り，判定は多数決を取るクラスAと，ほかのクラスを識別するクラスA クラスA 識別器識別器クラスB クラスB クラスC (a) ⼀対他法クラスC クラスAとクラスB を識別する (b) ペアワイズ法

22.

5.4 多クラスの識別 (2/2) ロジスティク回帰の活性化関数を softmax とする方法 exp(wTj x) gj (x) = c ∑k=1 exp(wTk x) 最適化対象 N c E(w) = − log P (D∣w) = − ∑ ∑[yi == j] log gj (xi ) i=1 j=1 [ ] (Iverson bracket) : 内部の命題が真ならば 1，偽ならば 0 を返す

23.

まとめ数値特徴の「教師あり・識別」問題へのアプローチ生成モデル学習データを各クラスに分割それぞれのクラスの尤度関数を最尤推定別途，事前確率が得られているような場合に有効識別モデル損失関数を定義し，勾配降下法でパラメータを学習クラス分割に寄与する特徴を見つけていると解釈できる一般的に生成モデルよりも性能が高い

Python ではじめる機械学習 5. 識別 ー生成モデルと識別モデルー

荒木 雅弘