588 Views
August 14, 23
スライド概要
機械学習や音声認識に関する書籍を執筆しています。
2章 識別ってどうやるの? • 荒木雅弘(著), 渡まかな(作画), ウェルテ(制作) : 『マンガでわかる機械学習』 (オーム社, 2018年) • サポートページ
2章のストーリー • 清原は、市の医療費削減のために健診結果から糖尿病の発病 を予測するサービスを立ち上げたいと考える • さやかは識別問題の解法として、ロジスティック識別と決定 木について教える
基礎的な識別(2章) p.47 5コマ目
識別 • 識別とは • 教師あり学習問題 • 特徴からクラスを予測する(できれば確率も得たい) x2 :正例 :負例 x1
ロジスティック識別 • 2クラス分類でのロジスティック識別の考え方 • 入力された特徴が正例である確率を得たい • 確率=0.5の点の集合を識別面と考える x2 :正例 :負例 識別面 x1
ロジスティック識別 • 識別面の式 • 正例の x に対しては • 負例の x に対しては • これを確率と対応付けたい ⇒ シグモイド関数 正 exp 𝑥 : 𝑒 𝑥 e=2.71828... 0.5
ロジスティック識別 • 係数 w の求め方 ロジスティック識別器 𝑜= 入力 x 1 1 + exp(−𝒘𝑇 𝒙) 出力 パラメータ o w 比較 正解 y y : 正例で1、負例で0 調整 • 尤度(モデルのもっともらしさ)の定義 D : 全データ
ロジスティック識別 • 尤度の最大化 ⇒ 負の対数尤度の最小化に読み替え ⇒ 勾配降下法による最適化 1. w の初期値を適当に設定 2. 以下の式で w の更新を繰り返す η : 学習係数 3. w の変化量が一定以下になれば終了
ロジスティック識別の具体例 • Diabetesデータ • 年齢・血圧・BMIなどから糖尿病検査結果を予測 パラメータw 4.18 + [preg] * -0.06 + [plas] * -0.02 + [pres] * 0.01 + [insu] * 0 + [mass] * -0.04 + [pedi] * -0.47 + [age] * -0.01
カテゴリ特徴に対する識別 ゴルフをする日のデータ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 天候 晴 晴 曇 雨 雨 雨 曇 晴 晴 雨 晴 曇 曇 雨 気温 高 高 高 中 低 低 低 中 低 中 中 中 高 中 湿度 高 高 高 高 標準 標準 標準 高 標準 標準 標準 高 標準 高 風 なし あり なし なし なし あり あり なし なし なし あり あり なし あり play no no yes yes yes no yes no yes yes yes yes yes no
決定木 • 決定木とは • 事例を分類する質問を繰り返す 天候 晴 湿度 高 No 雨 曇 風 Yes 標準 Yes あり No なし Yes
決定木 • 決定木の作り方 • 大きな木を作れば(原理的には)データを100%正しく識別できる • 小さな木で多くのデータが正しく識別できれば、その木は未知の データに対しても正しい識別を行う可能性が高い p.65 2コマ目
決定木 • 小さな木の作り方 • 分類能力の高い質問を、木の根に近いところに配置する
決定木 • 分類能力の低い質問 特徴:天候、気温、湿度、風 データD No (5) Yes (9) 気温は どうですか Yes (2) No (2) 高 Yes (4) No (2) 中 Yes (3) No (1) 低 どの答えを得ても、 質問前とあまり状況 は変わらない
決定木 • 分類能力の高い質問 特徴:天候、気温、湿度、風 データD No (5) Yes (9) 天候は どうですか Yes (2) No (3) 晴 Yes (4) 曇 Yes (3) No (2) 雨 曇りなら(このデータ に基づくと)Yesと答え てよさそう
決定木 • 得られた決定木 天候 「晴」の5事例 に対して、次 の質問を選ぶ 晴 高 No 雨 曇 湿度 風 Yes 標準 Yes 「雨」の5事例 に対して、次 の質問を選ぶ あり No なし Yes
決定木 x2 < θ1 • 数値特徴に対する決定木 yes no 正 x1 < θ2 yes x2 no 正 負 θ1 :正例 :負例 θ2 x1