マンガでわかる機械学習 5章

745 Views

August 15, 23

#機械学習 #アンサンブル学習 #バギング #ランダムフォレスト #ブースティング

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 5.1K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.3K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 4.1K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.6K

フリーソフトではじめる機械学習入門 (第2版) 第14章

機械学習半教師あり学習

荒木雅弘 2.9K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.8K

各ページのテキスト

5章アンサンブル学習 p.146 2コマ目 • 荒木雅弘(著), 渡まかな(作画), ウェルテ(制作) : 『マンガでわかる機械学習』（オーム社, 2018年） • サポートページ

5章のストーリー • 清原はディープラーニングを使って糖尿病診断システムに再チャレンジしようとする • さやかは識別精度を向上させる別の方法としてアンサンブル学習を教える

アンサンブル学習 • アンサンブル学習とは • 識別器を複数組み合わせ、それらの結果を統合することで、個々の識別器よりも性能を向上させる方法 • なぜ複数の識別器で性能が向上するのか確率 • 誤り率20%の識別器を11個作成 • それぞれが誤るのは独立多数決を取った場合半数以上が誤る確率 ⇒ 半数以上が誤るのは1.2% 誤る識別器の数

アンサンブル学習 • ここまでの議論の非現実的なところ「それぞれの識別器の誤りが独立」 ⇒ データの誤りやすさに差はない × 多くの識別器が誤る • アンサンブル学習の目標 • なるべく異なる振る舞いをする識別器を作成する

アンサンブル学習 • アンサンブル学習の手法 • バギング • ランダムフォレスト • ブースティング

バギング • バギングのアイディア • 異なる学習データから作成された識別器は異なる • 手順元データと同じサイズの復元抽出 ⇒ 約1/3が含まれない入力データ1 データ2 識別器1 識別器2 結果1 結果2 ... データm 識別器m 多数決結果結果m 識別器には決定木がよく用いられる ⇒ データが異なれば結果が大きく異なる

ランダムフォレスト • ランダムフォレストのアイディア • バギング＋識別器を作成する毎に異なる特徴を用いることで異なった識別器を複数作成する • 手順この分岐条件を選ぶときに... 年齢血圧 BMI 血糖値乱数で抽出して年齢血圧情報獲得量の多い方を選択 BMI 血糖値あえて使わない

ブースティング • ブースティングのアイディア • 現在の識別器が誤識別を起こすデータを正しく識別する識別器を逐次的に追加 • 過学習とならないように、識別器として浅い決定木を用いることが多い

AdaBoost • 前段の識別器が誤ったデータの重みを重くする入力 x1 x1 x2 x2 x3 識別器 1 x3 ... xn 結果1 x2 識別器 2 x3 ... 識別器 m ... ... xn x1 xn 結果2 重み付き投票結果結果m

10.

勾配ブースティング • 損失が最小となるような識別器を逐次加える入力 x1 x2 x3 識別器 1 識別器 2 ... F2=h1+α2h2 h1 xn 結果1 を用いて計算した損失が最小になるように α2とh2を求める h2 ... F3=F2+α3h3 を用いて計算した損失が最小になるように α3とh3を求める識別器 m hm αm α2 結果2 重み付き投票結果結果m