489 Views
December 02, 22
スライド概要
※無料勉強会を定期的に開催しております。
コミュニティのフォローもよろしくお願いします。
https://techplay.jp/community/frey-at
※フレイAT勉強室(運営:フレイ・アンド・テクノロジーズ株式会社 https://frey-at.com/ )
フレイ・アンド・テクノロジーズ株式会社 資料共有です。
ビジネス課題解決型 データサイエンティスト 「概論解説:機械学習入門」 12.2[WED] 19:00 START This illustration was generated by Painting AI: MidJourney.
自己紹介 高木 宏明 Hiroaki Takagi うどんの国(香川県)出身 データ分析コンサルタント フレイ・アンド・テクノロジーズ株式会社 代表 慶應義塾大学大学院 経営管理研究科 非常勤講師 「データサイエンス」(2019年度1学期~) 青山学院大学 社会情報学部 非常勤講師 「データマイニング」「データマイニング演習」(2018,2020,2021年度) 非常勤講師としてビジネススクール(MBA課程)の社会人学生へデータサイエンスを教えています ビジネス理論から機械学習アルゴリズムまでわかりやすく解説することが得意です 連絡先:[email protected] https://frey-at.com/ 2
Agenda はじめに:データ分析者に求められるスキル 機械学習入門 データ分析プロセス:CRISP-DM Q&A・ディスカッション
デジタル変革・AIプロジェクトに求められるスキルセット 課題背景を理解した上でビジネス課題を整理し、 解決する力(≒ビジネスコンサルタント) ビジネス力 (Business Problem Solving) 情報処理、人工知能、統計学な どの情報科学系の知恵を理解し、 使う力 (≒データサイエンティスト) データ サイエンス力 (Data Science) データ エンジニア リング力 (Data Engineering) データサイエンスを意味ある形 に使えるようにし、実装、運用 できるようにする力 (≒ITエンジニア) ※一般社団法人データサイエンティスト協会「スキルシート」資料を一部改変 4
分析プロジェクトの流れと必要スキル デ ー タ 分 析 ・ 活 用 の 流 れ 出所:一般社団法人データサイエンティスト協会資料より加筆修正 5
Agenda はじめに:データ分析者に求められるスキル 機械学習入門 データ分析プロセス:CRISP-DM Q&A・ディスカッション
機械学習の種類 ◆教師あり学習 • 状態や結果がわかっているデータ から予測を行う ◆教師なし学習 • 漠然とデータのみ存在 ⇒新たな知見の発見 教師あり 教師なし 学習 学習 ◆強化学習 • 試行を積み重ねてよいやり方、 悪いやり方を学んでいく 成功 ⇒ 報酬 失敗 ⇒ ペナルティ 強化学習 7
教師あり学習のイメージ ◆回帰系(数値をあてる) ◆分類系(A or B) 土地の面積と金額 商品の品質管理 ( ( 金 額 ) セ ン サ ー B X X X X X X ) X X X (面積) (例)土地の面積 ⇒ 地価 天候・気温 ⇒ ビールの売上 (センサーA) (例)センサーデータ ⇒ 正常 or 故障 購買履歴 ⇒ 買う or 買わない 8
教師なし学習のイメージ ◆異常値の発見 赤 青 ◆クラスタリング = 異常 = 正常 普段と違う動きを発見 新しい切り口での層の発見 (例)センサーデータからの外れ値検出 (例) 購買履歴から顧客層の発見 9
異常値事例 -クレジットカードの不正使用を検知- -クレジットカード使用履歴- 2月 使用頻度 1回 使用金額 12,000円 3月 2回 30,000円 4月 1回 11,000円 5月 3回 54,000円 6月 10回 600,000円 不正利用の可能性 10
強化学習とは • 試行錯誤を繰り返して 「利得を最大化する行動」を学習 • ポイントは2つ -シュミレーション環境の構築 -評価関数の構築 ➢ DeepMind Learns Parkour https://www.youtube.com/watch?v=faDKMMwOS2Q ➢ DQN Breakout https://www.youtube.com/watch?time_continue=11&v=TmPfTpjtdgg ➢ Autonomous robot car control demonstration in CES2016 https://www.youtube.com/watch?v=7A9UwxvgcV0 11
(参考)Alpha Goの進化 Alpha Zero 出所:https://deepmind.com/blog/article/alphazero-shedding-new-lightgrand-games-chess-shogi-and-go AlphaStar 出所:https://deepmind.com/blog/article/alphastar-mastering-real-timestrategy-game-starcraft-ii 12
アルゴリズムの違い ≒ 個性 ✓K近傍法 ✓決定木 ✓Gradient Boosting Machine ✓ロジスティック回帰 ✓Support Vector Machine ✓Neural Network ✓Deep Learning etc… 13
説明性・解釈性と予測精度 Sensor1 X ≧ 25 高 い 説 明 力 低 い • 決定木 • ロジスティック回帰 • K近傍法 • Support Vector Machine • Gradient Boosting Machine • Neural Network • Deep Learning etc… X < 25 Sensor4 std X ≦ 3.5 X > 3.5 Sensor3 Mean X ≧ 88 NG X < 88 OK 14
データ分析の目的 • 予測:予測精度がビジネスで大きく良否を分ける場合も多い。 高い精度で予測を当てたい。(例:株価予測、売上予測) • 因果推論:どのような因果によって物事が成り立っているのかを知りたい。 • 知識発見:データの中から何らか有用なパターンやルールなど 新しい知見を得たい。(例:ビールと紙おむつ) 15
Agenda はじめに:データ分析者に求められるスキル 機械学習入門 データ分析プロセス:CRISP-DM Q&A・ディスカッション
データ分析プロセス:CRISP-DM (Cross-industry standard process for data mining) ・Business Understanding ビジネス課題・ビジネス背景の理解 ・Data Understanding データセット理解 ・Data Preparation 前処理・特徴量設計 ・Modeling 予測モデルの作成、アルゴリズムの適用 ・Evaluation 作成したモデルの評価 ・データマイニング(データ分析)のための業界横断の標準的プロセス。 1996年に考案され、今日でも最も広く使用されている。 ・フェーズの順序は厳密ではなく、柔軟に異なるフェーズを行き来し、 全体としてプロセスは何度も循環的に推移する。 ・Deployment 共有・展開 ※出所:https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining 17
Business Understanding 企業内でのビジネス上の課題や背景を明確にし、分析プロジェクトの目的・方向性・優先順位を検討する 分析プロジェクトの目的例 (予測) ・製品の需要予測を行い、最適な生産計画 を策定したい ・店舗来店者数を予測し、出店計画に利用したい ・退会者・退会タイミングを予測し、 サービス継続特典の付与や電話勧誘により リテンションをはかりたい ・センサーデータから製品不具合を予測し、 これまでの人手による検査工程を自動化したい ・犯罪が発生する地域や時間帯を予測し、 効率的にパトロールを行いたい (因果推論) ・複数同時に実施したキャンペーンの内、 どの施策が売上に効果的であったか把握したい ・WebサイトデザインのABテストにより 優れたデザインを選択したい ・ある政策を実施したことが本当に経済成長に 寄与したのか確認したい ・開発中の新薬剤の投与と被験者への効果の関係 を明らかにしたい (知識発見) ・過去の膨大な購買履歴データ・会員データから 将来的に優良顧客となる顧客像を知りたい ・SNS上の口コミから、新商品開発のインサイト を得たい ・コールセンターに寄せられる顧客の声(VOC) から、製品改善ポイントを知りたい ・特定企業の特許情報から、企業が取り組んで いる研究の方向性をリサーチしたい ・法令データベースから類似する判例を 効率的に抽出したい 18
Data Understanding / Data Preparation Data Understanding ビジネス課題を解決するであろうデータセットを列挙し、 実施したい分析に目的に合致するかどうかを吟味し、データの内 容・品質・量・妥当性などを理解する。 Ex. ・データのサンプル数は十分か ・データセットの分布はどうなっているか ・データ欠損は発生していないか ・外れ値・異常値・スパース性の確認 ・各クラスのデータ数が不均衡ではないか ・データソース間・テーブル間の関係性の理解 ・データ生成・データ取得方法は妥当か ・分析目的に合致したデータであるか ・各変数の意味合いの理解 Data Preparation データを分析に適した形に整形する工程。データクレンジング・ 前処理・特徴量設計などとも呼ばれる。データ理解のプロセスと 合わせて、分析工数の約8-9割を占める作業と言われている。 Ex. ・テーブルジョイン・フィルタリング・セレクト・カウント... ・外れ値・異常値・欠損値の補完・置換・除去 ・データ標準化・対数化 ・アップサンプリング・ダウンサンプリング ・検定・変数選択・変数除去 ・次元圧縮・変数合成 ・クラスタリング ・連続データの離散化、カテゴリデータの数値化 ・データ理解による新変数の生成 19
Modeling 統計・機械学習アルゴリズムを用いてモデルを作成する。モデルを構築するアルゴリズムには多数の種類があり、 日進月歩で研究・開発が進められている。アルゴリズムの選択・適用・ハイパーパラメータ最適化により大きく 予測精度や適用結果は異なる。 教師あり学習アルゴリズム (クラス分類) ・Naive Bayes ・Logistic Regression ・K-NN ・Decision Tree ・Random Forest ・Gradient Boosting Machine ・Support Vector Machine ・Neural Network ・Deep Learning (主に予測を目的) (回帰) ・Linear Regression ・General Linear Model ・Lasso・Ridge・Elastic Net ・Smoothing Splines ・Support Vector Regression ・AR、MA、ARMA、ARCH、GARCH ・State-Space Model 教師なし学習アルゴリズム(知識発見・前処理・その他を目的) (レコメンデーション) ・協調フィルタリング ・コンテンツベースフィルタリング (クラスタリング) (次元圧縮) ・主成分分析(PCA) ・カーネル主成分分析 ・その他:t-SNE、Isomap、LLEなど (異常検知) ・階層的クラスタリング ・外れ値検知(Outliner detection) One class SVM、K-NN、LOF ・変化点検出(Change point detection) AR(自己回帰予測モデル)乖離スコア ・分割型クラスタリング ・異常状態検出(Anomaly detection) K-means法、 K-means++法、EM法 部分時系列の近傍スコア 最短距離法、最長距離法、 群平均法、Ward 法 、セントロイド法、 重み付き平均法、メジアン法 ※因果推論・半教師あり学習・強化学習・その他は記載省略 20
Evaluation 作成したモデルを定量的・定性的に評価・判断する。直接的な予測精度の評価だけでなく、共有・展開 フェーズでの実現性や当初立てたビジネス目的と合致するかなど多角的に評価を行う。 (予測精度) (ビジネス目的) ・クロスバリデーション等により計測した予測精度は高いか ・作成したモデルを用いることで、ビジネス目標は実現可能か ・システムやビジネスプロセスとして実際に共有・展開する場合に 必要となるコストとビジネス成果のバランスはとれているかどうか -クラス分類評価指標(Accuracy/Recall/F値/AUCなど) -回帰評価指標(RMSE/R2など) ・誤検出率・見逃し率のどちらをとるよう調整すべきか ・汎化性能はどうか、過学習を起こしていないか ex. サービス退会すると思われる顧客(予測モデルで算出)に対して、 継続特典キャンペーンを行うことで実際にどの程度が離反防止が可能か、 システムコスト・キャンペーンコストと見合うか (解釈性・説明性) ・モデルの予測結果が人間にどれだけ理解し易いか ex. Diction Treeはif-thenで解釈が容易 ・データの各説明変数が予測結果に与えた影響が分かり易いか ex. Tree系アルゴリズムの変数重要度など (ロバスト性) ・外れ値・異常値・ノイズなどの影響を受け辛いかどうか (その他) ・分析目的が知識発見などの場合、ビジネス上のよいインサイトを 得られたか ex. 数百万件以上の膨大な口コミデータから既存製品の非常に強い不満ポイント を発見し、製品改善の大きなヒントとなった (計算量) ・モデル作成・適用にかかる計算量はどの程度か 21
Deployment データ分析で得られた結果・モデルをビジネスに適用するために必要な計画を策定・実行する。データ分析 者だけでなく、IT部門やビジネス部門を巻き込んだ形でシステムやビジネスプロセスに組み込む。 (システム開発・計算処理) ・既存システムとのデータ連携・データ入出力処理・アプリケーション開発など、機械学習以外のシステム開発も必要となる。 ・数万レコードのサンプルデータであればノートPCであっても処理可能であるが、 本番環境で数百億レコードを対象にした場合、分析結果を得るのに1ヵ月以上かかるという事態も発生しうる。 システムへの実装にはデータサイエンティストだけでなく、ビッグデータ処理に長けたデータエンジニアの協力が必要。 ※参考:NETFLIX社は2006年10月から賞金100万ドルのDVDの推奨アルゴリズムコンペを実施し、186ヶ国4万チームが参戦した。 そこで優勝したモデルは、計算量が非常に多い超多段アンサンブルモデルとなっており、予測精度が最も高いにも関わらずシステムには実装されなかった。 (モニタリングと改善) ・生成されるデータの傾向やビジネストレンドは日々変化する可能性をはらんでいる。 デプロイメント後も予測精度の劣化やビジネスKPIの達成具合などを常にモニタリングし、 必要に応じてCRISP-DMの全体プロセスを運用の中でサイクルを回し、モデルの改善・向上に努める必要がある。 22
リーク情報 ・大幅に精度が向上するデータ・情報には注意が必要。 目的変数そのもの(それに準ずる情報)がデータに紛れ込んでいることがある -説明変数の倍数や単純な計算で目的変数を算出可能 -本来、予測時には入手できない情報(時系列的な因果がおかしい) -ID・名前など無関係に思われる情報が何らか目的変数と関係がある ⇒クロスバリデーションなどでは気が付かず、 人が意味合いを理解して判断する必要がある ・実際の例 -購買予測の際のテレアポ電話の通話時間 -患者IDからの病症の重症度の判別 -教師データを作成する際のメモ情報 (参考)Kaggleのリーク説明 https://www.kaggle.com/docs/competitions#leakage 23
(外挿問題)予測モデルの作成プロセス モデル学習 教師データ 予測 モデル 未知データ 抽出 母集団A 予測モデルの適用 予測結果 抽出 24
外挿問題 「教師データ」と予測対象の「未知データ」は同じ母集団であることを大前提としている 外挿とは教師データとは異なる母集団のデータに対して予測モデルを適用すること 予測 モデル モデル学習 モデルの適用 モデルの適用 ×NG 〇 OK 未知データA 教師データ 未知データB 抽出 抽出 母集団A 抽出 母集団B 25
Agenda はじめに:データ分析者に求められるスキル 機械学習入門 データ分析プロセス:CRISP-DM Q&A・ディスカッション
Q&A 27
ご協力のお願い ✓ 本日はご参加ありがとうございました! ✓ 後ほどTECH PLAYよりアンケートを送付いたしますのでご回答・ご協力をお願いします。 ✓ 本日の感想や今後の勉強会リクエストなどお寄せください。 ✓ 今後も定期的に勉強会を開催予定です。 コミュニティフォローやご学友・ご同僚などへ共有頂けると励みとなります。 ⇒次回、12/9(金)19:00より「経営戦略:ブルーオーシャン戦略入門」勉強会 ✓ その他、社内勉強会・イベントへの登壇などお気軽にご依頼ください(営利・非営利問わず) 連絡先:[email protected] https://frey-at.com/ 28
12.9(金) 19:00~ 次回勉強会「経営戦略:ブルーオーシャン戦略入門」 【目次】 ・はじめに:戦略論イントロダクション ー規模の経済・経験効果・範囲の経済 ーコストリーダーシップ・差別化戦略・集中戦略 ーアドバンテージ・マトリックス(市場の特性) ・ブルーオーシャン戦略概説 ー市場ライフサイクル(導入期・成長期・成熟期・衰退期) ー成熟期の戦い方 ー差別化ポイント ー戦略キャンバス(価値曲線) ー新しい価値曲線をつくる4つのアクション ・ワークショップ:競争の無い世界を創造する https://techplay.jp/event/883736 ー自社の提供価値・USP、競合他社の提供価値・USPを洗い出そう ー戦略キャンバス(価値曲線)を描こう ー代替品の提供価値 ー既存顧客の不満・未購買層 ー優れたブルーオーシャン戦略の三条件 ー模倣困難性 ・テクノロジーが産み出す競争優位・Q&Aディスカッション ※今回の勉強会はワークショップもありますのでリアルタイム参加推奨です。 29