>100 Views
January 04, 25
スライド概要
データ分析の重要性や基礎知識、実施方法、注意点について説明します。特に、DXの推進におけるデータ活用の重要性や、データの観測から前処理、分析、結果の解釈に至るプロセスについて詳しく述べます。また、外れ値やデータの広がりの特徴づけ、時系列データ分析における特有の注意点なども取り上げます。
WEB システムを作っています。
データ分析の基礎 Tomohiro K 1
自己紹介 Tomohiro K 年末付近にコロナに感染し、 年末の予定がすべて吹き飛びました 2
今日のゴール データ分析の基礎を理解する 3
目次 1. データ分析の重要性 2. データ分析の基礎知識 3. データ分析実施方法と注意点 4
データ分析の重要性 DXの推進において、データを活用した業務変革や新規ビジネスの実現に重要 DX の成果が出ている企業では データの利活用が進んでいると 考えられる DX の成果がでている企業では 利活用している回答割合は合わせて 70% を超えており、 DX の成果が出ていない企業の 回答割合と比較して 30% 以上高い IPA | DX動向2024 DXの取組状況 (経年変化および米国との比較 ) 5
データ分析の基礎知識 6
データ分析プロセス データの観測、前処理、分析、結果の解釈・利用の流れ データの観測 ● ● ● 実験や調査の実施 計測システムの導入 公開データの利用 前処理 ● ● ● ● 外れ値/欠損値の処理 ノイズの除去 フォーマット調整 データの標準化 /整形 分析 ● ● ● 統計モデリング 機械学習 数理モデル構築 結果の解釈・利用 ● ● ● 数理モデルの 性能評価 既存知識に照らした 解釈/理解 システム実装 7
取得データ利用の注意点 単位や桁誤り、外れ値 ● ● ● ● よくある誤り 外れ値 金額の単位における(千円)や(百万円)など 外国通貨の場合、どの時点での為替か ヤード・ポンド法とメートル法の違い 数値データを手で入力しているときに 発生する 0 の数の打ち間違い 計測時のエラーであれば除去する 単に他の観測値から離れているからと いって安易に除去してはいけない 8
データの外れ値の確認方法 データをグラフにプロットする ← 外れ値 修 正 後 9
データ分析実施方法と注意点 10
データ分析方法の基本 取りうる値が数量であればデータの中心傾向や分布の広がりを分析する 代表値を把握する 平均値 中央値 最頻値 全ての値を足して、 観測値の数で割る 観測値を順に並べたときの 真ん中の値 最も数が多い観測値 まず平均値の採用を検討する 11
データの広がりの特徴づけ (1/2) 正規分布に近い場合、 平均と分散・標準偏差を使えば、分布の形状を十分に特徴づけられる 正規分布に近い 平均: 171.3 cm 標準偏差 : 5.1 cm 正規分布ではない 平均: 173.0 cm 標準偏差 : 6.2 cm 12
データの広がりの特徴づけ (2/2) 正規分布に従わない場合、 四分位数や最大値・最小値を使い、箱ひげ図などでデータの分布を視覚化する 箱ひげ図 ← 最大値 (190.0 cm) 第一四分位数 [25%] (169.5 cm) 第三四分位数 [75%] (175.7 cm) ← 最小値 (157.8 cm) 13
外れ値の扱い方 上位 5%と下位 5%の極端な値を除いた範囲で、 データの中心的な傾向を評価する 5%: 164.6 cm 95% : 190.0 cm 14
特殊なデータ分布の対応方法 データにピークが二つある場合、 ヒストグラムやバイオリンプロットを使って、分布の形状を詳細に確認する ヒストグラム 平均: 169.2 cm 標準偏差 : 9.7 cm バイオリンプロット 15
時系列データ分析時の注意点 時系列データには周期性や傾向が含まれるため、 通常の分析手法が適用できない場合がある 「時間」は特別な数であるため、 時系列の分析に特化した手法を利用する 「売上の推移」でいうと・・・ 曜日の値そのものが売上に影響を与えているわけではない 売上の過去の値や、曜日によって異なるそれ以外の要因が 売上の値を決めている 16
時系列データの周期変動を取り除く方法 差分を取ることで周期性を除去し、傾向を明確にする 「売上の推移」でいうと・・・ 日曜に来客が多くなる効果は、 先週の日曜でも今週の日曜でも同じ強さであると考える 2つの日の売り上げの差を取ることにより その効果を打ち消すことができる 17
まとめ 18
まとめ ● DXの推進において、データを活用した業務変革や新規ビジネスの実現に重要 ● 平均値、中央値、最頻値を計算することでデータの大まかな性質を 特徴づけることができる ● 分布を可視化する方法は目的に応じて選択する ● 時系列データ特有の時間的な構造に注意する 19
参考 分析者のためのデータ解釈学入門 江崎 貴裕 https://amzn.asia/d/9XBLI8N 20
ご清聴 ありがとうございました 21