主成分分析

5K Views

July 22, 23

#統計 #勉強会 #statistics #data-analysis #principal-component-analysis #multivariate-analysis #dimensionality-reduction

スライド概要

研究室で開催した統計ゼミ2020の資料です。この資料では私が担当した主成分分析について説明しています。

Keisuke ANDO

@NONONOexe

スライド一覧

岩手県立大学でマルチエージェントシステムや空間分析を活用した減災に関する研究をしています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

統計的仮説検定

統計勉強会

Keisuke ANDO 7.1K

時系列分析入門

勉強会統計

Keisuke ANDO 3.5K

交差検証法

統計勉強会

Keisuke ANDO 2.5K

mapglによる交通事故リスクビジュアライザーの開発

r gis 交通安全

Keisuke ANDO 2.1K

ネコジャラシのデータセット

統計勉強会 tokyo.r r

Keisuke ANDO 1.7K

宿さがしのデータ分析

統計勉強会 r kanazawa.r

Keisuke ANDO 1.5K

各ページのテキスト

伊藤暢浩研究室統計ゼミ 2020 主成分分析せつめいする人安藤圭祐

はじめに

3 講義の目標主成分分析の基本的なしくみを理解する Excelを使った主成分分析に関する行列計算を身に着ける Rを使った主成分分析の方法とその結果の見方を学習する主成分分析を自分の研究で利用可能なツールの1つとして獲得する

4 講義で使用するファイル 202009 5_4 主成分分析.pdf この講義資料 202009 5_4 主成分分析(演習ブック).xlsx 中編Excel演習で使用 202009 5_4 主成分分析(データ) tsutaya_rental.csv companies.csv 後編Rでの演習で使用 aichi_offices.csv SSDSE-2020A.xlsx 202009 5_4 主成分分析(作成用) 参考データ主成分分析.pptx HackGen_v2.1.1.zip 資料作成時のデータ

主成分分析でできること

6 分析するデータの例事業所数農林建設製造業電気・ガス情報通信 … 名古屋市 58 8,654 10,896 116 2413 … 豊橋市 104 1,515 1,694 22 128 … 豊田市 74 1,434 1,564 21 101 … … 指標(次元)の数が多く扱いにくい

7 分析した結果の例豊橋市田原市豊田市稲沢市岡崎市名古屋市都市圏で事業所が多い地域一宮市農業が盛んな地域

8 主成分分析 principal component analysis; PCA 次元の高いデータ次元の低いデータ可視化 (データの要約) データの特徴をおさえた扱いやすい形に変換することができる

主成分分析の考え方

10.

10 愛知県の市の男女別総人口総人口男性女性 25 20 15 豊橋市 187,801 186,964 10 瀬戸市 63,189 65,857 5 豊田市 222,169 200,373 0 安城市 94,073 90,067 豊橋市瀬戸市男性豊田市女性安城市

11.

11 2つの変量の合成総人口豊橋市次元削減男性女性男女の平均人口 187,801 186,964 187,383 𝑥1 𝑥2 0.5𝑥1 + 0.5𝑥2 Dimentionality Reduction 多次元データの次元数を減らすこと有用な情報が残るように次元削減をおこなうことでデータの特徴を捉えることができる

12.

12 グラフで見る次元削減女性(𝑥2 )／万人 25 豊田市豊橋市 20 豊田市瀬戸市安城市豊橋市 15 10 安城市瀬戸市 6.5 5 𝑂 9.2 18.7 21.1 男女の平均人口(0.5𝑥1 + 0.5𝑥2 ) ／万人 5 10 15 20 25 男性(𝑥1 ) ／万人

13.

13 ベクトルで考える情報の損失男女の平均人口(軸) (次元削減した)豊橋市情報の損失 (軸との距離) ＝豊橋市の男女の平均人口豊橋市 = + = 豊橋市豊橋市の女性の総人口豊橋市の男性の総人口豊橋市の女性の総人口豊橋市の男女の平均人口 + 情報の損失男女の総人口の間の差(偏り)の情報が失われた豊橋市の男性の総人口

14.

14 合成変量を再定義して情報の損失を軽減 0.500𝑥1 + 0.500𝑥2 0.500𝑥1 + 0.499𝑥2 元の合成変量(男女の平均人口) 𝑓: 0.500𝑥1 + 0.500𝑥2 情報の損失再定義した合成変量 𝑓: 0.500𝑥1 + 0.499𝑥2 豊橋市 18.7,18.6 一般化した合成変量 𝑓: 𝑤1 𝑥1 + 𝑤2 𝑥2 = 𝑥1 𝑥2 係数ベクトル 𝑤1 𝑤2 を調整することで，情報の損失を軽減できる 𝑤1 𝑤2

15.

15 合成変量を増やして情報の損失を軽減第2合成変量第1合成変量(男女の平均人口) 豊橋市の男女の平均人口第1合成変量(男女の平均人口) 情報の損失豊橋市 𝑓: 0.500𝑥1 + 0.500𝑥2 第2合成変量 𝑔: −0.900𝑥1 + 0.900𝑥2 異なる合成変量を追加することで情報の損失を軽減できる

16.

16 情報の損失をゼロにする合成変量女性人口に対する男性人口の多さ男女の平均人口豊橋市の女性人口に対する男性人口の多さ豊橋市の男女の平均人口情報の損失= 0 第1合成変量(男女の平均人口) 𝑓 = 0.500𝑥1 + 0.500𝑥2 豊橋市第2合成変量(男女の人口の差) 𝑔 = 0.500𝑥1 − 0.500𝑥2 情報の損失がゼロとなるような合成変量は他の合成変量に直交する

17.

17 主成分分析の考え方有用な情報を残して次元を削減目的複数の変量を1つの合成変量に統合情報の損失が発生情報の損失の軽減係数の調整合成変量の追加次元数増化なるべく少ない数の「情報の損失が最小となるような係数を持つ合成変量」でデータを表現

18.

主成分分析のしくみ

19.

19 主成分分析の手順 1 情報の損失が最小となるような係数を持つ合成変量を計算し定義第2主成分得点 2 1で吸収できていない情報に対してその損失が最も小さくなる直交する軸を計算し定義第2主成分第1主成分 3 1・2を繰り返して𝑛次元のデータに対して𝑛本の軸を見つけたら終了第1主成分得点

20.

20 情報の損失と主成分得点の分散の関係情報の損失が大きい主成分得点の分散が小さい情報の損失の最小化情報の損失が小さい主成分得点の分散が大きい主成分得点の分散の最大化

21.

21 主成分得点の分散の求め方データ 𝑖 = 1, 2, … , 𝑛 各主成分のスケールを合わせた係数べクトル指標(次元) 𝑗 = 1, 2, … , 𝑝 厳密には𝑥𝑖𝑗 − 𝜇𝑗 主成分に平行な単位ベクトル 𝕨 = 𝑤1 𝑤2 ⋯ 𝑤𝑝 𝑇 𝕩1 各データへのベクトル 𝕩𝑛 = 𝑥𝑛1 ⋯ 𝑥𝑛𝑝 𝑥𝑛2 𝕩2 主成分得点 𝕩𝑛 ∙ 𝕨 主成分得点の分散 𝕩3 𝑛 1 𝕩𝑖 ∙ 𝕨 𝑛 − 1 (主成分得点の平均は0) 𝑖=1 𝕨 2 主成分 𝕩1 ∙ 𝕨 (= 𝑥11 𝑤1 + 𝑥12 𝑤2 + ⋯ + 𝑥1𝑝 𝑤𝑝 )

22.

22 「主成分得点の分散」の式の整理 1 𝑛−1 𝑛 𝑖=1 𝕩1 ∙ 𝕨 𝕩2 ∙ 𝕨 1 2 𝕩𝑛 ∙ 𝕨 = ⋮ 𝑛−1 𝕩𝑛 ∙ 𝕨 𝑇 𝕩1 𝕩2 ⋮ 𝕩𝑛 𝑇 1 = 𝕨𝑇 𝑛−1 1 = 𝕨𝑇 𝕏𝑇 𝕏𝕨 𝑛−1 𝕩1 ∙ 𝕨 𝕩2 ∙ 𝕨 ⋮ 𝕩𝑛 ∙ 𝕨 例．データ数𝑛 = 2，次元数𝑝 = 2の場合 𝕩1 ∙ 𝕨 𝕩2 ∙ 𝕨 𝕩1 𝕩2 ⋮ 𝕨 𝕩𝑛 𝕩1 𝕩2 ⋮ 𝕩𝑛 𝕏≡ 1 𝑥 𝑤 +𝑥 𝑤 = 𝑥11 𝑤1 + 𝑥12 𝑤2 21 1 22 2 𝑥11 𝑥12 𝑤1 = 𝑥 𝑤2 21 𝑥22 𝕩1 = 𝕩 𝕨 2 = 𝑥11 𝑥21 ⋯ 𝑥1𝑝 ⋯ 𝑥2𝑝 𝑥12 𝑥22 ⋮ 𝑥𝑛1 𝑥𝑛2 ⋯ 𝑥𝑛𝑝 データ表の行列𝕏の転置行列と𝕏の内積を含む𝑛−1 𝕏𝑇 𝕏という式が現れる

23.

23 分散共分散行列 variance-covariance matrix Σ= 𝜎 2 (𝑥1 ) 𝐶(𝑥1 , 𝑥2 ) ⋯ 𝐶(𝑥1 , 𝑥𝑝 ) 𝐶(𝑥1 , 𝑥2 ) 𝜎 2 (𝑥2 ) ⋯ 𝐶(𝑥2 , 𝑥𝑝 ) ⋮ 𝐶(𝑥1 , 𝑥𝑝 ) 𝐶(𝑥2 , 𝑥𝑝 ) ⋯ 𝜎 2 (𝑥𝑝 ) 分散𝜎 𝑥𝑖 共分散𝐶 𝑥𝑖 , 𝑥𝑗 分散 𝑖 = 𝑗のとき𝜎 𝑥𝑖 = 𝐶 𝑥𝑖 , 𝑥𝑗 であるため共分散行列とも呼ばれる共分散 variance データの散らばり具合を表す指標 1 2 𝜎 𝑥 = 𝑛−1 𝐶 𝑥𝑖 , 𝑥𝑗 = 𝐶 𝑥𝑗 , 𝑥𝑖 より，対称行列 𝑛 𝑥𝑖 − 𝜇 2 𝑖=1 covariance 2変量𝑥，𝑦間の関係を表す指標の1つ 1 𝐶 𝑥, 𝑦 = 𝑛−1 𝑛 𝑥𝑖 − 𝜇 𝑦𝑖 − 𝜇 𝑖=1 ※ここでの𝑖， 𝑗は一般的な表現に基づきそれぞれ「何番目の行」，「何番目の列」という意味で使っています．記号が足りないので許してください．

24.

24 主成分得点の分散と分散共分散行列の関係 1 𝑇 𝕏 𝕏 𝑛 対角成分が𝜎(𝑥𝑖 ) 非対角成分が𝐶(𝑥𝑖 , 𝑥𝑗 ) 主成分得点の分散は分散共分散行列Σを使って表すことができる

25.

25 「主成分得点の分散」を最大化するベクトル 1 𝑛−1 𝑛 𝕩𝑛 ∙ 𝕨 𝑖=1 2 1 = 𝕨𝑇 𝕏𝑇 𝕏𝕨 = 𝕨𝑇 Σ𝕨 𝑛−1 最大化する𝕨を求めたい「𝕨が単位ベクトルである」という制約下でラグランジュの未定乗数法(割愛) 固有方程式 Σ𝕨 = 𝜆𝕨 を満たす固有値と固有ベクトルの組(𝜆, 𝕨)を求める行列式を解く必要があるべき乗法をはじめとする数値解析手法によって解く解が複数となるが固有値が大きいものから第𝑗主成分の分散𝜆と平行なベクトル𝕨となるすべての主成分は分散共分散行列Σから解析的に求めることができる

26.

Excelをつかって簡単な主成分分析

27.

27 演習内容愛知県の4つ市における男女別の人口のデータを使って次の2つを求めてみよう． 1 分散共分散行列 𝜎 2 (𝑥1 ) 𝐶(𝑥1 , 𝑥2 ) 𝐶(𝑥1 , 𝑥2 ) 𝜎 2 (𝑥2 ) 2 第1主成分 20 10 𝑂 10 20

28.

28 使用するデータ愛知県の男女別の人口(万人) 男性女性豊橋市 18.8 18.7 瀬戸市 6.3 6.6 豊田市 22.2 20.0 安城市 9.4 9.0 ExcelのC4:D7にすでに記載

29.

29 演習の手順 1 各項目の平均値を計算 2 データと平均値を使って分散共分散行列を計算 3 べき乗法で固有ベクトルを計算

30.

30 べき乗法分散共分散行列 𝜎 2 (𝑥1 ) 𝐶(𝑥1 , 𝑥2 ) 8.5 6.3 Σ= = 6.3 11.7 𝐶(𝑥1 , 𝑥2 ) 𝜎 2 (𝑥2 ) Σ∙𝕧 1 −1 Σ∙𝕧 2.2 −5.4 Σ∙𝕧 −15.3 −49.3 第1主成分 Σ∙𝕧 −440.9 −673.5 −7991.4 −10658.5 𝕧を更新していくと第1主成分と平行なベクトルに限りなく近づく計算するときは𝕧の大きさが大きくなっていくため 𝕧 で割る初期ベクトル

31.

Rをつかって主成分分析

32.

32 主成分の計算方法 4つの市の男女別人口の主成分の計算 R (Console) > data <- rbind( # データの入力 + c(18.8, 18.7), # 豊橋市 + c( 6.3, 6.6), # 瀬戸市 + c(22.2, 20.0), # 豊田市 + c( 9.4, # 安城市 9.0) + ) # 主成分の計算 > prcomp(data) 主成分分析の計算はこの1行だけ Rをつかうととても簡単に主成分分析ができる

33.

33 主成分分析の結果の見方 4つの市の男女別人口の主成分の計算結果 R (Console) Standard deviations (1, .., p=2): 主成分得点の標準偏差 [1] 10.0813386 第1主成分 0.5476735 第2主成分 Rotation (n x k) = (2 x 2) PC1 PC2 [1,] -0.7451377 0.6669106 [2,] -0.6669106 -0.7451377 第1主成分主成分が持つ情報量第2主成分固有ベクトル(変換行列) 主成分(Principal Component)の向き(傾き) 第1主成分の固有ベクトルがExcelで計算した結果と同じであることを確認しよう

34.

34 分析するデータ TSUTAYA DISCAS週間総合ランキング上位20位在庫枚数 … ランキングレンタル開始日 STRAY SHEEP / 米津玄師 1 2020/08/22 358 5807 … Traveler(通常盤) / Official髭男dism 2 2019/10/26 364 218 … eyes(通常盤) / milet 3 2020/06/20 155 158 … クロマティカ / レディー・ガガ 4 2019/08/29 45 25 … 1位登録者数 …

35.

35 データの作成 1 順序に意味がある(数値)データを選択順序に意味があるランキング在庫数全国評価 1位登録者数レンタル開始日 2位登録者数順序に意味がない(数値でない) ジャンル 2 日付を1900年元日からの日数に変換 2020年08月22日 44065

36.

36 データの種類全国評価質的データランキング分類や区別のためのデータジャンルレンタル開始日在庫数量 1位登録者数 2位登録者数比較のために工夫して数値化量的データ数値として意味のあるデータ足し引きができるデータ

37.

37 作業ディレクトリの確認と変更作業ディレクトリ working directory Rのデータの読み込み先となるディレクトリ(フォルダ) 作業ディレクトリの確認 > getwd() R (Console) # 作業ディレクトリの確認コマンド [1] "E:/Workspace" 作業ディレクトリの変更 > setwd("E:/Workspace") R (Console) # 作業ディレクトリの変更コマンド

38.

[beta]

38

データの読み込み
作業ディレクトリに演習ファイル「tsutaya_rental.csv」を配置

CSVデータの読み込み

R (Console)

> data <- readcsv(

# データの読み込み

+

"tsutaya_rental.csv",

#

ファイル名

+

header=T,

#

ヘッダ行の有無(T: 有, F: 無)

+

row.names=1)

#

行名の指定(列番号)

39.

39 データの確認変数の確認(R Studio) 変数の確認 R (Console) > data # CSVデータの確認 CD名...アーティスト名 1 STRAY SHEEP / 米津玄師 2 Traveler(通常盤) / Official髭男dism ...

40.

40 スケールが異なる指標をもつデータ単位が異なる 0～6000 指標間のばらつきが大きく異なる主成分に指標が反映されない 0～400

41.

41 変数の標準化女性(𝑥2 )／万人 1位登録者数(𝑥2 )／人 25 25 20 20 15 15 10 10 5 5 𝑂 5 10 15 20 25 男性(𝑥1 )／万人スケールが同じ 𝑂 1位登録者数(𝑥2 ) 0 5 10 15 20 25 在庫数(𝑥1 )／枚スケールが異なるスケーリング 0 在庫数(𝑥1 ) スケールを合わせる

42.

42 相関行列 correlation matrix 1 𝑟(𝑥1 , 𝑥2 ) ⋯ 𝑟(𝑥1 , 𝑥𝑝 ) 𝑟(𝑥1 , 𝑥2 ) 1 ⋯ 𝑟(𝑥2 , 𝑥𝑝 ) ⋮ 𝑟(𝑥1 , 𝑥𝑝 ) 𝑟(𝑥2 , 𝑥𝑝 ) ⋯ 1 ℝ= 相関係数𝑟(𝑥𝑖 , 𝑥𝑗 ) 相関係数 correlation coefficient 𝑟 𝑥𝑖 , 𝑥𝑗 = 𝑟 𝑥𝑗 , 𝑥𝑖 より，対称行列 𝑖 = 𝑗のとき𝑟 𝑥𝑖 , 𝑥𝑗 = 1 相関係数の定義から，ℝ = 分散共分散係数 -1以上1以下の値を取り 2変量𝑥，𝑦間の線形な関係の強弱を示す指標 𝐶(𝑥, 𝑦) 𝑟(𝑥, 𝑦) = 𝜎 𝑥 𝜎(𝑦) Σ= Σ 𝜎 𝑥𝑖 𝜎 𝑥𝑗 variance-covariance matrix 𝜎 2 (𝑥1 ) 𝐶(𝑥1 , 𝑥2 ) ⋯ 𝐶(𝑥1 , 𝑥𝑝 ) 𝐶(𝑥1 , 𝑥2 ) 𝜎 2 (𝑥2 ) ⋯ 𝐶(𝑥2 , 𝑥𝑝 ) ⋮ 𝐶(𝑥1 , 𝑥𝑝 ) 𝐶(𝑥2 , 𝑥𝑝 ) ⋯ 𝜎 2 (𝑥𝑝 )

43.

43 固有ベクトルから解釈する主成分スケーリングと分析結果の表示 R (Console) > result <-prcomp(data, scale=T) # スケーリング(scale)して主成分分析 > result # 変数の内容を表示 ... 値の大きい成分から解釈 PC1 PC2 ... 0.41451571 -0.1070368 ... レンタル開始日 -0.04882473 0.6441358 ... 在庫枚数 -0.49154089 -0.2935740 ... 1位登録者 -0.51055576 0.2164189 ... 2位登録者 -0.50333112 0.2418657 ... 全国評価 -0.26489815 -0.6181508 ... ランキング第1主成分は登録者の少なさ第2主成分はレンタル開始日の新しさと全国評価の低さを併せた指標

44.

44 主成分負荷量 principal component loading 変量と主成分の相関係数主成分がどの変量と強く関係しているかがわかる変量𝑥𝑖 に対する第𝑚主成分の主成分負荷量𝑟(𝑥𝑖 , 𝑤𝑚 ) (𝑖) スケーリングをしていない場合スケーリングをしていない場合 𝑟(𝑥𝑖 , 𝑤𝑚 ) = 𝑟(𝑥𝑖 , 𝑤𝑘 ) = 𝜆𝑚 𝑤𝑚 𝜎 𝑥𝑖 𝜆𝑚 (𝑖) 𝑤𝑚 𝜆𝑘 𝑤𝑚 (𝑖) 第𝑚主成分の固有値(分散) 第𝑚主成分の固有ベクトルの第𝑖成分 ※ここまで定義してきた記号とは一部違います． ※なぜ相関係数となるのか？については説明しません．ぜひ自分で確認してみてください．

45.

45 主成分負荷量から解釈する主成分主成分負荷量の表示 R (Console) # 主成分負荷量を表示 > sweep(result$rotation, 2, result$sdev, "*") PC1 PC2 ... 0.69881805 -0.1446553 ... レンタル開始日 -0.08231196 0.8705199 ... 在庫枚数 -0.82867220 -0.3967518 ... 第1主成分は 1位登録者 -0.86072872 0.2924802 ... 登録者の少なさに加えて 2位登録者 -0.84854894 0.3268704 ... 在庫枚数の少なさも強く関係全国評価 -0.44658284 -0.8354024 ... ランキング固有ベクトルの成分の値，主成分負荷量ともに大きな値

46.

46 分析結果の2次元プロット 2次元プロット R (Console) > par(family="HiraKakuProN-W3") # 描画用フォントの設定(Macユーザ向け) > biplot(result) # 2次元平面にプロット > rownames(result$x) <- NULL # 行名の削除(要再プロット)

47.

47 2次元プロットの見方固有ベクトル第1主成分が比較的低い第2主成分が比較的高い第1主成分第2主成分においては平均的第2主成分が比較的低い主成分得点変量(回転前の軸)

48.

48 2次元プロットの解釈評レ価ンがタ低ルい開始されてから日が浅く「STRAY SHEEP / 米津玄師」はレンタル開始直後で評価は安定していないがランキング上位登録者が多く在庫も多数ある「Traveler / Official髭男dism」などはレンタル開始から日が経っているが比較的評価が高い位置に留まっている第2主成分が比較的低い「紅蓮華 / LiSA」などは指標全体から平均的なグループであり評価も平均的な値になっているランキング登録者が少なく在庫枚数も多く確保されていない

49.

49 スクリープロットによる次元削減 2.5 固有値 2.0 1.5 1.0 0.5 0 1 2 3 4 5 6 第𝑚主成分固有値が落ち込んでいる第4主成分までを利用

50.

50 寄与率による次元削減寄与率を使う説明できている情報量の割合で次元を削減寄与率，累積寄与率の表示 R (Console) # 寄与率，累積寄与率の表示 > summary(result) Importance of components: PC1 PC2 PC3 PC4 ... 1.6859 1.3515 0.9503 0.52170 ... Proportion of Variance 0.4737 0.3044 0.1505 0.04536 ... Cumlative Proportion 0.4737 0.7781 0.9286 0.97396 ... Standard deviation 寄与率累積寄与率 80%以上情報が表現されている省略

51.

51 主成分分析を実践してみよう次のデータの好きな方を使って主成分分析をおこない主成分に対する解釈を考えてみよう 1 愛知県の市区町村における事業所数 2 伊藤研卒業生と関わりのあるIT企業10社興味のある人は教育用標準データセット2020年版(SSDSE-2020A.xlsx)などのオープンデータから分析をしてみよう

52.

まとめ

53.

53 主成分分析の理解しておくべきポイント 1 データを効率的に説明できる扱いやすい形に変換したい場合に主成分分析を利用しよう※ 2 主成分は分散共分散行列・相関行列から得られる 3 主成分の解釈・言語化は容易ではなく望ましい結果が毎回必ず得られるわけではない ※共通する要因を見つけたいときは因子分析おこなおう