主成分分析

2.5K Views

April 19, 24

#機械学習 #主成分分析 #次元削減 #PCA #特異値分解 #情報理論

スライド概要

勉強会で使用した資料。

Komiya

@misya11p

スライド一覧

主に深層学習に興味があります

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

混合ガウスモデルの理論と実装

機械学習混合ガウスモデル emアルゴリズム

Komiya 36.5K

GPT-1の論文を読もう

言語モデル gpt transformer

Komiya 11.8K

強化学習の基本と簡単な実装

強化学習機械学習

Komiya 3.6K

ライトモードvsダークモード～目にいいのはどっち？～

ライトモードダークモード外観モード

Komiya 2.8K

GANの簡単な理解から正しい理解まで

深層学習生成モデル gan

Komiya 1.4K

言語モデルの音楽生成への活用

深層学習音楽生成言語モデル transformer

Komiya 1.1K

各ページのテキスト

2023/09/14 主成分分析武蔵野⼤学データサイエンス学部勉強会2023夏⼩宮和真 misya11p 武蔵野⼤学データサイエンス学部 3年 @ds33miya

2023/09/14 勉強会2023夏目次 1. 2. 3. 4. 次元削減主成分分析特異値分解主成分軸の解釈 1

2023/09/14 1. 2. 3. 4. 勉強会2023夏次元削減主成分分析特異値分解主成分軸の解釈 2

2023/09/14 勉強会2023夏次元削減次元削減データが高次元空間に存在していても、実際はより低い次元でだいたい表せる。ある𝑙次元のデータ空間ℝ! に分布するデータセット𝒳について考える。データ𝒙" ∈ 𝒳は𝑙個の値𝑥#, 𝑥$, ⋯ , 𝑥! によって一意に表せる。しかし、扱うデータの分布によっては𝑙より少ない個数で𝒙" をうまく表せる。 3

2023/09/14 勉強会2023夏次元削減次元削減例を示そう。2次元空間ℝ$にデータ𝒙" = (𝑥#, 𝑥$) が存在し、それが 3𝑥# − 4𝑥$ = 0 を満たす超平面（直線）のみに分布する場合を考える。このとき、𝑥#を定めれば𝑥$が一意に定まる（逆も然り）ため、 ℝ$内のデータ𝒙" を表すのに必要な値は一つで良いことになる。これは、2次元空間内のデータが軸を減らした1 次元空間で完全に表せることを示している。 4

2023/09/14 勉強会2023夏次元削減次元削減では、もう少し現実的な例について考える。ある2次元のデータが3𝑥# − 4𝑥$ = 0を満たす超平面の近くに分布する場合を考える。データに相関が見られる場合ということ。この場合、先ほどのように1次元空間で完全に表すことはできない。しかし、だいたいを表すことはできる。 5

2023/09/14 勉強会2023夏次元削減次元削減このように、本来の次元よりも少ない次元でデータを近似的に表現することを次元削減という。次元削減はデータの処理の効率化や可視化に大きく役立つ。 6

2023/09/14 1. 2. 3. 4. 勉強会2023夏次元削減主成分分析特異値分解主成分軸の解釈 7

2023/09/14 勉強会2023夏主成分分析主成分分析 PCA: Principal Component Analysis 最も一般的な次元削減の手法。主成分分析では、データ空間ℝ! 内に𝑚 < 𝑙個の互いに直行する軸を定める。この軸にデータを射影することで次元を削減する。軸は射影後のデータの分散が最も大きくなるように定義する。この軸は主成分軸と呼ぶ。 8

10.

2023/09/14 主成分分析勉強会2023夏主成分分析元のデータ射影主成分軸を求める次元削減 9

11.

2023/09/14 主成分分析勉強会2023夏主成分分析元のデータ主成分軸を求めるこれが主成分分析の目標射影次元削減 10

12.

2023/09/14 主成分分析勉強会2023夏主成分分析元のデータ主成分軸を求めるこれが主成分分析の目標射影次元削減ここの分散が最大になるようにする 11

13.

2023/09/14 勉強会2023夏主成分分析分散の最大化なんで分散を最大化するの？いろいろな説明があるが、ここでは情報量に着目して説明する。次元を減らすことで、当然元のデータからいくらかの情報が失われることとなる。この失われる情報を最小にしたいという願いがある。少し表現を変えて、次元削減したデータが多くの情報を持つようにしたい、とする。ここで、確率分布が持つ情報量について記述したとある理論を用いる。 12

14.

2023/09/14 勉強会2023夏主成分分析情報理論事象に対する情報量を記述した理論。 1950年頃にクロード・シャノンによって提唱された。 13

15.

2023/09/14 勉強会2023夏主成分分析情報エントロピー確率分布𝑝(𝑥) が持つ情報量𝐻(𝑝) 。以下に定義される。なおこの式の意味はここで理解しなくてよい。何となく載せただけ。情報エントロピーは確率分布が持つ情報量を示す。また、それと同時に「予測のしにくさ」を表すとも言われている。つまりこの理論によると、予測がしにくいほど情報量が多いということになる。 14

16.

2023/09/14 勉強会2023夏主成分分析情報エントロピー二つの正規分布を見てみよう。左の方が予測しにくそうだ。分散が大きく、広く分布しているから。 15

17.

2023/09/14 勉強会2023夏主成分分析情報エントロピー情報エントロピーを見てみよう。正規分布の情報エントロピーは以下になる。分散に対して単調増加なので、分散が大きいほど情報エントロピーが大きく=多くの情報量を持つことになる。 16

18.

2023/09/14 主成分分析勉強会2023夏情報エントロピー実際に求めてみてもそうなる。 H(p) = 1.42 H(p) = -0.19 以上より、分散が大きい分布は多くの情報量を持つことが分かった。ここから、主成分分析の目的が射影後の分散の最大化であることが納得できる。射影後に多くの情報が残るようにしたいから、分散が大きくなるようにする。 17

19.

2023/09/14 勉強会2023夏主成分分析主成分軸の導出では主成分軸を求めていく。まず、射影したときに最も大きな分散をとる一つの軸を求める。 18

20.

2023/09/14 主成分分析勉強会2023夏主成分軸の導出扱う𝑁個のデータを𝒙" ∈ ℝ𝒍 で表す。そして求める軸を𝒖# ∈ ℝ𝒍 とする。 𝒙" も𝒖#も𝑙次元ベクトルで、 𝒖# は単位ベクトルとする。ここで、データを平均0に中心化した場合、𝒖#にデータ𝒙" を射影した時の偏差（平均からの距離）は内積𝒖#& 𝒙" で表せる。平均平均 𝒙! 𝒙! 𝒖" 偏差: 𝒖"# 𝒙! 19

21.

2023/09/14 主成分分析勉強会2023夏主成分軸の導出分散は偏差の2乗の平均なので、𝒙" を全て𝒖#に射影した時の分散𝐽(𝒖#)は以下。 Σはこれ。これはデータの共分散行列。本当は中心化したデータの共分散行列だが、平均はそれに影響を与えないので同じ。 20

22.

2023/09/14 勉強会2023夏主成分分析主成分軸の導出以上より、求めたい𝒖#は以下となる。また、以下の制約条件も課される。これは𝒖が単位ベクトルであることを示している。この条件がない場合、ただ分散=内積を大きくすれば良くなり、方向を無視した無限の大きさを持つベクトルが解となってしまう。 21

23.

2023/09/14 勉強会2023夏主成分分析主成分軸の導出以上より、解くべき問題を条件付き最適化問題に落とし込むことができた。これをラグランジュの未定乗数法で解く。まずラグランジュ関数を定義する。これを𝒖で偏微分し、0になる𝒖を求める。 22

24.

2023/09/14 勉強会2023夏主成分分析主成分軸の導出ここで、Σは正方行列、 𝜆はスカラーであるため、これを満たす𝒖はΣの固有ベクトルとなる。また両辺に𝒖& をかけると、制約条件よりが成り立ち、これは固有値𝜆が最大化したい射影後の分散と一致することを表している。よって、分散を最大化する𝒖はΣの最大固有値に対応する固有ベクトルとなる。 23

25.

2023/09/14 勉強会2023夏主成分分析主成分軸の導出次に2番目以降の主成分𝒖$, 𝒖', ⋯ , 𝒖( を求めたい。 Σの固有値が大きい順に、対応する固有ベクトルを並べれば終わりである。残っている固有ベクトルの中で分散が最も大きくなるものを選び続ける、というイメージ。また、主成分同士が直行することも満たすべき条件であるが、Σが対称行列であるため固有ベクトル同士が直行し、条件を満たす。 24

26.

2023/09/14 主成分分析勉強会2023夏主成分軸の導出共分散行列データ名前年齢身長小宮和真 21 167 兼重宏一 35 165 立浪和義 54 173 Σ 固有値固有ベクトル 𝜆! 𝜆" [𝒖! , 𝒖" , ⋯ , 𝒖# ] ⋮ 𝜆# 対応する固有値が大きい順に𝑚個採用する。 25

27.

2023/09/14 1. 2. 3. 4. 勉強会2023夏次元削減主成分分析特異値分解主成分軸の解釈 26

28.

2023/09/14 特異値分解勉強会2023夏特異値分解主成分分析と特異値分解は深い関わりがある。行列𝑋 ∈ ℝ!×+ は特異値分解によって以下のように記述できる。 • 𝑈 ∈ ℝ!×, : 𝑋𝑋 & の固有ベクトルを一行に並べた行列 • 𝑉 ∈ ℝ+×, : 𝑋 & 𝑋の固有ベクトルを一行に並べた行列 • 𝐷 ∈ ℝ,×, : 特異値𝜎- = これだけ覚えて 𝜆- を対角成分に持つ対角行列 𝐷 は Σ と表記することが多いが、共分散行列と紛らわしいのでここでは 𝐷 とする。 27

29.

2023/09/14 特異値分解勉強会2023夏特異値分解 𝑋をデータセットと見る: 𝑋 = [𝒙#, 𝒙$, ⋯ , 𝒙+ ] ∈ ℝ!×+ そうすると、 𝑋𝑋 & は𝑋の共分散行列に𝑁を掛けたものとなる。固有ベクトルはスカラーを掛けても変わらない。 𝑋の共分散行列も、それに𝑁を掛けた𝑋𝑋 & も同じ固有ベクトルを持つ。つまり特異値分解によって得られる𝑈 = [𝒖#, 𝒖$, ⋯ , 𝒖! ]は、𝑋の主成分分析によって得られる主成分軸と同じものである。再掲 28

30.

2023/09/14 勉強会2023夏特異値分解特異値分解さっきの式を書き直してみる。 29

31.

2023/09/14 勉強会2023夏特異値分解特異値分解右の行列の各要素𝑧"- は、𝒙" を主成分軸𝒖- に射影した時の値。それを𝒖- に掛けることで、主成分軸方向に大きさを持ったベクトルが表現でき、それらの和として元のデータを表現しているという感じ。要は基底を変えただけ。元の表現は標準基底によるもの 30

32.

2023/09/14 特異値分解勉強会2023夏特異値分解可視化した方がええな主成分軸標準基底特異値分解 31

33.

2023/09/14 特異値分解勉強会2023夏特異値分解この中から固有値の大きい𝑚 < 𝑙個の軸を用いた近似は、元のデータ𝑋の良い近似として知られている。 𝑚個だけ使う 𝑚個 𝑚個 32

34.

2023/09/14 勉強会2023夏特異値分解特異値分解 A 𝑋と置いておこう。 𝑚個だけ使う 33

35.

2023/09/14 勉強会2023夏特異値分解誤差最小解釈良い近似とは、フロべニウスノルムを最小にするという意味。フロベニウスノルムは行列版L2ノルムって感じ。 𝑚 個の主成分軸による近似が、元のデータと最も近いものとなる、ということ。これは分散の最大化を納得するための根拠の一つとなり得るね。 34

36.

2023/09/14 1. 2. 3. 4. 勉強会2023夏次元削減主成分分析特異値分解主成分軸の解釈 35

37.

2023/09/14 主成分軸の解釈勉強会2023夏主成分軸の解釈主成分軸は𝑙次元ベクトルである。今まではこれを「基底」として見てきたが、 ℝ! に存在する一つの「データ」と見ることもできる。そのデータはどんなものだろうか。基底としての解釈データとしての解釈 36

38.

2023/09/14 主成分軸の解釈勉強会2023夏主成分軸の解釈画像を例に考える。ピクセルごとの色が記述された一般的なデータ形式とする。標準基底の場合、基底となっているデータは、どこか一つのピクセルのみに色がついた画像と見做せる。基底データ足し合わせ 37

39.

2023/09/14 勉強会2023夏主成分軸の解釈主成分軸の解釈では、主成分軸はどのようなデータになっているだろう。主成分軸は、それがどれだけ含まれているかを表すことでそのデータの大体を記述できるような軸となっている。そのため、軸そのものがある程度の意味を持ったものであることが予想できる。 38

40.

2023/09/14 勉強会2023夏主成分軸の解釈主成分軸の解釈やってみよう。以下のような顔画像データセットを使う。 39

41.

2023/09/14 主成分軸の解釈勉強会2023夏主成分軸の解釈 ℎ 𝑤の画像が𝑁枚あるとする。各画像の各ピクセルの値を一列に並べてベクトル𝒙" ∈ ℝ! , 𝑙 ≔ ℎ ⋅ 𝑤, 𝑛 = 1,2, ⋯ , 𝑁とする。そして、それらを一行に並べて行列𝑋 ∈ ℝ!×+ とする。ギャー 𝒙1 切断（本当は1ピクセルごとね） 40

42.

2023/09/14 勉強会2023夏主成分軸の解釈主成分軸の解釈 ℎ 𝑤の画像が𝑁枚あるとする。各画像の各ピクセルの値を一列に並べてベクトル𝒙" ∈ ℝ! , 𝑙 ≔ ℎ ⋅ 𝑤, 𝑛 = 1,2, ⋯ , 𝑁とする。そしてそれらを一行に並べて行列𝑋 ∈ ℝ!×+ とする。ほんで主成分分析によって𝑋の主成分軸を求める。ほんで求めた主成分軸をℎ 𝑤の画像として見る。どうなるかな。 41

43.

2023/09/14 主成分軸の解釈勉強会2023夏主成分軸の解釈こうなった。ちょっとコワイ固有値 18.48 8.15 5.30 4.77 2.67 求めた主成分軸と対応する固有値。固有値が大きいものを5個載せた。画像の場合は固有画像とも呼ぶ。さらに顔画像の場合は固有顔とも呼ぶ。 42

44.

2023/09/14 勉強会2023夏主成分軸の解釈主成分軸の解釈このように軸をよく観察すると、元のデータがどのように構成されているかがわかりやすくなるね。 43

45.

2023/09/14 主成分軸の解釈勉強会2023夏主成分軸の解釈再構成してみた。主成分を多く使うほどよく近似できることがわかる。 𝑚=5 𝑚 = 10 𝑚 = 30 𝑚 = 100 𝑚 = 500 Original 44

46.

2023/09/14 勉強会2023夏実装 dimensionality-reduction/PCA.ipynb at main · misya11p/dimensionality-reduction Pythonでの実装まとめ。 45

https://github.com/misya11p/dimensionality-reduction/blob/main/PCA.ipynb

47.

オワリおつ