数式が出てくる機械学習入門

10K Views

May 29, 24

スライド概要

公立小松大学の大学院で使った資料です.入門と書いていますが,PRMLの1章をまとめたものになりますので初心者には難しいかもしれません.

内容が難しい方は次の資料のほうが良いと思います.
https://www.docswell.com/s/k_fujita/ZQLGEK-2022-04-19-102434

profile-image

コンピュータを使って色々計算しています.個人的な技術に関するメモと講義資料が置いてあります.気が向いた時に資料を修正しています. 公立小松大学臨床工学科准教授 https://researchmap.jp/read0128699 初心者向けの人工知能の本を書いてみました. https://www.amazon.co.jp/dp/B0F2SKBXY4/crid=1RJHKTT637RSE

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

数式が出てくる 機械学習入門 公立小松大学 藤田 一寿 Ver. 20260501 PRMLの1章をまとめたものです.

2.

機械学習とは • 機械学習とは,機械に学習させる手法を取り扱う学問領域およびその技術であ る. • 機械学習は,人工知能やデータマイニングの領域で用いられる. • 特に確率・統計に立脚したものを統計的機械学習という(特に言及がなければ 機械学習は統計的機械学習のことを指す). 0, 1, 2, 3, 4 0, 1, 2, 3, 4 訓練データ 機械 出力 例えば,機械学習の手法を用いて,機械が数字と書かれた画像を数字であると判断するように学ばせる.

3.

機械学習の目標とは 大雑把に言えば,機械学習の目標は学習のより入力に 対し適切な出力をする関数を得ること. 入力𝐱 関数𝐲 𝐱 出力𝐲:予測 0, 1, 2, 3, 4 例えば手書き文字画像が入力だった場合,関数はその手書き文字の予測したラベルを出力する.

4.

学習 • 機械学習では,まず訓練集合(training set)と呼ぶデータ点の集合{𝐱1 , … , 𝐱 𝑁 }が ある. • 訓練集合のデータ点には,それぞれに対応するカテゴリを表す目標ベクトル𝐭が ある. • 機械学習では,𝐱を入力し,目標ベクトルと符号化の仕方が等し出力ベクトル 𝐲(𝐱)が出力される. • 画像分類なら,画像がラベルへと符号化される.関数𝐲(𝐱)も同様に入力をラベル に符号化しなければならない. • 関数𝐲(𝐱)は予測関数、予測モデル、または、モデルと呼ばれることもある. • 関数𝐲(𝐱)は訓練データ(訓練集合)に基づき求められる. • この段階を訓練段階もしくは学習段階と呼ぶ.

5.

テスト • 関数𝐲 𝐱 を学習により獲得した後は,それの性能を知りたいだろう. • しかし,訓練データを使って𝐲 𝐱 の性能を測るのは良くない方法だろう. • 我々が知りたいのは,訓練で使っていない𝐲 𝐱 にとって未知のデータに対して , 𝐲 𝐱 が正しい目標値を予測できるかである. • 𝐲 𝐱 の性能を測るために用いるデータセットをテスト集合(test set)と呼ぶ. • 訓練で使っていないデータに対する能力を汎化と呼ぶ. テスト 訓練集合でテストをすることは,授業 でやった例題そのものがテストに出る ことに似ている.楽勝だね. テスト テストでは,授業でやった例題とは異 なる問題を出題することで実力が測れ る.大変だ.

6.

学習と性能評価 学習 性能評価 判断結果と 目標値を比 べ、性能を 評価する。 判断ルール, データの規則性の発見 判断 機械学習の手法を使い,機械は 学習する. 学習したからと言って,目標値 が出力される(判断のルールを 獲得できる)とは限らない. 機械 データ データ 学習により獲得した判断 ルールを使用し,機械は 判断する. 機械 学習に必要なデ ータを集める. これが訓練デー タとなる。 データ データ データ データ テストのためのテ ストデータを用意 する。これは学習 に用いていないも のでなければなら ない。 データ データ

7.

まとめ • 機械学習とは,機械に学習させる手法を取り扱う学問領域およびその技術であ る. • 機械(人工知能)の学習には訓練データを使う. • 学習済みの機械(人工知能)の性能を評価するために,訓練データとは異なる テストデータを使う.

8.

機械学習の例

9.

機械学習が取り扱う問題 • 分類(Classification) • ラベルの付いたデータを分ける. • データを分ける線を引く. • 未知の入力に対しラベルを推論する. 分類 • 回帰(Regression) 回帰 • データ (数値間の関係) を再現できる関数を探す. • 未知の入力に対し,値を推論する. • クラスタリング(Clustering) どれが当たりやすいか 確かめながら探す • データを塊ごとに分ける. クラスタリング • 強化学習(Reinforcement) • 報酬を最も得られる行動を試行錯誤しながら探す. 強化学習

10.

機械学習が取り扱う問題 • 教師あり学習 • 答えがある. • 分類(Classification) • 回帰(Regression) • 教師なし学習 分類 回帰 • 答えがない. • クラスタリング(Clustering) • 強化学習(Reinforcement) どれが当たりやすいか 確かめながら探す クラスタリング • 報酬という手がかりが付いたデータを作りながら学習する. 強化学習

11.

多項式フィッティング

12.

多項式フィッティング • 機械学習の数理的な意味や手法を学ぶため,単純な回帰問題を考える. • 実数の入力変数𝑥を観測し,それを用いて実数値の目標変数𝑡を予測したいとす る. 目標 • ここでは,目標値𝑡はsin 2𝜋𝑥 にランダムなノイズを含ませ生成する. 入力

13.

多項式フィッティング • 𝑁個の観測値𝑥からなる𝐱 = 𝑥1 , … , 𝑥𝑁 𝑇 がある. • それぞれに対応した観測値𝑡からなる𝐭 = 𝑡1 , … , 𝑡𝑁 がある. • 訓練データは,これらから構成される. 目標 • 𝐱は入力データ集合,𝐭は目標データ集合となる. 入力

14.

多項式フィッティングの目標 Ƹ • 目標は,訓練集合を利用して,新たな入力変数 𝑥に対し目標変数 ො 𝑡を予測する関 数𝑦 𝑥 を求めることである. • 背景にある関数sin 2𝜋𝑥 を暗に見つけようとすることとほぼ等価である. • ここで,関数𝑦 𝑥 に次の多項式を採用する. 𝑗 • 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥 2 + ⋯ + 𝑤𝑀 𝑥 𝑀 = σ𝑀 𝑤 𝑥 𝑗 𝑗=0 • この場合, 予測𝑦 𝑥, 𝐰 が𝑡に最も近くなる係数𝑤0 , … , 𝑤𝑀 (ベクトル𝐰)を求め ることが目標になる. • このタスクは,「関数𝑦 𝑥, 𝐰 をデータにフィッティングする」ことである. 関数 𝑦(𝑥) に𝑥を入力する 入力変数𝑥 関数𝑦 𝑥, 𝐰 の値が出力される 関数𝑦 𝑥, 𝐰 𝐰は学習により獲得する 𝑡の予測

15.

誤差 • 𝑦 𝑥, 𝐰 が𝑡に最も近くなる係数𝑤0 , … , 𝑤𝑀 (ベクトル𝐰)を求める. • ここでは,𝑦 𝑥, 𝐰 と𝑡の差を 𝑦 𝑥, 𝐰 − 𝑡を2乗したもの,すなわち2乗誤差で表 すとする. • よって,𝑦 𝑥, 𝐰 を用い入力データ集合から予測した目標値と,目標データ集合 の2乗誤差を最小にする𝐰を求めることが目標になる. 1 2 • 𝐸 𝐰 = σ𝑁 𝑛=0 𝑦 𝑥𝑛 , 𝐰 − 𝑡𝑛 誤差関数𝐸 𝐰 を最小にする𝐰が最も良いだろう. • これを誤差関数という. 予測𝑦 𝑥, 𝐰 は𝑡に近い方が良い(精度が高い). 予測の精度は誤差関数𝐸 𝐰 で定量化する. 2 • 損失関数,目的関数とも言う. 関数 𝑦(𝑥) に𝑥を入力する 入力変数𝑥 関数𝑦 𝑥, 𝐰 の値が出力される 関数𝑦 𝑥, 𝐰 𝐰は学習により獲得する 𝑡の予測

16.

誤差の最小化 • 誤差を最小にする𝐰を求めるには,どうすればよいだろうか? • 誤差の微分が0となる𝐰を求めれば良い. • 多項式フィッティングの場合,2乗誤差の微分は𝐰の要素に関して線形であるため, 通常誤差を最小にする𝐰が一つに定まる. • 機械学習では,多項式フィッティングや人工ニューラルネットワークなどのよう に,誤差関数を最小化するパラメタ𝐰を探すことを目的にする手法が多くある. • 人工ニューラルネットワークの場合,誤差関数が複雑なため,簡単には最適なパ ラメタ𝐰は見つからないし,最適ではないかもしれないパラメタを獲得すること になるかもしれない. • 深層ニューラルネットワークの場合,最適ではないパラメタでも十分な性能の場合 が多い.

17.

パラメータ数はどうする? • 𝐰は誤差関数の微分から求まるが,多項式の項の数𝑀(次数,𝐰の次元)をど う選べばよいだろうか. • この問題は,モデル比較やモデル選択と呼ばれる重要な概念の一例である. どれが良いのか 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥1 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥 2 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥 2 + 𝑤3 𝑥 3 人工ニューラルネットワークでは,ニューロンの数,層の数など沢山事前に決めなければならない.大変だ.

18.

過学習 • 図は次数𝑀 = 0,1,3,9を持つ多項式𝑦 𝑥, 𝐰 を訓練データから 求めた例である. • 次数が𝑀 = 0,1では,明らかに𝑦 𝑥, 𝐰 の当てはまりはデー タに対し悪い. • 𝑀 = 9のときは,𝑦 𝑥, 𝐰 は訓練データに対し非常によく当 てはまっているが,𝑦 𝑥, 𝐰 は激しく振動しており,データ 生成の背景にある関数sin 2𝜋𝑥 を捉えられていない. • このような振る舞いは,過学習(overfitting)として知られ ている.Overfittingは過学習(学習しすぎ)というより、訓 練データへの過剰適応(overfittingの直訳)と捉えるほうが 本質的だろう。

19.

正則化 • 過学習が起きない次数(パラメータ数𝑀)を事前に選ぶことは難しい. • それ以外の方法で過学習を抑制したい場合はどうすればよいか? • そのためのテクニックの一つに,正則化がある. • 正則化は,誤差関数に罰則項(正則化項)を追加し,係数(パラメタの値)が大きく 正則化項あり 正則化項なし なるのを防ごうとするものである. • 正則化項を加えた誤差関数は次のようになる. 1 𝜆 2 • 𝐸෨ 𝑤 = 2 σ𝑁 + 2 ‖𝐰‖2 𝑛 𝑦 𝑥𝑛 , 𝐰 − 𝑡𝑛 𝜆 𝜆 • 2 ‖𝐰‖2 = 2 𝐰T 𝐰が正則化項である. • 𝐰 T 𝐰 を使った正則化をL2正則化と呼ぶこともある. • 𝑤0 は正則化項から外す場合も多い. • これは勾配降下のweight decayである.

20.

まとめ • 関数をデータに合わせることをフィッティングという. • 関数がデータにあっているかどうかを,誤差関数で数値化する. • 誤差関数の値が最小のパラメタが良いパラメタである. • このパラメタを持つ関数がデータに一番合っている. • 学習により関数𝑦 𝑥 が訓練データに合いすぎて,データの背後にあるデータを 生み出す規則を再現できていない、(汎化能力が低い)ことを過学習という. • 過学習を避ける方法の1つに,L2正則化項の導入がある.

21.

確率

22.

簡単な例 • 赤と青の2つの箱あるとする. • 赤の箱にはりんご2つとオレンジ6つある. • 青の箱にはりんご3つとオレンジ1つある. • 次の操作を行う. • 赤い箱は40%の確率で,青い箱は60%の確率でランダムに選ぶ. • 箱の中からランダムに果物を選ぶ.

23.

確率変数 • 確率変数とは事象を表す変数である. • 箱を表す変数𝐵: 𝐵 = 𝑟, 𝐵 = 𝑏 • 果物を表す変数𝐹: 𝐹 = 𝑎, 𝐹 = 𝑜 • 確率変数を用い,箱を選ぶ確率は次のように書ける. • 赤い箱が選ばれる確率 • 𝑃(𝐵 = 𝑟) = 0.4 • 青い箱が選ばれる確率 • 𝑃(𝐵 = 𝑏) = 0.6

24.

同時確率 • 赤い箱が選ばれて,りんごが選ばれる確率は次の通りである. • 𝑃( 𝐹 = 𝑎, 𝐵 = 𝑟) • また,赤い箱が選ばれて,オレンジが選ばれる確率は次の通りである. • 𝑃( 𝐹 = 𝑜, 𝐵 = 𝑟) • このように複数の確率変数が同時に決まるときの確率を同時確率という.

25.

一般的に書いてみる • 確率変数𝑋, 𝑌がある. • 𝑋 = 𝑥𝑖 |𝑖 = 1, … 𝑀 • 𝑌 = 𝑦𝑗 |𝑗 = 1, … 𝐿 • N回試行した時,𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 となった回数を𝑛𝑖𝑗 とする. • 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 が同時に起こる確率は次のように書ける.

26.

確率の加法定理 • 𝑌を考慮せず𝑋が𝑥𝑖 となる確率を計算すると • となる.ここで • であるから, 加法定理 𝑌について周辺化した.その結果,周辺確率が出てくる.

27.

条件付き確率 • 𝑋 = 𝑥𝑖 となることが確定している時,𝑌 = 𝑦𝑗 が起こる確率は • 𝑃(𝑌 = 𝑦𝑗 | 𝑋 = 𝑥𝑖 ): 条件付き確率

28.

乗法定理 乗法定理

29.

2変数の確率分布

30.

ベイズの定理 • 乗法定理より ベイズの定理

31.

ベイズの定理 もっともらしさ 尤度 事前確率 事後確率 事後確率は尤度 × 事前確率に比例する. ベイズ定理の式を見るだけで,上記のように𝑃 𝑌 が事前確率,𝑃 𝑌 𝑋 が事後確 率,𝑃 𝑋 𝑌 が尤度であると決まらない. 𝑃 𝑋 が事前確率でも良いだろう.確率 が事前確率や事後確率かどうかは,問題設定やその文脈によって決まる.

32.

箱の例では • 箱を選ぶ確率: 𝑃(𝐵) • 事前確率(Prior probability) • 選んだ果物から箱を選んだ確率が分かる: 𝑃(𝐵|𝐹) • 事後確率(Posterior probability) • 𝑃(𝐹|𝐵)は尤度(Likelihood)

33.

箱の例 • 箱の選択確率 • 𝑃(𝐵 = 𝑟) = 0.4 • 𝑃(𝐵 = 𝑏) = 0.6 • 箱ごとの果物の選択確率 • 𝑃(𝐹 = 𝑎| 𝐵 = 𝑟) = 1/4 • 𝑃(𝐹 = 𝑜| 𝐵 = 𝑟) = 3/4 • 𝑃(𝐹 = 𝑎| 𝐵 = 𝑏) = 3/4 • 𝑃(𝐹 = 𝑜| 𝐵 = 𝑏) = 1/4

34.

期待値と分散 • ある関数𝑓 𝑥 の確率分布𝑝 𝑥 の元での平均値を𝑓 𝑥 の期待値と呼び,次の式で 与えられる. • 𝐸 𝑓 = σ𝑥 𝑝 𝑥 𝑓 𝑥 • 分散は次のように定義される. • var 𝑓 = 𝐸 𝑓 𝑥 − 𝐸 𝑓 𝑥 2

35.

まとめ • 𝑋と𝑌が同時に起こる確率を結合(同時)確率𝑝 𝑋, 𝑌 という. • 確率変数を積分消去することを周辺化という. • 周辺確率𝑝 𝑋 , 𝑝 𝑌 • 条件付き確率𝑝 𝑋 𝑌 • 𝑌がある値のとき,𝑋が起こる確率である. • 加法定理𝑝 𝑋 = σ𝑌 𝑝 𝑋, 𝑌 • 乗法定理𝑝 𝑋, 𝑌 = 𝑝 𝑋 𝑌 𝑝 𝑌 = 𝑝 𝑌 𝑋 𝑝 𝑋 • ベイズ定理𝑝 𝑌 𝑋 = 𝑝 𝑋𝑌 𝑝 𝑌 𝑝 𝑋

36.

ガウス分布

37.

ガウス分布 • 確率分布の中で最も重要な分布がガウス分布である. • 単一の変数𝑥に対するガウス分布は次のように定義される. • 𝑁 𝑥 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 1/2 exp − 1 2𝜎 2 𝑥−𝜇 2 • ガウス分布は,平均𝜇,分散𝜎 2 の2つのパラメタを持つ. • 𝜎は標準偏差と呼ばれる. • 𝛽 = 1/𝜎 2 は精度パラメタと呼ばれる. 𝑁 𝑥 𝜇, 𝜎 2 は,条件付き分布のように書かれていて不思議に思うかも しれない。しかし, 𝑁 𝑥 𝜇, 𝜎 2 は,ある平均𝜇,分散𝜎 2 の条件のもと での𝑥が生じる確率密度なので,条件付き分布とみなして良い.

38.

パラメタ推定 • データ集合𝐱 = 𝑥1 , … , 𝑥𝑁 T があったとする. • これから,ガウス分布の平均𝜇と分散𝜎 2 を推定してみる. • 各データ点は独立に生成されるとする. • これを独立同時分布(independent identically distributed)であるといい,i.i.d.と略 すことが多い. 互いに独立 データ生成 確率分布 𝑥1 𝑥2 𝑥3 データ点同士に依存性はない. 𝑥1 が𝑥2 の発生確率に影響しない. …

39.

尤度関数 • データ集合が生成される確率は,すべてのデータ点が生成される同時確率で表 される. 𝑥と𝑦が互いに独立ならば,𝑝 𝑥, 𝑦 = • 𝑝 𝐱 𝜇, 𝜎 2 = 𝑝 𝑥1 , 𝑥2 , … , 𝑥𝑁 𝜇, 𝜎 2 𝑝 𝑥 𝑝 𝑦 である. • データ点同士に依存性が無いのだから,同時確率は積に分解できる. 𝑝 𝐱 𝜇, 𝜎 2 = 𝑝 𝑥1 , 𝑥2 , … , 𝑥𝑵 𝜇, 𝜎 2 = 𝑝 𝑥1 𝜇, 𝜎 2 𝑝 𝑥2 𝜇, 𝜎 2 … 𝑝 𝑥𝑵 𝜇, 𝜎 2 𝑁 = ෑ 𝑝 𝑥𝑛 𝜇, 𝜎 𝑛=1 2 互いに独立だから 𝑝 𝐱 𝜇, 𝜎 2 定数 • これを𝜇, 𝜎 2 の関数と見なすと,これはガウス分布の尤度関数である. 変数

40.

最尤推定 • 最も良いパラメタは,尤度関数 𝑝 𝐱 𝜇, 𝜎 2 を最大にするパラメタだと考える. • 尤度関数は,あるパラメタにおけるデータの生成確率だから,この生成確率が最も 高いパラメタが最も尤もらしいと考える. • この考え方に基づきパラメタを推定する方法を最尤推定という. • 尤度関数を最大にするパラメタは,尤度関数の微分が0となる値であろう. • しかし,尤度関数を微分するのは難しいので,尤度関数の対数,すなわち対数 尤度関数の微分を取ることにする. 最尤推定 2 ς𝑁 を最大にする 𝜇, 𝜎 2 を求める. 𝑛=1 𝑝 𝑥𝑛 𝜇, 𝜎 対数は単調増加関数であ るため,尤度関数の最大 化は対数尤度関数の最大 化と等価である. 対数をとる 𝑁 2 2 σ ln ς𝑁 𝑝 𝑥 𝜇, 𝜎 = を最大にする 𝜇, 𝜎 2 を求める. 𝑛 𝑛=1 𝑛=1 ln 𝑝 𝑥𝑛 𝜇, 𝜎 積が和になって楽になった

41.

最尤推定 • 対数尤度関数を展開する. 𝑁 𝑁 𝑁 ln ෑ 𝑝 𝑥𝑛 𝜇, 𝜎 2 = ෍ ln 𝑝 𝑥𝑛 𝜇, 𝜎 2 = ෍ ln 𝑛=1 𝑁 𝑛=1 𝑛=1 1 1 exp − 𝑥𝑛 − 𝜇 2 2 2 1/2 2𝜎 2𝜋𝜎 𝑁 1 1 1 𝑁 𝑁 1 = ෍ − ln 2𝜋 − ln 𝜎 2 − 2 𝑥𝑛 − 𝜇 2 = − ln 2𝜋 − ln 𝜎 2 − 2 ෍ 𝑥𝑛 − 𝜇 2 2 2 2𝜎 2 2 2𝜎 𝑛=1 𝑛=1 • これを𝜇について微分する. 𝑁 𝑑 𝑁 𝑁 1 − ln 2𝜋 − ln 𝜎 2 − 2 ෍ 𝑥𝑛 − 𝜇 2 𝑑𝜇 2 2 2𝜎 𝑛=1 𝑁 𝑁 1 = 2 ෍ 𝑥𝑛 − 𝜇 = 0 𝜎 𝑛=1 𝑁 ෍ 𝜇 = ෍ 𝑥𝑛 𝑛=1 𝑛=1 𝑁 𝑁𝜇 = ෍ 𝑥𝑛 𝑛=1 𝑁 𝜇𝑀𝐿 = 1 ෍ 𝑥𝑛 𝑁 𝑛=1 • よって最尤推定により求まった𝜇𝑀𝐿 は,𝑥𝑛 のサンプル平均となっている.

42.

最尤推定 • 次に,𝜎 2 について微分する. 𝑁 𝑑 𝑁 𝑁 1 2 − ln 2𝜋 − ln 𝜎 − ෍ 𝑥𝑛 − 𝜇𝑀𝐿 2 2 2 𝑑𝜎 2 2 2𝜎 𝑛=1 𝑁 𝑁 1 1 =− + ෍ 𝑥𝑛 − 𝜇𝑀𝐿 2 = 0 2 2 2 2𝜎 2 𝜎 𝑛=1 𝑁 𝑁𝜎 2 = ෍ 𝑥𝑛 − 𝜇𝑀𝐿 2 𝑛=1 𝑁 1 𝜎𝑀𝐿 = ෍ 𝑥𝑛 − 𝜇𝑀𝐿 2 𝑁 𝑛=1 • よって,最尤推定により得られる分散𝜎𝑀𝐿 は,サンプル分散である.

43.

最尤解のバイアス • サンプル平均とサンプル分散の期待値を考える. • 𝐸 𝜇𝑀𝐿 = 𝐸 1 𝑁 σ𝑁 𝑛=1 𝑥𝑛 = 1 𝑁 σ𝑁 𝑛=1 𝐸 𝑥𝑛 = 1 𝑁 σ𝑁 𝑛=1 𝜇 = 𝜇 • よって,最尤推定の平均(サンプル平均)の期待値は真の平均となる. 2 • 𝐸 𝜎𝑀𝐿 = 𝑁−1 𝑁 𝜎2 • よって,サンプル分散の期待値は真の分散の(𝑁 − 1)/𝑁倍である. • サンプル分散と真の分散はずれていると期待される. • これは,バイアスと呼ばれる現象の例である. • この最尤解のバイアスはデータ点の数が増えれば重要でなくなる. それぞれ,緑のガウス分布からデータを生 成した.青の点がデータ点を表し,赤線は 最尤推定で得られたガウス分布を表す.平 均の平均は真の平均になっているが,分散 の平均は真の分散になっていない.

44.

まとめ • 単一の変数𝑥に対するガウス分布は次のように定義される. 1 1 • 𝑁 𝑥 𝜇, 𝜎 2 = 2𝜋𝜎 2 1/2 exp − 2𝜎 2 𝑥 − 𝜇 2 • ガウス分布は,平均𝜇,分散𝜎 2 の2つのパラメタを持つ. • 観測データ𝐱に対して,尤度𝑝 𝑥 𝜇, 𝜎 2 を最大にするパラメタを求める方法を 最尤推定という. • 尤度は積の形になり扱いにくいため,通常は対数尤度を最大化する. • 対数尤度を最大にするパラメタの候補は,その微分を0とすることで求められ る. • ただし,微分が0であることは一般には最大値の十分条件ではない.特に非凸な目 的関数では,大域的最適解とは限らない. • そのため,実際の機械学習では,勾配が0または十分小さく,かつ誤差関数,また は目的関数の値が良いパラメタを採用する.

45.

曲線フィッティング再訪

46.

曲線フィッティング • 曲線フィッティング問題の目標は,𝑁個の入力値で構成される訓練データの集 合 𝐱 = 𝑥1 , … , 𝑥𝑁 T とそれに対応する目標値 𝐭 = 𝑡1 , … , 𝑡𝑁 に基づいて,与えら れた新たな入力値𝑥に対して目標変数𝑡を予測できるようにすること. 関数 𝑦(𝑥) に𝑥を入力する 入力変数𝑥 関数𝑦 𝑥, 𝐰 の値が出力される 関数𝑦 𝑥, 𝐰 𝐰は学習により獲得する 𝑡の予測

47.

曲線フィッティング 𝑚 • ここで,入力値𝑥に対応する𝑡は平均が𝑦 𝑥, 𝑤 = σ𝑀 𝑚 𝑤𝑚 𝑥 であるガウス分布に 従うとする. • 𝑝 𝑡 𝑥, 𝑤, 𝛽 = 𝑁 𝑡 𝑦 𝑥, 𝑤 , 𝛽 −1

48.

対数尤度関数 • データ集合に含まれるデータ点は,互いに独立であるとすると,尤度関数は −1 • 𝑝 𝑡 𝑥, 𝑤, 𝛽 = ς𝑁 𝑁 𝑡 𝑦 𝑥, 𝑤 , 𝛽 𝑛 𝑛 • 対数尤度は • ln ς𝑁 𝑛𝑁 1 = σ𝑁 ln exp 𝑛=1 2𝜋𝛽 −1 1/2 𝑡𝑛 𝑦 𝑥, 𝑤 , 𝛽 −1 − σ𝑁 𝑡 − 𝑦 𝑥𝑛 , 𝑤 2 𝑛=1 𝑛 2 𝛽 𝑁 𝑁 2 2 − 𝛽 2 𝑡𝑛 − 𝑦 𝑥𝑛 , 𝑤 + ln 𝛽 − ln 2𝜋 互いに独立 データ生成 真の関数 𝑥1 𝑥2 𝑥3 データ点同士に依存性はない. 𝑥1 が𝑥2 の発生確率に影響しない. … 2 =

49.

𝐰の推定 • 対数尤度関数を最大にする𝐰ML を探す. • この場合,𝐰に関係する項のみ考えればよい. • そうすると, σ𝑁 𝑛=1 𝑡𝑛 − 𝑦 𝑥𝑛 , 𝐰 2 だけ考えればよいことがわかる. • つまり,対数尤度関数の最大化はσ𝑁 𝑛=1 𝑡𝑛 − 𝑦 𝑥𝑛 , 𝐰 2 の最小化となる. • これは二乗和誤差の最小化となっており,最小二乗法と一致する. 𝑁 対数尤度関数 𝛽 − ෍ 𝑡𝑛 − 𝑦 𝑥𝑛 , 𝐰 2 𝑛=1 2 𝑁 𝑁 + ln 𝛽 − ln 2𝜋 2 2 これを最小化する = 二乗和誤差の最小化 関係ない

50.

予測分布 −1 • 最尤推定から求まったパラメタ𝑤𝑀𝐿 , 𝛽𝑀𝐿 を用い,𝑡の確率分布を書くことができ る. −1 • 𝑝 𝑡 𝑥, 𝐰ML , 𝛽ML = 𝑁 𝑡 𝑦 𝑥, 𝐰ML , 𝛽ML • 予測は1つの値で予測される(点予測)のではなく,予測分布という形で与え ることができる. −1 𝛽𝑀𝐿 の導出は省略する.

51.

ベイズ推論

52.

多項式フィッティングをベイズ的に考える • これまで,多項式フィッティングでは,最適なパラメタ𝐰を1つ求めていた. • ここで,ベイズ的にパラメタ𝐰について事前に仮説を持っているとする. • 仮説を確率分布𝑝 𝐰 で表すとする. • データが得られたとき,仮説を修正する. 𝐰は𝑝 𝐰 という確率分布か ら出てくると思う. 新しくデータが観測された ら仮説を修正しよう.

53.

ベイズ定理 • 観測データ𝐷 = 𝑡1 , … , 𝑡𝑁 が得られたとする. • これと重みのベイズ定理は次のように書ける. 尤度関数:パラメタが与えられたときの𝐷の不確 実性で𝐰の関数とみなせる. 𝑝 𝐷 𝐰 𝑝 𝐰 𝑝 𝐰 𝐷 = 𝑝 𝐷 事後確率:𝐷を観測した事後にw に関する不確実性 事前分布:パラメタに関する仮説

54.

ベイズ推論 パラメータの分布を仮定する 事前分布 データから尤度を計算する データ × 尤度 事後分布 事前分布と尤度から事後分布を計算する 事後分布を事前分布とす る

55.

ベイズ的に考える • ベイズ的な見方では,パラメタに関する不確実性は𝐰の確率分布として表され る. • コイントスを考える.3回試行し,すべて表が出たとする. • 最尤推定の考え方では,最も良いパラメタは,表が出る確率が1とするパラメ タだろう. • これは明らかにおかしい. • ベイズ的なアプローチでは,妥当な事前分布を使えば,そのような極端な結論 を導くことはない. 毎回表が1をだすパラメタの確率が高い ベイズ推論では,事前に想定し た裏表同じ確率で出るパラメタ の可能性が高いという予想を, データを観測したに基づき,表 が出る可能性が高いパラメタへ と修正する. 𝑝 𝐷 𝐰 𝑝 𝐰 𝑝 𝐰 𝐷 = 𝑝 𝐷 例えば,裏表同じ確率で出す パラメタの可能性が高いと思 っている.

56.

ベイズ的とベイズ推論 • ベイズ的 • パラメタ𝒘に関する不確実性,事前知識,仮説のもっともらしさを,事前分布 𝑝 𝐰 として表す考え方。 • ベイズ推論 • 観測データ 𝐷に基づいて,パラメタ 𝐰に関する不確実性や,仮説のもっともらし さを更新する. • 更新後の不確実性は,事後分布 𝑝 𝐰 ∣ 𝐷 として表される. • ベイズ推論では,パラメタ 𝐰を一点に決めず,確率分布として扱い続け,データ の観測に応じて更新する.

57.

ベイズ的アプローチ

58.

ベイズ的アプローチ • 次のような,パラメタ𝐰に関する事前分布を導入する. • 𝑝 𝐰 ∣ 𝛼 = 𝑁 𝐰 ∣ 0, 𝛼 −1 𝐈 = 𝛼 2𝜋 𝑀+1 /2 𝛼 exp − 𝐰 T 𝐰 2 • 𝛼は分布の精度パラメタで,パラメタを制御する機能を持つ. • このようなパラメタを制御するパラメタをハイパパラメタと呼ぶ.

59.

MAP推定 • ベイズ定理から𝐰の事後確率は事前分布と尤度関数との積に比例する. • 𝑝 𝐰 𝐱, 𝐭, 𝛼, 𝛽 ∝ 𝑝 𝐭 𝐱, 𝐰, 𝛽 𝑝 𝐰 𝛼 • この式から,与えられたデータに基づく最も確からしい𝐰は事後確率を最大化 する𝑤と考えられる. • この考えでパラメタを求める方法を,最大事後確率推定もしくはMAP推定と呼 ぶ. • 事後確率の最大値は,次の式の最小値として与えられる. 𝛽 • σ𝑁 𝑡 − 𝑦 𝑥𝑛 , 𝐰 2 𝑛=1 𝑛 2 𝛼 + 𝐰T𝐰 2 • これは,正則化された二乗和誤差と等価である.

60.

ベイズ曲線フィッティング

61.

ベイズ的に考える • MAP推定では,事前分布を導入した.しかし,𝐰を一つ推定する点推定を行っ ている. • これではまだ,ベイズ的な取り扱いと言えない. • 完全なベイズアプローチでは,確率の加法・乗法定理を矛盾なく適用して,𝐰に 関して積分する必要がある.

62.

ベイズ学習と事後分布の逐次的更新 • 1次元の入力変数𝑥と1次元の目標変数𝑡の場合を考える. • モデルは𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥を用いる. • 1行目の図はデータ点が観測される前の状態である.中央の図は事前分布であ る.右の図は事前分布からランダムに6つ𝐰を得て,それを用いたそれぞれの 𝑦 𝑥, 𝐰 である. 尤度 事前分布 𝑝 𝐷 𝐰 𝑝 𝐰 𝑝 𝐰 𝐷 = 𝑝 𝐷

63.

ベイズ学習と事後分布の逐次的更新 • 2行目の図は右図の丸点で表されるデータ点を1つ観測した後の状態である • 左の図は,このデータ点に対する尤度関数𝑝 𝑡 𝑥, 𝐰 を表している. • 1行目の事前分布と2行目の尤度関数を掛けて正規化すれば2行目中央の事後分布 が得られる.この事後分布から得られた直線はデータ点の近くを通っている. 尤度 事前分布 真のパラメタ 𝑝 𝐷 𝐰 𝑝 𝐰 𝑝 𝐰 𝐷 = 𝑝 𝐷 𝑝 𝐷 𝐰 を𝐰の関数として グラフ化した. 𝐷は観測から得られたデー タである. 観測した点

64.

ベイズ学習と事後分布の逐次的更新 • 3行目の図は2つのデータ点を観測した後の 状態である. • このとき得られる事後分布は,3行目の尤 度関数と2行目の事後分布を掛けて正規化 したものである. • この事後分布を見ると,真のパラメタ付近 を中心とした不確定性が少ない鋭い分布と なっている. 𝑝 𝐰 𝐷 = 𝑝 𝐷 𝐰 𝑝 𝐰 𝑝 𝐷 真のパラメタ

65.

曲線フィッティング • 曲線フィッティング問題では,訓練データとして𝐱 = 𝑥1 , … , 𝑥𝑁 T と𝐭 = 𝑡1 , … , 𝑡𝑁 が与えられ,新たな入力値𝑥に対して目標変数𝑡を予測できるようにす ることが目標である. • つまり,知りたいのは𝑡の予測分布だろう. 𝐰はいらないので,周辺化により消す. 𝑝 𝑡 𝑥, 𝐱, 𝐭 = න𝑝 𝑡 𝑥, 𝐰, 𝐱, 𝐭 𝑑𝐰 = න𝑝 𝑡 𝑥, 𝐰 𝑝 𝐰 𝐱, 𝐭 𝑑𝐰 𝑡の予測値は入力𝑥とパラメタ𝐰で決まる. 𝐰は訓練データ𝐱, 𝐭 から求まる.

66.

曲線フィッティングと予測分布 予測分布𝑝 𝑡 𝑥, 𝐱, 𝐭 の平均 予測分布𝑝 𝑡 𝑥, 𝐱, 𝐭 の平均 の周り標準偏差±1の領域

67.

モデル選択

68.

モデル選択 • 多項式フィッティングにおいて,次数𝑀の値より汎化能力の差があり,最適な 𝑀がある. • 次数𝑀はモデルの自由パラメタの数をするため,モデルの複雑さを支配する. • 正則化項を用いた最小二乗法においては,正則化係数𝜆もモデルの実質的な複雑さ を制御している. • モデルの複雑さを含めた,様々な異なるタイプを考慮して最も良いモデルを見 つけたい. どれが良いのか 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥1 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥 2 𝑦 𝑥, 𝐰 = 𝑤0 + 𝑤1 𝑥 + 𝑤2 𝑥 2 + 𝑤3 𝑥 3

69.

良いモデルを探す • 手持ちのデータの一部を使い,様々なモデルを学習する. • 独立なデータを用い,学習済みの様々なモデルの性能を測定し,良いモデルを 選ぶ. • ここで用いられるデータ集合を検証集合(validation set)と呼ぶ. • 検証集合は,モデルのハイパーパラメタの調整に用いられる.例えば,多項式フ ィッティングにおける𝑀や𝜆. • 訓練集合と検証集合から独立したテスト集合(test set)を用い, 最終的にモデ ルの性能を評価する. • 検証集合により選ばれたモデルは,検証集合に適応しているため,テスト集合で 評価する必要がある.

70.

学習、モデル選択、テスト 学習 (訓練) モデル選択 最終評価(テスト) パラメタの学習 データの規則性 の学習 パラメタの学習 データの規則性 の学習 検証性能が 高い 検証性能が 低い 未知のデータ に対する性能 モデル1 モデル2 モデル1 モデル2 モデル1 訓練データ 検証データ 訓練データを用い,複数のモデル を学習する. 検証データを用い,各モデルの性能を評 価し,最も良いモデルを選ぶ. テストデータ テストデータを用い,最終的な汎化性能 を評価する.

71.

交差検証 • 多くの場合,使えるデータには限りがあるため,訓練集合,検証集合,テスト 集合それぞれに多くのデータを割り当てることは難しい. • できるだけ多くのデータを訓練集合に割り当てたい. • ここで用いられるのが交差検証(cross-validation)である.

72.

交差検証 • 交差検証では,データを𝑆個に分割し,そのうち1つを検証集合に割り当てる. • 図の例では𝑆 = 4個に訓練集合を分割している. • 図のようにデータを𝑆分割すれば,𝑆個の訓練集合と検証集合の組み合わせがで きる. • それぞれの組み合わせで,学習と検証を行い,各組み合わせで得られた検証結 果の平均を最終的な検証結果とする.

73.

赤池情報量規準 • モデルを選択する基準として情報量規準を用いる事がある. • これは,より複雑なモデルによる過学習を避ける罰則項を足すことによって最 尤推定のバイアスを修正しようとするものである. • 例えば,AIC(Akaike information criterion,赤池情報量規準)は • AIC = ln 𝑝 𝐷 𝑤𝑀𝐿 − 𝑀 • が最大となるモデルを選ぶ. • ln 𝑝 𝐷 𝑤𝑀𝐿 は対数尤度で𝑀はパラメタ数である.つまり,AICは対数尤度を パラメタ数分割り引いて考えるということになる. • 他にも,BIC(ベイズ情報量規準)などがある. • こうした規準はモデルパラメタの不確実性は考慮しておらず,実際には過度に 単純なモデルを選ぶ傾向にある(Bishop, 2006).

74.

次元の呪い

75.

データは高次元 • 多項式フィッティングの例では,入力変数は1次元であった. • しかし,多くの場合入力変数の次元は高次元である. • 問題は,低次元空間での直感が,高次元空間で一般化できるとは限らない点で ある. • そして,高次元になると低次元では考えられない様々問題が出てくる. • この高次元での困難や問題を次元の呪いという.

76.

高次元空間ではデータが疎になる • 図のように,空間をマス目で区分けしてみる. • 図から分かる通り,マス目の数は次元に対し指数関数的に増えていく. • 同じ数のデータ点を配置した場合,低次元では1つのマスあたりのデータ点数 が比較的多いが,高次元空間ではマスの数が急激に増えるため,ほとんどのマ スが空になる. • つまり,高次元空間はスカスカ(データが疎)になりやすい.

77.

体積の急増し,対角線は長くなる • 一辺の長さ1の𝑛次元立方体の体積は1である. • しかし, 𝑛 → ∞ のとき,一辺の長さ𝑙のn次元立方体の体積は • 𝑙 > 1のとき,体積𝑙𝑛 は無限大に発散する. • 0 < 𝑙 < 1のとき,体積𝑙𝑛 は0に収束する. • 𝑙 = 1なら体積は1である. • 高次元立方体の対角線は長い. • 辺の長さ1の2次元立方体の対角は 1 + 1 = 2である. • 辺の長さ1の𝑛次元立方体の対角は 1 + 1 + ⋯ , 1 = 𝑛である. • つまり,高次元になると対角線は長くなる .

78.

体積は周辺に集中する • 半径𝑟 = 1の𝐷次元球を考えてみる.ここで,球全体の体積に対する𝑟 = 1 − 𝜖と 𝑟 = 1の間の体積の割合を計算する. • 図は𝜖と割合を示している.これを見ると,𝐷 = 20の高次元球の場合,𝜖が0.2 くらい,すなわち 0.8 < 𝑟 ≤ 1 の領域にほとんどの体積が集まっていることが 分かる. • 例えるなら,高次元のみかんの体積の殆どは皮で,実はほとんど無い.

79.

データ点間の距離は大きくなり,距離の差がなくなる • 次元が高くなるとデータ点間の距離は大きくなる. • データ点間の距離は大きくなるだけではなく違いもなくなる. • 高次元空間では,距離(ユークリッド距離)が意味をなさなくなる. 0から1の一様乱数を生成し,データ点間の距離の平均をプロットし たもの.次元が増えれば増えるほど,データ点間の距離も増える. データ点間の距離の最大値の平均と最小値の平均の比をプロット したもの.比は次元の増加とともに小さくなり,高次元空間では 距離の違いが意味をなさなくなることを示している.

80.

Hubness • 高次元空間では、なぜか「多くの点から近いと思われる点」と「誰からも近い と思われない点」が現れる。 • 多くの点から近いと思われる点をハブと呼ぶ. 25回以上近傍と して現れるデー タ点の数.次元 が増えるにつれ 何度も近傍とし て現れるデータ 点が増えること が分かる. 近傍として全く 現れないデータ 点の数.次元が 増えるにつれ孤 立化したデータ 点も増えること が分かる. 1000個の点を一様乱数で生成し,各点について𝑘 = 5の近傍に入る回数を計算した.

81.

高次元空間の問題 • データが疎になり,近くに十分な点が存在しにくい. • 体積が周辺部に集中し,低次元での直感が通用しにくい. • 距離の差が小さくなり,近傍関係が不安定になる. • 一部の点が多くの点の近傍になるハブネスが生じる. • その結果,k近傍法,クラスタリング,検索,推薦,密度推定など,距離や近 傍に依存する機械学習手法の性能が低下する場合がある.

82.

高次元空間のスカスカは問題なのか • 高次元空間ではデータが疎になり,距離や近傍に依存する手法の性能が低下す る場合がある. • 一方で,分類問題では,高次元空間に写すことで線形分離しやすくなる場合が ある. • 元の空間では複雑な識別境界が必要でも,高次元空間では線形識別境界で分離で きることがある.カーネルSVMは,この性質を利用している. • このように,高次元は問題ばかり起こるのではなく,利点も存在する.高次元 空間がもたらす有利な性質を次元の祝福という.

83.

情報理論

84.

情報とは • あるものごとの内容や事情についての知らせのこと. • 文字・数字などの記号やシンボルの媒体によって伝達され,受け手において, 状況に対する知識をもたらしたり、適切な判断を助けたりするもののこと. • 生体(生命)が働くために用いられている指令や信号こと. • (情報科学での用法)価値判断を除いて,量的な存在としてとらえたそれ. Wikipediaより

85.

情報理論 • 情報の良し悪しを定量化したい • 良い情報はどれだけ良いのか • 確率を使って定量化する • 珍しい情報が良い情報が良い情報だろう. • つまり,出現頻度が頻度が少ない(生起確率が低い)事象の方が情報を多く含んでい ると考えよう.

86.

情報量 • 確率𝑝 𝑥 の事象𝑥が実際に起こったことを知らせる情報に含まれる情報量を • 𝐼 𝑥 = − log 2 𝑝 𝑥 ビット • と定義する.

87.

エントロピー • 𝐼 𝑥 = − log 2 𝑝 𝑥 は事象𝑥が起こった時に得られる情報量である. • これは,将来得られる情報量ではない.そこで,情報量の期待値をとる. • 𝐻 𝑥 = − σ𝑥 𝑝 𝑥 log 2 𝑝 𝑥 • これをエントロピーという. • 𝐻 𝑥 ≥ 0である. • また,𝑝 𝑥 = 0のとき,𝑝 𝑥 log 2 𝑝 𝑥 = 0とする. 情報量の期待値が高いということは、どの事象が起こるか予想がつかないので、将来得ら れる情報量は多いということ。言い換えれば不確実度が高い。 情報量の期待値が低いということは、どの事象が起こるかわかりきっているので、将来得 られる情報量は少ないということ。言い換えれば、不確実度は低い。

88.

例 コイントス • 事象が2つの場合それぞれの事象が起きる確率は𝑝と𝑞 = (1 − 𝑝)である. • コイントスの場合,表が出る確率を𝑝,裏が出る確率を𝑞と考えられる. • よって,コイントスのエントロピーは • 𝐻 = −𝑝 log 2 𝑝 − 1 − 𝑝 log 2 1 − 𝑝 = −𝑝 log 2 𝑝 1−𝑝 − log 2 1 − 𝑝 • この式から,表もしくは裏が出やすいコインはエントロピーが低いことが分か る.言い換えると,何が出るか分かっている(不確実性が低い)とエントロ ピーが低いことが分かる.

89.

結合エントロピー • 事象系をA,事象系をBの複合事象(A, B)のエントロピーは • 𝐻 𝐴, 𝐵 = − σ𝑖𝑗 𝑝 𝐴𝑖 , 𝐵𝑗 log 𝑝 𝐴𝑖 , 𝐵𝑗 • と書ける.これを結合エントロピーと呼ぶ. ここからlog 2 ではなくlogを使う.底が𝑒のエントロピーの単位はナットと言う.底が変わっただけなのでナットはビットのlog 2倍である.

90.

条件付きエントロピー • AとBが独立でない場合,Aが分かっていた状態でのBのエントロピーを定義で きる. • 𝐴𝑖 という事象が起こった状態での𝐵のエントロピーは • 𝐻 𝐵 𝐴𝑖 = − σ𝑗 𝑝 𝐵𝑗 𝐴𝑖 log 𝑝 𝐵𝑗 𝐴𝑖 • である。さらに,これのAについての期待値を求めると 𝐻 𝐵 𝐴 = ෍ 𝑝 𝐴𝑖 𝐻 𝐵 𝐴𝑖 𝑖 = − ෍ 𝑝 𝐴𝑖 𝑗 ෍ 𝑝 𝐵𝑗 𝐴𝑖 log 𝑝 𝐵𝑗 𝐴𝑖 𝑖 = − ෍ 𝑝 𝐴𝑖 , 𝐵𝑗 log 𝑝 𝐵𝑗 𝐴𝑖 𝑖,𝑗

91.

エントロピーの性質 • 性質1 • 𝐻 𝐴, 𝐵 = 𝐻 𝐴 + 𝐻 𝐵 𝐴 = 𝐻 𝐵 + 𝐻 𝐴 ∣ 𝐵 • 𝐻 𝐵 𝐴 = 𝐻 𝐴, 𝐵 − 𝐻 𝐴 • 性質2 • 𝐻 B 𝐴 ≥0 • 性質3 • 𝐻 𝐴 + 𝐻 𝐵 ≥ 𝐻 𝐴, 𝐵

92.

エントロピーの性質 • 性質4 • 𝐻 𝐴 ≥ 𝐻 𝐴 𝐵 ,𝐻 𝐵 ≥ 𝐻 𝐵 𝐴 • 性質5 • 𝐻 𝐴, 𝐵 ≥ 𝐻 𝐴 , 𝐻 𝐴, 𝐵 ≥ 𝐻 𝐵

93.

相互情報量 • 事象系AとBが関連していれば,Aが何かを知るとBが何であるかの情報を知る ことができる.そこで次のような量を定義する. • 𝐼 𝐴, 𝐵 = 𝐻 𝐵 − 𝐻 𝐵 𝐴 • この量は,Bの不確実性𝐻 𝐵 からAを知っている場合のBの不確実性𝐻 𝐵 𝐴 を 引いたものだから,Aを知った時どれだけ不確実性を減らしたを示している. • これは相互情報量と呼ばれ,Aの情報を知ることで得られる,Bに関する情報 の量である. • また,相互情報量はAとBの関係の強さだとも考えられる. • AとBが無関係(AとBが独立)なら相互情報量は0である.

94.

相互情報量の性質 • 性質1 • 相互情報量に順番は関係ない. 𝐼 𝐴, 𝐵 = 𝐻 𝐵 − 𝐻 𝐵 𝐴 = 𝐻 𝐴 + 𝐻 𝐵 − 𝐻 𝐴, 𝐵 =𝐻 𝐴 −𝐻 𝐴 𝐵 = 𝐼 𝐵, 𝐴 • 性質2 • 𝐼 𝐴, 𝐵 ≤ 𝐻 𝐴 , 𝐼 𝐴, 𝐵 ≤ 𝐻 𝐵 • 性質3 • 𝐼 𝐴, 𝐵 ≥ 0

95.

それぞれの量の関係

96.

KLダイバージェンス(情報量) • 未知の確率分布𝑝 𝑥 があり,これを𝑞 𝑥 でモデル化したとする. • 真の分布𝑝 𝑥 の代わりに,𝑞 𝑥 を使ったとき,𝑥の値を特定するために必要な 追加情報量の平均は次のように書ける. • KL 𝑝||𝑞 = − σ𝑖 𝑝 𝑥𝑖 log 𝑞 𝑥𝑖 𝑝 𝑥𝑖 • これを,カルバック-ライブラー(Kulback-Leibler: KL)ダイバージェンス(KL 情報量)と言う.

97.

KLダイバージェンスの意味 𝑞 𝑥𝑖 KL 𝑝||𝑞 = − ෍ 𝑝 𝑥𝑖 log 𝑝 𝑥𝑖 𝑖 = − ෍ 𝑝 𝑥𝑖 log 𝑞 𝑥𝑖 − − ෍ 𝑝 𝑥𝑖 log 𝑝 𝑥𝑖 𝑖 データ 𝑥𝑖 が確率分布qから生じたと 思って計算したエントロピー (クロスエントロピー) 𝑖 観測されたデータから求めた(もしく は, 真の分布の)エントロピー KLダイバージェンスは想定した確率分布qと実際に観測された確率分布(もしくは真の確率分布)pとの差と考えられる. 逆に考えることもできます

98.

注意 • 予想の分布と実際の分布(もしくは真の分布)の差を表すので距離と言いたく なる. • しかし,𝐾𝐿(𝑝||𝑞)と𝐾𝐿(𝑞||𝑝)は同じ値にならない. • つまり,距離の公理に反するので,距離ではない.

99.

KLダイバージェンスと相互情報量 • 𝐼(𝐴, 𝐵)を𝑝を使って表すと • となる。これは,𝑝(𝐴, 𝐵)と𝑝(𝐴)𝑝(𝐵)とのKLダイバージェンスとなっている。A とBがi.i.d.の時𝑝(𝐴, 𝐵) = 𝑝(𝐴)𝑝(𝐵)が成り立つ.つまり,相互情報量は事象Aと Bが独立に近いかどうかを表す量と言える.

100.

まとめ • 情報量は,まれな事象ほど大きく,𝐼(𝑥) = − log 𝑝(𝑥)で表される. • エントロピーは情報量の期待値であり,分布の不確実性を表す. • 相互情報量は,一方を知ることで他方の不確実性がどれだけ減るかを表す.す なわち,2つの事象系の関係の強さを表す量である. • KLダイバージェンスは,2つの確率分布のずれを表す.