回帰分析超入門

1.

回帰分析超入門発展的内容も沢山あるよ公立小松大学藤田一寿 Ver.20241024

2.

アイスを売りたいなるべく在庫を持たずに，アイスを仕入れるにはどうすればよいだろう？心配事仕入れ量が少ない商機を失うかも仕入れ量が多い在庫が増えるかも

3.

予測する暑い冷たいものがほしい暑ければアイスが欲しくなる．暑い日は多くアイスを仕入れよう！！

4.

予測する明日は今日より暑くなるから今日の倍のアイスを仕入れよう！！根拠のない予測

5.

結果やったー！！予想通り売れまくったぞぉ！！在庫もなし！！

6.

でもねそんなに上手くいかないよね

7.

予想通りにはいかない全然売れない．仕入れすぎた… えっ！？こんなに売れるの？全然足りない…

8.

何が問題だったか

9.

規則性を見つける • 勘や当てずっぽで仕入れる数量を決めていませんか？明日は今日より暑くなるから今日の倍アイスを仕入れよう！！根拠のない予測 • データに基づいて数量の予測をしましょう．これまでの気温のデータと販売数から，明日売れる数を予測しよう．

10.

規則性を見つける • 勘や当てずっぽで仕入れる数量を決めていませんか？明日は今日より暑くなるから今日の倍アイスを仕入れよう！！根拠のない予測 • データに基づいて数量の予測をしましょう．これまでの気温のデータと販売数から，明日売れる数を予測しよう．

11.

データを見よう

12.

数値データを見るアイスクリームの平均購入額と最高気温などのデータ年 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 月 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 アイスクリームの平均湿度日最高気温25℃ 平均購入額 (％) 以上日数(日) 日最高気温の平均(℃) 降水量の合計(mm) 331 268 365 492 632 730 821 1057 724 430 363 415 351 322 367 508 667 772 1148 1080 653 434 358 388 9.3 9.9 12.7 19.2 22.4 26.6 26 29.5 28.1 21.4 17.4 13.2 10.1 12.9 14 21.3 23.7 27.5 33.1 31 28.7 20.7 19 13.4 101 53.5 159.5 121 172.5 85 187.5 370 150 171.5 229.5 53 3.5 20 129.5 69.5 149 112.5 23.5 79.5 195 780 108.5 79.5 46 52 49 61 65 69 75 73 66 59 67 50 43 45 53 51 67 66 62 65 68 69 60 49 0 0 0 3 7 21 21 26 23 3 0 0 0 0 0 3 13 24 31 28 26 3 0 0

13.

数値データを見るアイスクリームの平均購入額と最高気温などのデータ年 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 月 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 アイスクリームの平均湿度日最高気温25℃ 平均購入額 (％) 以上日数(日) 日最高気温の平均(℃) 降水量の合計(mm) 331 268 365 492 632 730 821 1057 724 430 363 415 351 322 367 508 667 772 1148 1080 653 434 358 388 9.3 9.9 12.7 19.2 22.4 26.6 26 29.5 28.1 21.4 17.4 13.2 10.1 12.9 14 21.3 23.7 27.5 33.1 31 28.7 20.7 19 13.4 101 53.5 159.5 121 172.5 85 187.5 370 150 171.5 229.5 53 3.5 20 129.5 69.5 149 112.5 23.5 79.5 195 780 108.5 79.5 46 52 49 61 65 69 75 73 66 59 67 50 43 45 53 51 67 66 62 65 68 69 60 49 数字を見てもさっぱり分からん… 0 0 0 3 7 21 21 26 23 3 0 0 0 0 0 3 13 24 31 28 26 3 0 0

14.

見た目でわかるようにしよう

15.

データの可視化年 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 月 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 アイスクリームの平均湿度日最高気温25℃ 平均購入額 (％) 以上日数(日) 日最高気温の平均(℃) 降水量の合計(mm) 331 268 365 492 632 730 821 1057 724 430 363 415 351 322 367 508 667 772 1148 1080 653 434 358 388 9.3 9.9 12.7 19.2 22.4 26.6 26 29.5 28.1 21.4 17.4 13.2 10.1 12.9 14 21.3 23.7 27.5 33.1 31 28.7 20.7 19 13.4 101 53.5 159.5 121 172.5 85 187.5 370 150 171.5 229.5 53 3.5 20 129.5 69.5 149 112.5 23.5 79.5 195 780 108.5 79.5 46 52 49 61 65 69 75 73 66 59 67 50 43 45 53 51 67 66 62 65 68 69 60 49 0 0 0 3 7 21 21 26 23 3 0 0 0 0 0 3 13 24 31 28 26 3 0 0 アイスクリームの購入額と気温の関係が知りたい！！グラフにしよう！！

16.

グラフにするアイスクリームの平均購入額日最高気温の平均(℃) 331 268 365 492 632 730 821 1057 724 430 363 415 351 322 367 508 667 772 1148 1080 653 434 358 388 9.3 9.9 12.7 19.2 22.4 26.6 26 29.5 28.1 21.4 17.4 13.2 10.1 12.9 14 21.3 23.7 27.5 33.1 31 28.7 20.7 19 13.4 座標は(最高気温，購入額) (29.5, 1057) (23.7, 667) (13.4, 388) 数値のペア(最高気温と購入額)を点で表す．

17.

グラフにする座標は(最高気温，購入額) 数値のペアを点で表したグラフを散布図という．

18.

グラフにすると分かることがある最高気温と購入額に右肩上がりの関係がありそうだ！！座標は(最高気温，売上)

19.

データの可視化日最高気日最高気アイスクリーム温の平均降水量の平均湿度温25℃以上 (℃) 日数(日) 合計(mm ) (％) 月の平均購入額年 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2003 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 数値が多すぎてよく分からない 331 268 365 492 632 730 821 1057 724 430 363 415 351 322 367 508 667 772 1148 1080 653 434 358 388 9.3 9.9 12.7 19.2 22.4 26.6 26 29.5 28.1 21.4 17.4 13.2 10.1 12.9 14 21.3 23.7 27.5 33.1 31 28.7 20.7 19 13.4 101 53.5 159.5 121 172.5 85 187.5 370 150 171.5 229.5 53 3.5 20 129.5 69.5 149 112.5 23.5 79.5 195 780 108.5 79.5 46 52 49 61 65 69 75 73 66 59 67 50 43 45 53 51 67 66 62 65 68 69 60 49 0 0 0 3 7 21 21 26 23 3 0 0 0 0 0 3 13 24 31 28 26 3 0 0 データの可視化膨大な数の数値の並びでは確認しにくい数値の関係を、グラフなどで分かりやすくする見えるようにすることを可視化という．グラフは見た目でわかる

20.

線を引いてみる

21.

線をひくデータに沿って線を引いてみる．このデータの点に基づき引かれた線のことを回帰直線という．

22.

回帰直線をひいて何が分かる最高気温から購入額が予測できるかも．今日は25度，明日は30度の予想だから明日は1.2 倍売れそうだ！！約950円約770円 1.2倍

23.

ここまでのまとめ • データに基づいて考えることが大事です． • 勘ではダメです． • データを可視化しましょう． • 数値だけ見てもよく分かりません． • 数値の関係を直線で表そう． • 関係の強さが分かったり，数値の予測ができるかもしれません．

24.

用語解説

25.

説明変数と目的変数今日は25度，明日は30度の予想だから明日は1.2 倍売れそうだ！！最高気温から購入額が求まる．最高気温から購入額が説明できる．最高気温で購入額を説明できるので，最高気温を説明変数という．購入額は予測したい対象なので，購入額を目的変数という．

26.

回帰 • 最高気温とアイスの購入額の関係を直線で表した． • この直線を回帰直線（回帰線）という[1]． • 数値と数値の関係の式を求める問題を回帰問題という． • 特に数値の関係を直線とする場合を線形回帰といい，特に説明変数と目的変数が，それぞれ１つの場合を単回帰という．購入額 • 回帰を用いデータの定量的な関係を説明しようとすることを回帰分析という．気温 1. https://www.stat.go.jp/naruhodo/10_tokucho/hukusu.html

27.

回帰直線の求め方

28.

どうやって線を引けばよいのだろうかどう線をひけばよいのやら…

29.

データ点が2つの場合データ点が2つしかない場合を考えてみよう．この散布図に回帰直線を引く場合，どんな線が良いだろうか？購買金額𝑡 𝑥2 , 𝑡2 𝑥1 , 𝑡1 最高気温𝑥

30.

データ点が2つの場合購買金額𝑡 購買金額𝑡 どちらの回帰直線が良いと思いますか？最高気温𝑥 最高気温𝑥

31.

データ点が2つの場合購買金額𝑡 購買金額𝑡 どちらの回帰直線が良いと思いますか？最高気温𝑥 こちらが良さそう最高気温𝑥 良さそうなだけで正しいかどうかは分からない！！

32.

データ点が2つの場合購買金額𝑡 購買金額𝑡 どちらの回帰直線が良いと思いますか？なんで？こちらが良さそう最高気温𝑥 最高気温𝑥

33.

回帰直線は予測する

34.

回帰直線をひいて何が分かる最高気温から購入額が予測できるかも．今日は25度，明日は30度の予想だから明日は1.2 倍売れそうだ！！約950円約770円 1.2倍

35.

回帰直線から予測する約950円約770円 1.2倍回帰直線を用い気温に対する購入額が予測できる．回帰直線から25度のとき770円と予測する．回帰直線から30度のとき950円と予測する．

36.

回帰直線から予測する約950円 1.2倍回帰直線から予測できる．約770円回帰直線を用い気温に対する購入額が予測できる．回帰直線から25度のとき770円と予測する．回帰直線から30度のとき950円と予測する．

37.

良い回帰直線とは回帰直線から予測できる．予測が当たる回帰直線が良い．

38.

良い回帰直線とは予測が当たる回帰直線が良い．観測値と予測値の差が小さい回帰直線が良い．

39.

差の大きさの平均で評価する

40.

観測値観測した購入額𝑡2 観測した購入額𝑡1 気温𝑥1 気温𝑥2 気温𝑥1 に対し実際に観測した購入額𝑡1 がある．気温𝑥2 に対し実際に観測した購入額𝑡2 がある．実際に観測した値のことを観測値と呼ぶ．

41.

予測値観測した購入額𝑡2 購入額の予測𝑦2 購入額の予測𝑦1 観測した購入額𝑡1 気温𝑥1 気温𝑥2 気温𝑥1 に対し回帰直線から予測した購入額𝑦1 がある．気温𝑥2 に対し回帰直線から予測した購入額𝑦2 がある．回帰直線から予測した値のことを予測値と呼ぶ．

42.

誤差予測値と観測値の差を誤差という．気温𝑥1 のときの誤差 𝑒1 𝑒1 = 𝑡1 − 𝑦1 気温𝑥2 のときの誤差 𝑒2 𝑒2 = 𝑡2 − 𝑦2 観測した購入額𝑡2 誤差𝑒2 購入額の予測𝑦2 購入額の予測𝑦1 誤差𝑒1 観測した購入額𝑡1 気温𝑥1 気温𝑥2

43.

誤差は相殺される全ての誤差が小さい回帰直線が良いと考える．そうすると，誤差の平均𝐸が小さい回帰直線が良いとつい考えてしまう．それで良いのか？誤差の平均 1 𝐸 = (𝑒1 + 𝑒2 ) 2 観測した購入額𝑡2 購入額の予測𝑦2 誤差𝑒2 = −10 購入額の予測𝑦1 誤差𝑒1 = 10 観測した購入額𝑡1 例えば，𝑒1 = 10，𝑒2 = −10だとしたら気温𝑥 誤差の平均は 1 𝐸 = 10 − 10 = 0 2 となる，誤差があるにも関わらず，誤差の平均を見ると誤差がないように見える（誤差が相殺される）． 1 気温𝑥2

44.

予測値と観測値の差誤差そのものではなく，誤差の大きさを使えば誤差の相殺を避ける事ができる．ここで誤差の大きさに誤差の二乗を採用しよう．これを二乗誤差と呼ぶ．二乗誤差の平均は次の式で書ける． 1 2 𝐸 = 𝑒1 + 𝑒22 2 1 = 𝑡1 − 𝑦1 2 + 𝑡2 − 𝑦2 2 2 観測した購入額𝑡2 誤差𝑒2 購入額の予測𝑦2 購入額の予測𝑦1 誤差𝑒1 これを平均二乗誤差と呼ぶ．観測した購入額𝑡1 気温𝑥1 気温𝑥2

45.

データ点が2つの場合 1 平均二乗誤差：𝐸 = 2 𝑡1 − 𝑦1 2 + 𝑡2 − 𝑦2 2 平均二乗誤差が大きいからだめ．平均二乗誤差：𝐸 = 0 平均二乗誤差が小さいから良い．

46.

複数のデータ点がある場合通常はデータの中に複数のデータ点がある．データ点が𝑁個あるとすると，平均二乗誤差𝐸は次のように書ける． 𝑖=1 𝑁 1 = ෍ 𝑡𝑖 − 𝑦𝑖 2 𝑁 誤差𝑒4 購買金額𝑡 1 2 𝐸= 𝑒1 + 𝑒22 + ⋯ + 𝑒𝑁2 𝑁 𝑁 1 = ෍ 𝑒𝑖2 𝑁 誤差𝑒2 誤差𝑒1 = 𝑡1 − 𝑦1 𝑖=1 最高気温𝑥 誤差𝑒3

47.

良い回帰直線とは予測が当たる回帰直線が良い．観測値と予測の差が小さい回帰直線が良い．平均二乗誤差の値が小さい回帰直線が良い．

48.

目的関数 • 機械学習や人工知能の世界では，小さくしたい関数を目的関数という． • ここで説明した回帰問題では平均二乗誤差が目的関数となる． • 機械学習や人工知能は，多くの場合，目的関数を最小化することを目標としている． • つまり，回帰直線を求める考え方は人工知能技術でよく用いられる考え方である． • 回帰直線を理解することで多くの人工知能技術を理解することができる．最小化は最大化と等しい．目的関数にマイナスをかければ最大化問題が最小化問題に切り替わる．

49.

解析的に最適な回帰直線を求める発展

50.

回帰直線の式回帰直線は次のような直線の式で表せる．傾き目的変数切片説明変数実際に線を引くためには，傾き 𝑎と切片𝑏をデータから求めなければならない．購買金額𝑡 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏 切片𝑏 傾き𝑎 増える 1移動最高気温𝑥

51.

線形回帰モデル 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏 この式は，回帰方程式や回帰関数などと呼ばれる．この式は最も単純な線形回帰モデルである．しばしば単に線形回帰と呼ばれる．モデルとは，観測でデータ化された現象を説明する何かである．ここでは，𝑦を𝑥に変換する箱と思っておく．モデルの動作を決定する変数をパラメタという（ここでは傾き𝑎と切片𝑏）．発展的内容モデルが𝑦 = σ𝑀−1 𝑖=0 𝑤𝑖 𝜙𝑖 𝐱 のような線形結合で書ける場合，そのモデルを線形モデルと呼ぶ (Bishop「パターン認識と機械学習」)．

52.

平均二乗誤差の最小化 • 平均二乗誤差の値を最小にする傾き𝑎と切片𝑏をどう決めるか． • 高校数学では関数の最小値を求めるとき，極小値を求めた． • 関数が極小値をとるとき，その微分は0であった． • つまり，平均二乗誤差𝐸を最小にする場合 𝜕𝐸 𝜕𝑎 𝜕𝐸 = 0， 𝜕𝑏 平均二乗誤差𝐸 =0 • を満たすと考えられる．最小値＝極小値 • よって，偏導関数を0とする𝑎と𝑏を求めれば良い．ここでは誤魔化しが入っている．詳細は後の発展的内容「本当に最小値はあるのか」で説明する． 𝜕𝐸 =0 𝜕𝑎 接線

53.

傾き𝒂と切片𝒃の導出平均二乗誤差は 𝑁 1 𝐸 = ෍ 𝑡𝑖 − 𝑦𝑖 2 𝑁 平均二乗誤差を𝑏で偏微分すると 𝑁 𝜕𝐸 1 = − ෍ 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 = 0 𝜕𝑏 𝑁 𝑖=1 直線の式𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏を代入すると 𝑁 1 𝐸 = ෍ 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 2 𝑁 𝑖 𝑁 𝑖 1 ෍ 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 = 0 𝑁 𝑖 𝑁 𝑁 𝑖 𝑁 𝑖 1 1 ෍ 𝑏 = ෍ 𝑡𝑖 − 𝑎𝑥𝑖 𝑁 𝑁 𝑁 1 1 𝑏 = ෍ 𝑡𝑖 − 𝑎 ෍ 𝑥𝑖 = 𝑡ҧ − 𝑎𝑥ҧ 𝑁 𝑁 𝑖 𝑖

54.

傾き𝒂と切片𝒃の導出 𝑁 平均二乗誤差を𝑎で偏微分すると 1 𝐸 𝑥 = 𝑥ҧ = ෍ 𝑥𝑖 𝑁 𝑖=1 𝑁 𝐸 𝑥 − 𝑥ҧ 2 = 𝐸 𝑥 2 − 2𝑥 𝑥ҧ + 𝑥ҧ 2 = 𝐸 𝑥 2 − 2𝑥𝐸 ҧ 𝑥 + 𝑥ҧ 2 = 𝑥 2 − 𝑥ҧ 2 𝑖 𝐸 𝑥 − 𝑥ҧ 𝑡 − 𝑡ҧ ഥ = 𝐸 𝑥𝑡 − 𝐸 𝑥 𝑡ҧ − 𝑥𝐸 ҧ 𝑡 + 𝑥𝑡 ഥ − 𝑡ҧ𝑥ҧ = 𝐸 𝑥𝑡 − 𝑡ҧ𝑥ҧ − 𝑡ҧ𝑥ҧ + 𝑡ҧ𝑥ҧ = 𝑥𝑡 𝜕𝐸 1 = − ෍ 𝑥𝑖 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 = 0 𝜕𝑎 𝑁 𝑁 𝑁 1 1 2 𝑎 ෍ 𝑥𝑖 = ෍ 𝑥𝑖 𝑡𝑖 − 𝑏 𝑁 𝑁 𝑁 𝑎𝑥 2 = 𝑖 𝑁 𝑖 1 1 ഥ − 𝑏𝑥ҧ = 𝑥𝑡 ഥ − 𝑡ҧ − 𝑎𝑥ҧ 𝑥ҧ ෍ 𝑥𝑖 𝑡𝑖 − ෍ 𝑏𝑥𝑖 = 𝑥𝑡 𝑁 𝑁 𝑖 𝑖 1 𝑁 ഥ − 𝑡ҧ𝑥ҧ 𝑁 σ𝑖 𝑥𝑖 − 𝑥ҧ 𝑡𝑖 − 𝑡ҧ 𝑥𝑡 𝑎= 2 = 1 𝑁 𝑥 − 𝑥ҧ σ𝑖 𝑥𝑖 − 𝑥ҧ 2 𝑁

55.

データから推定されるパラメタ回帰直線は次のような直線の式で表せる． 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏 回帰直線のパラメタ𝑎, 𝑏は平均二乗誤差の最小化から次のように推定される．特に傾き𝑎のことを偏回帰係数という． 1 𝑁 σ𝑖 𝑥𝑖 − 𝑥ҧ 𝑡𝑖 − 𝑡ҧ 𝑎=𝑁 1 𝑁 σ𝑖 𝑥𝑖 − 𝑥ҧ 2 𝑁 𝑏 = 𝑡ҧ − 𝑎 𝑥ҧ 偏回帰係数の偏は略すことが多い(東京大学教養学部統計学教室「統計学入門」)．

56.

推定した傾きを眺める共分散：Cov 𝑥, 𝑡 = 1 ҧ σ𝑁 𝑖 𝑥 − 𝑥ҧ 𝑡 − 𝑡 1 𝑁 分散： Var 𝑥 = σ 𝑥 − 𝑥ҧ σ𝑖 𝑥𝑖 − 𝑥ҧ 𝑡𝑖 − 𝑡ҧ 𝑎=𝑁 1 𝑁 σ𝑖 𝑥𝑖 − 𝑥ҧ 2 𝑁 観測値の説明変数と目的変数の共分散 Cov 𝑥, 𝑡 = 観測値の説明変数の分散 Var 𝑥 Cov 𝑥, 𝑡 Var 𝑡 = Var 𝑥 Var 𝑡 Var 𝑥 1 𝑁 相関係数𝑟 𝑁 𝑁 𝑖 𝑖 2 発展標準偏差の比傾きは，相関係数×標準偏差の比になっている．標準偏差の比は説明変数と目的変数がとる値の範囲の比と見なせる．また，回帰直線は 𝑦 Var 𝑡 =𝑟 𝑥 Var 𝑥 + 𝑏 Var 𝑡 と変換できることから，相関係数𝑟は各変数を標準偏差で標準化したときに得られる回帰直線の傾きと言える．また，傾きから説明変数がとる値の範囲の影響を取り除いた相関係数を得るために，傾きに標準偏差の比をかけるとも見ることもできる．

57.

相関係数

58.

どの要素が一番効果がありそう？降水量，湿度のデータもあるので，アイスクリームの平均購入額と最高気温，降水量，湿度の回帰直線を比べてみよう．

59.

どの要素が一番効果がありそう？傾き: 36.01 傾き: 0.54 傾き: 22.35 傾きを見ると，傾きが大きい購入額と温度の関係が一番重要そうだ．

60.

どの要素が一番効果がありそう？傾き: 36.01 傾き: 0.54 傾き: 22.35 本当にそれでよいの？傾きを見ると，傾きが大きい購入額と温度の関係が一番重要そうだ．

61.

どの要素が一番効果がありそう？傾き: 36.01 傾き: 0.54 傾き: 22.35 最高気温と湿度は2桁の値をとっている．一方で降水量は3桁の値をとっている．縦軸の値の範囲は同じで横軸がとる値の範囲が違うにも関わらず，回帰直線の傾きを比較してよいのだろうか．当然，値が大きい降水量が説明変数と購買額の回帰直線の傾きの大きさは他に比べ，とても小さい．

62.

相関係数 • 値の大きさに関わらず2変数の関係の様子を表す指標に相関係数がある． • 相関係数𝑟は次の式で表される． • 相関係数はつねに−1 ≤ 𝑟 ≤ 1の範囲にある． 𝑟= Cov 𝑥, 𝑡 Var 𝑥 説明変数の標準偏差相関係数は𝑥と𝑡を入れ替えても同じ値になるため，2変数の役割の区別は無い．スライドの文脈上，説明変数と目的変数という言葉を使ったが，相関係数では区別しないため，実際には単なる変数である．説明変数と目的変数の共分散 Var 𝑡 目的変数の標準偏差共分散：Cov 𝑥, 𝑡 = ҧ σ𝑁 𝑖 𝑥 − 𝑥ҧ 𝑡 − 𝑡 𝑁 𝑁 = σ𝑖 𝑥𝑖 − 𝑥ҧ 2 𝑁 1 この相関係数は，特にピアソンの積率相関係数と呼ばれる． 1 分散： Var 𝑥 標準偏差： 𝜎(𝑥) = Var 𝑥

63.

相関とは • 統計の世界では，２つの変数間に直線関係に近い傾向がある場合，相関関係があるという． • 一方の変数が増加し，他方の変数も増加する場合を正の相関があるという． • 逆に，一方の変数が増加し，他方の変数が減少する場合を負の相関があるという． • 関係の強さの度合いを「強い」，「弱い」と表現する． (東京大学教養学部統計学教室「統計学入門」)

64.

相関

65.

どの関係を使うのが一番良さそう？相関係数: 0.90 相関係数: 0.18 相関係数: 0.74 相関係数から購入額と温度に強い正の相関がある．購入額と温度の関係が一番重要そうだ．

66.

注意 • 相関があるからと言って因果関係があるわけではない． •例 • 部屋の明るさと視力の悪さを調べたら，部屋が明るいほど視力が悪かった（負の相関があった）． • この結果から，部屋が明るいと視力が悪くなると考えてよいか？ • 実は，家族全員の視力が悪いため部屋を明るくしていただけだった． • 因果関係があるからと言って相関があるわけではない． •例 • 車のアクセルは踏めば踏むほど速度が出る（因果関係がある）． • 因果関係があるからといって，アクセルを踏む量と速度に相関があるわけではない．

67.

相関係数の値の範囲 𝑟= = 𝐶𝑜𝑣 𝑥, 𝑡 𝑉𝑎𝑟 𝑥 𝑉𝑎𝑟 𝑡 = 1 𝑁 σ𝑖 𝑥𝑖 − 𝑥ҧ 𝑡𝑖 − 𝑡ҧ 𝑁 1 2 σ𝑁 𝑡 − 𝑡ҧ 2 σ𝑁 𝑥 − 𝑥 ҧ 𝑖 𝑖 𝑖 𝑖 𝑁 𝑥1 − 𝑥,ҧ 𝑥2 − 𝑥,ҧ … , 𝑥𝑁 − 𝑥ҧ 𝑡1 − 𝑡,ҧ 𝑡2 − 𝑡,ҧ … , 𝑡𝑁 − 𝑡ҧ 𝑇 𝑥1 − 𝑥,ҧ 𝑥2 − 𝑥,ҧ … , 𝑥𝑁 − 𝑥ҧ 𝑡1 − 𝑡,ҧ 𝑡2 − 𝑡,ҧ … , 𝑡𝑁 − 𝑡ҧ ҧ 𝑡2 − 𝑡,ҧ … , 𝑡𝑁 − 𝑡ҧ 𝑇 𝑥 − 𝑥, ҧ 𝑥 − 𝑥, ҧ … , 𝑥 − 𝑥 ҧ 𝑡 − 𝑡, 1 2 𝑁 1 𝑟2 = 𝑥1 − 𝑥,ҧ 𝑥2 − 𝑥,ҧ … , 𝑥𝑁 − 𝑥ҧ 2 𝑡1 − 𝑡,ҧ 𝑡2 − 𝑡,ҧ … , 𝑡𝑁 − 𝑡ҧ コーシー・シュワルツの不等式 𝒖 ⋅ 𝒗 𝟐 ≤ 𝒖 𝟐 𝒗 𝟐より 𝑟2 ≤ 𝑥1 − 𝑥,ҧ 𝑥2 − 𝑥,ҧ … , 𝑥𝑁 − 𝑥ҧ 𝑥1 − 𝑥,ҧ 𝑥2 − 𝑥,ҧ … , 𝑥𝑁 − 𝑥ҧ 2 2 𝑡1 − 𝑡,ҧ 𝑡2 − 𝑡,ҧ … , 𝑡𝑁 − 𝑡ҧ 𝑡1 − 𝑡,ҧ 𝑡2 − 𝑡,ҧ … , 𝑡𝑁 − 𝑡ҧ 2 2 2 2 =1 よって −1 ≤ 𝑟 ≤ 1 発展

68.

誤差の二乗和でもよい

69.

誤差の二乗和が用いられる • 平均二乗誤差が最も小さい回帰直線が良いとした． • 平均を取らず二乗誤差の和（誤差の二乗和，二乗和誤差）でもよい． • 多くの書籍では，平均二乗誤差ではなく誤差の二乗和を最小化している． • 誤差の二乗和(SSE: Sum of Squared Errors) 2 • SSE = σ𝑁 𝑡 − 𝑦 𝑖 𝑖=1 𝑖 • 平均二乗誤差(MSE: Mean Squared Error) 1 • MSE = 𝑁 𝑆𝑆𝐸

70.

誤差の二乗和と平均二乗誤差は同じ推定を導く • 誤差の二乗和(SSE: Sum of Squared Errors) 2 • SSE = σ𝑁 𝑡 − 𝑦 𝑖 𝑖=1 𝑖 • 平均二乗誤差(MSE: Mean Squared Error) • MSE = 1 𝑁 𝑆𝑆𝐸 • 式で見る通り，平均二乗誤差は誤差の二乗和をデータ点数𝑁で割ったものである（定数倍しただけ）． • どちらを使っても，同じパラメタが求まる．

71.

最小二乗法 • 誤差の二乗和を最小にしパラメタを推定する方法は最小二乗法と呼ばれる． • 本スライドでは平均二乗誤差からパラメタを導出したが，誤差の二乗和を用いても導出過程は同じである． • 最小二乗法により推定したパラメタの値は，最小二乗推定量と呼ばれる．

72.

まとめ

73.

まとめ • データに基づいて考えることが大事です． • 勘ではダメです． • データをグラフを使って可視化しましょう． • グラフにすると数値同士の関係が分かるかもしれません． • 数値の関係を回帰直線で表そう． • 予測ができるかもしれません． • 回帰直線は，観測値と予測値の誤差の大きさの和（平均）が最小となる直線を選ぼう． • 相関係数を使うと，各説明変数と目的変数の関係の強さが分かるかもしれない．

74.

注意

75.

回帰直線の正解は分からない • 数式を使って回帰直線を導出すると，求めた回帰直線が正解であると思ってしまう． • しかし，我々には回帰直線の正解は分からない． • 業界では「神様しか知らない」と言ったりする． • だから，我々が求めた回帰直線は見当外れで，役に立たないものかもしれない． • 今回求めた回帰直線は，いくつもの前提条件をおいた上で求まった人間の先入観が入っている線であることを忘れないで欲しい．先入観の例 • 目的変数の関係を直線を採用している． • 誤差を観測値と推測値の差で求めている． • 誤差の二乗を誤差の大きさとしている．

76.

他にも要因はなかったか？

77.

他の要因はなかったか • その他の要因は無かったですか？明日は今日より暑くなるから今日の倍アイスを仕入れよう！！根拠のない予測 • 複数の要因を検討しましょう．湿度が低くて涼しいかも雨で人が来ないかもカープやサンフレッチェの試合があるかも気温，湿度，天気，イベントなど，いろいろ考慮に入れないと…．

78.

疑問

79.

疑問直線ではなく曲線のほうが良いのでは？外れたところにある点が邪魔をしている気がする．外れ値温度の違いで性質が異なっているのでは？ 3つの説明変数を使って購入額（目的変数）を予測したいしたい．

80.

疑問 • 変な値（外れ値）があった場合どうすればよいの． • 誤差は二乗誤差で良いの？ • データ点と直線の距離を最小化するのではだめなのか？ • 直線で良いの？曲線ではだめなの？ • 複数要因がある場合，個別に評価してよいの？ • 複数要因がある場合，どうやってそれらを同時に評価するの？ • 天気やイベントの有る無しは数値では無いので，どう扱えば良いの？ • 数値の予測ではなく数値を分けたいときどうすればよいの？ • 要因が非常に沢山ある場合はどうすればよいの？

81.

発展的内容

82.

なぜ誤差の二乗和がよく使われるのか超発展

83.

線形回帰を統計から考えてみる • 𝑁個の観測値𝑥（説明変数）からなる𝐱 = 𝑥1 , … , 𝑥𝑁 𝑇 がある． • それぞれに対応した観測値𝑡（目的変数）からなる𝐭 = 𝑡1 , … , 𝑡𝑁 がある． • 説明変数𝑥に対応する目的変数𝑡の平均が𝑦 = 𝑎𝑥 + 𝑏であるガウス分布に従うとする． • 𝑝 𝑡 𝑥, 𝑎, 𝑏 = 𝑁 𝑡 𝑦 𝑥 , 𝛽 −1

84.

尤度関数 • データ集合が生成される確率は，すべてのデータ点が生成される同時確率で表される． • 𝑝 𝐭 𝐱, 𝑎, 𝑏 = 𝑝 𝑡1, 𝑡2, … , 𝑡𝑁 𝐱, 𝑎, 𝑏 • データ点同士が互いに独立であるとすると，同時確率は積に分解できる． 𝑝 𝐭 𝐱, 𝑎, 𝑏 = 𝑝 𝑡1 , 𝑡2 , … , 𝑡𝑁 𝐱, 𝑎, 𝑏 = 𝑝 𝑡1 𝑥1 , 𝑎, 𝑏 𝑝 𝑡2 𝑥2 , 𝑎, 𝑏 … 𝑝 𝑡𝑁 𝑥𝑁 , 𝑎, 𝑏 互いに独立だから 𝑁 = ෑ 𝑝 𝑡𝑛 𝑥𝑛 , 𝑎, 𝑏 𝑛=1 • これを𝑎, 𝑏の関数と見なすと，これはガウス分布の尤度関数である．

85.

最尤推定 • ここで最も良いパラメタは，尤度関数を最大にするパラメタだと考える． • 尤度関数は，あるパラメタにおけるデータの生成確率だから，この生成確率が最も高いパラメタが最も尤もらしいと考える． • この考え方に基づきパラメタを推定する方法を最尤推定という． • 尤度関数を最大にするパラメタは，尤度関数の微分が0となる値であろう． • しかし，尤度関数を微分するのは難しいので，尤度関数の対数，すなわち対数尤度関数の微分を取ることにする．対数は単調増加関数であ最尤推定 ς𝑁 𝑛=1 𝑝 𝑡𝑛 𝑥𝑛 , 𝑎, 𝑏 を最大にする𝑎, 𝑏を求める．るため，尤度関数の最大化は対数尤度関数の最大化と等価である．対数をとる 𝑁 σ ln ς𝑁 𝑝 𝑡 𝑥 , 𝑎, 𝑏 = 𝑛 𝑛 𝑛=1 𝑛=1 ln 𝑝 𝑡𝑛 𝑥𝑛 , 𝑎, 𝑏 を最大にする𝑎, 𝑏を求める．積が和になって楽になった

86.

対数尤度関数 • データ集合に含まれるデータ点は，互いに独立であるとすると，尤度関数は −1 • 𝑝 𝒕 𝐱, 𝑎, 𝑏 = ς𝑁 𝑁 𝑡 𝑦 , 𝛽 𝑛 𝑛 𝑛 • 対数尤度は • ln ς𝑁 𝑛 𝑁 𝑡𝑛 1 𝛽 𝑦𝑛 , 𝛽 −1 = σ𝑁𝑛=1 ln 2𝜋𝛽−1 1/2 exp − 2 𝑡𝑛 − 𝑦𝑛 2 = 𝛽 𝑁 𝑁 𝑁 2 − σ𝑛=1 𝑡𝑛 − 𝑦𝑛 + ln 𝛽 − ln 2𝜋 2 2 2 互いに独立データ生成真の関数 𝑥1 𝑥2 𝑥3 データ点同士に依存性はない． 𝑥1 が𝑥2 の発生確率に影響しない． …

87.

𝒂, 𝒃の推定 • 対数尤度関数を最大にする𝑎, 𝑏を探す． • この場合，𝑎, 𝑏に関係する項のみ考えればよい． • そうすると， σ𝑁𝑛=1 𝑡𝑛 − 𝑦𝑛 2 だけ考えればよいことがわかる． • つまり，対数尤度関数の最大化はσ𝑁𝑛=1 𝑡𝑛 − 𝑦𝑛 2 の最小化となる． • これは誤差の二乗和の最小化となっており，最小二乗法と一致する． 𝑁 対数尤度関数 𝛽 𝑁 𝑁 2 − ෍ 𝑡𝑛 − 𝑦𝑛 + ln 𝛽 − ln 2𝜋 2 2 2 𝑛=1 これを最小化する＝誤差の二乗和の最小化関係ない

88.

誤差の二乗和がよく使われる • 最尤推定という統計的手法から考えると，誤差の二乗和から回帰直線を求めるのが自然に思える．

89.

本当に最小値はあるの？超発展

90.

偏微分を使った • 先のスライドでは，平均二乗誤差を最小とするパラメタを求めるために微分が0となるパラメタを選ぶとした． • 実は，そこで用いた微分は偏微分であった． • 偏微分とは他の変数を固定して微分する方法である． • 𝜕𝐸 • 𝜕𝐸 𝜕𝑎 𝜕𝑏 の場合，𝑏を固定して𝐸を𝑎で微分することを意味する．の場合，𝑎を固定して𝐸を𝑏で微分することを意味する．

91.

本当に最小値があるのか？ • 偏微分により得られた偏導関数が0となるパラメタが平均二乗誤差を最小にすると思ってパラメタを決めたが，本当に偏導関数が0のとき平均二乗誤差は最小となるのだろうか？ • 1変数の関数であっても，極小値が最小値であるとは限らなかった． • 2変数の場合どう確認すればよいだろうか？

92.

ヘッセ行列 • まず，2変数の関数の極値が極小値であるかどうか調べる． • これは，ヘッセ行列と呼ばれる行列を用いて判定する． • ヘッセ行列は次のように定義される． 𝜕 2 𝐸(𝑎, 𝑏) 2 𝜕𝑎 𝐻(𝑎, 𝑏) = 2 𝜕 𝐸(𝑎, 𝑏) 𝜕𝑎𝜕𝑏 𝜕 2 𝐸(𝑎, 𝑏) 𝜕𝑎𝜕𝑏 𝜕 2 𝐸(𝑎, 𝑏) 𝜕𝑏 2 • 極値に関する判別式𝐷は 𝜕2 𝐸(𝑎,𝑏) 𝜕2 𝐸(𝑎,𝑏) 𝜕2 𝐸(𝑎,𝑏) 𝐷(𝑎, 𝑏) = det 𝐻 (𝑎, 𝑏) = 𝜕𝑎2 − 𝜕𝑎𝜕𝑏 𝜕𝑏2 • である． 2

93.

極値の判別 • 𝜕𝐸(𝑎,𝑏) 𝜕𝑎 = 0， 𝜕𝐸(𝑎,𝑏) 𝜕𝑏 ෠ = 0とする臨界点が𝑎, ො 𝑏であるとする． • 𝐷 𝑎, ො 𝑏෠ > 0のとき ො 𝑏෠ 𝜕 2 𝐸 𝑎, 𝜕𝑎2 ො 𝑏෠ 𝜕 2 𝐸 𝑎, 𝜕𝑎2 ෠ > 0のとき𝑎, ො 𝑏で極小値をとる． ෠ < 0のとき𝑎, ො 𝑏で極大値をとる． • 𝐷 < 0のとき 𝑎, ො 𝑏෠ で鞍点をとる． • 𝐷 = 0のとき判定できない． • 以上のようにヘッセ行列から極値の判別ができる．

94.

誤差の二乗和は極小値を持つ誤差の二乗和はよって判別式𝐷は 𝑁 𝐸 = ෍ 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 2 𝑖 𝜕2𝐸 𝜕2𝐸 𝜕2𝐸 𝐷= 2 2− 𝜕𝑎 𝜕𝑏 𝜕𝑎𝜕𝑏 𝑁 2 𝜕𝐸 = −2 ෍ 𝑥𝑖 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 𝜕𝑎 𝑖 𝑁 𝜕𝐸 = −2 ෍ 𝑡𝑖 − 𝑎𝑥𝑖 − 𝑏 𝜕𝑏 𝑖 さらに2階の偏導関数は 𝑁 𝜕2𝐸 2 = 2 ෍ 𝑥 𝑖 𝜕𝑎2 𝜕2𝐸 𝑖 2 = 2𝑁 𝜕𝑏 𝑁 𝜕2𝐸 = 2 ෍ 𝑥𝑖 𝜕𝑎𝜕𝑏 𝑖 𝑁 𝑖 2 𝑁 1 1 2 2 2 = 4𝑁 ෍ 𝑥𝑖 − 4𝑁 ෍ 𝑥𝑖 𝑁 𝑁 𝑖 2 = 4𝑁 ෍ 𝑥𝑖2 − 4 ෍ 𝑥𝑖 𝑎, 𝑏それぞれで偏微分すると 𝑁 𝑁 𝑖 = 4𝑁 2 𝐸 𝑥 2 − 𝐸 2 𝑥 𝑖 = 4𝑁 × 𝑉𝑎𝑟(𝑥) 分散が存在すれば（データ点がばらついていれば） 𝑉𝑎𝑟 𝑥 > 0だから 𝐷>0 となる．さらに， 𝜕2𝐸 𝑁 = 2 ෍ 𝑥𝑖2 > 0 2 𝜕𝑎 𝑖 だから，誤差の二乗和は極小値を持つ（当然平均二乗誤差も）．

95.

極小値は最小値か • 極小値を持つからと言って，それが最小値であるとは限らない． • 極小値が最小値であるためには，関数が凸関数である必要がある． • つまり，誤差の二乗和が凸関数であれば， 𝜕𝐸(𝑎,𝑏) 𝜕𝑎 = 0， 𝜕𝐸(𝑎,𝑏) 𝜕𝑏 = 0と ෠ する臨界点𝑎, ො 𝑏で最小値をとる． • 関数が凸関数かどうかもヘッセ行列から判別できる． • 関数が凸関数であればヘッセ行列は半正定値である．凸関数下にある

96.

ヘッセ行列は半正定値か • ヘッセ行列が半正定値とは，ヘッセ行列の固有値が0以上であることである． • ヘッセ行列は対称行列なので，固有方程式は 𝜕 2 𝐸(𝑎, 𝑏) 𝜕 2 𝐸(𝑎, 𝑏) 𝜆− 2 𝜕𝑎 𝜕𝑎𝜕𝑏 𝜆𝐼 − 𝐻 = 𝜕 2 𝐸(𝑎, 𝑏) 𝜕 2 𝐸(𝑎, 𝑏) 𝜆− 𝜕𝑎𝜕𝑏 𝜕𝑏 2 2 2 2 2 2 𝜕 𝐸 𝑎, 𝑏 𝜕 𝐸 𝑎, 𝑏 𝜕 𝐸 𝑎, 𝑏 𝜕 𝐸 𝑎, 𝑏 𝜕 𝐸 𝑎, 𝑏 2 =𝜆 −𝜆 + + − 2 2 2 2 𝜕𝑎 𝜕𝑏 𝜕𝑎 𝜕𝑏 𝜕𝑎𝜕𝑏 = 𝜆2 − 𝜆 tr𝐻 + det 𝐻 = 0 2

97.

正定値の条件 • 固有方程式 𝜆2 − 𝜆 tr𝐻 + det 𝐻 = 0が実数解を持ち，全ての解が０以上であれば固有値は０以上となり，ヘッセ行列は半正定値である． • 固有値は𝜆1 と𝜆2 の２つある．それぞれが０以上であれば • 𝜆1 + 𝜆2 ≥ 0, 𝜆1 𝜆2 ≥ 0 • の条件を満たす．

98.

固有方程式は解を持つか • 固有方程式 𝜆2 − 𝜆 tr𝐻 + det 𝐻 = 0が実数解を持つ場合，次の判別式 tr𝐻 2 − 4 det 𝐻 が正である． tr𝐻 2 − 4 det 𝐻 𝜕 2 𝐸 𝑎, 𝑏 𝜕 2 𝐸 𝑎, 𝑏 = + 2 𝜕𝑎 𝜕𝑏2 𝜕 2 𝐸 𝑎, 𝑏 = 𝜕𝑎2 2 2 𝜕 2 𝐸 𝑎, 𝑏 + 𝜕𝑏2 𝜕 2 𝐸 𝑎, 𝑏 𝜕 2 𝐸 𝑎, 𝑏 = − 𝜕𝑎2 𝜕𝑏2 2 𝜕2𝐸 𝜕2𝐸 𝜕2𝐸 −4 − 2 2 𝜕𝑎 𝜕𝑏 𝜕𝑎𝜕𝑏 2 2 𝜕2𝐸 𝜕2𝐸 𝜕2𝐸 −2 2 2 +4 𝜕𝑎 𝜕𝑏 𝜕𝑎𝜕𝑏 𝜕2𝐸 +4 𝜕𝑎𝜕𝑏 2 2 >0 • このように判別式 tr𝐻 2 − 4 det 𝐻 は正となり，複数の実数解を持つ．

99.

誤差の二乗和は最小値を持つ 𝜆2 − 𝜆 tr𝐻 + det 𝐻 = 0から 𝜆1 + 𝜆2 = tr𝐻 ≥ 0 𝜆1 𝜆2 = det 𝐻 ≥ 0 の条件を満たすとき，ヘッセ行列は半正定値である． 2 2 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0 −𝑏 + 𝑏2 − 4𝑎𝑐 −𝑏 − 𝑏2 − 4𝑎𝑐 𝑥1 = , 𝑥2 = 2𝑎2 2𝑎2 𝑏 𝑥1 + 𝑥2 = − 2 𝑎 2 2 𝑏 − 𝑏 + 4𝑎𝑐 4𝑎𝑐 𝑐 𝑥1𝑥2 = = = 4𝑎4 4𝑎4 𝑎3 𝑁 𝜕 𝐸 𝜕 𝐸 𝜆1 + 𝜆2 = tr𝐻 = 2 + 2 = 2 ෍ 𝑥𝑖2 + 2𝑁 > 0 𝜕𝑎 𝜕𝑏 𝑖 𝜆1 𝜆2 = det 𝐻 = 𝐷 > 0 よって誤差の二乗和のヘッセ行列は正定値であり，凸関数である．つまり，極小値は最小値である．

100.

感想単回帰は簡単ではない！！が，統計や機械学習の基礎が詰まっていて得られる知見は多い．

藤田一寿

関連スライド

図解Vision transformerの処理

自由エネルギー原理 -変分自由エネルギー-

Active inference 2 (能動的推論2)

Active inference 1 (能動的推論1)

自由エネルギー原理2 -期待自由エネルギー-

ニューラルネットワークの歴史と手法1

各ページのテキスト