2.7K Views
January 19, 24
スライド概要
神戸大学経営学部で2022年度より開講している「経営統計」の講義資料「13_社会における統計学の利用」です。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 13 社会における統計学の利用 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
本日の内容 最終回でこの話をすることで 今まで学んだ内容を通して より実生活との繋がりが感じられると良いなぁ… ……などと思っています。 ▌これまでの講義内容はあくまでもチュートリアル 仮説検定の仕組みがわかった程度では正直生きていけない ▌この先には何が待っているのかを少しでも概観してみたいと思います 実際に(社会)科学ではどのように統計が使われているか その背後にはどのような考え方があるのか(=これから何を学ぶ必要があるのか) できるだけこの講義で扱った内容をもとに 紹介していきたいと思います 試験にはほぼ出ないけど 今後の人生では最も役に立つ回…のような気がしています。 13 社会における統計学の利用 2
一般化線形モデル 確率分布のパラメータの観点から 13 社会における統計学の利用 3
分 分 の の 資料12 p. 11 のた に 確率 る いに いていく かの を く 正 が の は確率 に の のみで が まれ の の 分布に従 と仮定していた とのズ が の 分布に従 まる も まる とに る分布から が 回 する の統計 【 分 の モデル】 • 被説明変数 𝑦𝑖 は正 布に従う確率変数である • ただしその正 布の が個人ごとに異なる (𝜇𝑖 𝛽0 𝛽1 𝑥𝑖 ) 13 社会における統計学の利用 4
分布 ゃ かったら? の が もっと 資料12 p. 9 たら 確 ができる がする の 。 が ったらいい? 資料 ( ) ▌ PKの場合 ら き(分 ン ルに ) で てみる るのか? 際にはこ に ン ルでは いですが,イメー として てみます これまでの各 の 人 が といった の を考えると ん の き 日 が き あま の し い 各 𝑦𝑖 は成功/失敗の二値 1か0しかとらない 回 の (成功率) 回 はこの とは が い など が み合った もするは です 𝑦𝑖 が二項分布に従 と考えて なんとか回 をしよう! 𝑦𝑖 ∼ 𝐵𝑖𝑛𝑜𝑚 𝑝 に る の の とのズ の統計 【二項分布を用いた 分 の モデル】 • 被説明変数 𝑦𝑖 は𝑛 の二項 布に従う確率変数である • ただしその二項 布の成功確率𝑝が試行ごとに異なる (𝛽0 PK 𝛽1 𝑥𝑖 ) 13 社会における統計学の利用 キッカー キーパー 風 ☑Aさ □Bさ □Xさ ☑Yさ 1.6 m/s 成功 5
モデルの も ひとひね さ に いて ては モデル の のひらの上 ▌成功確率が モデルが しく𝑖 【 しく い 当然 𝑝𝑖 𝛽0 】 とに かったら の るとしても も い 𝑦𝑖 ∼ 𝐵𝑖𝑛𝑜𝑚 𝛽1 𝑥𝑖 のままだと0以下や1以上の は成功 失敗の二値 成功率を 通に回 しようとしたら 𝑝𝑖 𝑝𝑖 𝛽0 𝛽1 𝑥𝑖 を取ってしま 確率のは のに 以下とか 以上の が てき った 資料12 p. 32 データ の てはま はまあまあ 定 数は らい きの検定も になる ▌いい感 に 𝑝𝑖 換してあげましょ ▶ このケースでは 𝑝𝑖 exp回 𝛽0 の統計𝛽1 𝑥𝑖 exp 𝛽0 𝛽1 𝑥𝑖 𝛽0 𝛽1 𝑥𝑖 が有名 ロ スティック 換と呼 れます 単純に「取りうる値を0から1の範囲に収める」 ために使われがちな変換 13 社会における統計学の利用 𝑝𝑖 exp 𝛽0 𝛽1 𝑥𝑖 exp 𝛽0 𝛽1 𝑥𝑖 6
の確率分布だったら? がポアソン分布に従 ときの ▌被 【例】「気温」と「アイ の販売個数」の関 ▌ 販売 に る? 温が-3度を下 ると 販売 もマイナスに る? ると, の場合 はど 𝑦𝑖 ≃ 𝛽0 の 先程と 分 𝛽1 𝑥𝑖 𝑦𝑖 は0以上の整数しかとらない でもデータは 𝑦𝑖 がポアソン分布に従 と考えて なんとか回 をしよう! 𝑦𝑖 ∼ 𝑃𝑜𝑖𝑠 𝜆𝑖 𝜆𝑖 𝑦𝑖 ≃ log 𝛽0 𝛽1 𝑥𝑖 の ポアソ 布の メ タ𝜆も 0以上の しか いので exp 𝛽0 𝛽1 𝑥𝑖 と変換してあげる らかにこちらのほ が データにフィットしている 然0が最小 exp 𝑥 はかならず0以上の値をとります 13 社会における統計学の利用 7
分 の一般化 回 における ふ • に る の 被 の 𝛽0 𝛽1 𝑥𝑖 ロ スティック と 𝛽1 𝑥𝑖 の和 𝛽1 の 】 と 分 の和 𝑦𝑖 ∼ 𝐵𝑖𝑛𝑜𝑚 説明変数 𝑥𝑖 が大きいほど 被説明変数 𝑦𝑖 も大き なるか • 期待 係 𝛽1 の 𝜆𝑖 𝑝𝑖 】 説明変数 𝑥𝑖 が大きいほど 確率 𝑝𝑖 も大き なるか 部まと て ポアソン 分 𝜆𝑖 が と exp 𝛽0 𝛽1 𝑥𝑖 の和 𝑒𝑖 ※ただし少し変換をかけたもの ※ただし少し変換をかけたもの 【 とのズ exp 𝛽0 𝛽1 𝑥𝑖 𝑒𝑖 exp 𝛽0 𝛽1 𝑥𝑖 𝑒𝑖 𝛽1 𝑥𝑖 𝜎 2 𝑦𝑖 ∼ 𝑁 𝛽0 係 確率 𝑝𝑖 が 𝑝𝑖 𝑒𝑖 一般線形モデルとも呼 れます 【 • の の形を残しつつ… 𝑒𝑖 分 𝑦𝑖 が 𝑦𝑖 𝛽0 一般化線形モデル Generalized Linear Model (GLM) 13 社会における統計学の利用 𝑦𝑖 ∼ 𝑃𝑜𝑖𝑠 𝜆𝑖 【 係 𝛽1 の 】 説明変数 𝑥𝑖 が大きいほど 期待値 𝜆𝑖 も大き なるか と呼 れます もちろんこれら以外にも 様 な確率 布に基づ GLMがあります 8
一般化線形モデルに けるパラメータ 分布では い場合,最小二乗法は ▌ 試しに 直線からの 𝑦ො − 𝑦 を図示してみると… く い 厳密には直線ではないですが ポアソン の ロ スティック ベルヌ イ 布の 散は 𝑝 − 𝑝 です ポアソ 布の 散は 𝜆 です 𝑝𝑖 が0.5に近いほど 直線からの が きく る 最小二乗法の場合, 𝑥𝑖 が大きいほど 直線からの が きく る の影響(ウェイト)がデータに って ってしま ので く い このような場合,最尤法によってパラメータ推定を行います。 13 社会における統計学の利用 資料09 pp. 17-20 9
学習 いわゆる AI とか とかに繋がる話 13 社会における統計学の利用 10
学からインサイトを導き 問 したい あるコンビニチェーン店の本部には,各店舗の様々 情報( )が集約されています。 ( ,売上・店舗面積・駅からの距離・近隣の競合 社の有 ・駐車場の有 ・立地 ど) これらの情報をもとに, 学を用いて何らかのインサイトを導き しましょ 。 きく分けると3 のや 方があ そ ▌ もちろん考え方は人によって異なりますが この講義でやってきたこと 記述 学習 元のデータに いて 簡潔に (要約)する • • 【 】 売上の は◯◯万円( 売上と店舗面積には の相関がある(相関係 ) 元のデータをもとに 背後の母集団に いて する ) • • 【 】 今年の売上の は 年 有 に高い( の検 ) 駅から近い店舗ほど売上が多い ( 係 の検 ) 13 社会における統計学の利用 元のデータを元に 未来を するモデルを作る こちらに いて てみましょ 11
学習・・・? ▌データを って ルール を学習すること Input 駅からの距離 近隣の競 売り 面積 駐車 の広 ︙ ▌ ルール Output 売上 Black Box 様々 情報をこねく して できるだけ精度 く 何かしらのアウト ットを したい いルールができた ら Input 店候補 A Output 駅から500m 売り 面積200m2 駐車 3台 ︙ 売上 : 月1600万円 売上 : 月1900万円 候補Bに 店したほ が 高い売上が期待できます ルール 店候補 B 駅から2km 売り 面積300m2 駐車 10台 ︙ Black Box 13 社会における統計学の利用 店戦略に有益 インサイトが提供できる! 12
ルール はど やって作れ い? ▌最も ン ル 方法は(重) 分 Input 駅からの距離 𝑥1𝑖 売り 面積 𝑥2𝑖 駐車 の広 𝑥3𝑖 ︙ 𝑦ො𝑖 𝛽0 𝛽1 𝑥1𝑖 ルール 𝛽2 𝑥2𝑖 Output 𝛽3 𝑥3𝑖 𝑦ො𝑖 (売上) ⋯ ︙ 資料04 p. 6 直線の あとは 能が最 に る ルール の 式を作れ 良い データの ができる 補 大学生の と 【補 (内 )】 んの の は ( んの 部 ったほ が いのか? 13 社会における統計学の利用 ) 補 (内 ) 補 ( めた )】 直線を作る に ったデータに ける を こと でした。 はどれ らいと 【補 ( 定 だとすると の は はどれ らいと は を の デ タ( い )から 回 直線が 回 数は 持ちのデ タから 最小二乗法などで められるとして… こういう の使い けをする人もいるようですが ほど 要な ではない気がします に る できるでし うか。 直線を作る に ったデータに ける を こと でした。 できるでし うか。 回 13 )
に ける ▌ さ とは? の目 = 未知のデータ の を すること に使う変数 (Input) は多いほうが良いような気がするが… 実際には は 未知のデータ の 資料04 pp. 55-56 に悪影響に ることも フィットだ モデルが 雑に すぎると 未知のデータとの は きく っていく データ の てはま は の してください これが の しいとこ でもあるわけです こっちのほ が 係 を やすほど R2 は高く る の を れると のデ タ」 の当てはまりは良 なる一方で 未知のデータ モデルの 雑さ ( の ど) がする 回 「 未知のデータに ける が最小に るのが い モデル だが を の表示 未知のデータ 元のデータ の の の てはま は悪く ってしま で 布の の1円 で できる ッカ の ( のかみそり )とは ある を するた には, 要以上に 多くを する きで い とする 。 の 学 学 の が多用し たことで になった。 個人の 定 数は しても その の の要 に る の変 を説明する は いが に(わずかながら) えてしまう 係 がほ は れ い 回 13 社会における統計学の利用 できる にし い 14 を ました
ルール の作 方は様々 Decision Tree 木の場合 ▌ 本当はもっと複雑な木にしたり 木自 を複数用 したりします Input 駅からの距離 𝑥1𝑖 売り 面積 𝑥2𝑖 駐車 の広 𝑥3𝑖 ︙ Output ルール 𝑦ො𝑖 (売上) 駅からの距離 ︙ 1km未満 1km以上 売 場面積 150m2 未満 1600万 150m2 以上 2000万 周辺の競合 あ し 1800万 1900万 あとは 能が最 に る ルール の 木を作れ 良い • どの説明変数をどこで使え 良い? • 岐の閾値は? 13 社会における統計学の利用 15
に ける さ の評価 ▌理想は まだ 元に 売上 【候補A】 : 月1600万円 売上 【候補B】 : 月1900万円 ▌ 際にはそ いデータ の 結果を用いること 実際に候補Bに出店して 売上が月1900万円にどれだけ近いかを検証 候補Bに 店したほ が 高い売上が期待できます らに え 候補Aに出店したときに 売上が候補Bより低いかどうかも見れたら良い 検証は しいケースが多いので 色々 ルールを作ってみて 元 の デ ー タ 訓練データ 𝑦ො𝑖 𝛽0 𝛽1 𝑥1𝑖 𝛽2 𝑥2𝑖 𝛽3 𝑥3𝑖 ⋯ テ トデ タを入れ替えながら繰り返す 交 検証法 (cross-validation) などが よ 用いられています テストデータに って 能を評価 𝑦ො𝑖 − 𝑦𝑖 に基づいた指標 どで 駅からの距離 未満 以上 売 場面積 テストデータ 未満 万 周辺の競合 以上 あ し 万 万 万 13 社会における統計学の利用 16
果 論 験できたらラク ですが 13 社会における統計学の利用 17
果関係の3条件 資料03 p. 31 1 原 と 結果 が関連していること 2 原 が 結果 に 3 原 の に先 に 結果 を できるもっともらしい理由が に い これをはっきり せるために 果関係を くには? 原 い い 方法はあ ますが な方法は ラーメンを 験 ると を る 方法 「 やすいのか? の に 結果 を 関 の す てを可能 【例え 】 していること を 資料03 p. 33 最も理想 方法は できるもっともらしい理由が に い アするために 3の する必要がある に グルー をランダ に割 る てること (RCT: randomized controlled trial) る」「 ない」を などの でわけない( に) た は に するので「 ない組」も メ と の を 取 せる なども に するのでなる じ生活を せる 際にはその が不可能 場合も多い 1 月後 そ 変数の とき,ど やって 果関係を証 する? 統計 13 社会における統計学の利用 18
調査 問 施者が介 でき い( くある) クリスマス ーズンに送ったDMの効果を したいとい 依頼が来ました。 ただしこの 店では,先月もたくさ 購 してくれた顧客はど 来てくれるだ 先月の購 が少 かった(1万円未満の)顧客にのみDMを送っています。 さて,DMに って顧客の消費額は したでしょ か? ▌ くある と て, グルー をランダ に 割 てできてい い 違い① 単純にDMを受け取った人と受け取ってない人で今月の消費額を比 たら? DMを 先月 今月 受け取った 8000円 12000円 受け取ってない 13000円 15000円 ▶ もともと消費額の低い DMを受け取ってない人のほうが 消費額が多い!DMはマイナス効果だ! だけがDMを受け取っているので,この結論は かしい 13 社会における統計学の利用 19
調査 問 施者が介 でき い( くある) クリスマス ーズンに送ったDMの効果を したいとい 依頼が来ました。 ただしこの 店では,先月もたくさ 購 してくれた顧客はど 来てくれるだ 先月の購 が少 かった(1万円未満の)顧客にのみDMを送っています。 さて,DMに って顧客の消費額は したでしょ か? ▌ くある と て, 違い② DMを受け取った人の先月と今月の消費額を比 たら? DMを 先月 今月 受け取った 8000円 12000円 受け取ってない 13000円 15000円 今月の 消費額は4000円 DMは ラス効果だ! ▶ たぶ クリスマス ーズンは何もし くても消費額は 13 社会における統計学の利用 た! るので かしい がする 20
果 問 ▌ 論の方法 クリスマス ーズンに送ったDMの効果を したいとい 依頼が来ました。 ただしこの 店では,先月もたくさ 購 してくれた顧客はど 来てくれるだ 先月の購 が少 かった(1万円未満の)顧客にのみDMを送っています。 さて,DMに って顧客の消費額は したでしょ か? しそ や 方 分の と て, (DID: difference in difference) 法と呼 れます 消費額の 加 を比 たら? 消費額 DMを 先月 今月 受け取った 8000円 12000円 4000円 受け取ってない 13000円 15000円 2000円 受け取って い 季節の効果 DMの効果 受け取った DMを受け取ったグルー の方が が きい!DMは ラス効果だ! 13 社会における統計学の利用 季節の効果 先月 今月 21
果 の 方 と て, 不連続デザイン(RDD: regression discontinuity design) と呼 れます DMあり なしそれぞれで回 をやってみる DM し DMあ ここの差は 先月の消費額が10000円 の に ける DMの効果の期待 を していると えそう 拡 の ▌ クリスマス ーズンに送ったDMの効果を したいとい 依頼が来ました。 ただしこの 店では,先月もたくさ 購 してくれた顧客はど 来てくれるだ 先月の購 が少 かった(1万円未満の)顧客にのみDMを送っています。 さて,DMに って顧客の消費額は したでしょ か? の 問 論の方法 の の 13 社会における統計学の利用 22
果 論のフ ー ワーク Rubin流の 状態 ▌理想 ▌ もしも ての顧客について「DMあり」と 「DMなし」の両方が観 できたなら E DMの効果 E DMあ − E DM し 顧客 果モデル 際には 個人ごとにどちらか一方しか観 その状況下でどのように E DMの効果 を 定するか を考える DMあ DM し A 12000円 10500円 1500円 A ? 10500円 ? B 3000円 3000円 0円 B 3000円 ? ? C 15000円 12000円 3000円 C ? 12000円 ? D 11000円 11000円 0円 D ? 11000円 ? E 8000円 7000円 1000円 E 8000円 ? ? F 6000円 5000円 1000円 F 6000円 ? ? 顧客 DMあ ? ? ︙ 平均 9000円 E[DMあ ] 8000円 できない DM し ︙ 1000円 E[DM し] DMの効果 平均 何を 13 社会における統計学の利用 ? ってどの に代用する? その際の は? etc. 23
多 量解 雑に 組 だ現代社会に鋭いメスを 13 社会における統計学の利用 24
世の のデータにはたくさ の の 雑 関係 ▌ まずは回 【単 𝑦𝑖 分 𝛽0 【重 𝑦𝑖 分 𝛽0 がある これ以降の矢印は 果関係を表すものでは く, ただの を図示したものです。 を捉 たい を視覚 に してみる 】 𝛽1 𝑥𝑖 𝑒𝑖 𝛽1 𝑥 𝑥1 】 𝛽1 𝑥1𝑖 𝑦 𝛽2 𝑥2𝑖 𝛽3 𝑥3𝑖 𝑒𝑖 𝑥2 𝑥3 例 𝛽1 𝛽2 𝛽3 コンビニ (p.9)の場合 ※矢印の 𝑦 係 駅からの距離 売り 面積 周辺の競 13 社会における統計学の利用 は標準化偏 売上 − 25
分 ▌ 【単 を組み合わ てみる を連鎖さ てみる 分 パス解 と呼 れます 例 が2 】 𝑦𝑖 𝛽𝑥0 𝛽𝑥1 𝑥𝑖 𝑒𝑥𝑖 𝑧𝑖 𝛽𝑦0 𝛽𝑦1 𝑦𝑖 𝑒𝑦𝑖 𝑥 𝛽𝑥1 𝑦 𝛽𝑦1 コンビニ (p.9)の場合 ※矢印の 𝑧 は標準化偏 係 駅からの距離 売り 面積 売上 𝛽𝑥2 【も 少し 雑に】 𝑦𝑖 𝛽𝑥0 𝛽𝑥1 𝑥𝑖 𝑒𝑥𝑖 𝑧𝑖 𝛽𝑦0 𝛽𝑦1 𝑦𝑖 𝛽𝑥2 𝑥𝑖 𝑒𝑦𝑖 𝑥 𝛽𝑥1 𝑦 𝛽𝑦1 例 𝑧 コンビニ (p.9)の場合 ※矢印の は標準化偏 駅からの距離 売り 面積 13 社会における統計学の利用 係 − 売上 26
何が嬉しいかとい と… 果関係に迫れる(かもしれ い) ▌ 例 媒介分 と呼 れる方法です コンビニ (p.9)の場合 ※矢印の p. 23 ふ は標準化偏 の重 駅からの距離 売り 面積 売上 駅からの距離が遠いほど 売上が る というのは おかしい気がするぞ 係 p. 24上 p. 24下 駅からの距離 駅からの距離 売り 面積 売上 売り 面積を媒介すると 駅から遠い店舗ほど 売 場面積が広く 結果 に売上が ている …という可能 が出てきた 13 社会における統計学の利用 売り 面積 − 売上 売り 面積の媒介効 を 解すると 駅からの距離→売上の 直接 効果はマイナス ▼ 売 場面積が であれ 駅 のほうが売上が多い! 27
ほかにもこ ことが を用いた分 ▌潜在 直接 ・観 でき いもの 𝑥1 𝛽1 𝛽2 𝑓 𝛽3 ンライン授業に 適応できているか あ て 子分 と呼 れる方法です は ま ら (引用)沖 藤本 蒲生 河 (2023) な 「大学生版 イ 授業適 適応尺度」 い 𝛽4 詳細は省略しますが このモデルの 例え 𝑥1 と𝑥2 の 関は 2つの回 数の積𝛽1 𝛽2となります。 の観 直接観 𝑥1𝑖 𝑥2 𝑥2𝑖 ンライン授業は ⼀⽅向 で⾯⽩く い 𝛽01 𝑓𝑖 𝛽1𝑖 𝑒1𝑖 𝑥4 𝑥4𝑖 𝛽04 𝑥3𝑖 1 あ あ て ま は り ま ら な い 2 ど ち ら で も な い 3 あ や て や は ま る あ と て て は も ま る 4 5 ンライン授業で 学習 欲が減退している 𝛽02 𝑓𝑖 𝛽2𝑖 𝑒2𝑖 ⾯授業の⽅が 充 感を得られると思 𝛽03 𝑓𝑖 𝛽3𝑖 𝑒3𝑖 ンライン授業では 教 との が が乏しく不満だ 𝑥3 ま っ た く 𝑓𝑖 𝛽4𝑖 𝑒4𝑖 ンライン授業に適応できてい い ほど ての項目に一律で高い を けるは の背後に共通の説明変 があると することで 来 い 子を できる に る(と られている) 13 社会における統計学の利用 28
そして AI にも繋がっていく ChatGPTなどの大 模 語モデルの背後にあるTransformerも この考え方をとんでもな 高度化したものと えると思います に書ける ▌ニューラルネットワークも 元のデータから 𝑧の が最小に る に ての𝛽を 算していく 𝛽11 ルール 𝑦11 exp 𝑦11 exp 𝑦11 もちろん中 はもっと複雑ですが 他の関数もありえます 𝑦11 𝑦11 𝑦21 𝑦21 𝑦12 𝑦12 𝑦22 𝑦22 𝑥1 𝑥2 ︙ 𝑥𝑘 力層 𝑦13 𝑦13 𝑦23 𝑦23 ︙ ︙ ︙ ︙ 𝑦1𝑚 𝑦1𝑚 𝑦2𝑛 𝑦2𝑛 1層 もちろん層やノ 2層 𝑧ǁ 𝑧 力層 の数は自由です 13 社会における統計学の利用 29
ベイズ 確率の 学 方から てみる 13 社会における統計学の利用 30
講義内容の背後にある 確率 の背後には ▌ 資料09 p. 28 イメー ったときにど 標本分布ができるまで 資料 現し る標本の パターンが分かる 母集団の分布を にか する イメー を関 に き換 た ー ン 各標本で どを 算する るか とい があった グ ーの分布= の母集団分布 標本の さいこ を が何であ の と を母 の代わ に その標本分布に いて を算 ︙ 度 の標本分布 って標本分布を くる ︙ の母集団から サン リングすると の 標本 ︙ ってみたら に ける標本 母 標本の の 分布を作れる まくれ 資料09 p. 37 標本がいっ い取れたら を ての標本で する と,その は もちろんやるた に変わります 回数を る 標本 作る 母 を やすと に近い ご に っていく 定 この を と呼 ます 定 これは確率を 頻度の極 で がとして た ってみたら が は ま い 義していたた をとる ということです 資料06 p. 6 に試行したとすれ 回数 ご 確率 これからお話する( 度 確率 で が た 確率変数と確率 布 13 社会における統計学の利用 に )統計学の する では 31
それってちょっと分か づらい? の ▌ 方は 風の 報円と 際には ている の試 てものは い い の ほど しいので 未来ほど 報円の直 が きく っているのです のデータをもとに 風の を する 資料09 p. 26 日 の 点で 風の が この円の にある 確率が 風の はは づけられている から 報円は もの 定 信頼 解釈 じような台風が やってきたときに その ち70%の台風の中心は この円の中に入ると思われる 13 社会における統計学の利用 一般 の解釈 70%っていうくらいだから きっと台風は この円の中を通るんでしょうな 32
我々は確率を主観 ものとして捉 がち 報 ▌ある日の天 天 報 頻度論 解釈 主観 解釈 「明日の降水確率は10%です」 じような が 回繰り返 れたときに そのうち10%では雨が降る。 ただし明日降るかどうかは 定事項だ。 たぶん降らない。 「明日の降水確率は50%です」 じような が 回繰り返 れたときに そのうち50%では雨が降る。 ただし明日降るかどうかは 定事項だ。 降るかもしれないし 降らないかもしれない。 「明日の降水確率は90%です」 じような が 回繰り返 れたときに そのうち90%では雨が降る。 ただし明日降るかどうかは 定事項だ。 たぶん降る。 13 社会における統計学の利用 33
我々は確率を主観 ものとして捉 がち ▌頭の には確率分布が? 天 報 主観 解釈 「明日の降水確率は10%です」 たぶん降らない。 「明日の降水確率は50%です」 降るかもしれないし 降らないかもしれない。 「明日の降水確率は90%です」 たぶん降る。 13 社会における統計学の利用 確率分布 一般人の( 観 な) 解釈では 確率は 信念 の もの と える気がする 34
主観 信念の更新 ▌情報を与 ることで確率が更新される 翌日の空 結構明るい 天 報 50% 主観 解釈 確率分布 降らないかも? 確率分布 次の日 もり 今にも降り出しそうな 暗い雲 13 社会における統計学の利用 どうなんでし 。 やっぱり降りそう。 35
ベイズ 学 ▌確率を主観 ベイズの 前ペー の 理 に ものとしてあ か 学の一派 𝑃 𝑋𝜃 𝑃 𝜃 𝑃 𝑋 𝑃 𝜃𝑋 ては ると… 𝜃: 雨が降る 𝑃 𝜃 :天気 報による降水確率 𝑋:翌日の空模様 𝑃 𝑋 𝜃 :雨が降るときの空模様の出現確率 雨が降る日の空は朝から暗いことが多い 雨が降らない日は空が明るいことが多い などなど… 𝑃 𝜃 𝑋 :翌日の空模様を見た上で「雨が降る」とどの程度思っているか 前確率をデータに って更新することで 不確 を減らしていく 13 社会における統計学の利用 36
検 ベイズ の流れ のいいとこ を (の一 ) する の確からしさ 背理法でい の ▌ 今回の 「 応が出る人数は二項 布 ものを確率で表すことができる のフェーズ 【 際に検証したいこと】 応 率は 以上である 【頻度主義の場合】 に基づいて判断を行うが 原 上「 𝑃 𝑝𝑋 【ベイズ ベイズの 𝑃 𝑝 く分から いが 0や100%では い 資料11 p. 7 【 の 】 現 には どちらか 一方だけが しい 実際に証明したいほうに「 立」という がつ のは変な感じですが これは 検 が に基づいて話を ていくためです (背 法なので証明したいことの のほうが 要) 𝑃 𝑋𝑝 𝑃 𝑝 𝑃 𝑋 に従う」 応 率は いった ,こちらが が である しい世 を しい」ことは積極 ます には主張でき い 正確には 仮説というのは「(差などが) である」という仮説のことを しているので の場合】 「実際に証明したいこと」が「差がない」ことだとしても 仮説には「差がない」が かれます。 厳密には この𝑃 𝑝 イビ に |𝑋 っているのか,このあとの の流れをもとに てみてください。 理に って, や𝑃 𝑝 |𝑋検 が 算できる 統計 仮説検定の考え方 𝑃 𝑋|𝑝 20 7 の尤度関 13 社会における統計学の利用 その比 𝑃 𝑝>0 25|𝑋 𝑃 𝑝=0 25|𝑋 𝑃 𝑝|𝑋 後確率 37
ベイズ の応用 ▌迷惑メールの判 From: [email protected] おめでとうございます! あなたは40億円の遺産を 相続する権利を得ました 1 際には • • • 情報 文章内の様々 単語 文の ど様々 情報を組み合わ て判 を っています(たぶ )。 ルール Black Box 𝑃 迷惑 届く メールの ち 50%が迷惑メール 𝑃 遺産 迷惑 𝑃 迷惑| 遺産 迷惑メールの1%に 遺産 の文字 9 9 遺産 の文字があるメールの ち そ91%が迷惑メール 𝑃 遺産 非迷惑 非迷惑メールの0.1%に 遺産 の文字 13 社会における統計学の利用 38
ベイズ ▌ の応用 ルールの更新 From: [email protected] 件名: 主人がオオアリ クイに殺されて1年が過 ぎました。 1 迷惑メールかど かを が判 ルール Black Box 𝑃 迷惑 99 𝑃 遺産 迷惑 𝑃 迷惑| 遺産 本物の大富豪 からのメール 9 9 𝑃 遺産 非迷惑 遺産 の文字が まれる非迷惑メールの割合は少し高い 13 社会における統計学の利用 だ 39
おわり い旅のはじまり かもしれない