46.9K Views
February 18, 23
スライド概要
2022年度統計学IIの講義資料です。
好きな色は緑です。
統計学 II-1 ・推測統計の導入 ・標本抽出 ・点推定 ・標本分布 ・区間推定 ・仮説検定 https://logics-of-blue.com/
本資料について 本資料の成り立ち 馬場が担当する学部1年生向け統計学IIの講義資料抜粋 統計学を初めて学ぶ、文系の学生が受講する想定 統計学IIは統計学Iの続きであることに注意 本資料の取り扱い あくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習 口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、 避けてほしい (文脈がわからないと、誤った理解を促すため) 2
本資料について 本資料の使い方 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること 参考文献 馬場真哉,2022,翔泳社 『Pythonで学ぶあたらしい統計学の教科書 第2版』 倉田博史・星野崇宏,2009,新世社 『入門統計解析』 鈴木武・山田作太郎,1996,内田老鶴圃 『数理統計学』 3
本資料の範囲 1.オリエンテーション 2.推測統計の基本 3.母平均と標本平均 4.母分散と標本分散 5.正規分布から得られる標本分布1 6.正規分布から得られる標本分布2 7.区間推定1:母平均の区間推定 8.区間推定2:母分散の区間推定 9.中間テスト
統計学 II 第1回:オリエンテーション 5
内容 1.自己紹介 2.講義の進め方 3.後期の統計学IIでは何を学ぶか 4.「モデル」とその使い方 5.後期のスケジュール 6
自己紹介 7
自己紹介 名前 馬場真哉 学生の頃の専門 水産学 前職 システムエンジニア フリーランス 現職 東京医科歯科大非常勤講師 岩手大客員准教授 帝京大学講師(1年生)
本も書いています(2023年2月現在の書作) 1. 馬場真哉 (2022). Pythonで学ぶあたらしい統計学の教科書 第2版. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798171944】 2. 馬場真哉 (2021). 意思決定分析と予測の活用 基礎理論からPython実装まで. 講談社. 【https://www.kspub.co.jp/book/detail/5222270.html】 3. 馬場真哉 (2020). R言語ではじめるプログラミングとデータ分析. ソシム. https://www.socym.co.jp/book/1238】 4. 馬場真哉 (2019). RとStanではじめる ベイズ統計モデリングによるデータ分析入門. 講談社. 【https://www.kspub.co.jp/book/detail/5165362.html】 5. 馬場真哉 (2018). Pythonで学ぶあたらしい統計学の教科書. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798155067】 6. 馬場真哉 (2018). 時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf08.html】 7. 馬場真哉 (2015). 平均・分散から始める一般化線形モデル入門. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf02.html】
講義の進め方 10
内容 1.講義の前提 2.講義全体について 11
内容 1.講義の前提 2.講義全体について 12
講義の前提 「統計学II」は前期の「統計学I」の続きです 前期で「統計学I」を受講していない人は、 後期の「統計学II」を理解することは難しいかも (すごく一所懸命勉強すればいけるかも?) 基本的に「講義I」と「講義II」はセット 「II」だけ受けるというのはお勧めしない
講義の前提 前期の「統計学I」の内容 記述統計 →データを集計する方法 重要単語)平均・分散・共分散・相関係数・基準化変量 確率論 →確率的に変動する結果の取り扱い方法 重要単語)確率変数・確率分布・確率密度関数 期待値・分散・独立 確率変数の和の期待値と分散
内容 1.講義の前提 2.講義全体について 15
後期の統計学IIでは何を学ぶか 16
内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 17
内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 18
授業の到達目標 授業の到達目標(シラバスより) ★前期★ ①統計学についてのイメージをつかみ、 データを利用する必要性を理解する。 ②データの整理と要約の技術を習得する。 具体的には、ヒストグラム・散布図などのグラフや、 平均・分散・相関係数などの統計量を利用できるようになる。 ③確率論の基礎を理解する。 具体的には期待値について理解し、 二項分布や正規分布といった確率分布が利用できるようになる。 また、確率変数の和の分布に対する 直観的なイメージを持てるようになる。 19
授業の到達目標 授業の到達目標(シラバスより) ★後期★ ①推測統計の基本的な考え方を理解する。 特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。 具体的には、点推定値の特性について説明できるようになる。 また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。 特に統計的仮説検定を実施する際の 注意点について説明できるようになる。 20
授業の到達目標 授業の到達目標(シラバスより) ★後期★ ①推測統計の基本的な考え方を理解する。 特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。 具体的には、点推定値の特性について説明できるようになる。 また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。 特に統計的仮説検定を実施する際の 注意点について説明できるようになる。 後期のメインは推測統計! 21
内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 22
記述統計と推測統計(復習) 統計学とは データを収集、表示、解析する科学 以下の2つに分けられる Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 記述統計 なるべく情報量を減らさないで 比較・解釈を簡単にする集計方法を探る 推測統計 全体の一部である標本だけを使って、 まだ手に入れていない未知データの推測・予測をする (確率論の理解が必須) 23
記述統計と推測統計(復習) 記述統計で登場した指標の復習① 度数 ある属性に属するデータの数のこと 度数分布 属性と度数を対応させたもの 度数分布表 度数分布を表にしたもの どんなデータが、何個あったかを数える
記述統計と推測統計(復習) そもそも分布って? データの「分布」のイメージをしっかりつかもう 動物の分布 身長データの分布 ・キリン →アフリカに存在 データの多くは 170㎝前後に存在している ・キタキツネ →北海道に存在 160㎝前後と190㎝前後では、 160㎝前後の方が 多くのデータが存在している ・コウテイペンギン →南極に存在 25
記述統計と推測統計(復習) 度数分布表の例:身長の構成 合計:25人 階級 155~164.9㎝ 5 度数 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2 どのようなデータがどれくらいあるのか 一目でわかる表
階級 記述統計と推測統計(復習)155~164.9㎝ 165~174.9㎝ ヒストグラム 175~184.9㎝ 度数分布を棒グラフで表したもの 185~194.9㎝ 分布を可視化!! 度数 5 12 6 2 27
記述統計と推測統計(復習) 記述統計で登場した指標の復習② 統計量・代表値 データの特徴を把握するのに便利な指標 平均値 データの分布の中心としてしばしば利用される 分散 データのばらつきの指標としてしばしば利用される 分散の平方根(ルート)をとったものを標準偏差と呼ぶ 特に重要なのが平均値と分散・標準偏差
記述統計と推測統計(復習) 統計量・代表値 データの特徴を把握するのに便利な指標 データから計算される →記述統計では「代表値」という言葉も多く使われる データを代表する指標というニュアンス →厳密には「データを入力して、指標を出力する関数」を 統計量と呼ぶ(データの中身が変わるから) データ 指標 29
記述統計と推測統計(復習) 代表値 たくさんのデータを代表する値 →データの分布の中心 ばらつきの指標 データの分布の中心から、 個別のデータがどれほど離れているか 30
記述統計と推測統計(復習) データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = 𝑥𝑖 𝑛 𝑖=1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = 𝑛 平均値は伝統的に「バー(横棒)」をつける 𝑥𝑖 の平均値は𝑥ҧ 31
記述統計と推測統計(復習) データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 分散の計算は 少し難しいので注意 (講義中でも復習する予定) 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 32
記述統計と推測統計(復習) 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 平均値 33
記述統計と推測統計(復習) 分散 データが「平均値からどれほど離れているか」 を表す指標 平均値から 売り上げ(万円) 分散大 離れている 分散小 1000 500 0 平均値 34
記述統計と推測統計(復習) 分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 1000 500 0 多くのデータが、 分散小 平均値から離れている →分散が大きくなる 平均値 35
記述統計と推測統計(復習) 分散の扱いにくいところ 分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている 標準偏差 分散の平方根を取ったもの 標準偏差 = 分散 平方根(ルート)をとって2乗を消す 36
記述統計と推測統計(復習) 記述統計で登場した指標の復習(まとめ) 前期ではたくさんの指標が出てきたが、 特に「度数分布(ヒストグラム)」と 「平均」「分散」「標準偏差」 をしっかりと復習しておくのがおすすめ まったく新しい指標は登場しない 今までの指標を組み合わせることが多い
記述統計と推測統計(復習) 推測統計の目的 まだ手に入れていない未知データの推測・予測 ところで…… わざわざ未知のデータに言及する意義は? 38
記述統計と推測統計(復習) 推測統計がない時(未知のデータに対して言及しない) 今日の夜まで 広告を出すことで、売り上げが増えました でも・・・ 明日からは 広告を出すことで売り上げが増えるか減るか不明です 何のためのデータ分析?
記述統計と推測統計(復習) 推測統計がない時(未知のデータに対して言及しない) 手持ちのデータ 今日の夜まで 広告を出すことで、売り上げが増えました まだ持っていない未知のデータ 明日からは 広告を出すことで売り上げが増えるか減るか不明です データに基づく判断のために、 未知のデータへ言及をする
記述統計と推測統計(復習) 推測統計がある時(未知のデータに対して言及する) 今日の夜まで 広告を出すことで、売り上げが増えました だから 明日からも 広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう!!! この流れこそが「データに基づく判断」
記述統計と推測統計(復習) データの集計 今日の夜まで、広告を出すことで、売り上げが増えた データに基づく判断 明日からも、広告を出すことで売り上げが増えるはず データに基づく意思決定 明日からも広告を出すべきだ 未知のデータに対して推測・予測を行い、 データを活用した意思決定につなげる
記述統計と推測統計(復習) 推測統計の大きなテーマ 未知データに対する推測 未知データも対象とした判断 ● 区間推定の活用 ● 統計的仮説検定の活用 →主に後期の内容
内容 1.前期と後期の違い 2.記述統計と推測統計(復習) 3.モデルの利用 44
モデルの利用 確率論の話はどこに行った 前期は中間テストの後、ずっと確率論を学んだ 確率論とデータ分析関係なくない? 関係あります! データ分析と確率論をつなげるもの。それが モデル 45
モデルの利用 後期では何を学ぶか やや極端な言い方になるが、後期のほとんどは 「モデル」の使い方を学ぶと言っても良い モデル 現象を単純化した「模型」のこと プラモデルのモデル 後期ではモデルの使い方を 何度もシチュエーションを変えて 説明する 46
モデルの利用 「現実」と「机上の空論」の間 確率論では「コインを投げて表が出る確率は50%」など 作為的な事例が頻繁に登場した 確率論を学んだ人の多くは「なんだか現実離れしている」 感じることだと思う 現実世界の出来事 メモ モデル 理論上での計算 モデルを使って、現実と理論をつなぐ 47
「モデル」とその利用 48
内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 49
内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 50
モデルとは モデル 現象を単純化した「模型」のこと プラモデルのモデル モデルを使うメリット 実際に行動する前に、結果について議論できる 51
モデルとは モデルの例 飛行機のモデル(模型)を考える ぼくの考えた「さいきょう」の 飛行機だよ!! (馬場が描きました) プロペラが無いので飛ばない 52
モデルとは モデルの例 飛行機のモデル(模型)を考える モデルを使えば、 実際に行動する前に、結果について議論できる 何億円ものお金をかけて本物を作る前に、 空気抵抗や推進力などいろいろなことを検討できる 統計学IIでプラモデルを作ることはない 統計モデルと呼ばれるモデルを作る 53
内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 54
統計学におけるモデル モデル 模型。現実世界の模型を作る 統計学におけるモデル 観測したデータを生み出す確率的な過程を 簡潔に記述したもの。 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 「データを生み出す確率的な過程」や 「データが得られる過程」に着目 55
統計学におけるモデル 今回の事例 湖の中にいる魚の体長を推測する 推測統計における課題 湖の中には無数の魚がいる →すべての魚の体長を測定することはできない →湖の中から一部の魚だけを捕まえて体長を測定する 56
統計学におけるモデル 母集団:知りたいと思っている集団全体 →今回の例では、湖の中にいるすべての魚 57
統計学におけるモデル 標本(サンプル):手に入れた一部のデータ 標本抽出(サンプリング):標本を得る行為 58
統計学におけるモデル たまたま 「中くらいのサイズ」 の魚が釣れた 59
統計学におけるモデル たまたま 「小さめのサイズ」 の魚が釣れた 60
統計学におけるモデル たまたま 「大きめのサイズ」 の魚が釣れた 61
統計学におけるモデル ランダムに一部の魚を標本として抽出 ここで確率が登場する 62
統計学におけるモデル 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団について議論する 手持ちのデータで未知データの議論をする
統計学におけるモデル 母集団にまつわる用語 母平均→母集団の平均 母分散→母集団の分散 (標本平均とは区別) (標本分散とは区別) 母平均を推定してみよう 母集団分布の平均を言い当てることを目指す 64
統計学におけるモデル 「釣った魚」の体長の平均値 が4cmだった(標本平均) だから 「湖の中のすべての魚」も 体長の平均値は 4cmなのでは?(母平均) 65
統計学におけるモデル 母平均の推定くらい、簡単? 標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測する なんか4cmって小さくない? 標本平均に5を足した結果を使おうぜ! たくさんのデータを集計するの面倒だな~ そうだ、データを1つだけ選んで、それを使おう! 無茶苦茶な意見に聞こえる でも、具体的に「何が悪い」のか? 66
統計学におけるモデル 母平均の推定くらい、簡単? 標本平均に5を足した結果を使うとどうなる? ほとんどのデータを捨てて1つだけを使うとどうなる? そんなことしたらダメだろ! え~、なんで~ どのみち母集団のことわかんないだから、 好きに計算したらいいじゃん。 たまたま「小さめのサイズ」の魚ばっかり釣れたん だったら大きめに補正した方がいいでしょ? 67
統計学におけるモデル ここでの疑問 標本を使うため、母集団全体を調べてはいない 標本から計算された平均値と、母集団の平均値が、 「ぜんぜん違う」ということにはならないの? 標本を使って「やっつけ仕事」で母平均を推定してる? →何をやってもダメだから、どんな計算をしてもよい? →どのよう計算するのが「良い」やりかたなの? 逆に「悪い」やりかたはどのようなもの? こういった疑問に答えるのが推測統計
統計学におけるモデル どうやって取り組むのか 認めること① 標本という「一部」しか使わないので 「母集団を完全に明らかにする」ことは無理 認めること② 標本は確率的に変動する 「標本から計算された統計量」も確率的に変動する それでも頑張ること。それでもなお、あきらめないこと 標本や「標本から計算された統計量」が どのように変化するか、確率的な特徴を明らかにする 69
統計学におけるモデル 標本から計算された統計量の確率的な挙動を探る方法 「標本抽出+標本平均の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 標本平均を何度も計算する 標本平均○○ 標本平均×× 標本平均がたくさん得られる 標本平均△△
統計学におけるモデル 標本から計算された統計量の確率的な挙動を探る方法 「標本抽出+標本平均の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 標本平均を何度も計算する 標本平均○○ 標本平均×× 標本平均△△ たくさん得られた標本平均を集計することで、 たまたま「中くらいのサイズ」の標本平均になる割合や たまたま「大きめのサイズ」の標本平均になる割合などがわかる すると、確率的な挙動について調べることができるはず! 標本平均がたくさん得られる
統計学におけるモデル 素朴な方法論の問題点 何度も何度も湖に出かけないといけない 何度も釣りをして、何度も平均値を計算するのは手間 現実的には、同じ調査を何度もやるのは極めて困難! 標本平均○○ 標本平均×× そうだ。モデルを使おう 標本平均△△
統計学におけるモデル メモ モデルのまとめ 標本や、標本から計算される統計量の 確率的な変化について調べるために、モデルを使う 「本物の飛行機を飛ばすことはしないで、 プラモデルの飛行機を使って空気抵抗を調べる」 同じような使い道! 「実際に何度も調査に行くことはしないで、 モデルを使って、統計量などの確率的性質を調べる」 73
内容 1.モデルの利用方法 2.統計学におけるモデル 3.モデルと推測統計 具体的なモデルの内容は来週 「モデルを使って何を目指すか」を紹介 74
モデルと推測統計 標本の統計量の確率的な性質の調べ方 確率論を使う 例えば標本平均の確率的な性質を調べる • 標本平均の期待値 • 標本平均の分散 記述統計において指標を計算する「次」へ 統計量の性質について調べて優劣を評価 75
モデルと推測統計 標本の統計量の確率的な性質の調べ方 確率論を使う 例えば標本平均の確率的な性質を調べる • 標本平均の期待値 • 標本平均の分散 期待値・分散のこと覚えてる? 推測統計に確率論は必須! 76
モデルと推測統計 期待値の直感的な説明 平均値と同様に解釈できる指標 「まだ手に入れていない、未知データにも適用できる平均値」 「長い目で見たときの、平均値」 標本平均○○ 標本平均×× 標本平均△△ 期待値を使い「たくさん得られた標本平均」の平均値を議論 本当に何度も調査に行くわけではないので期待値で議論する
モデルと推測統計 分散の直感的な説明 「確率変数が、期待値から どれだけ離れていると期待できるか」を表した指標 標本平均○○ 標本平均×× 標本平均△△ 分散を使い「たくさん得られた標本平均」のばらつきを議論 本当に何度も調査に行くわけではないので確率論を利用
モデルと推測統計 分散の補足 「記述統計で登場する分散」と、「確率変数の分散」は 名前は同じだが、計算の仕方が少し違うので注意 (平均値と期待値の違いのようなもの)
後期のスケジュール 推測統計の基礎理論を押さえるパートと、 推測統計の実践パートは、 意識して分けると構成が理解しやすいと思う 80
後期のスケジュール 推測統計の基礎を学ぶパート Step1.統計学におけるモデルの構造を学ぶ 決定的に重要! 標本はどのように私たちの手元にやってくるのか? キーワード:単純ランダムサンプリング・正規分布 Step2.「モデルを使って何がわかるか」を学ぶ 実践パートとの接点 キーワード:統計量の性質(不偏性・一致性) 標本分布(𝜒 2 分布・ 𝑡分布) 81
後期のスケジュール 推測統計の実践パート Step1.区間推定 「平均値は4です」というピンポイントな推定ではなく 「平均値は3.5から4.5の間でしょう」と区間を提示 区間の計算においては確率の考え方を使う キーワード:平均値の区間推定・分散の区間推定 Step2.統計的仮説検定 統計量についての判断を行う方法 判断においては確率の考え方を使う キーワード:二項検定・平均値の差の検定 独立性の検定 82
今後の講義(予定):区間推定まで 1.オリエンテーション 9/26 2.推測統計の基本 10/3 3.母平均と標本平均 10/17 4.母分散と標本分散 10/24 5.正規分布から得られる標本分布1 10/31 6.正規分布から得られる標本分布2 11/7 7.区間推定1:母平均の区間推定 11/14 8.区間推定2:母分散の区間推定 11/21 9.中間テスト 11/28
今後の講義(予定):区間推定まで 推測統計の基礎 1.オリエンテーション Step1:モデルの構造 9/26 2.推測統計の基本 3.母平均と標本平均 4.母分散と標本分散 10/3 推測統計の基礎 10/17 Step2:モデルを使って 何がわかるか 10/24 5.正規分布から得られる標本分布1 10/31 6.正規分布から得られる標本分布2 11/7 7.区間推定1:母平均の区間推定 11/14 8.区間推定2:母分散の区間推定 11/21 9.中間テスト 11/28
今後の講義(予定):区間推定まで モデルを使って 標本から計算された平均・分散と、 1.オリエンテーション 9/26 母集団の平均・分散の関係を調べる 2.推測統計の基本 10/3 3.母平均と標本平均 10/17 4.母分散と標本分散 10/24 5.正規分布から得られる標本分布1 10/31 6.正規分布から得られる標本分布2 11/7 7.区間推定1:母平均の区間推定 11/14 8.区間推定2:母分散の区間推定 11/21 9.中間テスト 11/28
今後の講義(予定):区間推定まで 1.オリエンテーション 9/26 モデルを使って 2.推測統計の基本 10/3 標本から計算された平均・分散が従う 3.母平均と標本平均 10/17 標本分布を調べる 4.母分散と標本分散 10/24 5.正規分布から得られる標本分布1 10/31 6.正規分布から得られる標本分布2 11/7 7.区間推定1:母平均の区間推定 11/14 8.区間推定2:母分散の区間推定 11/21 9.中間テスト 11/28
今後の講義(予定):区間推定まで 1.オリエンテーション 9/26 2.推測統計の基本 10/3 3.母平均と標本平均 10/17 4.母分散と標本分散 10/24 6.正規分布から得られる標本分布2 11/7 7.区間推定1:母平均の区間推定 11/14 8.区間推定2:母分散の区間推定 11/21 9.中間テスト 11/28 推測統計の実践 5.正規分布から得られる標本分布1 10/31 Step1:区間推定 →穴埋め式の計算問題などを出す予定
今後の講義(予定):統計的仮説検定 10.統計的仮説検定の導入 12/5 11.統計的仮説検定の解釈 12/12 12.母平均に関する検定1 12/19 13.母平均に関する検定2 12/26 14.独立性の検定 15.期末テスト <オンラインLMS> 1/16
今後の講義(予定):統計的仮説検定 10.統計的仮説検定の導入 12/5 11.統計的仮説検定の解釈 12/12 そもそもの統計的仮説検定とは何か 12.母平均に関する検定1 12/19 一言では説明しにくいのでまずは概要を説明 13.母平均に関する検定2 14.独立性の検定 15.期末テスト 12/26 <オンラインLMS> 1/16
今後の講義(予定):統計的仮説検定 10.統計的仮説検定の導入 12/5 11.統計的仮説検定の解釈 12/12 統計的仮説検定は便利な手法だが 12.母平均に関する検定1 12/19 その乱用が近年問題になっている 仮説検定の利用の注意点もしっかり学ぶ 12/26 13.母平均に関する検定2 14.独立性の検定 15.期末テスト <オンラインLMS> 1/16
今後の講義(予定):統計的仮説検定 10.統計的仮説検定の導入 12/ 実務的にも重要な検定手法を解説 5 ゼミや卒論、あるいは社会に出た後も使うかも 11.統計的仮説検定の解釈 12/12 12.母平均に関する検定1 12/19 13.母平均に関する検定2 12/26 14.独立性の検定 15.期末テスト <オンラインLMS> 1/16
統計学 II 第2回:推測統計の基本
授業の到達目標 授業の到達目標(シラバスより) ①推測統計の基本的な考え方を理解する。 特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。 具体的には、点推定値の特性について 説明できるようになる。 また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。 特に統計的仮説検定を実施する際の 注意点について説明できるようになる。 93
授業の到達目標 本日のテーマ 授業の到達目標(シラバスより) ①推測統計の基本的な考え方を理解する。 特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。 具体的には、点推定値の特性について 説明できるようになる。 また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。 特に統計的仮説検定を実施する際の 注意点について説明できるようになる。 94
内容 1.母集団と標本 2.母集団からの単純ランダムサンプリング 3.確率論の用語の復習 4.標本抽出のモデル 5.モデルと現実の食い違いについて 6.正規分布というモデル 7.母集団の推測への取り組み方 95
母集団と標本 96
本日のテーマ 前期で学んだ確率論を現実世界に投影する「モデル」を学ぶ 前期では確率論にまつわる様々な技術を学んだ →確率密度関数・期待値・分散・確率変数の和の期待値 前期で学んだ「確率論」を「データ分析」とつなげる工夫 標本抽出の「モデル」を作る 97
本日のテーマ 「現実」と「机上の空論」の間 確率論では「コインを投げて表が出る確率は50%」など 作為的な事例が頻繁に登場した 確率論を学んだ人の多くは「なんだか現実離れしている」と 感じることだと思う 現実世界の出来事 モデル 理論上での計算 モデルを使って、現実と理論をつなぐ 98
本日のテーマ モデルのまとめ 標本や、標本から計算される統計量の 確率的な変化について調べるために、モデルを使う 「本物の飛行機を飛ばすことはしないで、 プラモデルの飛行機を使って空気抵抗を調べる」 同じような使い道! 「実際に何度も調査に行くことはしないで、 モデルを使って、統計量などの確率的性質を調べる」 99
母集団と標本 モデル 模型。現実世界の模型を作る 統計学におけるモデル 観測したデータを生み出す確率的な過程を 簡潔に記述したもの。 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 「データを生み出す確率的な過程」や 「データが得られる過程」に着目 100
母集団と標本 今回の事例 湖の中にいる魚の体長を推測する 推測統計における課題 湖の中には無数の魚がいる →すべての魚の体長を測定することはできない →湖の中から一部の魚だけを捕まえて体長を測定する 101
母集団と標本 母集団:知りたいと思っている集団全体 →今回の例では、湖の中にいるすべての魚 102
母集団と標本 標本(サンプル):手に入れた一部のデータ 標本抽出(サンプリング):標本を得る行為 103
母集団と標本 たまたま 「中くらいのサイズ」 の魚が釣れた 104
母集団と標本 たまたま 「小さめのサイズ」 の魚が釣れた 105
母集団と標本 たまたま 「大きめのサイズ」 の魚が釣れた 106
母集団と標本 ランダムに一部の魚を標本として抽出 ここで確率が登場する 107
母集団と標本 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団について議論する 手持ちのデータで未知データの議論をする
母集団からの 単純ランダムサンプリング (無作為抽出) 109
内容 1.単純ランダムサンプリング(無作為抽出) 2.標本を確率変数だとみなそう 3.事例紹介 110
内容 1.単純ランダムサンプリング(無作為抽出) 2.標本を確率変数だとみなそう 3.事例紹介 111
母集団分布と標本 今回の事例 湖からの標本抽出 →5尾の魚だけがいる湖から1尾抽出する 1cm 2cm 3cm 4cm 母集団は(ちょっと少ないが) 5尾しかいないと想定 5cm
母集団分布と標本 メモ 単純ランダムサンプリング(無作為抽出) 母集団の1つ1つが無作為に、 言い換えると「すべて等しい確率で選ばれる」という選び方 以下では単に「サンプリング」と書いた場合、 それは単純ランダムサンプリングを指すことにする 単純ランダムサンプリングによって 標本が抽出されたというのがとても大事 113
母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 5尾の魚は、すべて5分の1の確率で 標本として取得される可能性がある
母集団分布と標本 メモ 無作為標本 単純ランダムサンプリングによって得られた標本のこと サンプルサイズ 標本の大きさ。観測値の個数。 魚を2尾釣ったならサンプルサイズは2 サンプルサイズ1の無作為標本を得てみる この標本をどのように扱うか? 115
内容 1.単純ランダムサンプリング(無作為抽出) 2.標本を確率変数だとみなそう 3.事例紹介 116
母集団分布と標本 確率変数と実現値のざっくりした定義 確率変数:確率的に変化する値 実現値 :確率変数における具体的な値 これからサイコロを投げる →出る目は確率変数 投げたら「3」の目が出た →これが実現値 117
母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 標本はすべて5分の1で得られる確率変数 「3㎝」の魚が釣れたら、それは実現値
確率分布の初歩 サイコロを投げた時、どのようなデータが得らえる? 1 1の目: 6 1 2の目: 6 1 3の目: 6 1 4の目: 6 1 5の目: 6 1 6の目: 6 確率分布とは 確率変数と確率の対応 確率変数は○○の確率分布に従うと呼ぶ 119
確率分布の初歩 サイコロ投げと、確率分布・確率変数・実現値の対応 確率変数:サイコロの出る目 1 確率分布: 1の目: 6 1 2の目: 6 1 3の目: 6 1 4の目: 6 1 5の目: 6 1 6の目: 6 実現値:投げてみたら4の目が出た 120
確率分布の初歩 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 1,2,3,4,5という数値が、 すべて5分の1で出現するという確率分布
確率分布の初歩 釣れた魚の体長と、確率分布・確率変数・実現値の対応 確率変数:標本として得られる魚の体長 1 確率分布: 1cm: 5 1 2cm: 5 1 4cm: 5 1 5cm: 5 1 3cm: 5 実現値:3cmの魚が釣れた 5cmの魚が釣れた 122
内容 1.単純ランダムサンプリング(無作為抽出) 2.標本を確率変数だとみなそう 3.事例紹介 事例① 5尾の魚しかいない湖 事例② たくさんの魚がいる湖 123
母集団分布と標本 母集団分布 母集団が従う確率分布 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 すべて5分の1というのが母集団分布 124
母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 標本は、母集団分布に従う確率変数である このようにみなすと何が変わる?
母集団分布と標本 ① ③ ② ④ ⑤ 壺の中に1番から5番まで番号が振られた 球が入っている
母集団分布と標本 ① ②③ 1 5 1 5 1 5 ① ③ ② ④ ⑤ ④ ⑤ 1 5 目を閉じて球を取り出すと、 すべての数値は5分の1ずつ出てくる 1 5
母集団分布と標本 ① ③ ② ④ ⑤ 母集団分布は、釣りでも壺でも同じ 128
母集団分布は、釣りでも壺でも同じ モデル 現象を単純化した「模型」のこと プラモデルのモデル 標本が得られるプロセスの模型としてのモデル 本来は湖で釣りをすることによって、 「体長〇cmの魚」という標本が得られる でも、これは、 「5つの球が入った壺から無作為に取り出す」のと同じ →壺から球を取り出すことは、標本抽出の「モデル」となる (壺のモデルと呼ぶ) 129
母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 重要なのは母集団の確率分布 母集団分布に従って標本が得られる
内容 1.単純ランダムサンプリング(無作為抽出) 2.標本を確率変数だとみなそう 3.事例紹介 事例① 5尾の魚しかいない湖 事例② たくさんの魚がいる湖 131
母集団分布と標本 今回は湖に魚がたくさんいる →無限に魚が存在すると考える 132
母集団分布と標本 無限母集団 無限の要素を持つと想定した母集団 →厳密には湖の中に無限の魚がいるとは考えられないが、 議論を容易にするためにしばしば想定される仮定 有限母集団修正 母集団が小さい場合は、補正が必要になることもある →母集団が「標本と比べて」十分大きいなら、 あまり気にする必要はない →今回は無視できると考える 133
母集団分布と標本 母集団分布の例 単純ランダム サンプリングによって、 母集団分布に従い 標本が得られる →どの体長も、0.2の確 率で得られる 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.2 0.2 0.2 0.2 0.2 湖の中に無限に魚がいたとしても、 母集団分布が変わらなければ、 標本が得られるプロセスは変わらない!
母集団分布と標本 母集団分布の例 (別の湖) 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.1 0.2 0.4 0.2 0.1 この湖では、3㎝の魚が多くいる →この湖で釣りをすると、3㎝の魚が 釣れやすいはずだ!
母集団分布と標本 母集団分布の例 (さらに別の湖) 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.1 0.1 0.2 0.2 0.4 この湖では、5㎝の魚が多くいる →この湖で釣りをすると、5㎝の魚が 釣れやすいはずだ!
母集団分布と標本 いろんなサイズの魚 5cmの魚 5㎝の魚が多くいる湖でサンプリングすると 5㎝の魚が釣れやすいはず 137
母集団分布と標本 母集団分布の例 (さらに別の湖) 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.1 0.1 0.2 0.2 0.4 母集団分布に従って標本が得られる →ここで単純ランダムサンプリングすると 40%の確率で5㎝の魚が釣れるはず
確率論の用語の復習 139
多次元確率分布の基礎 多次元確率分布 2つ以上の確率変数を対象とした確率分布のこと 2つ以上ならいくつでも良いが、最初は2次元を扱う 同時確率分布(同時分布・結合分布とも呼ぶ) 2つの確率変数の「組み合わせ」の確率分布 「すべての組み合わせ」の確率を合計すると1になる 同時確率分布= 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 かつ、 𝑌 = 𝑦𝑗 である確率の分布 140
多次元確率分布の基礎 同時確率分布の例:コイン投げとサイコロ投げの組み合わせ コイン投げの結果という確率変数を𝑋とする サイコロ投げの結果という確率変数を𝑌とする コイン投げ(1次元の確率分布) 𝑃 𝑋 = 0 = 1Τ2 , 𝑃 𝑋 = 1 = 1Τ2 →足すと1 サイコロ投げ(1次元の確率分布) 𝑃 𝑌 = 1 = 1Τ6 , 𝑃 𝑌 = 2 = 1Τ6 , 𝑃 𝑌 = 3 = 1Τ6 , 𝑃 𝑌 = 4 = 1Τ6 , 𝑃 𝑌 = 5 = 1Τ6 , 𝑃 𝑌 = 6 = 1Τ6 →足すと1 141
多次元確率分布の基礎 コイン投げとサイコロ投げの組み合わせ(2次元確率分布) コイン投げ 𝑋 0 1 1 1 12 1 12 サイコロ投げ 𝑌 2 3 4 5 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 6 1 12 1 12 12パターンの組み合わせの 「同時確率」を足すと1になる 142
多次元確率分布の基礎 周辺確率分布(周辺分布とも呼ぶ) 「組み合わせ」である2次元の同時確率分布を、 「もともとの1次元の確率分布に戻したもの」 というイメージ →周辺分布は、個別に合計が1になる 「元の確率分布」あるいは「1次元の分布」 が知りたい場合は、周辺分布を見る! 143
多次元確率分布の基礎 コイン投げとサイコロ投げの組み合わせ(2次元確率分布) 1 1 0 12 1 コイン投げ 1 𝑋 12 1 合計 6 2 1 12 1 12 1 6 サイコロ投げ 𝑌 3 4 5 6 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 1 1 1 1 6 6 6 6 合計 1 2 1 2 1 144
多次元確率分布の基礎 コイン投げとサイコロ投げの組み合わせ(2次元確率分布) 1 1 0 12 1 コイン投げ 1 𝑋 12 1 合計 6 2 1 12 1 12 1 6 サイコロ投げ 𝑌 3 4 5 6 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 1 1 1 1 6 6 6 6 合計 1 2 1 2 1 行ごとに合計を取ると、 コイン投げの(1次元の)確率分布が再現できる 145
多次元確率分布の基礎 コイン投げとサイコロ投げの組み合わせ(2次元確率分布) 1 1 0 12 1 コイン投げ 1 𝑋 12 1 合計 6 2 1 12 1 12 1 6 サイコロ投げ 𝑌 3 4 5 6 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 1 1 1 1 6 6 6 6 列ごとに合計を取ると、 サイコロの(1次元の)確率分布が再現できる 合計 1 2 1 2 1 146
条件付き確率分布 条件付き確率分布 確率変数𝑋, 𝑌に対して、 以下で計算される𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 を 「確率変数𝑌が分かった、という条件における、 確率変数𝑋の条件付き分布」と呼ぶ 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑃 𝑌 = 𝑦𝑗 147
条件付き確率分布 条件付き確率分布 確率変数𝑋, 𝑌に対して、 以下で計算される𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 を 分子は同時分布 「確率変数𝑌が分かった、という条件における、 確率変数𝑋の条件付き分布」と呼ぶ 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑃 𝑌 = 𝑦𝑗 分母は周辺分布 148
条件付き確率分布 条件付き確率の例 本来サイコロは6面ある 6の目が出るもともとの確率は1/6 149
条件付き確率分布 条件付き確率の例 本来サイコロは6面ある 5以上の目が出た時だけを考える [5以上]という条件で6の目が出る確率は1/2 150
条件付き確率分布 条件付き確率のイメージ 本来サイコロは6面ある (6の目が出る確率は1/6) 5以上の目が出た時だけを考える 条件付き確率の計算式 2分の1の確率で 「6の目」が出る 同時確率(5以上の目が出て、かつ6の目である確率=1/6)を 周辺確率(5以上の目が出る確率=1/3)で割ると求まる 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑃 𝑌 = 𝑦𝑗 151
確率変数の独立 確率変数の独立 すべての𝑖, jで下記が成立するとき、 確率変数𝑋, 𝑌が独立であると呼ぶ 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑃 𝑌 = 𝑦𝑗 これは、以下と実質同じ意味 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 𝑃 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 = 𝑃 𝑌 = 𝑦𝑗 条件を付けても、確率分布が変わらない 152
条件付き確率分布 メモ 独立性の意味(標本で考える) 1つ目の標本を𝑋1 と、2つ目の標本を𝑋2 とする 条件𝑋1 があってもなくても、 𝑋2 の確率分布が変わらないなら𝑋1 , 𝑋2 は独立 例えば…… 1回目の釣りで大きな魚が釣れた(𝑋1 が大きい)か、 小さな魚が釣れた(𝑋1 が小さい)かは、 次に釣りをした時の魚の大きさ𝑋2 に影響を与えない 153
独立同一分布 独立同一分布 𝑛個の確率変数𝑋1 , 𝑋2 , … 𝑋𝑛 がある。 これらの確率変数が従う確率分布が同じであり、 確率変数同士が互いに独立であるとき、 𝑋1 , 𝑋2 , … 𝑋𝑛 が「独立同一分布に従う」と呼ぶ 独立同一分布はindependently and identically distributedの 頭文字をとってi.i.dと表記することもある iidの具体的な役割は次回解説 独立であって、かつ、みんな同じ分布 いろいろな制約を置くと計算が楽になる! 154
標本抽出のモデル 「母集団からの単純ランダムサンプリング」 という現実世界の出来事を 「モデル」で表現 155
母集団分布と標本 メモ 現実 同一の母集団から単純ランダムサンプリング(無作為抽出)で サンプルサイズ𝑛の標本を取得した 対応 モデル 同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 156
母集団分布と標本 現実 同一の母集団から単純ランダムサンプリング(無作為抽出)で サンプルサイズ𝑛の標本を取得した 対応 モデル 同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 無作為標本は、母集団の確率分布に従う →赤字のようにモデル化できる 157
母集団分布と標本 現実 同一の母集団から単純ランダムサンプリング(無作為抽出)で サンプルサイズ𝑛の標本を取得した 対応 モデル 同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 1回目の釣りと2回目以降の結果は無関係 →青字のようにモデル化できる 158
母集団分布と標本 現実 同一の母集団から単純ランダムサンプリング(無作為抽出)で サンプルサイズ𝑛の標本を取得した 対応 モデル 同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 母集団からの標本抽出をモデルで表現 確率論を駆使してモデルを分析していく 159
モデルと現実の食い違いについて やや高度な補足ではあるが、 統計学を社会で活用するためには必須の知識 160
モデルと現実の食い違い 現実 同一の母集団から単純ランダムサンプリング(無作為抽出)で サンプルサイズ𝑛の標本を取得した 対応 モデル 同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) もしも現実が単純ランダムサンプリングを していなかったらどうなるだろうか? 161
モデルと現実の食い違い 単純ランダムサンプリング(無作為抽出) 母集団の1つ1つが無作為に、 言い換えると「すべて等しい確率で選ばれる」という選び方 単純ランダムサンプリングじゃなかった場合 母集団のうち「大きな魚」が選ばれやすいとする 例)大きな釣り針を使って魚を捕まえた 単純ランダムサンプリングじゃなかったら どのような問題が発生するだろう? 162
モデルと現実の食い違い 母集団分布 体長 確率 1㎝ 2㎝ 0.2 0.2 3㎝ 4㎝ 5㎝ 0.2 0.2 0.2 小さな魚も 大きな魚も等しい確率で存在
モデルと現実の食い違い 母集団分布 標本が従う確率分布 体長 確率 体長 確率 1㎝ 2㎝ 0.2 0.2 1㎝ 2㎝ 0.1 0.1 3㎝ 4㎝ 5㎝ 0.2 0.2 0.2 3㎝ 4㎝ 5㎝ 0.2 0.2 0.4 小さな魚も 大きな魚も等しい確率で存在 大きな針で釣ったので 大きな魚が釣れやすい 標本の従う分布が、母集団分布と違う!
標本の従う分布が、母集団分布と違う! 標本が従う確率分布 体長 確率 1㎝ 2㎝ 3㎝ 0.1 0.1 0.2 4㎝ 5㎝ 0.2 0.4 標本に5cmの魚が多かったその理由は 「湖に5cmの魚が多い」から? 「5cmの魚が針にかかりやすい」から?
モデルと現実の食い違い 現実とモデルの対応関係が大切 次回から、モデルを用いて様々な計算を行う モデルが現実世界と対応しているならば、 この計算をすることで、現実世界について理解を深める しかし、もしもモデルが現実世界と乖離していたら、 モデルを用いた分析は単なる「机上の空論」となる 「単純ランダムサンプリング」によって 標本を得ることは決定的に重要! 166
モデルと現実の食い違い 起こりうる失敗例 スマホを利用できるかどうかを、スマホアプリでアンケート →アンケートの方法が悪い →これだと100%全員がスマホを利用できると答えるはず どのようにデータを取るべきか 「単純ランダムサンプリング」になるようにする 例)日本人全員を母集団にするなら、 日本人全員に番号を割り振って、 ランダムに番号を選ぶことでアンケートの対象者を選ぶ 標本を得る作業は、現実的にはすごく大変 危険性がある 167
正規分布というモデル 168
正規分布というモデル 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 この母集団分布は、やや単純化しすぎ もう少し複雑で現実に合うモデルが欲しい
正規分布というモデル 正規分布とは 確率分布の1種 パラメータを変えることで、様々な確率分布を作れる 正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 平均(期待値)が𝜇で、分散が𝜎 2 、標準偏差が𝜎となる 正規分布という確率分布を 魚の体長の分布を表現するモデルに使う 170
正規分布というモデル 正規分布の確率密度関数のグラフ 171
正規分布というモデル 正規分布のグラフの特徴 「釣り鐘型」や「ベル 型」と呼ぶこともある 平均に対して左右対称 平均値𝜇に対して 左右対称 172
正規分布というモデル 魚の体長の変化の仕方 「魚の体長の母集団分布が正規分布である」 という場合、 魚の体長はどのように変化していると考えられるだろうか 173
正規分布というモデル 仮定①:魚の「標準的な大きさ」は決まっている コイツが標準的な大きさの魚 仮定②:小さな変化の積み重ねで体長が変化 食べ物の多い・少ない 気温の高い・低い 雨量の多い・少ない 小さな変化の積み重ねは何をもたらすか? 174
正規分布というモデル 小 標準 大 たまたま食べ物が多かった ちょっとだけ大きくなる 175
正規分布というモデル 小 標準 大 たまたま気温が低かった 標準体長に戻る 正負の影響が混ざって、元に戻る 176
正規分布というモデル 小 標準 ×食べ物、×気温 (アンラッキー) 大 ○食べ物、○気温 (ラッキー) 極端な結果にはなりにくいはず 177
正規分布というモデル 1.体長は小さな誤差の積み重ねで決まると仮定 2.小さな誤差は、正負共に50%の確率で加わると仮定 ほかにもいくつかの導出がある 1 2 1 4 標準 1 2 1 2 1 4 178
正規分布というモデル 1 2 1 4 標準 1 2 体長のヒストグラム 1 2 1 4 標準体長になる確率が最も高い 極端な体長になる確率は低い 179
正規分布というモデル 体長のヒストグラム 左右対称のベル型 180
正規分布というモデル 小さな変化の積み重ねで体長が変化 1 2 標準 1 4 1 2 1 2 1 4 正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 体長分布のモデルとして、正規分布を使う 181
正規分布というモデル 中心極限定理 𝑛個の独立同一分布に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 において、 確率変数の期待値を𝜇と、分散を𝜎 2 とする。 𝑛個の確率変数の合計値が従う確率分布は、 𝑛が大きくなると正規分布に近づく 確率変数がたくさんあれば、 その合計値は正規分布に従う 182
正規分布というモデル 中心極限定理のいいところ 確率変数の合計値が正規分布に近づくことの数学的な定理 正規分布をモデルとして利用することの理由付けの1つになる 中心極限定理の注意点 確率変数の合計値が正規分布に近づくことに注意 確率変数そのものが正規分布に従うと勘違いしないように (本屋で売られている本でも間違った記載がたまにある) 𝑛がいくつ以上あればよいのかは、割と不明確 (30以上と書いてある本もあるが、根拠はないので注意) 183
正規分布というモデル モデルを作るときに大切にすること(私案) モデルはなるべく使いやすいほうがいい • 解釈がしやすい • 計算がしやすい (正規分布は、ほとんどの統計ソフトで利用できる) モデルはなるべく現実に合うものにしたい • 現実と異なるモデルを作っても意味がない • 予測が当たらない、母集団が現実と異なる…… モデルは、その扱いやすさと、 現実への整合性の2つが大切 184
まとめ メモ 現実世界に対する想定① 母集団は正規分布に従う(正規母集団) 現実世界に対する想定② 単純ランダムサンプリング(無作為抽出)によって 母集団から標本が抽出される モデルの構造 同一の正規分布に従う独立な確率変数を𝑛個取得する 185
母集団の推測への取り組み方 186
正規分布というモデル 正規分布を、母集団分布のモデルとして利用する 母集団分布のモデルとして、正規分布を利用することにした 標本は正規分布に従う確率変数とみなせる 母集団分布がわかると何がうれしいか ①母集団のことがわかるのがまずはうれしい →湖の中には〇cmの魚が△%存在するとわかる ②予測ができる →標本は、正規分布に従う確率変数だとみなせる 「次に得られるだろうデータ」が従う確率分布がわかるので、 次に来るであろうデータが予測できる 187
正規分布というモデル 正規分布のパラメータの推定 正規分布には2つのパラメータがある 平均(期待値)が𝜇で、分散が𝜎 2 、標準偏差が𝜎となる Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 正規分布のモデルを使うと決めても、 まだ「パラメータを決める」作業が残っている 188
正規分布というモデル パラメータを雑に決めてはいけない 正規分布は平均(期待値)が𝜇で、分散が𝜎 2 、標準偏差が𝜎 テキトーに𝜇 = 300と定めると、 「湖の中には平均して300cmの魚が生息している」という すさまじいモデルを作ってしまう 189
正規分布というモデル 統計的推測 標本から母集団を推測すること 統計的推定 標本を用いて、母集団を特徴づけるパラメータを 言い当てる試みのこと 教科書によって、 ややニュアンスが異なることも
統計学 II 第3回:母平均と標本平均
モデル 「現実」と「机上の空論」の間 確率論では「コインを投げて表が出る確率は50%」など 作為的な事例が頻繁に登場した 確率論を学んだ人の多くは「なんだか現実離れしている」と 感じることだと思う 現実世界の出来事 モデル 理論上での計算 モデルを使って、現実と理論をつなぐ 192
モデル 「現実」と「机上の空論」の間 確率論では「コインを投げて表が出る確率は50%」など 作為的な事例が頻繁に登場した 確率論を学んだ人の多くは「なんだか現実離れしている」と 感じることだと思う 現実世界の出来事 モデル 理論上での計算 前回は現実世界をモデル化するところまで 193
モデル 「現実」と「机上の空論」の間 確率論では「コインを投げて表が出る確率は50%」など 作為的な事例が頻繁に登場した 確率論を学んだ人の多くは「なんだか現実離れしている」と 感じることだと思う 現実世界の出来事 モデル 理論上での計算 今回はモデルを使って計算を行う 194
内容 1.統計的推定の考え方 2.期待値と分散 3.母平均の推定~ 「良い」推定量とは~ 195
統計的推定の考え方 主に先週の復習 196
内容 1.母集団からの標本抽出というモデル 2.正規分布というモデル 3.統計的推定のテーマ 197
内容 1.母集団からの標本抽出というモデル 2.正規分布というモデル 3.統計的推定のテーマ 198
推測統計のテーマ 統計的推測 標本から母集団を推測すること 統計的推定 標本を用いて、母集団を特徴づけるパラメータを 言い当てる試みのこと 教科書によって、 ややニュアンスが異なることも
推測統計のテーマ 正規分布のパラメータ 平均(期待値)が𝜇で、分散が𝜎 2 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 正規分布のパラメータは𝜇と𝜎 2 の2つ この2つのパラメータを言い当ててみる 200
推測統計のテーマ 母集団にまつわる用語 母平均→母集団の平均 母分散→母集団の分散 (標本平均とは区別) (標本分散とは区別) 正規分布のパラメータの推定 母集団分布のパラメータ、 すなわち母平均𝜇、母分散𝜎 2 を言い当てればよい 201
推測統計のテーマ 推定量 統計的推定に用いる統計量のこと 標本が確率変数なので、統計量(推定量)も確率変数となる 推定値 実際に得られた「推定量の実現値」のこと 表記についての補足 確率変数はアルファベットの大文字。実現値は小文字 母平均の推定量として、 標本平均という統計量を使ってみよう! 202
推測統計のテーマ 「釣った魚」の体長の平均値 が4cmだった(標本平均) だから 「湖の中のすべての魚」も 体長の平均値は 4cmなのでは?(母平均) 203
推測統計のテーマ 母平均の推定くらい、簡単? 標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測する なんか4cmって小さくない? 標本平均に5を足した結果を使おうぜ! たくさんのデータを集計するの面倒だな~ そうだ、データを1つだけ選んで、それを使おう! 無茶苦茶な意見に聞こえる でも、具体的に「何が悪い」のか? 204
推測統計のテーマ 母平均の推定くらい、簡単? 標本平均に5を足した結果を使うとどうなる? ほとんどのデータを捨てて1つだけを使うとどうなる? そんなことしたらダメだろ! え~、なんで~ どのみち母集団のことわかんないだから、 好きに計算したらいいじゃん。 たまたま「小さめのサイズ」の魚ばっかり釣れたん だったら大きめに補正した方がいいでしょ? 205
推測統計のテーマ ここでの疑問 標本を使うため、母集団全体を調べてはいない 標本から計算された平均値と、母集団の平均値が、 「ぜんぜん違う」ということにはならないの? 標本を使って「やっつけ仕事」で母平均を推定してる? →何をやってもダメだから、どんな計算をしてもよい? →どのよう計算するのが「良い」やりかたなの? 逆に「悪い」やりかたはどのようなもの? こういった疑問に答えるのが推測統計
期待値と分散 推定量の「良さ」を議論するための言葉 確率論という「数学的なモデル」を利用して、 色々な計算を進める 207
内容 1.期待値 2.確率変数の分散 3.確率変数の和の期待値・分散 4.期待値・分散の変換 208
内容 1.期待値 2.確率変数の分散 3.確率変数の和の期待値・分散 4.期待値・分散の変換 209
期待値 期待値(復習) 確率変数において、以下で計算される値のこと 期待値=「確率×その時の値」の合計 (連続型の確率変数を相手にする場合は積分する) 期待値の表記法 確率変数𝑋の期待値を𝐸 𝑋 と表記する (確率変数が𝑌なら、期待値は𝐸 𝑌 と表記される) 期待値は短く𝜇と表記することもある 210
期待値 期待値の計算 期待値=「確率×その時の値」の合計 確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とする なお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする 期待値𝐸 𝑋 は以下のように計算できる 𝑛 𝐸 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 𝑖=1 確率 その時の値 合計 211
期待値=「確率×その時の値」の合計 期待値 期待値の計算例 コイン投げ結果という確率変数に対して、期待値を計算 コイン投げの確率分布 出た面 1(表) 0(裏) 確率 1 2 1 2 期待値=「確率×その時の値」の合計 1 1 1 =1× +0× = 2 2 2 212
期待値=「確率×その時の値」の合計 クイズ 期待値 下記の「いかさまコイン」における期待値を求めよ コイン投げの確率分布 出た面 1(表) 0(裏) 𝟏 ① 𝟐 𝟏 ② 𝟑 確率 1 3 2 3 𝟏 ③ 𝟔 𝟐 ④ 𝟑
期待値=「確率×その時の値」の合計 クイズ(回答) 期待値 下記の「いかさまコイン」における期待値を求めよ コイン投げの確率分布 出た面 1(表) 0(裏) 𝟏 ① 𝟐 𝟏 ② 𝟑 確率 1 3 2 3 𝟏 ③ 𝟔 𝟐 ④ 𝟑
期待値=「確率×その時の値」の合計 クイズ(回答) 期待値 下記の「いかさまコイン」における期待値を求めよ コイン投げの確率分布 出た面 1(表) 0(裏) 確率 1 3 2 3 期待値=「確率×その時の値」の合計 1 2 1 =1× +0× = 3 3 3
期待値=「確率×その時の値」の合計 クイズ 期待値 表が出たら1万円、裏が出たら何ももらえない賭けがある この賭けの期待値を求めよ もらえる金額の確率分布 金額 1万円 0円 ① 1万円 ② 5000円 ③ 3000円 確率 3 10 7 10 ④ 7000円 216
期待値=「確率×その時の値」の合計 クイズ(回答) 期待値 表が出たら1万円、裏が出たら何ももらえない賭けがある この賭けの期待値を求めよ もらえる金額の確率分布 金額 1万円 0円 ① 1万円 ② 5000円 ③ 3000円 確率 3 10 7 10 ④ 7000円 217
期待値=「確率×その時の値」の合計 クイズ(回答) 期待値 表が出たら1万円、裏が出たら何ももらえない賭けがある この賭けの期待値を求めよ もらえる金額の確率分布 金額 1万円 0円 確率 3 10 7 10 期待値=「確率×その時の値」の合計 3 7 = 3000 = 10000 × +0× 10 10 218
期待値の解釈 期待値の直感的な説明 平均値と同様に解釈できる指標 「まだ手に入れていない、 未知データにも適用できる平均値(予想値)」 「長い目で見たときの、平均値」 219
期待値の解釈 期待値の直感的な説明 平均値と同様に解釈できる指標 「まだ手に入れていない、 未知データにも適用できる平均値(予想値)」 「長い目で見たときの、平均値」 「長い目」で見るとは? 220
期待値の解釈 実現値の例 コイン投げ結果という確率変数の実現値を20回取得 コイン投げの確率分布 出た面 確率 1 2 1 2 1(表) 0(裏) 表が8回 裏が12回 表 裏 裏 表 裏 表 表 裏 裏 裏 裏 裏 裏 表 表 裏 表 裏 表 裏 確率分布と比べて、裏がやや多くなった 221
期待値の解釈 確率変数と実現値 確率変数は確率的に結果が変わる そのためたまたま表が多く出たり、裏が多く出たりするかも 表が8回 裏が12回 表 裏 裏 表 裏 表 表 裏 裏 裏 裏 裏 裏 表 表 裏 表 裏 表 裏 例えばコインを2回だけ投げて、すべて裏だったとする 裏 裏 この結果を見て、これはイカサマコインだと主張するのは 無理がありそう 222
金額 1万円 0円 期待値の解釈 確率 3Τ10 7Τ10 賭けに参加するかどうか 表が出たら1万円、裏が出たら何ももらえない賭けがある ★賭けに参加するのに5000円かかる★ 賭けに10回参加する →10回の平均受取金額を計算する 1万円 1万円 1万円 0円 0円 0円 0円 1万円 0円 1万円 10回賭けに参加すると、「たまたま」 当たりが多く出ることもある 223
金額 1万円 0円 期待値の解釈 確率 3Τ10 7Τ10 賭けに参加するかどうか 表が出たら1万円、裏が出たら何ももらえない賭けがある ★賭けに参加するのに5000円かかる★ 賭けに10回参加する →10回の平均受取金額を計算する 1万円 0円 1万円 0円 0円 0円 0円 0円 0円 0円 10回賭けに参加すると、「たまたま」 当たりが少なく出ることもある 224
期待値の解釈 金額 1万円 0円 確率 3Τ10 7Τ10 賭けに参加するかどうか 表が出たら1万円、裏が出たら何ももらえない賭けがある ★賭けに参加するのに5000円かかる★ 賭けに何度も参加する→その平均受取金額を計算する 1万円 0円 1万円 0円 0円 1万円 0円 1万円 0円 0円 1万円 0円 1万円 0円 1万円 0円 0円 0円 0円 0円 1万円 0円 0円 0円 0円 1万円 0円 0円 0円 0円 0円 1万円 0円 1万円 0円 0円 1万円 0円 0円 0円 賭けに何度も、何度も、何度も参加する →平均受取金額は3000円に収束する 225
期待値の解釈 期待値の直感的な説明 平均値と同様に解釈できる指標 「まだ手に入れていない、 未知データにも適用できる平均値(予想値)」 「長い目で見たときの、平均値」 何度も、何度も、何度も、何度も賭けに参加する 「無限にも及ぶ回数、賭けに参加したならば、 平均して3000円くらいの金額が得られるだろう」 →この3000円が期待値 →参加金額が5000円なのだとしたら、 「平均的に見ると」損をしてしまうだろうと予想できる 226
期待値の解釈 期待値の直感的な説明 平均値と同様に解釈できる指標 「まだ手に入れていない、 未知データにも適用できる平均値(予想値)」 「長い目で見たときの、平均値」 確率変数と期待値 確率変数は確率的に結果が変わる →この確率変数を、何度も、何度も取得したならば その平均値は期待値と一致するだろう 期待値は、確率変数における 「代表値」のような使い勝手の指標 227
内容 1.期待値 2.確率変数の分散 3.確率変数の和の期待値・分散 4.期待値・分散の変換 228
確率変数の分散 「確率変数の分散」の直感的な説明 「確率変数が、期待値から どれだけ離れていると期待できるか」を表した指標 「確率変数の分散」の計算 確率変数𝑋の期待値を𝐸 𝑋 と表記する 分散を𝑉 𝑋 と表記すると 𝑉 𝑋 は以下のように定義される 𝑉 𝑋 =𝐸 𝑋−𝐸 𝑋 2 確率変数𝑋とその期待値𝐸 𝑋 の差異 229
確率変数の分散 「確率変数の分散」の直感的な説明 「確率変数が、期待値から どれだけ離れていると期待できるか」を表した指標 「確率変数の分散」の計算 確率変数𝑋の期待値を𝐸 𝑋 と表記する 分散を𝑉 𝑋 と表記すると 𝑉 𝑋 は以下のように定義される 𝑉 𝑋 =𝐸 𝑋−𝐸 𝑋 2 差異 𝑋 − 𝐸 𝑋 期待値 2 の 確率変数𝑋とその期待値𝐸 𝑋 の差異 230
確率変数の分散 分散の計算 分散=『「確率変数-期待値」の2乗』に対する期待値 確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とする なお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする。期待値を𝜇とする。 分散𝑉 𝑋 は以下のように計算できる 𝑛 𝑉 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 確率 「確率変数-期待値」の2乗 合計 231
確率変数の分散 分散の計算 分散=『「確率変数-期待値」の2乗』に対する期待値 「確率を掛けてから合計する」作業は、 ワンセットで「期待値」の計算 確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とする だといえる なお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする。期待値を𝜇とする。 分散𝑉 𝑋 は以下のように計算できる 𝑛 𝑉 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 確率 合計 232
確率変数の分散 分散の計算 分散=『「確率変数-期待値」の2乗』に対する期待値 確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とする なお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする。期待値を𝜇とする。 分散𝑉 𝑋 は以下のように計算できる 𝑛 𝑉 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 確率 「期待値との差異」を対象に 期待値を計算したのが分散 合計 233
確率変数の分散 確率変数を𝑋とし、実現値を𝑥1 , 𝑥2 , … , 𝑥𝑛 とする 確率質量関数を𝑓 𝑥𝑖 とする。期待値を𝜇と表記する 確率変数の期待値 𝑛 𝐸 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 𝑖=1 確率変数の分散 𝑛 𝑉 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 234
確率変数の分散 確率変数を𝑋とし、実現値を𝑥1 , 𝑥2 , … , 𝑥𝑛 とする 確率質量関数を𝑓 𝑥𝑖 とする。期待値を𝜇と表記する 確率変数の期待値 𝑛 𝐸 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 𝑖=1 確率変数の分散 期待値と分散の 対応関係に注目 𝑛 𝑉 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 235
確率変数の分散 以下の確率分布に従う確率変数𝑋の分散𝑉 𝑋 を求めよ 確率分布 1 1 𝑃 𝑋 = 0 = ,𝑃 𝑋 = 1 = 2 2 𝑛 分散の公式 𝑉 𝑋 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 期待値𝜇 = 1Τ2は事前に計算 公式のあてはめ 今回は𝑥1 = 0, 𝑥2 = 1となっている 𝑃 𝑋 = 𝑥1 ∙ 𝑥1 − 𝜇 2 + 𝑃 𝑋 = 𝑥2 ∙ 𝑥2 − 𝜇 2 を計算する 1 1 回答 𝑉 𝑋 = ∙ 0 − 2 2 2 1 1 + ∙ 1− 2 2 2 1 = 4 236
クイズ 以下の確率分布に従う確率変数𝑋の分散𝑉 𝑋 を求めよ 確率分布 ① 𝟎 25 𝑃 𝑋= = 0, 𝑃 𝑋 = 0 = 1 8 𝟏 ② 𝟖 𝟐𝟓 ③ 𝟖 𝟕𝟓 ④ 𝟖 237
クイズ(回答) 以下の確率分布に従う確率変数𝑋の分散𝑉 𝑋 を求めよ 確率分布 ① 𝟎 25 𝑃 𝑋= = 0, 𝑃 𝑋 = 0 = 1 8 𝟏 ② 𝟖 𝟐𝟓 ③ 𝟖 𝟕𝟓 ④ 𝟖 常に「0」しか出ない確率分布なので期待値は「0」 期待値から離れた値は絶対に出ないので、分散も「0」 238
内容 1.期待値 2.確率変数の分散 3.確率変数の和の期待値・分散 4.期待値・分散の変換 239
確率変数の和の期待値・分散 独立同一分布 𝑛個の確率変数𝑋1 , 𝑋2 , … 𝑋𝑛 がある。 これらの確率変数が従う確率分布が同じであり、 確率変数同士が互いに独立であるとき、 𝑋1 , 𝑋2 , … 𝑋𝑛 が「独立同一分布に従う」と呼ぶ 独立同一分布はindependently and identically distributedの 頭文字をとってi.i.dと表記することもある 独立であって、かつ、みんな同じ分布 いろいろな制約を置くと計算が楽になる! 240
確率変数の和の期待値・分散 和の期待値における便利な公式 確率変数𝑋, 𝑌において、以下が成り立つ 𝐸 𝑋+𝑌 =𝐸 𝑋 +𝐸 𝑌 独立な確率変数の和の分散における便利な公式 互いに独立な確率変数𝑋, 𝑌において、以下が成り立つ 𝑉 𝑋+𝑌 =𝑉 𝑋 +𝑉 𝑌 和の分散公式は独立性が必須なので注意 241
確率変数の和の期待値・分散 分散の場合は、なぜ「独立」が大事になるのか 𝑋の出目が小さいなら、𝑌の出目も小さくなりやすい 𝑋の出目が大きいなら、𝑌の出目も大きくなりやすい →この時、「確率変数の和」はどうなる? 𝑋 + 𝑌の値が極端に小さい(𝑋も𝑌も小さい)や、 𝑋 + 𝑌の値が極端に大きい(𝑋も𝑌も大きい) ことが頻繁に発生 →ばらつき(分散)が大きくなる! 確率変数同士の関係性によって、 和の分散は変化する 242
確率変数の和の期待値・分散 分散の場合は、なぜ「独立」が大事になるのか 𝑋と𝑌が独立でない場合は、以下のように分散を求める ただし𝐶は共分散を表す 𝑉 𝑋 + 𝑌 = 𝑉 𝑋 + 𝑉 𝑌 + 2𝐶 𝑋, 𝑌 証明は下記の資料を参照(少し難しい) https://logics-of-blue.com/stats-calc-note/ 確率変数同士が独立であると仮定すると 計算が簡単になる 243
確率変数の和の期待値・分散 和の期待値における便利な公式 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 で、 以下が成り立つ。ただし𝐹の期待値を𝜇とする 𝐸 𝑋1 + 𝑋2 = 𝜇 + 𝜇 = 2𝜇 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 で、 以下が成り立つ。ただし𝐹の期待値を𝜇とする 𝐸 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑛𝜇 期待値𝜇を足し合わせるだけ 244
確率変数の和の期待値・分散 和の分散における便利な公式 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 で、 以下が成り立つ。ただし𝐹の分散を𝜎 2 とする 𝑉 𝑋1 + 𝑋2 = 𝜎 2 + 𝜎 2 = 2𝜎 2 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 で、 以下が成り立つ。ただし𝐹の分散を𝜎 2 とする 𝑉 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑛𝜎 2 分散𝜎 2 を足し合わせるだけ 245
内容 1.期待値 2.確率変数の分散 3.確率変数の和の期待値・分散 4.期待値・分散の変換 246
前期の復習: 基準化変量の解説で登場した変換公式 247
平均・分散の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 「なんかの数値」 くらいの意味 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 平均値の変換公式 元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる 1 𝑎は など分数も取りうる 5 𝑏は -5 など負の値も取りうる 248
平均・分散の性質 平均値の性質 元のデータ𝑥𝑖 に𝑎をかけたり𝑏を足したりしたら 平均値も𝑎をかけたり𝑏を足したりしたものになる 249
平均・分散の性質 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥ҧ = 𝑥𝑖 = 𝑛 𝑛 𝑖=1 𝑛 分散 1 𝑠 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 平均値は、データを足すだけ 分散は、引き算と2乗の計算も行う 2 250
平均・分散の性質 データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑥も5増える ҧ 𝑛 分散 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑥𝑖 は5増える データに5を足しても、相殺される! →データに何かを足しても分散は変わらず 251
平均・分散の性質 データ 𝑎 ∙ 𝑥𝑖 + 𝑏 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数 分散の変換公式 元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる 1 𝑎は など分数も取りうる 5 𝑏は -5 など負の値も取りうる 252
平均・分散の性質 平均値の性質 元のデータ𝑥𝑖 に𝑎をかけたり𝑏を足したりしたら 平均値も𝑎をかけたり𝑏を足したりしたものになる (データから計算された)分散の性質 元のデータ𝑥𝑖 に𝑎をかけたら分散は𝑎2 倍される 元のデータ𝑥𝑖 に何かを足し引きしても、分散は変化しない この性質は確率変数でも同様に成り立つ 253
期待値・分散の変換 期待値の性質 確率変数𝑋𝑖 に𝑎をかけたり𝑏を足したりしたら 期待値も𝑎をかけたり𝑏を足したりしたものになる 確率変数の分散の性質 確率変数𝑋𝑖 に𝑎をかけたら分散は𝑎2 倍される 確率変数𝑋𝑖 に何かを足し引きしても、分散は変化しない 証明は下記の資料も参照 https://logics-of-blue.com/stats-calc-note/ 標本平均の性質を理解するのに必要 254
メモ iidに従う確率変数の和の公式 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 で、 以下が成り立つ。ただし𝐹の期待値を𝜇、分散を𝜎 2 とする 𝑛 𝐸 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝐸 𝑋𝑖 = 𝑛𝜇 𝑖=1 𝑛 𝑉 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑉 𝑋𝑖 = 𝑛𝜎 2 𝑖=1 期待値・分散の変換公式 𝑎, 𝑏を任意の定数とする。確率変数を𝑋とする 𝐸 𝑎𝑋 + 𝑏 = 𝑎𝐸 𝑋 + 𝑏 𝑉 𝑎𝑋 + 𝑏 = 𝑎2 𝑉 𝑋 255
母平均の推定 ~「良い」推定量とは~ 256
内容 1.不偏推定量 2.推定量の分散 257
内容 1.不偏推定量 2.推定量の分散 258
不偏推定量 現実 母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングで サンプルサイズ𝑛の標本を取得した モデル 標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数である ただし𝐹の期待値は𝜇分散は𝜎 2 である 母集団からの標本抽出をモデルで表現 確率論を駆使してモデルを分析していく 259
不偏推定量 不偏性 推定量の期待値が、母集団のパラメータと等しくなる特性 不偏推定量 不偏性を持つ推定量のこと 不偏推定量は「平均すると、過大にも、 過少にもなっていない、偏りのない推定量」 260
不偏推定量 標本平均と不偏性 同一の母集団から単純ランダムサンプリングで標本を得る このときの標本平均は、母平均に対する不偏推定量である ത 標本平均を𝑋、母平均を𝜇とすると、 𝐸 𝑋ത = 𝜇となる 不偏性は、あくまでも「良さの1つ」 不偏性が必須というわけではないし、 不偏でも「望ましくない」推定量もある 標本平均を使うのが好ましい理由の1つ 5を足すと、母平均を過大評価してしまう 261
不偏推定量 証明 標本平均は、母平均に対する不偏推定量であることを証明 標本 𝑋𝑖 標本平均 𝑛 1 𝑋ത = 𝑋𝑖 𝑛 𝑖=1 母平均 𝜇 262
不偏推定量 証明 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝐸 𝑋𝑖 = 𝑛𝜇 𝑖=1 公式を標本に適用してみる 標本が、同一の母集団からの無作為標本ならば 標本はiidに従う →標本を𝑋𝑖 と置くと、公式が適用できる! 263
不偏推定量 証明 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝐸 𝑋𝑖 = 𝑛𝜇 𝑖=1 公式② 期待値の変換公式 𝐸 𝑎𝑋 = 𝑎𝐸 𝑋 標本平均の期待値が 母平均と一致した 公式①と②の合わせ技 𝑛 𝐸 𝑋ത = 𝐸 1 𝑋𝑖 𝑛 𝑖=1 𝑛 1 = ∙ 𝐸 𝑋𝑖 𝑛 公式② 𝑖=1 1 = ∙ 𝑛𝜇 𝑛 公式① =𝜇 264
不偏推定量 不偏推定量のイメージ 「標本抽出+標本平均の計算」を、何度も何度も行う 標本平均は確率変数なので、毎回異なる平均値が得られる →長い目で見た、『標本平均の平均値』は母平均と一致する 標本平均○cm 標本平均×cm 標本平均の平均値 標本平均△cm 265
不偏推定量 現実世界 母集団から単純ランダムサンプリングによって標本を得る 標本平均を計算して、それを母平均の推定量にする →本当にこのやりかたで「良い」のかな? モデル内での計算 独立同一分布に従う確率変数を得る モデルからいろいろ計算すると、 標本平均の期待値は、母平均と一致すると分かった →標本平均は不偏推定量なので「良い」推定量と言えそう! 「モデル内」での計算はちょっと面倒だけど 「現実世界」の作業の評価に役立つ 266
不偏推定量 なぜ標本平均に5を足してはいけないか 標本平均を計算して、それを母平均の推定量とする →標本平均が4cmなら、母平均も4cmだと推測する なんか4cmって小さくない? 標本平均に5を足した結果を推定量にしようぜ! そんなことしたら、「長い目で見ると」 母平均の値を過大に見積もってしまうのでダメ くっ……。 267
内容 1.不偏推定量 2.推定量の分散 268
推定量の分散 推定量の分散 分散は「期待値からどれだけ離れていると期待できるか」 を表した指標 →「標本平均という推定量」の分散が大きいなら、 せっかく不偏性を満たしていても、あまり意味がない (母平均と大きく異なる推定値が頻繁に得られてしまう) 推定量の分散(ばらつき)は、 できるだけ小さいほうが良い 269
推定量の分散 標本平均の分散 2 とすると、 ത 標本平均を𝑋、サンプルサイズを𝑛、母分散を𝜎 標本平均の分散𝑉 𝑋ത は以下のようになる 𝜎2 𝑉 𝑋ത = 𝑛 サンプルサイズが大きいほうが、 推定量の分散(ばらつき)が小さい 270
推定量の分散 なぜサンプルサイズが大きいと標本平均の分散が小さくなるか 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝑉 𝑋𝑖 = 𝑛𝜎 2 𝑖=1 公式を標本に適用してみる 標本が、同一の母集団からの無作為標本ならば 標本はiidに従う →標本を𝑋𝑖 と置くと、公式が適用できる! 271
推定量の分散 なぜサンプルサイズが大きいと標本平均の分散が小さくなるか 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝑉 𝑋𝑖 = 𝑛𝜎 2 𝑖=1 𝑉 𝑎𝑋 = 𝑎2 𝑉 𝑋 公式② 分散の変換公式 公式①と②の合わせ技 𝑛 1 ത 𝑉 𝑋 =𝑉 𝑋𝑖 𝑛 𝑖=1 サンプルサイズが大きいほ ത ど、 𝑋の分散は小さくなる 𝑛 1 = 2 ∙ 𝑉 𝑋𝑖 𝑛 公式② 𝑖=1 1 = 2 ∙ 𝑛𝜎 2 𝑛 公式① 𝜎2 = 𝑛 272
推定量の分散 標本平均の分散のイメージ 釣れた魚が「すべて大きい魚」であることはあまりない 釣れた魚が「すべて小さな魚」であることもあまりない →大きい魚と小さい魚が混ざった状況で平均を取るはず 平均的な大きさ 「極端に大きい・小さい平均値」は出にくい 標本平均の分散は、標本の分散より小さい 273
推定量の分散 なぜサンプルサイズが大きいほうが良いのか サンプルサイズが大きいほうが、標本平均の分散が減る たくさんのデータを集計するの面倒だな~ そうだ、 データを1つだけ選んで、それを推定量にしよう! そんなことしたら、標本平均の分散が 増えてしまう。分散は小さいほうが良い くっ……。 274
推定量の分散 一致性 サンプルサイズが大きくなると、 推定量が正しいパラメータに近づくという特性のこと 一致推定量 一致性を持つ推定量のこと サンプルサイズが無限に大きいなら、 推定量と母集団のパラメータは一致する 275
推定量の分散 標本平均の一致性について 証明は略するが、標本平均は母平均の一致推定量である 直観的なイメージ サンプルサイズが無限になると標本平均の分散は0に近づく 𝜎2 𝑉 𝑋ത = 𝑛 分母が無限になる 分散が0だと「期待値と全く離れない」ことになる 標本平均の期待値は母平均𝜇なので、 サンプルサイズが無限だと、標本平均は𝜇と一致する 276
推定量の分散 (おまけ)データを1つだけ選んで推定量にする方法の問題点 代表となるデータを𝑋𝑖 とすると𝐸 𝑋𝑖 = 𝜇だから 「データを1つだけ選ぶ」という推定量は不偏推定量になる しかし、データを常に1つしか使わないので、 サンプルサイズを増やしても、推定量の分散が減らない → 𝑋𝑖 を無理やり推定量にしても、一致推定量にはならない 277
推定量の分散 大数の法則 標本の大きさが大きくなるにつれて、 標本平均が母平均に近づく近づき方を表現した法則 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 直観的なイメージ サンプルサイズが無限に近づくと、 標本平均は母平均に近づく 標本平均を利用すべき大きな理由 278
推定量の分散 大数の法則(大数の弱法則)のもう少し正確な説明 標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数とする ただし𝐹の期待値は𝜇分散は𝜎 2 、 𝜎 2 < ∞であるとする ത この時、標本平均𝑋は期待値𝜇に確率収束する ※別の表現もある 現実世界で大数の法則を適用するために 標本が、母集団からの単純ランダムサンプリングによって 取得されているなら 大数の法則はちゃんと成り立つ 逆に言うと、サンプリングを失敗すると 大数の法則も成り立たないことがある 279
まとめ 今回は正規分布という 仮定を使っていない メモ モデルの構造 現実世界の想定 母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングで サンプルサイズ𝑛の標本を取得した モデル 標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数である ただし𝐹の期待値は𝜇分散は𝜎 2 である モデルから導かれた結果 標本平均は母平均の不偏推定量 ത 標本平均𝑋の期待値 𝐸 𝑋ത = 𝜇 ത 標本平均𝑋の分散 𝜎2 標本平均は母平均の一致推定量 𝑉 𝑋ത = 𝑛 280
推定量の分散 推測統計を学ぶ際に大事なこと 教科書の計算方法と計算結果の暗記ではうまくいかない 計算の前提となった条件を理解するのが大事 計算の前提条件を理解するために 「モデル」の考え方に慣れておくのが有益 前期と違って「計算演習」では足りない 「仕事でつかえる」分析技術を学ぼう 281
統計学 II 第4回:母分散と標本分散
内容 1.統計的推定の考え方 2.母分散の推定 3.点推定の理論のまとめ 283
統計的推定の考え方 主に先週の復習です 284
内容 1.母集団からの標本抽出というモデル 2.正規分布というモデル 3.統計的推定のテーマ 285
内容 1.母集団からの標本抽出というモデル 2.正規分布というモデル 3.統計的推定のテーマ 286
母集団からの標本抽出というモデル 母平均𝜇母分散𝜎 2 の母集団 母集団:知りたいと思っている集団全体 →湖の中にいる魚の体長を母集団と考える 287
母集団からの標本抽出というモデル 単純ランダムサンプリング →母集団の要素が すべて等しい確率で取得される 単純ランダムサンプリングによって 𝑛個の標本が取得された 288
推測統計の勘所 本来は、現実は複雑 でも、単純ランダムサンプリングで 得られた標本に対象を狭めよう 現実世界の想定 母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングで サンプルサイズ𝑛の標本を取得した 対応 モデル 標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数である ただし𝐹の期待値は𝜇分散は𝜎 2 である 確率論の言葉を使って、 現実世界を計算しやすいようにモデル化 289
内容 1.母集団からの標本抽出というモデル 2.正規分布というモデル 3.統計的推定のテーマ 290
統計的推定の考え方 少し単純すぎる例 湖からの標本抽出 →5尾の魚だけがいる湖から1尾抽出する 1cm 2cm 3cm 4cm 母集団は(ちょっと少ないが) 5尾しかいないと想定 5cm
統計的推定の考え方 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 単純ランダムサンプリングすると 1,2,3,4,5の数値がすべて1/5で出る
体長のヒストグラム 1 5 やや不自然(作為的)なヒストグラム 293
体長のヒストグラム 体長のヒストグラム(正規分布) 1 5 母集団は正規分布に従うと考えたほうが おそらく自然であるはず(仮定) 294
推測統計の勘所 現実世界の想定 母平均𝜇母分散𝜎 2 の正規母集団から 単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得 対応 モデル 標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である 確率論の言葉を使って、 現実世界を計算しやすいようにモデル化 295
内容 1.母集団からの標本抽出というモデル 2.正規分布というモデル 3.統計的推定のテーマ 296
統計的推定のテーマ 統計的推定 標本を用いて、母集団を特徴づけるパラメータを 言い当てる試みのこと 正規分布の2つのパラメータを推定したい モデル 標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である
統計的推定のテーマ パラメータを雑に決めてはいけない 正規分布は平均(期待値)が𝜇で、分散が𝜎 2 、標準偏差が𝜎 テキトーに𝜇 = 300と定めると、 「湖の中には平均して300cmの魚が生息している」という すさまじいモデルを作ってしまう 298
統計的推定のテーマ 「釣った魚」の体長の平均値 が4cmだった(標本平均) だから 素朴な方法だが、うまくいく 「湖の中のすべての魚」も 体長の平均値は 4cmなのでは?(母平均) 299
前回のまとめ 正規分布という仮定を使っていない (母集団分布が正規分布でなくても成り立つ) モデル 標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数である ただし𝐹の期待値は𝜇分散は𝜎 2 である モデルから導かれた結果 標本平均は母平均の不偏推定量 ത 標本平均𝑋の期待値 𝐸 𝑋ത = 𝜇 ത 標本平均𝑋の分散 𝜎2 標本平均は母平均の一致推定量 𝑉 𝑋ത = 𝑛 300
統計的推定のテーマ 先週の復習 母平均の推定量として 標本平均を使うのが「良い」方法だった →不偏性と一致性をもつ推定量だから 今日学ぶこと 母分散の推定量としては、 どのような統計量を使うのが「良い」のだろうか? 先週は母平均の推定に取り組んだ 今週は母分散の推定に取り組む
標本分散の復習(前期の復習) 記述統計で学んだ分散 標本から計算される分散は「標本分散」と呼ぶ 302
標本分散の復習 標本分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 303
標本分散の復習 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥は標本平均 ҧ 𝑛 標本分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 304
標本分散の復習 データ {1,2,3,4,5} 標本平均 標本分散 1−3 1+2+3+4+5 =3 5 個別のデータが、 平均値からどれほど離れているか計算 2 + 2−3 2 4+1+0+1+4 = 5 =2 + 3−3 5 2 + 4−3 2 + 5−3 2 305
ばらつきの指標 標本分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 分散小 1000 500 0 平均値 306
ばらつきの指標 標本分散 データが「平均値からどれほど離れているか」 を表す指標 平均値から 売り上げ(万円) 分散大 離れている 分散小 1000 500 0 平均値 307
ばらつきの指標 標本分散 データが「平均値からどれほど離れているか」 を表す指標 売り上げ(万円) 分散大 1000 500 0 多くのデータが、 分散小 平均値から離れている →分散が大きくなる 平均値 308
様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 標本分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 個別のデータが、 平均値からどれほど離れているか計算 309
様々な統計量 データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 標本分散 𝑠2 1 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 「データと平均値との差異 𝑥𝑖 − 𝑥ҧ さらに平均値をとっている 2 」の 多くのデータ𝑥𝑖 が平均値𝑥と離れていたら ҧ 分散は大きな値をとる 310
母分散の推定 311
母分散の推定 母集団にまつわる用語 母平均→母集団の平均 母分散→母集団の分散 (標本平均とは区別) (標本分散とは区別) 正規分布のパラメータの推定 母集団分布のパラメータ、 すなわち母平均𝜇、母分散𝜎 2 を言い当てればよい 先週は母平均の推定に取り組んだ 今週は母分散の推定に取り組む 312
標本分散が持つ偏り 標本分散の偏りについて 標本分散って思ってたより小さくない? 標本分散をちょっと大きくした値を推定量にしようぜ! また唐突に……。 そんなことしていいわけないじゃん 甘いな若造。標本分散は偏りがある推定量なので、 ちょっと大きめの値にしないと不偏性を持たないんだぜ くっ……。 313
不偏推定量(復習) 不偏性 推定量の期待値が、母集団のパラメータと等しくなる特性 不偏推定量 不偏性を持つ推定量のこと 不偏推定量は「平均すると、過大にも 過少にもなっていない偏りのない推定量」 314
不偏推定量(復習) 標本分散と不偏性 同一の母集団から単純ランダムサンプリングで標本を得る このときの標本分散は、母分散に対する不偏推定量でない 標本分散を𝑆 2 、母分散を𝜎 2 とすると、 𝐸 𝑆 2 ≠ 𝜎 2 となる 標本分散の期待値は、母分散にならない →標本分散は母分散を過小評価している 315
標本分散が持つ偏り 標本分散の定義式 ത 標本平均𝑋を使う 𝑛 ①標本分散 𝑆2 1 = 𝑋𝑖 − 𝑋ത 𝑛 2 𝑖=1 𝑛 ②ちょっと改造 1 𝑋𝑖 − 𝜇 𝑛 2 𝑖=1 標本平均ではなく 母平均を使った 母平均を使った②の計算ならば、 ちゃんと不偏推定量になる 316
標本分散が持つ偏り 標本平均を使う場合と母平均を使う場合の違いは? 分散は、「平均値とどれほど離れていると期待できるか」 を表した指標。 本来は母平均からどれだけ離れているかを調べる 標本平均 母平均𝜇 正しい差異 317
標本分散が持つ偏り 標本平均を使う場合と母平均を使う場合の違いは? 標本平均との差異が母平均との差異と比べて小さいことは 数学的に証明できる →「常に小さくなる」という偏りがあるため、 標本分散は、母分散の不偏推定量ではない 標本平均 母平均𝜇 過小評価された差異(標本分散) 318
標本分散が持つ偏り 𝑛 標本分散 𝑆2 1 = 𝑋𝑖 − 𝑋ത 𝑛 2 𝑖=1 𝑛 不偏分散 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 𝑛で割るかわりに、 𝑛 − 1で割る →不偏分散は、標本分散より少し大きい 319
標本分散が持つ偏り 不偏分散は本当に不偏推定量になっているか? 証明は大変なので今回は省略 (興味のある学生は https://logics-of-blue.com/stats-calc-note/ ) 証明の基本方針 ത 𝑋と𝜇が異なっているというのが問題 → 𝑋ത − 𝜇という差分がもたらす影響を調べる 320
標本分散が持つ偏り 補足 今回は母集団分布に正規分布を仮定した しかし、正規分布以外(たとえば一様分布・二項分布)でも 今週と先週で解説した不偏性などの議論は成り立つ (独立で同一な確率分布に従うという前提は利用する) 321
点推定の理論のまとめ 前期で学んだ「標本平均と分散の計算方法」から 推測統計へと飛躍するための考え方 322
内容 1.標本抽出と「モデル」 2.推定の基本的な流れ 3.推測統計の勘所 323
内容 1.標本抽出と「モデル」 2.推定の基本的な流れ 3.推測統計の勘所 324
推測統計の勘所 現実世界の想定 母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングで サンプルサイズ𝑛の標本を取得した 対応 モデル 標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数である ただし𝐹の期待値は𝜇分散は𝜎 2 である 325
内容 1.標本抽出と「モデル」 2.推定の基本的な流れ 3.推測統計の勘所 326
統計的推定のテーマ 推定量 統計的推定に用いる統計量のこと 標本が確率変数なので、統計量(推定量)も確率変数となる どのような推定量を使うべきか 「良い」性質を持つ推定量を使いたい (なんとなく5を足したい、とかはダメ) 推定量の性質を調べる 不偏性と一致性という性質などを考慮して推定量を選ぶ (ほかにもたくさんの性質がある) 327
統計的推定のテーマ 色々な推定量 今回は標本平均と不偏分散を推定量として利用した 他にも「最小二乗推定量」や「最尤推定量」など、 色々な推定量が提案されている (3年生向けのマーケティング・サイエンスではこちらも解説) 点推定と区間推定 今週までは点推定を解説した →標本平均を母平均の推定量とする、という考え 推定量に幅を持たせた「区間推定」というやり方もある →これを理解するのが中間テストまでの範囲となる 328
内容 1.標本抽出と「モデル」 2.推定の基本的な流れ 3.推測統計の勘所 329
推測統計の勘所 【記述統計】手持ちのデータの集計 【推測統計】未知のデータに対する判断・推測
推測統計 推測統計がない時(未知のデータに対して言及しない) 今日の夜まで 広告を出すことで、売り上げが増えました でも・・・ 明日からは 広告を出すことで売り上げが増えるか減るか不明です 何のためのデータ分析?
推測統計 推測統計がない時(未知のデータに対して言及しない) 手持ちのデータ 今日の夜まで 広告を出すことで、売り上げが増えました まだ持っていない未知のデータ 明日からは 広告を出すことで売り上げが増えるか減るか不明です データに基づく判断のためには、 未知のデータへの言及をすることが必要
推測統計 推測統計がある時(未知のデータに対して言及する) 今日の夜まで 広告を出すことで、売り上げが増えました だから 明日からも 広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう!!! この流れこそが「データに基づく判断」
推測統計の勘所 推測統計は必要だ 推測統計という技術がなければ、 データの活用はとても大きく制限されてしまう 推測統計は面倒だ 「手に入れていないデータ」の議論のやり方には工夫が必要 「手に入れていない」ものの議論なので、 手持ちのデータをどれだけ眺めていてもダメ 334
推測統計の勘所 現実 「標本抽出+統計量の計算」を、何度も何度も行う →何度も行った結果を見て、推定量の「良さ」を評価する 例)同じ条件で標本を得て、標本平均を何度も計算する 標本平均○cm 標本平均×cm 標本平均△cm 「標本平均の平均値」が得られる → 「標本平均の平均値」は母平均に一致するのでヨシ!335
推測統計の勘所 現実世界の限界 同じ条件で何度も標本を取得するのは面倒 (何度も釣りに出かけないといけない) モデルを使って楽をする 同じ条件で何度も標本を取得するという作業を 「モデル」を使って検討する 「手に入れていない」ものの議論は「モデル」で行う →確率論を駆使して、色々な結果を出せる 336
推測統計の勘所 モデルを使って何がわかるか(例① ) 手持ちのデータで平均値を計算しただけでも、 母集団の平均値のそれなりに「良い」推定量と言えるはず ↓ じゃあ標本平均を使って母平均を推定したらいいよね モデルを使って何がわかるか(例② ) 手持ちのデータで計算した分散は、 母分散を過小評価してしまっている ↓ じゃあ標本分散を少し大きくした不偏分散を 推定量に使ってみようかな 337
推測統計の勘所 モデルの利用について 来週からもモデルを使う 主な利用目的は 同じ条件で何度も何度も標本を取得して 何度も何度も統計量を計算したら、 その結果はどのように分布するだろうか を理解するということにある 現実世界で何度も標本を抽出するのは大変 (何度も釣りに出かけるのは面倒) モデルを使って議論するやり方はとても役に立つ 338
推測統計の勘所 来週やること 「標本平均の分散」については先週説明したのに 「不偏分散の分散」についてはスルーしている 同じ条件で何度も何度も標本を取得して 何度も何度も不偏分散を計算したら、 その結果はどのように分布するだろうか を来週は学ぶ 「不偏分散の分布」がわかれば、 おのずと「不偏分散の分散」もわかる 「標本平均の分布」については、その次の週に解説予定 339