統計学II-1

統計学 II-1 ・推測統計の導入・標本抽出・点推定・標本分布・区間推定・仮説検定 https://logics-of-blue.com/

https://logics-of-blue.com/

本資料について本資料の成り立ち馬場が担当する学部1年生向け統計学IIの講義資料抜粋統計学を初めて学ぶ、文系の学生が受講する想定統計学IIは統計学Iの続きであることに注意本資料の取り扱いあくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、避けてほしい (文脈がわからないと、誤った理解を促すため) 2

3.

本資料について本資料の使い方想定①：講義の受講者が復習に利用する想定②：未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること参考文献馬場真哉，2022，翔泳社『Pythonで学ぶあたらしい統計学の教科書第2版』倉田博史・星野崇宏，2009，新世社『入門統計解析』鈴木武・山田作太郎，1996，内田老鶴圃『数理統計学』 3

4.

本資料の範囲 1．オリエンテーション 2．推測統計の基本 3．母平均と標本平均 4．母分散と標本分散 5．正規分布から得られる標本分布1 6．正規分布から得られる標本分布2 7．区間推定1：母平均の区間推定 8．区間推定2：母分散の区間推定 9．中間テスト

5.

統計学 II 第1回：オリエンテーション 5

6.

内容 1．自己紹介 2．講義の進め方 3．後期の統計学IIでは何を学ぶか 4．「モデル」とその使い方 5．後期のスケジュール 6

7.

自己紹介 7

8.

自己紹介名前馬場真哉学生の頃の専門水産学前職システムエンジニアフリーランス現職東京医科歯科大非常勤講師岩手大客員准教授帝京大学講師（1年生）

9.

本も書いています(2023年2月現在の書作) 1. 馬場真哉 (2022). Pythonで学ぶあたらしい統計学の教科書第2版. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798171944】 2. 馬場真哉 (2021). 意思決定分析と予測の活用基礎理論からPython実装まで. 講談社. 【https://www.kspub.co.jp/book/detail/5222270.html】 3. 馬場真哉 (2020). R言語ではじめるプログラミングとデータ分析. ソシム. https://www.socym.co.jp/book/1238】 4. 馬場真哉 (2019). RとStanではじめるベイズ統計モデリングによるデータ分析入門. 講談社. 【https://www.kspub.co.jp/book/detail/5165362.html】 5. 馬場真哉 (2018). Pythonで学ぶあたらしい統計学の教科書. 翔泳社. 【https://www.shoeisha.co.jp/book/detail/9784798155067】 6. 馬場真哉 (2018). 時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf08.html】 7. 馬場真哉 (2015). 平均・分散から始める一般化線形モデル入門. プレアデス出版. 【http://www.pleiades-publishing.co.jp/pdf/pdf02.html】

10.

講義の進め方 10

11.

内容 1．講義の前提 2．講義全体について 11

12.

内容 1．講義の前提 2．講義全体について 12

13.

講義の前提「統計学II」は前期の「統計学I」の続きです前期で「統計学I」を受講していない人は、後期の「統計学II」を理解することは難しいかも（すごく一所懸命勉強すればいけるかも？）基本的に「講義I」と「講義II」はセット「II」だけ受けるというのはお勧めしない

14.

講義の前提前期の「統計学I」の内容記述統計 →データを集計する方法重要単語）平均・分散・共分散・相関係数・基準化変量確率論 →確率的に変動する結果の取り扱い方法重要単語）確率変数・確率分布・確率密度関数期待値・分散・独立確率変数の和の期待値と分散

15.

内容 1．講義の前提 2．講義全体について 15

16.

後期の統計学IIでは何を学ぶか 16

17.

内容 1．前期と後期の違い 2．記述統計と推測統計（復習） 3．モデルの利用 17

18.

内容 1．前期と後期の違い 2．記述統計と推測統計（復習） 3．モデルの利用 18

19.

授業の到達目標授業の到達目標（シラバスより） ★前期★ ①統計学についてのイメージをつかみ、データを利用する必要性を理解する。 ②データの整理と要約の技術を習得する。具体的には、ヒストグラム・散布図などのグラフや、平均・分散・相関係数などの統計量を利用できるようになる。 ③確率論の基礎を理解する。具体的には期待値について理解し、二項分布や正規分布といった確率分布が利用できるようになる。また、確率変数の和の分布に対する直観的なイメージを持てるようになる。 19

20.

授業の到達目標授業の到達目標（シラバスより） ★後期★ ①推測統計の基本的な考え方を理解する。特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。具体的には、点推定値の特性について説明できるようになる。また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。特に統計的仮説検定を実施する際の注意点について説明できるようになる。 20

21.

授業の到達目標授業の到達目標（シラバスより） ★後期★ ①推測統計の基本的な考え方を理解する。特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。具体的には、点推定値の特性について説明できるようになる。また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。特に統計的仮説検定を実施する際の注意点について説明できるようになる。後期のメインは推測統計！ 21

22.

内容 1．前期と後期の違い 2．記述統計と推測統計（復習） 3．モデルの利用 22

23.

記述統計と推測統計（復習）統計学とはデータを収集、表示、解析する科学以下の2つに分けられる Graham Upton, Ian Cook．(白幡慎吾監訳)．(2010)．統計学辞典．共立出版記述統計なるべく情報量を減らさないで比較・解釈を簡単にする集計方法を探る推測統計全体の一部である標本だけを使って、まだ手に入れていない未知データの推測・予測をする（確率論の理解が必須） 23

24.

記述統計と推測統計（復習）記述統計で登場した指標の復習① 度数ある属性に属するデータの数のこと度数分布属性と度数を対応させたもの度数分布表度数分布を表にしたものどんなデータが、何個あったかを数える

25.

記述統計と推測統計（復習）そもそも分布って？データの「分布」のイメージをしっかりつかもう動物の分布身長データの分布・キリン →アフリカに存在データの多くは 170㎝前後に存在している・キタキツネ →北海道に存在 160㎝前後と190㎝前後では、 160㎝前後の方が多くのデータが存在している・コウテイペンギン →南極に存在 25

26.

記述統計と推測統計（復習）度数分布表の例：身長の構成合計：25人階級 155～164.9㎝ 5 度数 165～174.9㎝ 12 175～184.9㎝ 6 185～194.9㎝ 2 どのようなデータがどれくらいあるのか一目でわかる表

27.

階級記述統計と推測統計（復習）155～164.9㎝ 165～174.9㎝ヒストグラム 175～184.9㎝度数分布を棒グラフで表したもの 185～194.9㎝分布を可視化！！度数 5 12 6 2 27

28.

記述統計と推測統計（復習）記述統計で登場した指標の復習② 統計量・代表値データの特徴を把握するのに便利な指標平均値データの分布の中心としてしばしば利用される分散データのばらつきの指標としてしばしば利用される分散の平方根（ルート）をとったものを標準偏差と呼ぶ特に重要なのが平均値と分散・標準偏差

29.

記述統計と推測統計（復習）統計量・代表値データの特徴を把握するのに便利な指標データから計算される →記述統計では「代表値」という言葉も多く使われるデータを代表する指標というニュアンス →厳密には「データを入力して、指標を出力する関数」を統計量と呼ぶ（データの中身が変わるから）データ指標 29

30.

記述統計と推測統計（復習）代表値たくさんのデータを代表する値 →データの分布の中心ばらつきの指標データの分布の中心から、個別のデータがどれほど離れているか 30

31.

記述統計と推測統計（復習）データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥ҧ = ෍ 𝑥𝑖 𝑛 𝑖=1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = 𝑛 平均値は伝統的に「バー(横棒)」をつける 𝑥𝑖 の平均値は𝑥ҧ 31

32.

記述統計と推測統計（復習）データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 分散の計算は少し難しいので注意 (講義中でも復習する予定) 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 32

33.

記述統計と推測統計（復習）分散データが「平均値からどれほど離れているか」を表す指標売り上げ(万円) 分散大分散小 1000 500 0 平均値 33

34.

記述統計と推測統計（復習）分散データが「平均値からどれほど離れているか」を表す指標平均値から売り上げ(万円) 分散大離れている分散小 1000 500 0 平均値 34

35.

記述統計と推測統計（復習）分散データが「平均値からどれほど離れているか」を表す指標売り上げ(万円) 分散大 1000 500 0 多くのデータが、分散小平均値から離れている →分散が大きくなる平均値 35

36.

記述統計と推測統計（復習）分散の扱いにくいところ分散は計算時に「2乗」する処理が入る →正負の符号を消せる →単位が変わってしまっている標準偏差分散の平方根を取ったもの標準偏差 = 分散平方根（ルート）をとって2乗を消す 36

37.

記述統計と推測統計（復習）記述統計で登場した指標の復習（まとめ）前期ではたくさんの指標が出てきたが、特に「度数分布（ヒストグラム）」と「平均」「分散」「標準偏差」をしっかりと復習しておくのがおすすめまったく新しい指標は登場しない今までの指標を組み合わせることが多い

38.

記述統計と推測統計（復習）推測統計の目的まだ手に入れていない未知データの推測・予測ところで…… わざわざ未知のデータに言及する意義は？ 38

39.

記述統計と推測統計（復習）推測統計がない時（未知のデータに対して言及しない）今日の夜まで広告を出すことで、売り上げが増えましたでも・・・明日からは広告を出すことで売り上げが増えるか減るか不明です何のためのデータ分析？

40.

記述統計と推測統計（復習）推測統計がない時（未知のデータに対して言及しない）手持ちのデータ今日の夜まで広告を出すことで、売り上げが増えましたまだ持っていない未知のデータ明日からは広告を出すことで売り上げが増えるか減るか不明ですデータに基づく判断のために、未知のデータへ言及をする

41.

記述統計と推測統計（復習）推測統計がある時（未知のデータに対して言及する）今日の夜まで広告を出すことで、売り上げが増えましただから明日からも広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう！！！この流れこそが「データに基づく判断」

42.

記述統計と推測統計（復習）データの集計今日の夜まで、広告を出すことで、売り上げが増えたデータに基づく判断明日からも、広告を出すことで売り上げが増えるはずデータに基づく意思決定明日からも広告を出すべきだ未知のデータに対して推測・予測を行い、データを活用した意思決定につなげる

43.

記述統計と推測統計（復習）推測統計の大きなテーマ未知データに対する推測未知データも対象とした判断 ● 区間推定の活用 ● 統計的仮説検定の活用 →主に後期の内容

44.

内容 1．前期と後期の違い 2．記述統計と推測統計（復習） 3．モデルの利用 44

45.

モデルの利用確率論の話はどこに行った前期は中間テストの後、ずっと確率論を学んだ確率論とデータ分析関係なくない？関係あります！データ分析と確率論をつなげるもの。それがモデル 45

46.

モデルの利用後期では何を学ぶかやや極端な言い方になるが、後期のほとんどは「モデル」の使い方を学ぶと言っても良いモデル現象を単純化した「模型」のことプラモデルのモデル後期ではモデルの使い方を何度もシチュエーションを変えて説明する 46

47.

モデルの利用「現実」と「机上の空論」の間確率論では「コインを投げて表が出る確率は50％」など作為的な事例が頻繁に登場した確率論を学んだ人の多くは「なんだか現実離れしている」感じることだと思う現実世界の出来事メモモデル理論上での計算モデルを使って、現実と理論をつなぐ 47

48.

「モデル」とその利用 48

49.

内容 1．モデルの利用方法 2．統計学におけるモデル 3．モデルと推測統計 49

50.

内容 1．モデルの利用方法 2．統計学におけるモデル 3．モデルと推測統計 50

51.

モデルとはモデル現象を単純化した「模型」のことプラモデルのモデルモデルを使うメリット実際に行動する前に、結果について議論できる 51

52.

モデルとはモデルの例飛行機のモデル（模型）を考えるぼくの考えた「さいきょう」の飛行機だよ！！ (馬場が描きました) プロペラが無いので飛ばない 52

53.

モデルとはモデルの例飛行機のモデル（模型）を考えるモデルを使えば、実際に行動する前に、結果について議論できる何億円ものお金をかけて本物を作る前に、空気抵抗や推進力などいろいろなことを検討できる統計学IIでプラモデルを作ることはない統計モデルと呼ばれるモデルを作る 53

54.

内容 1．モデルの利用方法 2．統計学におけるモデル 3．モデルと推測統計 54

55.

統計学におけるモデルモデル模型。現実世界の模型を作る統計学におけるモデル観測したデータを生み出す確率的な過程を簡潔に記述したもの。 Graham Upton, Ian Cook．(白幡慎吾監訳)．(2010)．統計学辞典．共立出版「データを生み出す確率的な過程」や「データが得られる過程」に着目 55

56.

統計学におけるモデル今回の事例湖の中にいる魚の体長を推測する推測統計における課題湖の中には無数の魚がいる →すべての魚の体長を測定することはできない →湖の中から一部の魚だけを捕まえて体長を測定する 56

57.

統計学におけるモデル母集団：知りたいと思っている集団全体 →今回の例では、湖の中にいるすべての魚 57

58.

統計学におけるモデル標本(サンプル)：手に入れた一部のデータ標本抽出(サンプリング)：標本を得る行為 58

59.

統計学におけるモデルたまたま「中くらいのサイズ」の魚が釣れた 59

60.

統計学におけるモデルたまたま「小さめのサイズ」の魚が釣れた 60

61.

統計学におけるモデルたまたま「大きめのサイズ」の魚が釣れた 61

62.

統計学におけるモデルランダムに一部の魚を標本として抽出ここで確率が登場する 62

63.

統計学におけるモデル湖の中のすべての魚の体長母集団すべてのデータ未知のデータを含む標本母集団の一部手に入ったデータ釣りをして得られた魚の体長標本を使って、母集団について議論する手持ちのデータで未知データの議論をする

64.

統計学におけるモデル母集団にまつわる用語母平均→母集団の平均母分散→母集団の分散（標本平均とは区別）（標本分散とは区別）母平均を推定してみよう母集団分布の平均を言い当てることを目指す 64

65.

統計学におけるモデル「釣った魚」の体長の平均値が4cmだった（標本平均）だから「湖の中のすべての魚」も体長の平均値は 4cmなのでは？（母平均） 65

66.

統計学におけるモデル母平均の推定くらい、簡単？標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測するなんか4cmって小さくない？標本平均に5を足した結果を使おうぜ！たくさんのデータを集計するの面倒だな～そうだ、データを1つだけ選んで、それを使おう！無茶苦茶な意見に聞こえるでも、具体的に「何が悪い」のか？ 66

67.

統計学におけるモデル母平均の推定くらい、簡単？標本平均に5を足した結果を使うとどうなる？ほとんどのデータを捨てて1つだけを使うとどうなる？そんなことしたらダメだろ！え～、なんで～どのみち母集団のことわかんないだから、好きに計算したらいいじゃん。たまたま「小さめのサイズ」の魚ばっかり釣れたんだったら大きめに補正した方がいいでしょ？ 67

68.

統計学におけるモデルここでの疑問標本を使うため、母集団全体を調べてはいない標本から計算された平均値と、母集団の平均値が、「ぜんぜん違う」ということにはならないの？標本を使って「やっつけ仕事」で母平均を推定してる？ →何をやってもダメだから、どんな計算をしてもよい？ →どのよう計算するのが「良い」やりかたなの？逆に「悪い」やりかたはどのようなもの？こういった疑問に答えるのが推測統計

69.

統計学におけるモデルどうやって取り組むのか認めること① 標本という「一部」しか使わないので「母集団を完全に明らかにする」ことは無理認めること② 標本は確率的に変動する「標本から計算された統計量」も確率的に変動するそれでも頑張ること。それでもなお、あきらめないこと標本や「標本から計算された統計量」がどのように変化するか、確率的な特徴を明らかにする 69

70.

統計学におけるモデル標本から計算された統計量の確率的な挙動を探る方法「標本抽出＋標本平均の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、標本平均を何度も計算する標本平均○○ 標本平均×× 標本平均がたくさん得られる標本平均△△

71.

統計学におけるモデル標本から計算された統計量の確率的な挙動を探る方法「標本抽出＋標本平均の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、標本平均を何度も計算する標本平均○○ 標本平均×× 標本平均△△ たくさん得られた標本平均を集計することで、たまたま「中くらいのサイズ」の標本平均になる割合やたまたま「大きめのサイズ」の標本平均になる割合などがわかるすると、確率的な挙動について調べることができるはず！標本平均がたくさん得られる

72.

統計学におけるモデル素朴な方法論の問題点何度も何度も湖に出かけないといけない何度も釣りをして、何度も平均値を計算するのは手間現実的には、同じ調査を何度もやるのは極めて困難！標本平均○○ 標本平均×× そうだ。モデルを使おう標本平均△△

73.

統計学におけるモデルメモモデルのまとめ標本や、標本から計算される統計量の確率的な変化について調べるために、モデルを使う「本物の飛行機を飛ばすことはしないで、プラモデルの飛行機を使って空気抵抗を調べる」同じような使い道！「実際に何度も調査に行くことはしないで、モデルを使って、統計量などの確率的性質を調べる」 73

74.

内容 1．モデルの利用方法 2．統計学におけるモデル 3．モデルと推測統計具体的なモデルの内容は来週「モデルを使って何を目指すか」を紹介 74

75.

モデルと推測統計標本の統計量の確率的な性質の調べ方確率論を使う例えば標本平均の確率的な性質を調べる • 標本平均の期待値 • 標本平均の分散記述統計において指標を計算する「次」へ統計量の性質について調べて優劣を評価 75

76.

モデルと推測統計標本の統計量の確率的な性質の調べ方確率論を使う例えば標本平均の確率的な性質を調べる • 標本平均の期待値 • 標本平均の分散期待値・分散のこと覚えてる？推測統計に確率論は必須！ 76

77.

モデルと推測統計期待値の直感的な説明平均値と同様に解釈できる指標「まだ手に入れていない、未知データにも適用できる平均値」「長い目で見たときの、平均値」標本平均○○ 標本平均×× 標本平均△△ 期待値を使い「たくさん得られた標本平均」の平均値を議論本当に何度も調査に行くわけではないので期待値で議論する

78.

モデルと推測統計分散の直感的な説明「確率変数が、期待値からどれだけ離れていると期待できるか」を表した指標標本平均○○ 標本平均×× 標本平均△△ 分散を使い「たくさん得られた標本平均」のばらつきを議論本当に何度も調査に行くわけではないので確率論を利用

79.

モデルと推測統計分散の補足「記述統計で登場する分散」と、「確率変数の分散」は名前は同じだが、計算の仕方が少し違うので注意（平均値と期待値の違いのようなもの）

80.

後期のスケジュール推測統計の基礎理論を押さえるパートと、推測統計の実践パートは、意識して分けると構成が理解しやすいと思う 80

81.

後期のスケジュール推測統計の基礎を学ぶパート Step1．統計学におけるモデルの構造を学ぶ決定的に重要！標本はどのように私たちの手元にやってくるのか？キーワード：単純ランダムサンプリング・正規分布 Step2．「モデルを使って何がわかるか」を学ぶ実践パートとの接点キーワード：統計量の性質（不偏性・一致性）標本分布（𝜒 2 分布・ 𝑡分布） 81

82.

後期のスケジュール推測統計の実践パート Step1．区間推定「平均値は4です」というピンポイントな推定ではなく「平均値は3.5から4.5の間でしょう」と区間を提示区間の計算においては確率の考え方を使うキーワード：平均値の区間推定・分散の区間推定 Step2．統計的仮説検定統計量についての判断を行う方法判断においては確率の考え方を使うキーワード：二項検定・平均値の差の検定独立性の検定 82

83.

今後の講義（予定）：区間推定まで 1．オリエンテーション 9/26 2．推測統計の基本 10/3 3．母平均と標本平均 10/17 4．母分散と標本分散 10/24 5．正規分布から得られる標本分布1 10/31 6．正規分布から得られる標本分布2 11/7 7．区間推定1：母平均の区間推定 11/14 8．区間推定2：母分散の区間推定 11/21 9．中間テスト 11/28

84.

今後の講義（予定）：区間推定まで推測統計の基礎 1．オリエンテーション Step1：モデルの構造 9/26 2．推測統計の基本 3．母平均と標本平均 4．母分散と標本分散 10/3 推測統計の基礎 10/17 Step2：モデルを使って何がわかるか 10/24 5．正規分布から得られる標本分布1 10/31 6．正規分布から得られる標本分布2 11/7 7．区間推定1：母平均の区間推定 11/14 8．区間推定2：母分散の区間推定 11/21 9．中間テスト 11/28

85.

今後の講義（予定）：区間推定までモデルを使って標本から計算された平均・分散と、 1．オリエンテーション 9/26 母集団の平均・分散の関係を調べる 2．推測統計の基本 10/3 3．母平均と標本平均 10/17 4．母分散と標本分散 10/24 5．正規分布から得られる標本分布1 10/31 6．正規分布から得られる標本分布2 11/7 7．区間推定1：母平均の区間推定 11/14 8．区間推定2：母分散の区間推定 11/21 9．中間テスト 11/28

86.

今後の講義（予定）：区間推定まで 1．オリエンテーション 9/26 モデルを使って 2．推測統計の基本 10/3 標本から計算された平均・分散が従う 3．母平均と標本平均 10/17 標本分布を調べる 4．母分散と標本分散 10/24 5．正規分布から得られる標本分布1 10/31 6．正規分布から得られる標本分布2 11/7 7．区間推定1：母平均の区間推定 11/14 8．区間推定2：母分散の区間推定 11/21 9．中間テスト 11/28

87.

今後の講義（予定）：区間推定まで 1．オリエンテーション 9/26 2．推測統計の基本 10/3 3．母平均と標本平均 10/17 4．母分散と標本分散 10/24 6．正規分布から得られる標本分布2 11/7 7．区間推定1：母平均の区間推定 11/14 8．区間推定2：母分散の区間推定 11/21 9．中間テスト 11/28 推測統計の実践 5．正規分布から得られる標本分布1 10/31 Step1：区間推定 →穴埋め式の計算問題などを出す予定

88.

今後の講義（予定）：統計的仮説検定 10．統計的仮説検定の導入 12/5 11．統計的仮説検定の解釈 12/12 12．母平均に関する検定1 12/19 13．母平均に関する検定2 12/26 14．独立性の検定 15．期末テスト＜オンラインLMS＞ 1/16

89.

今後の講義（予定）：統計的仮説検定 10．統計的仮説検定の導入 12/5 11．統計的仮説検定の解釈 12/12 そもそもの統計的仮説検定とは何か 12．母平均に関する検定1 12/19 一言では説明しにくいのでまずは概要を説明 13．母平均に関する検定2 14．独立性の検定 15．期末テスト 12/26 ＜オンラインLMS＞ 1/16

90.

今後の講義（予定）：統計的仮説検定 10．統計的仮説検定の導入 12/5 11．統計的仮説検定の解釈 12/12 統計的仮説検定は便利な手法だが 12．母平均に関する検定1 12/19 その乱用が近年問題になっている仮説検定の利用の注意点もしっかり学ぶ 12/26 13．母平均に関する検定2 14．独立性の検定 15．期末テスト＜オンラインLMS＞ 1/16

91.

今後の講義（予定）：統計的仮説検定 10．統計的仮説検定の導入 12/ 実務的にも重要な検定手法を解説 5 ゼミや卒論、あるいは社会に出た後も使うかも 11．統計的仮説検定の解釈 12/12 12．母平均に関する検定1 12/19 13．母平均に関する検定2 12/26 14．独立性の検定 15．期末テスト＜オンラインLMS＞ 1/16

92.

統計学 II 第2回：推測統計の基本

93.

授業の到達目標授業の到達目標（シラバスより） ①推測統計の基本的な考え方を理解する。特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。具体的には、点推定値の特性について説明できるようになる。また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。特に統計的仮説検定を実施する際の注意点について説明できるようになる。 93

94.

授業の到達目標本日のテーマ授業の到達目標（シラバスより） ①推測統計の基本的な考え方を理解する。特に標本抽出の考え方を習得する。 ②統計的推定の理論と技術を習得する。具体的には、点推定値の特性について説明できるようになる。また、区間推定を実行できるようになる。 ③統計的仮説検定の理論と技術を習得する。特に統計的仮説検定を実施する際の注意点について説明できるようになる。 94

95.

内容 1．母集団と標本 2．母集団からの単純ランダムサンプリング 3．確率論の用語の復習 4．標本抽出のモデル 5．モデルと現実の食い違いについて 6．正規分布というモデル 7．母集団の推測への取り組み方 95

96.

母集団と標本 96

97.

本日のテーマ前期で学んだ確率論を現実世界に投影する「モデル」を学ぶ前期では確率論にまつわる様々な技術を学んだ →確率密度関数・期待値・分散・確率変数の和の期待値前期で学んだ「確率論」を「データ分析」とつなげる工夫標本抽出の「モデル」を作る 97

98.

本日のテーマ「現実」と「机上の空論」の間確率論では「コインを投げて表が出る確率は50％」など作為的な事例が頻繁に登場した確率論を学んだ人の多くは「なんだか現実離れしている」と感じることだと思う現実世界の出来事モデル理論上での計算モデルを使って、現実と理論をつなぐ 98

99.

本日のテーマモデルのまとめ標本や、標本から計算される統計量の確率的な変化について調べるために、モデルを使う「本物の飛行機を飛ばすことはしないで、プラモデルの飛行機を使って空気抵抗を調べる」同じような使い道！「実際に何度も調査に行くことはしないで、モデルを使って、統計量などの確率的性質を調べる」 99

100.

母集団と標本モデル模型。現実世界の模型を作る統計学におけるモデル観測したデータを生み出す確率的な過程を簡潔に記述したもの。 Graham Upton, Ian Cook．(白幡慎吾監訳)．(2010)．統計学辞典．共立出版「データを生み出す確率的な過程」や「データが得られる過程」に着目 100

101.

母集団と標本今回の事例湖の中にいる魚の体長を推測する推測統計における課題湖の中には無数の魚がいる →すべての魚の体長を測定することはできない →湖の中から一部の魚だけを捕まえて体長を測定する 101

102.

母集団と標本母集団：知りたいと思っている集団全体 →今回の例では、湖の中にいるすべての魚 102

103.

母集団と標本標本(サンプル)：手に入れた一部のデータ標本抽出(サンプリング)：標本を得る行為 103

104.

母集団と標本たまたま「中くらいのサイズ」の魚が釣れた 104

105.

母集団と標本たまたま「小さめのサイズ」の魚が釣れた 105

106.

母集団と標本たまたま「大きめのサイズ」の魚が釣れた 106

107.

母集団と標本ランダムに一部の魚を標本として抽出ここで確率が登場する 107

108.

母集団と標本湖の中のすべての魚の体長母集団すべてのデータ未知のデータを含む標本母集団の一部手に入ったデータ釣りをして得られた魚の体長標本を使って、母集団について議論する手持ちのデータで未知データの議論をする

109.

母集団からの単純ランダムサンプリング（無作為抽出） 109

110.

内容 1．単純ランダムサンプリング（無作為抽出） 2．標本を確率変数だとみなそう 3．事例紹介 110

111.

内容 1．単純ランダムサンプリング（無作為抽出） 2．標本を確率変数だとみなそう 3．事例紹介 111

112.

母集団分布と標本今回の事例湖からの標本抽出 →5尾の魚だけがいる湖から1尾抽出する 1cm 2cm 3cm 4cm 母集団は(ちょっと少ないが) 5尾しかいないと想定 5cm

113.

母集団分布と標本メモ単純ランダムサンプリング（無作為抽出）母集団の1つ1つが無作為に、言い換えると「すべて等しい確率で選ばれる」という選び方以下では単に「サンプリング」と書いた場合、それは単純ランダムサンプリングを指すことにする単純ランダムサンプリングによって標本が抽出されたというのがとても大事 113

114.

母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 5尾の魚は、すべて5分の1の確率で標本として取得される可能性がある

115.

母集団分布と標本メモ無作為標本単純ランダムサンプリングによって得られた標本のことサンプルサイズ標本の大きさ。観測値の個数。魚を2尾釣ったならサンプルサイズは2 サンプルサイズ1の無作為標本を得てみるこの標本をどのように扱うか？ 115

116.

内容 1．単純ランダムサンプリング（無作為抽出） 2．標本を確率変数だとみなそう 3．事例紹介 116

117.

母集団分布と標本確率変数と実現値のざっくりした定義確率変数：確率的に変化する値実現値：確率変数における具体的な値これからサイコロを投げる →出る目は確率変数投げたら「3」の目が出た →これが実現値 117

118.

母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 標本はすべて5分の1で得られる確率変数「3㎝」の魚が釣れたら、それは実現値

119.

確率分布の初歩サイコロを投げた時、どのようなデータが得らえる？ 1 1の目： 6 1 2の目： 6 1 3の目： 6 1 4の目： 6 1 5の目： 6 1 6の目： 6 確率分布とは確率変数と確率の対応確率変数は○○の確率分布に従うと呼ぶ 119

120.

確率分布の初歩サイコロ投げと、確率分布・確率変数・実現値の対応確率変数：サイコロの出る目 1 確率分布： 1の目： 6 1 2の目： 6 1 3の目： 6 1 4の目： 6 1 5の目： 6 1 6の目： 6 実現値：投げてみたら4の目が出た 120

121.

確率分布の初歩 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 １，２，３，４，５という数値が、すべて5分の1で出現するという確率分布

122.

確率分布の初歩釣れた魚の体長と、確率分布・確率変数・実現値の対応確率変数：標本として得られる魚の体長 1 確率分布： 1cm： 5 1 2cm： 5 1 4cm： 5 1 5cm： 5 1 3cm： 5 実現値：3cmの魚が釣れた 5cmの魚が釣れた 122

123.

内容 1．単純ランダムサンプリング（無作為抽出） 2．標本を確率変数だとみなそう 3．事例紹介事例① 5尾の魚しかいない湖事例② たくさんの魚がいる湖 123

124.

母集団分布と標本母集団分布母集団が従う確率分布 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 すべて5分の1というのが母集団分布 124

125.

母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 標本は、母集団分布に従う確率変数であるこのようにみなすと何が変わる？

126.

母集団分布と標本 ① ③ ② ④ ⑤ 壺の中に1番から5番まで番号が振られた球が入っている

127.

母集団分布と標本 ① ②③ 1 5 1 5 1 5 ① ③ ② ④ ⑤ ④ ⑤ 1 5 目を閉じて球を取り出すと、すべての数値は5分の1ずつ出てくる 1 5

128.

母集団分布と標本 ① ③ ② ④ ⑤ 母集団分布は、釣りでも壺でも同じ 128

129.

母集団分布は、釣りでも壺でも同じモデル現象を単純化した「模型」のことプラモデルのモデル標本が得られるプロセスの模型としてのモデル本来は湖で釣りをすることによって、「体長〇cmの魚」という標本が得られるでも、これは、「5つの球が入った壺から無作為に取り出す」のと同じ →壺から球を取り出すことは、標本抽出の「モデル」となる（壺のモデルと呼ぶ） 129

130.

母集団分布と標本 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 重要なのは母集団の確率分布母集団分布に従って標本が得られる

131.

内容 1．単純ランダムサンプリング（無作為抽出） 2．標本を確率変数だとみなそう 3．事例紹介事例① 5尾の魚しかいない湖事例② たくさんの魚がいる湖 131

132.

母集団分布と標本今回は湖に魚がたくさんいる →無限に魚が存在すると考える 132

133.

母集団分布と標本無限母集団無限の要素を持つと想定した母集団 →厳密には湖の中に無限の魚がいるとは考えられないが、議論を容易にするためにしばしば想定される仮定有限母集団修正母集団が小さい場合は、補正が必要になることもある →母集団が「標本と比べて」十分大きいなら、あまり気にする必要はない →今回は無視できると考える 133

134.

母集団分布と標本母集団分布の例単純ランダムサンプリングによって、母集団分布に従い標本が得られる →どの体長も、0.2の確率で得られる体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.2 0.2 0.2 0.2 0.2 湖の中に無限に魚がいたとしても、母集団分布が変わらなければ、標本が得られるプロセスは変わらない！

135.

母集団分布と標本母集団分布の例（別の湖）体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.1 0.2 0.4 0.2 0.1 この湖では、3㎝の魚が多くいる →この湖で釣りをすると、3㎝の魚が釣れやすいはずだ！

136.

母集団分布と標本母集団分布の例（さらに別の湖）体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.1 0.1 0.2 0.2 0.4 この湖では、5㎝の魚が多くいる →この湖で釣りをすると、5㎝の魚が釣れやすいはずだ！

137.

母集団分布と標本いろんなサイズの魚 5cmの魚 5㎝の魚が多くいる湖でサンプリングすると 5㎝の魚が釣れやすいはず 137

138.

母集団分布と標本母集団分布の例（さらに別の湖）体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.1 0.1 0.2 0.2 0.4 母集団分布に従って標本が得られる →ここで単純ランダムサンプリングすると 40％の確率で5㎝の魚が釣れるはず

139.

確率論の用語の復習 139

140.

多次元確率分布の基礎多次元確率分布 2つ以上の確率変数を対象とした確率分布のこと 2つ以上ならいくつでも良いが、最初は2次元を扱う同時確率分布（同時分布・結合分布とも呼ぶ） 2つの確率変数の「組み合わせ」の確率分布「すべての組み合わせ」の確率を合計すると1になる同時確率分布= 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 かつ、 𝑌 = 𝑦𝑗 である確率の分布 140

141.

多次元確率分布の基礎同時確率分布の例：コイン投げとサイコロ投げの組み合わせコイン投げの結果という確率変数を𝑋とするサイコロ投げの結果という確率変数を𝑌とするコイン投げ（1次元の確率分布） 𝑃 𝑋 = 0 = 1Τ2 , 𝑃 𝑋 = 1 = 1Τ2 →足すと1 サイコロ投げ（1次元の確率分布） 𝑃 𝑌 = 1 = 1Τ6 , 𝑃 𝑌 = 2 = 1Τ6 , 𝑃 𝑌 = 3 = 1Τ6 , 𝑃 𝑌 = 4 = 1Τ6 , 𝑃 𝑌 = 5 = 1Τ6 , 𝑃 𝑌 = 6 = 1Τ6 →足すと1 141

142.

多次元確率分布の基礎コイン投げとサイコロ投げの組み合わせ（2次元確率分布）コイン投げ 𝑋 0 1 1 1 12 1 12 サイコロ投げ 𝑌 2 3 4 5 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 6 1 12 1 12 12パターンの組み合わせの「同時確率」を足すと1になる 142

143.

多次元確率分布の基礎周辺確率分布（周辺分布とも呼ぶ）「組み合わせ」である2次元の同時確率分布を、「もともとの1次元の確率分布に戻したもの」というイメージ →周辺分布は、個別に合計が1になる「元の確率分布」あるいは「1次元の分布」が知りたい場合は、周辺分布を見る！ 143

144.

多次元確率分布の基礎コイン投げとサイコロ投げの組み合わせ（2次元確率分布） 1 1 0 12 1 コイン投げ 1 𝑋 12 1 合計 6 2 1 12 1 12 1 6 サイコロ投げ 𝑌 3 4 5 6 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 1 1 1 1 6 6 6 6 合計 1 2 1 2 1 144

145.

多次元確率分布の基礎コイン投げとサイコロ投げの組み合わせ（2次元確率分布） 1 1 0 12 1 コイン投げ 1 𝑋 12 1 合計 6 2 1 12 1 12 1 6 サイコロ投げ 𝑌 3 4 5 6 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 1 1 1 1 6 6 6 6 合計 1 2 1 2 1 行ごとに合計を取ると、コイン投げの（1次元の）確率分布が再現できる 145

146.

多次元確率分布の基礎コイン投げとサイコロ投げの組み合わせ（2次元確率分布） 1 1 0 12 1 コイン投げ 1 𝑋 12 1 合計 6 2 1 12 1 12 1 6 サイコロ投げ 𝑌 3 4 5 6 1 1 1 1 12 12 12 12 1 1 1 1 12 12 12 12 1 1 1 1 6 6 6 6 列ごとに合計を取ると、サイコロの（1次元の）確率分布が再現できる合計 1 2 1 2 1 146

147.

条件付き確率分布条件付き確率分布確率変数𝑋, 𝑌に対して、以下で計算される𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 を「確率変数𝑌が分かった、という条件における、確率変数𝑋の条件付き分布」と呼ぶ 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑃 𝑌 = 𝑦𝑗 147

148.

条件付き確率分布条件付き確率分布確率変数𝑋, 𝑌に対して、以下で計算される𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 を分子は同時分布「確率変数𝑌が分かった、という条件における、確率変数𝑋の条件付き分布」と呼ぶ 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑃 𝑌 = 𝑦𝑗 分母は周辺分布 148

149.

条件付き確率分布条件付き確率の例本来サイコロは6面ある 6の目が出るもともとの確率は1/6 149

150.

条件付き確率分布条件付き確率の例本来サイコロは6面ある 5以上の目が出た時だけを考える [5以上]という条件で6の目が出る確率は1/2 150

151.

条件付き確率分布条件付き確率のイメージ本来サイコロは6面ある (6の目が出る確率は1/6) 5以上の目が出た時だけを考える条件付き確率の計算式 2分の1の確率で「6の目」が出る同時確率(5以上の目が出て、かつ6の目である確率=1/6)を周辺確率(5以上の目が出る確率=1/3)で割ると求まる 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑃 𝑌 = 𝑦𝑗 151

152.

確率変数の独立確率変数の独立すべての𝑖, jで下記が成立するとき、確率変数𝑋, 𝑌が独立であると呼ぶ 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑃 𝑌 = 𝑦𝑗 これは、以下と実質同じ意味 𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 𝑃 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 = 𝑃 𝑌 = 𝑦𝑗 条件を付けても、確率分布が変わらない 152

153.

条件付き確率分布メモ独立性の意味（標本で考える） 1つ目の標本を𝑋1 と、2つ目の標本を𝑋2 とする条件𝑋1 があってもなくても、 𝑋2 の確率分布が変わらないなら𝑋1 , 𝑋2 は独立例えば…… 1回目の釣りで大きな魚が釣れた（𝑋1 が大きい）か、小さな魚が釣れた（𝑋1 が小さい）かは、次に釣りをした時の魚の大きさ𝑋2 に影響を与えない 153

154.

独立同一分布独立同一分布 𝑛個の確率変数𝑋1 , 𝑋2 , … 𝑋𝑛 がある。これらの確率変数が従う確率分布が同じであり、確率変数同士が互いに独立であるとき、 𝑋1 , 𝑋2 , … 𝑋𝑛 が「独立同一分布に従う」と呼ぶ独立同一分布はindependently and identically distributedの頭文字をとってi.i.dと表記することもある iidの具体的な役割は次回解説独立であって、かつ、みんな同じ分布いろいろな制約を置くと計算が楽になる！ 154

155.

標本抽出のモデル「母集団からの単純ランダムサンプリング」という現実世界の出来事を「モデル」で表現 155

156.

母集団分布と標本メモ現実同一の母集団から単純ランダムサンプリング(無作為抽出)でサンプルサイズ𝑛の標本を取得した対応モデル同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 156

157.

母集団分布と標本現実同一の母集団から単純ランダムサンプリング(無作為抽出)でサンプルサイズ𝑛の標本を取得した対応モデル同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 無作為標本は、母集団の確率分布に従う →赤字のようにモデル化できる 157

158.

母集団分布と標本現実同一の母集団から単純ランダムサンプリング(無作為抽出)でサンプルサイズ𝑛の標本を取得した対応モデル同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 1回目の釣りと2回目以降の結果は無関係 →青字のようにモデル化できる 158

159.

母集団分布と標本現実同一の母集団から単純ランダムサンプリング(無作為抽出)でサンプルサイズ𝑛の標本を取得した対応モデル同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) 母集団からの標本抽出をモデルで表現確率論を駆使してモデルを分析していく 159

160.

モデルと現実の食い違いについてやや高度な補足ではあるが、統計学を社会で活用するためには必須の知識 160

161.

モデルと現実の食い違い現実同一の母集団から単純ランダムサンプリング(無作為抽出)でサンプルサイズ𝑛の標本を取得した対応モデル同一の母集団分布に従う独立な確率変数を𝑛個取得した (独立で同一な確率分布(iid)に従う𝑛個の確率変数を取得した) もしも現実が単純ランダムサンプリングをしていなかったらどうなるだろうか？ 161

162.

モデルと現実の食い違い単純ランダムサンプリング（無作為抽出）母集団の1つ1つが無作為に、言い換えると「すべて等しい確率で選ばれる」という選び方単純ランダムサンプリングじゃなかった場合母集団のうち「大きな魚」が選ばれやすいとする例）大きな釣り針を使って魚を捕まえた単純ランダムサンプリングじゃなかったらどのような問題が発生するだろう？ 162

163.

モデルと現実の食い違い母集団分布体長確率 1㎝ 2㎝ 0.2 0.2 3㎝ 4㎝ 5㎝ 0.2 0.2 0.2 小さな魚も大きな魚も等しい確率で存在

164.

モデルと現実の食い違い母集団分布標本が従う確率分布体長確率体長確率 1㎝ 2㎝ 0.2 0.2 1㎝ 2㎝ 0.1 0.1 3㎝ 4㎝ 5㎝ 0.2 0.2 0.2 3㎝ 4㎝ 5㎝ 0.2 0.2 0.4 小さな魚も大きな魚も等しい確率で存在大きな針で釣ったので大きな魚が釣れやすい標本の従う分布が、母集団分布と違う！

165.

標本の従う分布が、母集団分布と違う！標本が従う確率分布体長確率 1㎝ 2㎝ 3㎝ 0.1 0.1 0.2 4㎝ 5㎝ 0.2 0.4 標本に5cmの魚が多かったその理由は「湖に5cmの魚が多い」から？「5cmの魚が針にかかりやすい」から？

166.

モデルと現実の食い違い現実とモデルの対応関係が大切次回から、モデルを用いて様々な計算を行うモデルが現実世界と対応しているならば、この計算をすることで、現実世界について理解を深めるしかし、もしもモデルが現実世界と乖離していたら、モデルを用いた分析は単なる「机上の空論」となる「単純ランダムサンプリング」によって標本を得ることは決定的に重要！ 166

167.

モデルと現実の食い違い起こりうる失敗例スマホを利用できるかどうかを、スマホアプリでアンケート →アンケートの方法が悪い →これだと100％全員がスマホを利用できると答えるはずどのようにデータを取るべきか「単純ランダムサンプリング」になるようにする例)日本人全員を母集団にするなら、日本人全員に番号を割り振って、ランダムに番号を選ぶことでアンケートの対象者を選ぶ標本を得る作業は、現実的にはすごく大変危険性がある 167

168.

正規分布というモデル 168

169.

正規分布というモデル 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 この母集団分布は、やや単純化しすぎもう少し複雑で現実に合うモデルが欲しい

170.

正規分布というモデル正規分布とは確率分布の1種パラメータを変えることで、様々な確率分布を作れる正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 平均（期待値）が𝜇で、分散が𝜎 2 、標準偏差が𝜎となる正規分布という確率分布を魚の体長の分布を表現するモデルに使う 170

171.

正規分布というモデル正規分布の確率密度関数のグラフ 171

172.

正規分布というモデル正規分布のグラフの特徴「釣り鐘型」や「ベル型」と呼ぶこともある平均に対して左右対称平均値𝜇に対して左右対称 172

173.

正規分布というモデル魚の体長の変化の仕方「魚の体長の母集団分布が正規分布である」という場合、魚の体長はどのように変化していると考えられるだろうか 173

174.

正規分布というモデル仮定①：魚の「標準的な大きさ」は決まっているコイツが標準的な大きさの魚仮定②：小さな変化の積み重ねで体長が変化食べ物の多い・少ない気温の高い・低い雨量の多い・少ない小さな変化の積み重ねは何をもたらすか？ 174

175.

正規分布というモデル小標準大たまたま食べ物が多かったちょっとだけ大きくなる 175

176.

正規分布というモデル小標準大たまたま気温が低かった標準体長に戻る正負の影響が混ざって、元に戻る 176

177.

正規分布というモデル小標準 ×食べ物、×気温（アンラッキー）大 ○食べ物、○気温（ラッキー）極端な結果にはなりにくいはず 177

178.

正規分布というモデル 1．体長は小さな誤差の積み重ねで決まると仮定 2．小さな誤差は、正負共に50%の確率で加わると仮定ほかにもいくつかの導出がある 1 2 1 4 標準 1 2 1 2 1 4 178

179.

正規分布というモデル 1 2 1 4 標準 1 2 体長のヒストグラム 1 2 1 4 標準体長になる確率が最も高い極端な体長になる確率は低い 179

180.

正規分布というモデル体長のヒストグラム左右対称のベル型 180

181.

正規分布というモデル小さな変化の積み重ねで体長が変化 1 2 標準 1 4 1 2 1 2 1 4 正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 体長分布のモデルとして、正規分布を使う 181

182.

正規分布というモデル中心極限定理 𝑛個の独立同一分布に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 において、確率変数の期待値を𝜇と、分散を𝜎 2 とする。 𝑛個の確率変数の合計値が従う確率分布は、 𝑛が大きくなると正規分布に近づく確率変数がたくさんあれば、その合計値は正規分布に従う 182

183.

正規分布というモデル中心極限定理のいいところ確率変数の合計値が正規分布に近づくことの数学的な定理正規分布をモデルとして利用することの理由付けの1つになる中心極限定理の注意点確率変数の合計値が正規分布に近づくことに注意確率変数そのものが正規分布に従うと勘違いしないように（本屋で売られている本でも間違った記載がたまにある） 𝑛がいくつ以上あればよいのかは、割と不明確（30以上と書いてある本もあるが、根拠はないので注意） 183

184.

正規分布というモデルモデルを作るときに大切にすること(私案) モデルはなるべく使いやすいほうがいい • 解釈がしやすい • 計算がしやすい（正規分布は、ほとんどの統計ソフトで利用できる）モデルはなるべく現実に合うものにしたい • 現実と異なるモデルを作っても意味がない • 予測が当たらない、母集団が現実と異なる…… モデルは、その扱いやすさと、現実への整合性の2つが大切 184

185.

まとめメモ現実世界に対する想定① 母集団は正規分布に従う（正規母集団）現実世界に対する想定② 単純ランダムサンプリング（無作為抽出）によって母集団から標本が抽出されるモデルの構造同一の正規分布に従う独立な確率変数を𝑛個取得する 185

186.

母集団の推測への取り組み方 186

187.

正規分布というモデル正規分布を、母集団分布のモデルとして利用する母集団分布のモデルとして、正規分布を利用することにした標本は正規分布に従う確率変数とみなせる母集団分布がわかると何がうれしいか ①母集団のことがわかるのがまずはうれしい →湖の中には〇cmの魚が△％存在するとわかる ②予測ができる →標本は、正規分布に従う確率変数だとみなせる「次に得られるだろうデータ」が従う確率分布がわかるので、次に来るであろうデータが予測できる 187

188.

正規分布というモデル正規分布のパラメータの推定正規分布には2つのパラメータがある平均（期待値）が𝜇で、分散が𝜎 2 、標準偏差が𝜎となる Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 正規分布のモデルを使うと決めても、まだ「パラメータを決める」作業が残っている 188

189.

正規分布というモデルパラメータを雑に決めてはいけない正規分布は平均（期待値）が𝜇で、分散が𝜎 2 、標準偏差が𝜎 テキトーに𝜇 = 300と定めると、「湖の中には平均して300cmの魚が生息している」というすさまじいモデルを作ってしまう 189

190.

正規分布というモデル統計的推測標本から母集団を推測すること統計的推定標本を用いて、母集団を特徴づけるパラメータを言い当てる試みのこと教科書によって、ややニュアンスが異なることも

191.

統計学 II 第3回：母平均と標本平均

192.

モデル「現実」と「机上の空論」の間確率論では「コインを投げて表が出る確率は50％」など作為的な事例が頻繁に登場した確率論を学んだ人の多くは「なんだか現実離れしている」と感じることだと思う現実世界の出来事モデル理論上での計算モデルを使って、現実と理論をつなぐ 192

193.

モデル「現実」と「机上の空論」の間確率論では「コインを投げて表が出る確率は50％」など作為的な事例が頻繁に登場した確率論を学んだ人の多くは「なんだか現実離れしている」と感じることだと思う現実世界の出来事モデル理論上での計算前回は現実世界をモデル化するところまで 193

194.

モデル「現実」と「机上の空論」の間確率論では「コインを投げて表が出る確率は50％」など作為的な事例が頻繁に登場した確率論を学んだ人の多くは「なんだか現実離れしている」と感じることだと思う現実世界の出来事モデル理論上での計算今回はモデルを使って計算を行う 194

195.

内容 1．統計的推定の考え方 2．期待値と分散 3．母平均の推定～「良い」推定量とは～ 195

196.

統計的推定の考え方主に先週の復習 196

197.

内容 1．母集団からの標本抽出というモデル 2．正規分布というモデル 3．統計的推定のテーマ 197

198.

内容 1．母集団からの標本抽出というモデル 2．正規分布というモデル 3．統計的推定のテーマ 198

199.

推測統計のテーマ統計的推測標本から母集団を推測すること統計的推定標本を用いて、母集団を特徴づけるパラメータを言い当てる試みのこと教科書によって、ややニュアンスが異なることも

200.

推測統計のテーマ正規分布のパラメータ平均（期待値）が𝜇で、分散が𝜎 2 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 正規分布のパラメータは𝜇と𝜎 2 の２つこの2つのパラメータを言い当ててみる 200

201.

推測統計のテーマ母集団にまつわる用語母平均→母集団の平均母分散→母集団の分散（標本平均とは区別）（標本分散とは区別）正規分布のパラメータの推定母集団分布のパラメータ、すなわち母平均𝜇、母分散𝜎 2 を言い当てればよい 201

202.

推測統計のテーマ推定量統計的推定に用いる統計量のこと標本が確率変数なので、統計量（推定量）も確率変数となる推定値実際に得られた「推定量の実現値」のこと表記についての補足確率変数はアルファベットの大文字。実現値は小文字母平均の推定量として、標本平均という統計量を使ってみよう！ 202

203.

推測統計のテーマ「釣った魚」の体長の平均値が4cmだった（標本平均）だから「湖の中のすべての魚」も体長の平均値は 4cmなのでは？（母平均） 203

204.

推測統計のテーマ母平均の推定くらい、簡単？標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測するなんか4cmって小さくない？標本平均に5を足した結果を使おうぜ！たくさんのデータを集計するの面倒だな～そうだ、データを1つだけ選んで、それを使おう！無茶苦茶な意見に聞こえるでも、具体的に「何が悪い」のか？ 204

205.

推測統計のテーマ母平均の推定くらい、簡単？標本平均に5を足した結果を使うとどうなる？ほとんどのデータを捨てて1つだけを使うとどうなる？そんなことしたらダメだろ！え～、なんで～どのみち母集団のことわかんないだから、好きに計算したらいいじゃん。たまたま「小さめのサイズ」の魚ばっかり釣れたんだったら大きめに補正した方がいいでしょ？ 205

206.

推測統計のテーマここでの疑問標本を使うため、母集団全体を調べてはいない標本から計算された平均値と、母集団の平均値が、「ぜんぜん違う」ということにはならないの？標本を使って「やっつけ仕事」で母平均を推定してる？ →何をやってもダメだから、どんな計算をしてもよい？ →どのよう計算するのが「良い」やりかたなの？逆に「悪い」やりかたはどのようなもの？こういった疑問に答えるのが推測統計

207.

期待値と分散推定量の「良さ」を議論するための言葉確率論という「数学的なモデル」を利用して、色々な計算を進める 207

208.

内容 1．期待値 2．確率変数の分散 3．確率変数の和の期待値・分散 4．期待値・分散の変換 208

209.

内容 1．期待値 2．確率変数の分散 3．確率変数の和の期待値・分散 4．期待値・分散の変換 209

210.

期待値期待値（復習）確率変数において、以下で計算される値のこと期待値＝「確率×その時の値」の合計（連続型の確率変数を相手にする場合は積分する）期待値の表記法確率変数𝑋の期待値を𝐸 𝑋 と表記する（確率変数が𝑌なら、期待値は𝐸 𝑌 と表記される）期待値は短く𝜇と表記することもある 210

211.

期待値期待値の計算期待値＝「確率×その時の値」の合計確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とするなお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする期待値𝐸 𝑋 は以下のように計算できる 𝑛 𝐸 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 𝑖=1 確率その時の値合計 211

212.

期待値＝「確率×その時の値」の合計期待値期待値の計算例コイン投げ結果という確率変数に対して、期待値を計算コイン投げの確率分布出た面 1(表) 0(裏) 確率 1 2 1 2 期待値＝「確率×その時の値」の合計 1 1 1 =1× +0× = 2 2 2 212

213.

期待値＝「確率×その時の値」の合計クイズ期待値下記の「いかさまコイン」における期待値を求めよコイン投げの確率分布出た面 1(表) 0(裏) 𝟏 ① 𝟐 𝟏 ② 𝟑 確率 1 3 2 3 𝟏 ③ 𝟔 𝟐 ④ 𝟑

214.

期待値＝「確率×その時の値」の合計クイズ（回答）期待値下記の「いかさまコイン」における期待値を求めよコイン投げの確率分布出た面 1(表) 0(裏) 𝟏 ① 𝟐 𝟏 ② 𝟑 確率 1 3 2 3 𝟏 ③ 𝟔 𝟐 ④ 𝟑

215.

期待値＝「確率×その時の値」の合計クイズ（回答）期待値下記の「いかさまコイン」における期待値を求めよコイン投げの確率分布出た面 1(表) 0(裏) 確率 1 3 2 3 期待値＝「確率×その時の値」の合計 1 2 1 =1× +0× = 3 3 3

216.

期待値＝「確率×その時の値」の合計クイズ期待値表が出たら1万円、裏が出たら何ももらえない賭けがあるこの賭けの期待値を求めよもらえる金額の確率分布金額 1万円 0円 ① 1万円 ② 5000円 ③ 3000円確率 3 10 7 10 ④ 7000円 216

217.

期待値＝「確率×その時の値」の合計クイズ（回答）期待値表が出たら1万円、裏が出たら何ももらえない賭けがあるこの賭けの期待値を求めよもらえる金額の確率分布金額 1万円 0円 ① 1万円 ② 5000円 ③ 3000円確率 3 10 7 10 ④ 7000円 217

218.

期待値＝「確率×その時の値」の合計クイズ（回答）期待値表が出たら1万円、裏が出たら何ももらえない賭けがあるこの賭けの期待値を求めよもらえる金額の確率分布金額 1万円 0円確率 3 10 7 10 期待値＝「確率×その時の値」の合計 3 7 = 3000 = 10000 × +0× 10 10 218

219.

期待値の解釈期待値の直感的な説明平均値と同様に解釈できる指標「まだ手に入れていない、未知データにも適用できる平均値(予想値)」「長い目で見たときの、平均値」 219

220.

期待値の解釈期待値の直感的な説明平均値と同様に解釈できる指標「まだ手に入れていない、未知データにも適用できる平均値(予想値)」「長い目で見たときの、平均値」「長い目」で見るとは？ 220

221.

期待値の解釈実現値の例コイン投げ結果という確率変数の実現値を20回取得コイン投げの確率分布出た面確率 1 2 1 2 1(表) 0(裏) 表が8回裏が12回表裏裏表裏表表裏裏裏裏裏裏表表裏表裏表裏確率分布と比べて、裏がやや多くなった 221

222.

期待値の解釈確率変数と実現値確率変数は確率的に結果が変わるそのためたまたま表が多く出たり、裏が多く出たりするかも表が8回裏が12回表裏裏表裏表表裏裏裏裏裏裏表表裏表裏表裏例えばコインを2回だけ投げて、すべて裏だったとする裏裏この結果を見て、これはイカサマコインだと主張するのは無理がありそう 222

223.

金額 1万円 0円期待値の解釈確率 3Τ10 7Τ10 賭けに参加するかどうか表が出たら1万円、裏が出たら何ももらえない賭けがある ★賭けに参加するのに５０００円かかる★ 賭けに１０回参加する →１０回の平均受取金額を計算する１万円１万円１万円０円０円０円０円１万円０円１万円１０回賭けに参加すると、「たまたま」当たりが多く出ることもある 223

224.

金額 1万円 0円期待値の解釈確率 3Τ10 7Τ10 賭けに参加するかどうか表が出たら1万円、裏が出たら何ももらえない賭けがある ★賭けに参加するのに５０００円かかる★ 賭けに１０回参加する →１０回の平均受取金額を計算する１万円０円１万円０円０円０円０円０円０円０円１０回賭けに参加すると、「たまたま」当たりが少なく出ることもある 224

225.

期待値の解釈金額 1万円 0円確率 3Τ10 7Τ10 賭けに参加するかどうか表が出たら1万円、裏が出たら何ももらえない賭けがある ★賭けに参加するのに５０００円かかる★ 賭けに何度も参加する→その平均受取金額を計算する１万円０円１万円０円０円１万円０円１万円０円０円１万円０円１万円０円１万円０円０円０円０円０円１万円０円０円０円０円１万円０円０円０円０円０円１万円０円１万円０円０円１万円０円０円０円賭けに何度も、何度も、何度も参加する →平均受取金額は3000円に収束する 225

226.

期待値の解釈期待値の直感的な説明平均値と同様に解釈できる指標「まだ手に入れていない、未知データにも適用できる平均値(予想値)」「長い目で見たときの、平均値」何度も、何度も、何度も、何度も賭けに参加する「無限にも及ぶ回数、賭けに参加したならば、平均して３０００円くらいの金額が得られるだろう」 →この３０００円が期待値 →参加金額が５０００円なのだとしたら、「平均的に見ると」損をしてしまうだろうと予想できる 226

227.

期待値の解釈期待値の直感的な説明平均値と同様に解釈できる指標「まだ手に入れていない、未知データにも適用できる平均値(予想値)」「長い目で見たときの、平均値」確率変数と期待値確率変数は確率的に結果が変わる →この確率変数を、何度も、何度も取得したならばその平均値は期待値と一致するだろう期待値は、確率変数における「代表値」のような使い勝手の指標 227

228.

内容 1．期待値 2．確率変数の分散 3．確率変数の和の期待値・分散 4．期待値・分散の変換 228

229.

確率変数の分散「確率変数の分散」の直感的な説明「確率変数が、期待値からどれだけ離れていると期待できるか」を表した指標「確率変数の分散」の計算確率変数𝑋の期待値を𝐸 𝑋 と表記する分散を𝑉 𝑋 と表記すると 𝑉 𝑋 は以下のように定義される 𝑉 𝑋 =𝐸 𝑋−𝐸 𝑋 2 確率変数𝑋とその期待値𝐸 𝑋 の差異 229

230.

確率変数の分散「確率変数の分散」の直感的な説明「確率変数が、期待値からどれだけ離れていると期待できるか」を表した指標「確率変数の分散」の計算確率変数𝑋の期待値を𝐸 𝑋 と表記する分散を𝑉 𝑋 と表記すると 𝑉 𝑋 は以下のように定義される 𝑉 𝑋 =𝐸 𝑋−𝐸 𝑋 2 差異 𝑋 − 𝐸 𝑋 期待値 2 の確率変数𝑋とその期待値𝐸 𝑋 の差異 230

231.

確率変数の分散分散の計算分散＝『「確率変数－期待値」の2乗』に対する期待値確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とするなお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする。期待値を𝜇とする。分散𝑉 𝑋 は以下のように計算できる 𝑛 𝑉 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 確率「確率変数－期待値」の2乗合計 231

232.

確率変数の分散分散の計算分散＝『「確率変数－期待値」の2乗』に対する期待値「確率を掛けてから合計する」作業は、ワンセットで「期待値」の計算確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とするだといえるなお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする。期待値を𝜇とする。分散𝑉 𝑋 は以下のように計算できる 𝑛 𝑉 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 確率合計 232

233.

確率変数の分散分散の計算分散＝『「確率変数－期待値」の2乗』に対する期待値確率変数を𝑋とする。 𝑋が𝑥𝑖 になる確率を𝑃 𝑋 = 𝑥𝑖 とするなお、 𝑥1 , 𝑥2 , … , 𝑥𝑛 とする。期待値を𝜇とする。分散𝑉 𝑋 は以下のように計算できる 𝑛 𝑉 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 確率「期待値との差異」を対象に期待値を計算したのが分散合計 233

234.

確率変数の分散確率変数を𝑋とし、実現値を𝑥1 , 𝑥2 , … , 𝑥𝑛 とする確率質量関数を𝑓 𝑥𝑖 とする。期待値を𝜇と表記する確率変数の期待値 𝑛 𝐸 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 𝑖=1 確率変数の分散 𝑛 𝑉 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 234

235.

確率変数の分散確率変数を𝑋とし、実現値を𝑥1 , 𝑥2 , … , 𝑥𝑛 とする確率質量関数を𝑓 𝑥𝑖 とする。期待値を𝜇と表記する確率変数の期待値 𝑛 𝐸 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 𝑖=1 確率変数の分散期待値と分散の対応関係に注目 𝑛 𝑉 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 235

236.

確率変数の分散以下の確率分布に従う確率変数𝑋の分散𝑉 𝑋 を求めよ確率分布 1 1 𝑃 𝑋 = 0 = ,𝑃 𝑋 = 1 = 2 2 𝑛 分散の公式 𝑉 𝑋 = ෍ 𝑃 𝑋 = 𝑥𝑖 ∙ 𝑥𝑖 − 𝜇 2 𝑖=1 期待値𝜇 = 1Τ2は事前に計算公式のあてはめ今回は𝑥1 = 0, 𝑥2 = 1となっている 𝑃 𝑋 = 𝑥1 ∙ 𝑥1 − 𝜇 2 + 𝑃 𝑋 = 𝑥2 ∙ 𝑥2 − 𝜇 2 を計算する 1 1 回答 𝑉 𝑋 = ∙ 0 − 2 2 2 1 1 + ∙ 1− 2 2 2 1 = 4 236

237.

クイズ以下の確率分布に従う確率変数𝑋の分散𝑉 𝑋 を求めよ確率分布 ① 𝟎 25 𝑃 𝑋= = 0, 𝑃 𝑋 = 0 = 1 8 𝟏 ② 𝟖 𝟐𝟓 ③ 𝟖 𝟕𝟓 ④ 𝟖 237

238.

クイズ（回答）以下の確率分布に従う確率変数𝑋の分散𝑉 𝑋 を求めよ確率分布 ① 𝟎 25 𝑃 𝑋= = 0, 𝑃 𝑋 = 0 = 1 8 𝟏 ② 𝟖 𝟐𝟓 ③ 𝟖 𝟕𝟓 ④ 𝟖 常に「0」しか出ない確率分布なので期待値は「0」期待値から離れた値は絶対に出ないので、分散も「0」 238

239.

内容 1．期待値 2．確率変数の分散 3．確率変数の和の期待値・分散 4．期待値・分散の変換 239

240.

確率変数の和の期待値・分散独立同一分布 𝑛個の確率変数𝑋1 , 𝑋2 , … 𝑋𝑛 がある。これらの確率変数が従う確率分布が同じであり、確率変数同士が互いに独立であるとき、 𝑋1 , 𝑋2 , … 𝑋𝑛 が「独立同一分布に従う」と呼ぶ独立同一分布はindependently and identically distributedの頭文字をとってi.i.dと表記することもある独立であって、かつ、みんな同じ分布いろいろな制約を置くと計算が楽になる！ 240

241.

確率変数の和の期待値・分散和の期待値における便利な公式確率変数𝑋, 𝑌において、以下が成り立つ 𝐸 𝑋+𝑌 =𝐸 𝑋 +𝐸 𝑌 独立な確率変数の和の分散における便利な公式互いに独立な確率変数𝑋, 𝑌において、以下が成り立つ 𝑉 𝑋+𝑌 =𝑉 𝑋 +𝑉 𝑌 和の分散公式は独立性が必須なので注意 241

242.

確率変数の和の期待値・分散分散の場合は、なぜ「独立」が大事になるのか 𝑋の出目が小さいなら、𝑌の出目も小さくなりやすい 𝑋の出目が大きいなら、𝑌の出目も大きくなりやすい →この時、「確率変数の和」はどうなる？ 𝑋 + 𝑌の値が極端に小さい（𝑋も𝑌も小さい）や、 𝑋 + 𝑌の値が極端に大きい（𝑋も𝑌も大きい）ことが頻繁に発生 →ばらつき（分散）が大きくなる！確率変数同士の関係性によって、和の分散は変化する 242

243.

確率変数の和の期待値・分散分散の場合は、なぜ「独立」が大事になるのか 𝑋と𝑌が独立でない場合は、以下のように分散を求めるただし𝐶は共分散を表す 𝑉 𝑋 + 𝑌 = 𝑉 𝑋 + 𝑉 𝑌 + 2𝐶 𝑋, 𝑌 証明は下記の資料を参照（少し難しい） https://logics-of-blue.com/stats-calc-note/ 確率変数同士が独立であると仮定すると計算が簡単になる 243

https://logics-of-blue.com/stats-calc-note/

244.

確率変数の和の期待値・分散和の期待値における便利な公式独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 で、以下が成り立つ。ただし𝐹の期待値を𝜇とする 𝐸 𝑋1 + 𝑋2 = 𝜇 + 𝜇 = 2𝜇 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 で、以下が成り立つ。ただし𝐹の期待値を𝜇とする 𝐸 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑛𝜇 期待値𝜇を足し合わせるだけ 244

245.

確率変数の和の期待値・分散和の分散における便利な公式独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 で、以下が成り立つ。ただし𝐹の分散を𝜎 2 とする 𝑉 𝑋1 + 𝑋2 = 𝜎 2 + 𝜎 2 = 2𝜎 2 独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 で、以下が成り立つ。ただし𝐹の分散を𝜎 2 とする 𝑉 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑛𝜎 2 分散𝜎 2 を足し合わせるだけ 245

246.

内容 1．期待値 2．確率変数の分散 3．確率変数の和の期待値・分散 4．期待値・分散の変換 246

247.

前期の復習：基準化変量の解説で登場した変換公式 247

248.

平均・分散の性質データ 𝑎 ∙ 𝑥𝑖 + 𝑏 「なんかの数値」くらいの意味ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数平均値の変換公式元のデータ𝑥𝑖 の平均値を𝑥とする ҧ 𝑎 ∙ 𝑥𝑖 + 𝑏 の平均値は 𝑎 ∙ 𝑥ҧ + 𝑏 となる 1 𝑎はなど分数も取りうる 5 𝑏は－5 など負の値も取りうる 248

249.

平均・分散の性質平均値の性質元のデータ𝑥𝑖 に𝑎をかけたり𝑏を足したりしたら平均値も𝑎をかけたり𝑏を足したりしたものになる 249

250.

平均・分散の性質データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 平均値 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥ҧ = ෍ 𝑥𝑖 = 𝑛 𝑛 𝑖=1 𝑛 分散 1 𝑠 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 平均値は、データを足すだけ分散は、引き算と2乗の計算も行う 2 250

251.

平均・分散の性質データ 𝑥𝑖 + 5 ただし 𝑖 = 1,2, … , 𝑛 𝑥も5増える ҧ 𝑛 分散 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 𝑥𝑖 は5増えるデータに5を足しても、相殺される！ →データに何かを足しても分散は変わらず 251

252.

平均・分散の性質データ 𝑎 ∙ 𝑥𝑖 + 𝑏 ただし 𝑖 = 1,2, … , 𝑛 であり、𝑎, 𝑏は定数分散の変換公式元のデータ𝑥𝑖 の分散を𝑠 2 とする 𝑎 ∙ 𝑥𝑖 + 𝑏 の分散は 𝑎2 ∙ 𝑠 2 となる 1 𝑎はなど分数も取りうる 5 𝑏は－5 など負の値も取りうる 252

253.

平均・分散の性質平均値の性質元のデータ𝑥𝑖 に𝑎をかけたり𝑏を足したりしたら平均値も𝑎をかけたり𝑏を足したりしたものになる（データから計算された）分散の性質元のデータ𝑥𝑖 に𝑎をかけたら分散は𝑎2 倍される元のデータ𝑥𝑖 に何かを足し引きしても、分散は変化しないこの性質は確率変数でも同様に成り立つ 253

254.

期待値・分散の変換期待値の性質確率変数𝑋𝑖 に𝑎をかけたり𝑏を足したりしたら期待値も𝑎をかけたり𝑏を足したりしたものになる確率変数の分散の性質確率変数𝑋𝑖 に𝑎をかけたら分散は𝑎2 倍される確率変数𝑋𝑖 に何かを足し引きしても、分散は変化しない証明は下記の資料も参照 https://logics-of-blue.com/stats-calc-note/ 標本平均の性質を理解するのに必要 254

https://logics-of-blue.com/stats-calc-note/

255.

メモ iidに従う確率変数の和の公式独立で同一な確率分布𝐹に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 で、以下が成り立つ。ただし𝐹の期待値を𝜇、分散を𝜎 2 とする 𝑛 𝐸 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝐸 ෍ 𝑋𝑖 = 𝑛𝜇 𝑖=1 𝑛 𝑉 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = 𝑉 ෍ 𝑋𝑖 = 𝑛𝜎 2 𝑖=1 期待値・分散の変換公式 𝑎, 𝑏を任意の定数とする。確率変数を𝑋とする 𝐸 𝑎𝑋 + 𝑏 = 𝑎𝐸 𝑋 + 𝑏 𝑉 𝑎𝑋 + 𝑏 = 𝑎2 𝑉 𝑋 255

256.

母平均の推定～「良い」推定量とは～ 256

257.

内容 1．不偏推定量 2．推定量の分散 257

258.

内容 1．不偏推定量 2．推定量の分散 258

259.

不偏推定量現実母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得したモデル標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数であるただし𝐹の期待値は𝜇分散は𝜎 2 である母集団からの標本抽出をモデルで表現確率論を駆使してモデルを分析していく 259

260.

不偏推定量不偏性推定量の期待値が、母集団のパラメータと等しくなる特性不偏推定量不偏性を持つ推定量のこと不偏推定量は「平均すると、過大にも、過少にもなっていない、偏りのない推定量」 260

261.

不偏推定量標本平均と不偏性同一の母集団から単純ランダムサンプリングで標本を得るこのときの標本平均は、母平均に対する不偏推定量である ത 標本平均を𝑋、母平均を𝜇とすると、 𝐸 𝑋ത = 𝜇となる不偏性は、あくまでも「良さの1つ」不偏性が必須というわけではないし、不偏でも「望ましくない」推定量もある標本平均を使うのが好ましい理由の1つ 5を足すと、母平均を過大評価してしまう 261

262.

不偏推定量証明標本平均は、母平均に対する不偏推定量であることを証明標本 𝑋𝑖 標本平均 𝑛 1 𝑋ത = ෍ 𝑋𝑖 𝑛 𝑖=1 母平均 𝜇 262

263.

不偏推定量証明 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝐸 ෍ 𝑋𝑖 = 𝑛𝜇 𝑖=1 公式を標本に適用してみる標本が、同一の母集団からの無作為標本ならば標本はiidに従う →標本を𝑋𝑖 と置くと、公式が適用できる！ 263

264.

不偏推定量証明 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝐸 ෍ 𝑋𝑖 = 𝑛𝜇 𝑖=1 公式② 期待値の変換公式 𝐸 𝑎𝑋 = 𝑎𝐸 𝑋 標本平均の期待値が母平均と一致した公式①と②の合わせ技 𝑛 𝐸 𝑋ത = 𝐸 1 ෍ 𝑋𝑖 𝑛 𝑖=1 𝑛 1 = ∙ 𝐸 ෍ 𝑋𝑖 𝑛 公式② 𝑖=1 1 = ∙ 𝑛𝜇 𝑛 公式① =𝜇 264

265.

不偏推定量不偏推定量のイメージ「標本抽出＋標本平均の計算」を、何度も何度も行う標本平均は確率変数なので、毎回異なる平均値が得られる →長い目で見た、『標本平均の平均値』は母平均と一致する標本平均○cm 標本平均×cm 標本平均の平均値標本平均△cm 265

266.

不偏推定量現実世界母集団から単純ランダムサンプリングによって標本を得る標本平均を計算して、それを母平均の推定量にする →本当にこのやりかたで「良い」のかな？モデル内での計算独立同一分布に従う確率変数を得るモデルからいろいろ計算すると、標本平均の期待値は、母平均と一致すると分かった →標本平均は不偏推定量なので「良い」推定量と言えそう！「モデル内」での計算はちょっと面倒だけど「現実世界」の作業の評価に役立つ 266

267.

不偏推定量なぜ標本平均に5を足してはいけないか標本平均を計算して、それを母平均の推定量とする →標本平均が4cmなら、母平均も4cmだと推測するなんか4cmって小さくない？標本平均に5を足した結果を推定量にしようぜ！そんなことしたら、「長い目で見ると」母平均の値を過大に見積もってしまうのでダメくっ……。 267

268.

内容 1．不偏推定量 2．推定量の分散 268

269.

推定量の分散推定量の分散分散は「期待値からどれだけ離れていると期待できるか」を表した指標 →「標本平均という推定量」の分散が大きいなら、せっかく不偏性を満たしていても、あまり意味がない（母平均と大きく異なる推定値が頻繁に得られてしまう）推定量の分散（ばらつき）は、できるだけ小さいほうが良い 269

270.

推定量の分散標本平均の分散 2 とすると、 ത 標本平均を𝑋、サンプルサイズを𝑛、母分散を𝜎 標本平均の分散𝑉 𝑋ത は以下のようになる 𝜎2 𝑉 𝑋ത = 𝑛 サンプルサイズが大きいほうが、推定量の分散（ばらつき）が小さい 270

271.

推定量の分散なぜサンプルサイズが大きいと標本平均の分散が小さくなるか 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝑉 ෍ 𝑋𝑖 = 𝑛𝜎 2 𝑖=1 公式を標本に適用してみる標本が、同一の母集団からの無作為標本ならば標本はiidに従う →標本を𝑋𝑖 と置くと、公式が適用できる！ 271

272.

推定量の分散なぜサンプルサイズが大きいと標本平均の分散が小さくなるか 2つの公式を利用する 𝑛 公式① iidに従う確率変数の和の公式 𝑉 ෍ 𝑋𝑖 = 𝑛𝜎 2 𝑖=1 𝑉 𝑎𝑋 = 𝑎2 𝑉 𝑋 公式② 分散の変換公式公式①と②の合わせ技 𝑛 1 ത 𝑉 𝑋 =𝑉 ෍ 𝑋𝑖 𝑛 𝑖=1 サンプルサイズが大きいほ ത ど、 𝑋の分散は小さくなる 𝑛 1 = 2 ∙ 𝑉 ෍ 𝑋𝑖 𝑛 公式② 𝑖=1 1 = 2 ∙ 𝑛𝜎 2 𝑛 公式① 𝜎2 = 𝑛 272

273.

推定量の分散標本平均の分散のイメージ釣れた魚が「すべて大きい魚」であることはあまりない釣れた魚が「すべて小さな魚」であることもあまりない →大きい魚と小さい魚が混ざった状況で平均を取るはず平均的な大きさ「極端に大きい・小さい平均値」は出にくい標本平均の分散は、標本の分散より小さい 273

274.

推定量の分散なぜサンプルサイズが大きいほうが良いのかサンプルサイズが大きいほうが、標本平均の分散が減るたくさんのデータを集計するの面倒だな～そうだ、データを1つだけ選んで、それを推定量にしよう！そんなことしたら、標本平均の分散が増えてしまう。分散は小さいほうが良いくっ……。 274

275.

推定量の分散一致性サンプルサイズが大きくなると、推定量が正しいパラメータに近づくという特性のこと一致推定量一致性を持つ推定量のことサンプルサイズが無限に大きいなら、推定量と母集団のパラメータは一致する 275

276.

推定量の分散標本平均の一致性について証明は略するが、標本平均は母平均の一致推定量である直観的なイメージサンプルサイズが無限になると標本平均の分散は0に近づく 𝜎2 𝑉 𝑋ത = 𝑛 分母が無限になる分散が0だと「期待値と全く離れない」ことになる標本平均の期待値は母平均𝜇なので、サンプルサイズが無限だと、標本平均は𝜇と一致する 276

277.

推定量の分散 (おまけ)データを1つだけ選んで推定量にする方法の問題点代表となるデータを𝑋𝑖 とすると𝐸 𝑋𝑖 = 𝜇だから「データを1つだけ選ぶ」という推定量は不偏推定量になるしかし、データを常に1つしか使わないので、サンプルサイズを増やしても、推定量の分散が減らない → 𝑋𝑖 を無理やり推定量にしても、一致推定量にはならない 277

278.

推定量の分散大数の法則標本の大きさが大きくなるにつれて、標本平均が母平均に近づく近づき方を表現した法則 Graham Upton, Ian Cook．(白幡慎吾監訳)．(2010)．統計学辞典．共立出版直観的なイメージサンプルサイズが無限に近づくと、標本平均は母平均に近づく標本平均を利用すべき大きな理由 278

279.

推定量の分散大数の法則(大数の弱法則)のもう少し正確な説明標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数とするただし𝐹の期待値は𝜇分散は𝜎 2 、 𝜎 2 < ∞であるとする ത この時、標本平均𝑋は期待値𝜇に確率収束する ※別の表現もある現実世界で大数の法則を適用するために標本が、母集団からの単純ランダムサンプリングによって取得されているなら大数の法則はちゃんと成り立つ逆に言うと、サンプリングを失敗すると大数の法則も成り立たないことがある 279

280.

まとめ今回は正規分布という仮定を使っていないメモモデルの構造現実世界の想定母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得したモデル標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数であるただし𝐹の期待値は𝜇分散は𝜎 2 であるモデルから導かれた結果標本平均は母平均の不偏推定量 ത 標本平均𝑋の期待値 𝐸 𝑋ത = 𝜇 ത 標本平均𝑋の分散 𝜎2 標本平均は母平均の一致推定量 𝑉 𝑋ത = 𝑛 280

281.

推定量の分散推測統計を学ぶ際に大事なこと教科書の計算方法と計算結果の暗記ではうまくいかない計算の前提となった条件を理解するのが大事計算の前提条件を理解するために「モデル」の考え方に慣れておくのが有益前期と違って「計算演習」では足りない「仕事でつかえる」分析技術を学ぼう 281

282.

統計学 II 第4回：母分散と標本分散

283.

内容 1．統計的推定の考え方 2．母分散の推定 3．点推定の理論のまとめ 283

284.

統計的推定の考え方主に先週の復習です 284

285.

内容 1．母集団からの標本抽出というモデル 2．正規分布というモデル 3．統計的推定のテーマ 285

286.

内容 1．母集団からの標本抽出というモデル 2．正規分布というモデル 3．統計的推定のテーマ 286

287.

母集団からの標本抽出というモデル母平均𝜇母分散𝜎 2 の母集団母集団：知りたいと思っている集団全体 →湖の中にいる魚の体長を母集団と考える 287

288.

母集団からの標本抽出というモデル単純ランダムサンプリング →母集団の要素がすべて等しい確率で取得される単純ランダムサンプリングによって 𝑛個の標本が取得された 288

289.

推測統計の勘所本来は、現実は複雑でも、単純ランダムサンプリングで得られた標本に対象を狭めよう現実世界の想定母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得した対応モデル標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数であるただし𝐹の期待値は𝜇分散は𝜎 2 である確率論の言葉を使って、現実世界を計算しやすいようにモデル化 289

290.

内容 1．母集団からの標本抽出というモデル 2．正規分布というモデル 3．統計的推定のテーマ 290

291.

統計的推定の考え方少し単純すぎる例湖からの標本抽出 →5尾の魚だけがいる湖から1尾抽出する 1cm 2cm 3cm 4cm 母集団は（ちょっと少ないが） 5尾しかいないと想定 5cm

292.

統計的推定の考え方 1cm 2cm 3cm 4cm 5cm 1 5 1 5 1 5 1 5 1 5 単純ランダムサンプリングすると１,２,３,４,５の数値がすべて1/5で出る

293.

体長のヒストグラム 1 5 やや不自然(作為的)なヒストグラム 293

294.

体長のヒストグラム体長のヒストグラム(正規分布) 1 5 母集団は正規分布に従うと考えたほうがおそらく自然であるはず(仮定) 294

295.

推測統計の勘所現実世界の想定母平均𝜇母分散𝜎 2 の正規母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得対応モデル標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である確率論の言葉を使って、現実世界を計算しやすいようにモデル化 295

296.

内容 1．母集団からの標本抽出というモデル 2．正規分布というモデル 3．統計的推定のテーマ 296

297.

統計的推定のテーマ統計的推定標本を用いて、母集団を特徴づけるパラメータを言い当てる試みのこと正規分布の2つのパラメータを推定したいモデル標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である

298.

統計的推定のテーマパラメータを雑に決めてはいけない正規分布は平均（期待値）が𝜇で、分散が𝜎 2 、標準偏差が𝜎 テキトーに𝜇 = 300と定めると、「湖の中には平均して300cmの魚が生息している」というすさまじいモデルを作ってしまう 298

299.

統計的推定のテーマ「釣った魚」の体長の平均値が4cmだった（標本平均）だから素朴な方法だが、うまくいく「湖の中のすべての魚」も体長の平均値は 4cmなのでは？（母平均） 299

300.

前回のまとめ正規分布という仮定を使っていない（母集団分布が正規分布でなくても成り立つ）モデル標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数であるただし𝐹の期待値は𝜇分散は𝜎 2 であるモデルから導かれた結果標本平均は母平均の不偏推定量 ത 標本平均𝑋の期待値 𝐸 𝑋ത = 𝜇 ത 標本平均𝑋の分散 𝜎2 標本平均は母平均の一致推定量 𝑉 𝑋ത = 𝑛 300

301.

統計的推定のテーマ先週の復習母平均の推定量として標本平均を使うのが「良い」方法だった →不偏性と一致性をもつ推定量だから今日学ぶこと母分散の推定量としては、どのような統計量を使うのが「良い」のだろうか？先週は母平均の推定に取り組んだ今週は母分散の推定に取り組む

302.

標本分散の復習(前期の復習) 記述統計で学んだ分散標本から計算される分散は「標本分散」と呼ぶ 302

303.

標本分散の復習標本分散データが「平均値からどれほど離れているか」を表す指標売り上げ(万円) 分散大分散小 1000 500 0 303

304.

標本分散の復習データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑥は標本平均 ҧ 𝑛 標本分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 = 𝑥1 − 𝑥ҧ 2 + 𝑥2 − 𝑥ҧ 2 + ⋯ + 𝑥𝑛 − 𝑥ҧ 𝑛 2 個別のデータ𝑥𝑖 と平均値𝑥が離れていたら ҧ 分散は大きな値をとる 304

305.

標本分散の復習データ｛１，２，３，４，５｝標本平均標本分散 1−3 1+2+3+4+5 =3 5 個別のデータが、平均値からどれほど離れているか計算 2 + 2−3 2 4+1+0+1+4 = 5 =2 + 3−3 5 2 + 4−3 2 + 5−3 2 305

306.

ばらつきの指標標本分散データが「平均値からどれほど離れているか」を表す指標売り上げ(万円) 分散大分散小 1000 500 0 平均値 306

307.

ばらつきの指標標本分散データが「平均値からどれほど離れているか」を表す指標平均値から売り上げ(万円) 分散大離れている分散小 1000 500 0 平均値 307

308.

ばらつきの指標標本分散データが「平均値からどれほど離れているか」を表す指標売り上げ(万円) 分散大 1000 500 0 多くのデータが、分散小平均値から離れている →分散が大きくなる平均値 308

309.

様々な統計量データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 標本分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 個別のデータが、平均値からどれほど離れているか計算 309

310.

様々な統計量データ 𝑥𝑖 ただし 𝑖 = 1,2, … , 𝑛 𝑛 標本分散 𝑠2 1 = ෍ 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 「データと平均値との差異 𝑥𝑖 − 𝑥ҧ さらに平均値をとっている 2 」の多くのデータ𝑥𝑖 が平均値𝑥と離れていたら ҧ 分散は大きな値をとる 310

311.

母分散の推定 311

312.

母分散の推定母集団にまつわる用語母平均→母集団の平均母分散→母集団の分散（標本平均とは区別）（標本分散とは区別）正規分布のパラメータの推定母集団分布のパラメータ、すなわち母平均𝜇、母分散𝜎 2 を言い当てればよい先週は母平均の推定に取り組んだ今週は母分散の推定に取り組む 312

313.

標本分散が持つ偏り標本分散の偏りについて標本分散って思ってたより小さくない？標本分散をちょっと大きくした値を推定量にしようぜ！また唐突に……。そんなことしていいわけないじゃん甘いな若造。標本分散は偏りがある推定量なので、ちょっと大きめの値にしないと不偏性を持たないんだぜくっ……。 313

314.

不偏推定量（復習）不偏性推定量の期待値が、母集団のパラメータと等しくなる特性不偏推定量不偏性を持つ推定量のこと不偏推定量は「平均すると、過大にも過少にもなっていない偏りのない推定量」 314

315.

不偏推定量（復習）標本分散と不偏性同一の母集団から単純ランダムサンプリングで標本を得るこのときの標本分散は、母分散に対する不偏推定量でない標本分散を𝑆 2 、母分散を𝜎 2 とすると、 𝐸 𝑆 2 ≠ 𝜎 2 となる標本分散の期待値は、母分散にならない →標本分散は母分散を過小評価している 315

316.

標本分散が持つ偏り標本分散の定義式 ത 標本平均𝑋を使う 𝑛 ①標本分散 𝑆2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛 2 𝑖=1 𝑛 ②ちょっと改造 1 ෍ 𝑋𝑖 − 𝜇 𝑛 2 𝑖=1 標本平均ではなく母平均を使った母平均を使った②の計算ならば、ちゃんと不偏推定量になる 316

317.

標本分散が持つ偏り標本平均を使う場合と母平均を使う場合の違いは？分散は、「平均値とどれほど離れていると期待できるか」を表した指標。本来は母平均からどれだけ離れているかを調べる標本平均母平均𝜇 正しい差異 317

318.

標本分散が持つ偏り標本平均を使う場合と母平均を使う場合の違いは？標本平均との差異が母平均との差異と比べて小さいことは数学的に証明できる →「常に小さくなる」という偏りがあるため、標本分散は、母分散の不偏推定量ではない標本平均母平均𝜇 過小評価された差異(標本分散) 318

319.

標本分散が持つ偏り 𝑛 標本分散 𝑆2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛 2 𝑖=1 𝑛 不偏分散 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 𝑛で割るかわりに、 𝑛 − 1で割る →不偏分散は、標本分散より少し大きい 319

320.

標本分散が持つ偏り不偏分散は本当に不偏推定量になっているか？証明は大変なので今回は省略（興味のある学生は https://logics-of-blue.com/stats-calc-note/ ）証明の基本方針 ത 𝑋と𝜇が異なっているというのが問題 → 𝑋ത − 𝜇という差分がもたらす影響を調べる 320

https://logics-of-blue.com/stats-calc-note/

321.

標本分散が持つ偏り補足今回は母集団分布に正規分布を仮定したしかし、正規分布以外（たとえば一様分布・二項分布）でも今週と先週で解説した不偏性などの議論は成り立つ（独立で同一な確率分布に従うという前提は利用する） 321

322.

点推定の理論のまとめ前期で学んだ「標本平均と分散の計算方法」から推測統計へと飛躍するための考え方 322

323.

内容 1．標本抽出と「モデル」 2．推定の基本的な流れ 3．推測統計の勘所 323

324.

内容 1．標本抽出と「モデル」 2．推定の基本的な流れ 3．推測統計の勘所 324

325.

推測統計の勘所現実世界の想定母平均𝜇母分散𝜎 2 の母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得した対応モデル標本𝑋𝑖 は独立で同一な確率分布𝐹に従う𝑛個の確率変数であるただし𝐹の期待値は𝜇分散は𝜎 2 である 325

326.

内容 1．標本抽出と「モデル」 2．推定の基本的な流れ 3．推測統計の勘所 326

327.

統計的推定のテーマ推定量統計的推定に用いる統計量のこと標本が確率変数なので、統計量(推定量)も確率変数となるどのような推定量を使うべきか「良い」性質を持つ推定量を使いたい（なんとなく5を足したい、とかはダメ）推定量の性質を調べる不偏性と一致性という性質などを考慮して推定量を選ぶ（ほかにもたくさんの性質がある） 327

328.

統計的推定のテーマ色々な推定量今回は標本平均と不偏分散を推定量として利用した他にも「最小二乗推定量」や「最尤推定量」など、色々な推定量が提案されている (3年生向けのマーケティング・サイエンスではこちらも解説) 点推定と区間推定今週までは点推定を解説した →標本平均を母平均の推定量とする、という考え推定量に幅を持たせた「区間推定」というやり方もある →これを理解するのが中間テストまでの範囲となる 328

329.

内容 1．標本抽出と「モデル」 2．推定の基本的な流れ 3．推測統計の勘所 329

330.

推測統計の勘所【記述統計】手持ちのデータの集計【推測統計】未知のデータに対する判断・推測

331.

推測統計推測統計がない時（未知のデータに対して言及しない）今日の夜まで広告を出すことで、売り上げが増えましたでも・・・明日からは広告を出すことで売り上げが増えるか減るか不明です何のためのデータ分析？

332.

推測統計推測統計がない時（未知のデータに対して言及しない）手持ちのデータ今日の夜まで広告を出すことで、売り上げが増えましたまだ持っていない未知のデータ明日からは広告を出すことで売り上げが増えるか減るか不明ですデータに基づく判断のためには、未知のデータへの言及をすることが必要

333.

推測統計推測統計がある時（未知のデータに対して言及する）今日の夜まで広告を出すことで、売り上げが増えましただから明日からも広告を出すことで売り上げが増えるはずです ★売り上げUPのために広告を出そう！！！この流れこそが「データに基づく判断」

334.

推測統計の勘所推測統計は必要だ推測統計という技術がなければ、データの活用はとても大きく制限されてしまう推測統計は面倒だ「手に入れていないデータ」の議論のやり方には工夫が必要「手に入れていない」ものの議論なので、手持ちのデータをどれだけ眺めていてもダメ 334

335.

推測統計の勘所現実「標本抽出＋統計量の計算」を、何度も何度も行う →何度も行った結果を見て、推定量の「良さ」を評価する例）同じ条件で標本を得て、標本平均を何度も計算する標本平均○cm 標本平均×cm 標本平均△cm 「標本平均の平均値」が得られる → 「標本平均の平均値」は母平均に一致するのでヨシ！335

336.

推測統計の勘所現実世界の限界同じ条件で何度も標本を取得するのは面倒（何度も釣りに出かけないといけない）モデルを使って楽をする同じ条件で何度も標本を取得するという作業を「モデル」を使って検討する「手に入れていない」ものの議論は「モデル」で行う →確率論を駆使して、色々な結果を出せる 336

337.

推測統計の勘所モデルを使って何がわかるか（例① ）手持ちのデータで平均値を計算しただけでも、母集団の平均値のそれなりに「良い」推定量と言えるはず ↓ じゃあ標本平均を使って母平均を推定したらいいよねモデルを使って何がわかるか（例② ）手持ちのデータで計算した分散は、母分散を過小評価してしまっている ↓ じゃあ標本分散を少し大きくした不偏分散を推定量に使ってみようかな 337

338.

推測統計の勘所モデルの利用について来週からもモデルを使う主な利用目的は同じ条件で何度も何度も標本を取得して何度も何度も統計量を計算したら、その結果はどのように分布するだろうかを理解するということにある現実世界で何度も標本を抽出するのは大変（何度も釣りに出かけるのは面倒）モデルを使って議論するやり方はとても役に立つ 338

339.

推測統計の勘所来週やること「標本平均の分散」については先週説明したのに「不偏分散の分散」についてはスルーしている同じ条件で何度も何度も標本を取得して何度も何度も不偏分散を計算したら、その結果はどのように分布するだろうかを来週は学ぶ「不偏分散の分布」がわかれば、おのずと「不偏分散の分散」もわかる「標本平均の分布」については、その次の週に解説予定 339

Logics of Blue

関連スライド

統計学I-1

統計学I-2

統計学II-3

統計学II-2

学振特別研究員になるために～2026年度申請版

EGG '24 | ゲーム業界ホワイト化の光と影

各ページのテキスト