統計学II-2

統計学 II-2 ・推測統計の導入・標本抽出・点推定・標本分布・区間推定・仮説検定 https://logics-of-blue.com/

https://logics-of-blue.com/

本資料について本資料の成り立ち馬場が担当する学部1年生向け統計学IIの講義資料抜粋統計学を初めて学ぶ、文系の学生が受講する想定本資料の取り扱いあくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、避けてほしい (文脈がわからないと、誤った理解を促すため) 2

3.

本資料について本資料の使い方想定①：講義の受講者が復習に利用する想定②：未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること参考文献馬場真哉，2022，翔泳社『Pythonで学ぶあたらしい統計学の教科書第2版』倉田博史・星野崇宏，2009，新世社『入門統計解析』鈴木武・山田作太郎，1996，内田老鶴圃『数理統計学』 3

4.

本資料の範囲 1．オリエンテーション 2．推測統計の基本 3．母平均と標本平均 4．母分散と標本分散 5．正規分布から得られる標本分布1 6．正規分布から得られる標本分布2 7．区間推定1：母平均の区間推定 8．区間推定2：母分散の区間推定 9．中間テスト

5.

統計学 II 第5回：正規分布から得られる標本分布

6.

内容 1．標本分布の考え方 2．不偏分散の標本分布 3．𝝌𝟐 分布 4．𝝌𝟐 分布の利用 6

7.

標本分布の考え方 7

8.

標本分布の考え方標本分布標本の統計量が従う確率分布のこと例）標本平均が従う確率分布標本から計算された不偏分散が従う確率分布標本分布のイメージ「母集団からの標本抽出」を何度も何度も繰り返した結果、得られる分布であることに注意 8

9.

標本分布の考え方正規分布の表記これから正規分布を頻繁に使うので、以下のように略記する確率変数𝑋𝑖 が平均（期待値）が𝜇で、分散が𝜎 2 の正規分布に従う 𝑋𝑖 ~𝒩 𝜇, 𝜎 2 𝑋 ~𝒩 𝜇, 𝜎 2 チルダ記号「 ~ 」が「従う」を表すマーク添え字「 𝑖 」は省略することもある 9

10.

標本分布の考え方今回の講義の想定母集団分布は正規分布である(二項分布などではない) 標本は単純ランダムサンプリング(無作為抽出)で得られる →標本は同一の正規分布に従う独立な確率変数確率変数 𝑋1 , 𝑋2 , … , 𝑋𝑛 無作為抽出標本抽出のモデル 𝑋𝑖 ~𝒩 𝜇, 𝜎 2 10

11.

標本分布の考え方今回の講義の想定話を簡単にするために、母平均𝜇 = 4、母分散𝜎 2 = 0.64 母標準偏差𝜎 = 0.8とする（母平均・母分散は普通はわからないので注意）確率変数 𝑋1 , 𝑋2 , … , 𝑋𝑛 無作為抽出標本抽出のモデル 𝑋𝑖 ~𝒩 𝜇 = 4, 𝜎 2 = 0.64 11

12.

標本分布の考え方本日のテーマ右図のような標本抽出のモデルを想定標本抽出のモデル 𝑋𝑖 ~𝒩 𝜇 = 4, 𝜎 2 = 0.64 そして標本から不偏分散𝑈 2 を計算する ത （𝑋は標本平均、 𝑛はサンプルサイズ） →今回はサンプルサイズ𝑛 = 5とする 𝑛 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 不偏分散𝑈 2 が従う確率分布を調べる 12

13.

標本分布の考え方単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布母集団についての仮定＋標本抽出の仮定を組み合わせたモデル 13

14.

標本分布の考え方やや発展的な注意事項モデルの構造が変われば、結果も（当然）変わるので注意 →「統計学入門編」ではモデルの構造は決め打ちで進める母集団分布が正規分布でなかったら、以下で述べる議論の多くは成り立たない単純ランダムサンプリングをしていなかったら（たとえば標本が互いに独立でなかったら）以下で述べる議論の多くは成り立たない先週までと違って、今回は母集団分布が正規分布であることが必須 14

15.

母集団からの標本抽出というモデル単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布標本から不偏分散を計算した不偏分散は0.72だった 15

16.

母集団からの標本抽出というモデル単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布もう一回標本を抽出してもう一回不偏分散を計算すると、 0.72とは異なる不偏分散が得られるはず標本から不偏分散を計算した不偏分散は0.72だった 16

17.

推測統計の勘所現実「標本抽出＋不偏分散の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、不偏分散を何度も計算する不偏分散○○ 不偏分散×× 不偏分散がたくさん得られる不偏分散△△ 17

18.

確率分布の基礎確率分布のイメージ確率の定義から、確率の合計値は1 「全体1」である確率を配分したものが確率分布（確率分布のことを、単に分布と呼ぶこともある）動物の分布不偏分散の標本分布・キリン →アフリカに存在不偏分散が0.2から0.4になる確率は20％・キタキツネ →北海道に存在不偏分散が0.4から0.6になる確率は30% ・コウテイペンギン →南極に存在不偏分散が0.6から0.8になる確率は15% 18

19.

不偏分散の標本分布先ほどのシチュエーションの下で不偏分散の標本分布がどのようになるか調べる 19

20.

内容 1．ヒストグラムの復習 2．不偏分散の標本分布（ヒストグラム） 3．不偏分散を少し変換する 20

21.

内容 1．ヒストグラムの復習 2．不偏分散の標本分布（ヒストグラム） 3．不偏分散を少し変換する 21

22.

確率分布の基礎確率分布の表現の仕方の復習（前期の内容です）確率分布の表現の方法は大きく3つ 1．確率分布の数表を作る 2．関数を使う（確率密度関数・確率質量関数） →不偏分散は連続型の確率変数なので「確率密度関数」を使う 3．グラフで表現する本日の講義では、わかりやすいので基本的にはグラフを使う 22

23.

確率分布の基礎確率分布を数表で表現する不偏分散の標本分布の例 →細かく表記するのが大変階級 0～0.3 0.3～0.6 0.6～0.9 0.9～1.2 …… 確率 0.24 0.32 0.21 0.12 …… 23

24.

確率分布の基礎確率分布をグラフで表現する後ほど、確率密度関数の折れ線グラフを紹介今回は、まずヒストグラムを使う前期で登場した、身長のヒストグラム 24

25.

度数分布度数ある属性に属するデータの数のこと度数分布属性と度数を対応させたもの度数分布表度数分布を表にしたものどんなデータが、何個あったかを数える 25

26.

度数分布階級数値をある範囲で区切ったもの階級値階級を代表する値階級下限・階級上限・階級幅階級の下限・上限とその範囲「どの範囲のデータ」が、何個あったか 26

27.

度数分布度数分布表の例：身長の構成合計：25人階級 155～164.9㎝ 165～174.9㎝ 175～184.9㎝ 185～194.9㎝階級として範囲を区切るととても見やすい度数 5 12 6 2

28.

ヒストグラムヒストグラム（復習）データの分布を可視化する階級度数 155～164.9㎝ 5 165～174.9㎝ 12 175～184.9㎝ 6 185～194.9㎝ 2

29.

度数分布相対度数度数の、全データに占める割合合計：25人階級度数相対度数 155～164.9㎝ 5 165～174.9㎝ 12 175～184.9㎝ 6 5 ÷ 25 = 0.2 12 ÷ 25 = 0.48 6 ÷ 25 = 0.24 185～194.9㎝ 2 2 ÷ 25 = 0.08 29

30.

階級度数相対度数ヒストグラム 155～164.9㎝ 5 0.2 165～174.9㎝ 12 0.48 ヒストグラム 175～184.9㎝ 6 0.24 （面積を相対度数にした） 185～194.9㎝ 2 0.08

31.

階級度数相対度数ヒストグラム 155～164.9㎝ 5 0.2 165～174.9㎝ 12 0.48 ヒストグラム 175～184.9㎝ 6 0.24 （面積を相対度数にした） 185～194.9㎝ 2 0.08 相対度数分布と、桁が1 つずれているが、これが正しい

32.

階級度数相対度数ヒストグラム 155～164.9㎝ 5 0.2 165～174.9㎝ 12 0.48 ヒストグラム 175～184.9㎝ 6 0.24 （面積を相対度数にした） 185～194.9㎝ 2 0.08 この棒に着目

33.

ヒストグラムヒストグラムと相対度数ヒストグラムの面積が相対度数を表す横幅10 階級度数相対度数 155～164.9㎝ 5 0.2 165～174.9㎝ 12 0.48 175～184.9㎝ 6 0.24 185～194.9㎝ 2 0.08 棒の面積は0.2であり、相対度数と一致する高さ 0.02 33

34.

階級度数相対度数ヒストグラム 155～164.9㎝ 5 0.2 165～174.9㎝ 12 0.48 ヒストグラム 175～184.9㎝ 6 0.24 （面積を相対度数にした） 185～194.9㎝ 2 0.08 （階級幅を変化させた）和 0.32 175～195で、階級幅が広いただし、相対度数を足し合わせてはいけない高さ 0.016

35.

階級度数相対度数ヒストグラム 155～164.9㎝ 5 0.2 165～174.9㎝ 12 0.48 ヒストグラム 175～184.9㎝ 6 0.24 （面積を相対度数にした） 185～194.9㎝ 2 0.08 （階級幅を変化させた）和 0.32 棒の面積は0.24 + 0.08 = 0.32であり、相対度数の和と一致する横幅20（175～195）高さ 0.016

36.

ヒストグラムヒストグラム度数分布をグラフで表したもの →ヒストグラムの面積が度数と比例するヒストグラムと相対度数分布の関係ヒストグラムの「面積」を、相対度数分布と対応させる図をしばしば利用する →縦軸は、度数でも、相対度数でもない！ →「面積」が相対度数

37.

内容 1．ヒストグラムの復習 2．不偏分散の標本分布（ヒストグラム） 3．不偏分散を少し変換する 37

38.

不偏分散の標本分布議論の流れ教科書などでは、「不偏分散を少し変換したもの」を対象に標本分布を議論することが多い（このほうが理論的には整然とする）ただし、いきなり変換後の結果を見せても、イメージしにくいかもしれないそこで、先に（理論的には少し扱いにくいが）、一切変換しない、不偏分散の標本分布を見ていく

39.

クイズ母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 不偏分散のヒストグラム標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された不偏分散のヒストグラムとして正しいものを選べ（縦棒は母分散と等しい0.64の位置を表している）（直観でOK）

40.

不偏分散の標本分布考え方案①：母分散が0.64なのだから、不偏分散も0.64に近そう案②：不偏分散は絶対にマイナスの値を取らない 𝑛 1 𝑈 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 2 𝑖=1 「2乗」の計算を行うので絶対に0以上

41.

クイズ（再掲）母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 不偏分散のヒストグラム標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された不偏分散のヒストグラムとして正しいものを選べ（縦棒は母分散と等しい0.64の位置を表している）

42.

クイズ（回答）母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 不偏分散のヒストグラム標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された不偏分散のヒストグラムとして正しいものを選べ（縦棒は母分散と等しい0.64の位置を表している）

43.

不偏分散の標本分布不偏分散のヒストグラム標本抽出のモデルより、1万回標本抽出＋不偏分散の計算（コンピュータシミュレーションを利用した）

44.

不偏分散の標本分布不偏分散のヒストグラム標本抽出のモデルより、1万回標本抽出＋不偏分散の計算（コンピュータシミュレーションを利用した）不偏分散は不偏性を持つので「不偏分散の平均値」は母分散と等しい（実際に、このシミュレーション結果の平均値は0.64で、母分散とほぼ等しくなった）

45.

不偏分散の標本分布不偏分散のヒストグラム(サンプルサイズを変更) サンプルサイズ𝑛を5、10、30の3パターンに変更して不偏分散の標本分布を調べた

46.

不偏分散の標本分布不偏分散のヒストグラム(サンプルサイズを変更) サンプルサイズ𝑛を5、10、30の3パターンに変更して不偏分散の標本分布を調べたサンプルサイズが大きいと、母分散と近い不偏分散が得られやすい →サンプルサイズが大きいのは大切

47.

内容 1．ヒストグラムの復習 2．不偏分散の標本分布（ヒストグラム） 3．不偏分散を少し変換する 47

48.

不偏分散の標本分布不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる

49.

不偏分散の標本分布不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる母分散が大きいと、大きな不偏分散が得られやすい

50.

不偏分散の標本分布不偏分散の変形不偏分散の計算式 𝑛 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 母分散の影響を中和これを𝜒 2 値と呼ぶ（「カイ2乗」と読む） 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 𝜎 2 ：母分散 𝑛：サンプルサイズ 50

51.

不偏分散の標本分布 𝜒 2 値のヒストグラム(母分散を変更) 変換すると、母分散の違いが見えなくなる

52.

不偏分散の標本分布 𝜒 2 値のヒストグラム(サンプルサイズ変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い

53.

𝝌𝟐 分布シミュレーションに頼るのではなく不偏分散の標本分布を理論的に導出する 53

54.

内容 1．標準正規分布 2． 𝝌𝟐 分布 3．𝝌𝟐 分布と不偏分散の関係 54

55.

内容 1．標準正規分布 2． 𝝌𝟐 分布 3．𝝌𝟐 分布と不偏分散の関係 55

56.

𝟐 𝝌 分布標準正規分布平均(期待値)𝜇 = 0で、分散𝜎 2 = 1(標準偏差も1)である正規分布のこと正規分布 𝒩 𝜇, 𝜎 2 標準正規分布 𝒩 0,1 平均0で分散1である、特別な正規分布 →パラメータ固定なので扱いが簡単

57.

内容 1．標準正規分布 2． 𝝌𝟐 分布 3．𝝌𝟐 分布と不偏分散の関係 57

58.

𝟐 𝝌 分布 𝝌𝟐 分布標準正規分布𝒩 0,1 に従う独立な𝑘個の確率変数 𝑋1 , 𝑋2 , … , 𝑋𝑘 があるとき、以下で計算される確率変数の2乗和が従う確率分布を自由度𝑘の𝜒 2 分布と呼び、𝜒 2 𝑘 と表記する 𝑘 ෍ 𝑋𝑖2 𝑖=1 𝜒 2 分布のパラメータは𝑘のみパラメータ𝑘のことを「自由度」と呼ぶ（単なる呼び名）なんだか突然出てきた分布ではあるが不偏分散と密接な関係がある

59.

𝟐 𝝌 分布自由度4の𝝌𝟐 分布 𝜒 2 分布の例として、自由度4の𝜒 2 分布の折れ線グラフを見る

60.

𝟐 𝝌 分布自由度ごとの𝝌𝟐 分布自由度というパラメータが変わると、確率分布も変わる

61.

𝟐 𝝌 分布 𝝌𝟐 分布を利用するポイント計算式は複雑なので省略するが、 𝜒 2 分布の確率密度関数が数学的に導出されている（計算式や証明は略） →確率密度関数を使えば簡単に色々な確率を計算できる例）自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝑌 ≤ 𝜒0.05 = 0.05であるような点𝜒0.05 を求める、など 2 →確率変数𝑌が「ある値𝜒0.05 」以下となる確率が5％である 2 →このような𝜒0.05 のことを「5％点」などと呼ぶ → 𝜒 2 分布を使えば、様々な％点を計算可能

62.

内容 1．標準正規分布 2． 𝝌𝟐 分布 3．𝝌𝟐 分布と不偏分散の関係 62

63.

𝟐 𝝌 分布 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ 𝝌𝟐 値 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 標本抽出のモデルを利用すると、 𝜒 2 値が自由度𝑛 − 1の𝜒 2 分布に従うことが証明できる（証明はちょっと難しい。教科書にも載っていないので略）不偏分散の標本分布を議論する際 𝝌𝟐 分布はとても便利 63

64.

不偏分散の標本分布変換した後の不偏分散（𝝌𝟐 値）のヒストグラム 𝜒 2 値のヒストグラムと𝜒 2 分布の折れ線グラフがきれいに対応

65.

ここまでのまとめ 65

66.

まとめ単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布母集団についての仮定＋標本抽出の仮定を組み合わせたモデル 66

67.

まとめ実際に何度も釣りをするのは無理なのでコンピュータシミュレーションを実施現実「標本抽出＋不偏分散の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、不偏分散を何度も計算する不偏分散○○ 不偏分散×× 不偏分散がたくさん得られる不偏分散△△ 67

68.

まとめ不偏分散のヒストグラム標本抽出のモデルより、1万回標本抽出＋不偏分散の計算（コンピュータシミュレーションを利用した）シミュレーション結果はこんな感じ

69.

まとめ不偏分散のヒストグラム（母分散を変更）母分散が変わると、標本から計算される不偏分散も変わる母分散が大きいと、大きな不偏分散が得られやすい →不偏分散はちょっと扱いにくい

70.

まとめ ത 𝑋𝑖 ：データ（確率変数）、 𝑋：標本平均 𝜎 2 ：母分散、𝑛：サンプルサイズ不偏分散の変形不偏分散の計算式 𝑛 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 母分散の影響を中和これを𝜒 2 値と呼ぶ（「カイ2乗」と読む） 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 𝝌𝟐 値が従う確率分布は理論的に求まるこの確率分布を𝝌𝟐 分布と呼ぶ 70

71.

まとめ 𝜒 2 値のヒストグラム(母分散を変更) 変換すると、母分散の違いが見えなくなる

72.

まとめ単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布母分散などを固定しなくても議論が成立 𝝌𝟐 値は便利！ 72

73.

まとめ 𝜒 2 値のヒストグラム(サンプルサイズ変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い

74.

まとめ変換した後の不偏分散（𝝌𝟐 値）のヒストグラム 𝜒 2 値のヒストグラムと𝜒 2 分布の折れ線グラフがきれいに対応

75.

まとめ今までシミュレーションによって、不偏分散と𝜒 2 値の標本分布が得られたシミュレーションしなくても、計算によって確率分布が得られる → 𝜒 2 値が従う確率分布は𝜒 2 分布！ →これからは𝜒 2 分布を使っていろいろな確率の計算をする 𝜒 2 分布と不偏分散の標本分布の関係を理解しよう！これから 𝜒 2 分布の利用方法を学ぶ → 𝜒 2 分布を使えば、母分散の推定にもっと工夫ができる

76.

まとめメモ 𝑋𝑖 ：データ（確率変数） ത 𝑋：標本平均 𝜎 2 ：母分散、𝑛：サンプルサイズまとめ不偏分散を変形したものが𝜒 2 値 𝑛 不偏分散 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 2 𝜒 値（「カイ2乗」と読む） 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 サンプルサイズ𝑛の標本から計算された 𝜒 2 値は自由度𝑛 − 1の𝜒 2 分布に従う → 𝜒 2 分布は理論的な性質(％点など)がすでに知られている →これからは𝜒 2 分布を使っていろいろな確率の計算をする

77.

𝝌𝟐 分布の利用中間テストまでの最大の山場である「区間推定」の導入的解説（ちゃんとした説明は後日） 77

78.

内容 1． 𝝌𝟐 分布の％点 2． 𝝌𝟐 分布を用いた母分散の区間推定 78

79.

内容 1． 𝝌𝟐 分布の％点 2． 𝝌𝟐 分布を用いた母分散の区間推定 79

80.

𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ 𝟐 𝝌 分布の利用今までのまとめ① 𝜒2値 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 標本抽出のモデルを利用すると、 𝜒 2 値が自由度𝑛 − 1の𝜒 2 分布に従うことがわかった今までのまとめ② 𝜒 2 分布の確率密度関数を使えば、色々な確率を計算できる例）自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝑌 ≤ 𝜒0.05 = 0.05であるような点𝜒0.05 を求める、など 80

81.

𝟐 𝝌 分布の利用ここからのテーマ 𝜒 2 分布を統計的推定に利用しよう →今まで学んできたことは、どのように利用できるか？区間推定の利用母集団のパラメータである母分散𝜎 2 の推定に、 𝜒 2 分布を利用してみる →母分散𝜎 2 の推定の際「範囲」を提示する →「範囲」の計算の際、確率を使う 81

82.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼％点」と呼ぶ例） 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 𝜒0.05 は5％点 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 𝜒0.025 は2.5％点サンプルサイズ(あるいは自由度)さえ決めれば、機械的に計算可能 82

83.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点（自由度が4の時）確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼％点」と呼ぶ例） 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 2 𝜒0.05 は5％点𝜒0.05 ≈ 0.71 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 2 𝜒0.025 は2.5％点𝜒0.025 ≈ 0.48 大体の統計分析ソフトウェアを使えば、この程度の計算は簡単にできる 83

84.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点色々（自由度が4の時）参考（覚えなくていい） 2 ≈ 0.48 ２．５％点 𝜒0.025 2 ５％点 𝜒0.05 ≈ 0.71 １０％点５０％点９０％点 2 𝜒0.1 ≈ 1.06 2 𝜒0.5 ≈ 3.36 2 𝜒0.9 ≈ 7.78 ←５０％点＝中央値 2 ９５％点 𝜒0.95 ≈ 9.49 2 ９７．５％点 𝜒0.975 ≈ 11.14 84

85.

𝟐 𝝌 分布自由度4の𝝌𝟐 分布の％点

86.

2 𝜒0.1 ≈ 1.06 𝟐 𝝌 分布 2 𝜒 自由度4の𝝌 分布の％点0.5 ≈ 3.36 𝟐 2 𝜒0.9 ≈ 7.78

87.

𝟐 𝝌 分布分布の下限(0) 2 𝜒 自由度4の𝝌 分布の％点0.5 ≈ 3.36 𝟐 2 𝜒0.5 以下の𝜒 2 値が発生する確率は50％＝この範囲の面積が0.5

88.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点色々（自由度が4の時）ある範囲に収まる確率の計算１０％点９０％点 2 𝜒0.1 ≈ 1.06 2 𝜒0.9 ≈ 7.78 自由度4の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.1 ≤ 𝑌 ≤ 𝜒0.9 = 0.8 １０％から９０％点の間に「８０％」が収まる →９０ー１０＝８０ 88

89.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点色々（自由度が4の時）ある範囲に収まる確率の計算 2 ２．５％点 𝜒0.025 ≈ 0.48 2 ９７．５％点 𝜒0.975 ≈ 11.14 自由度4の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 ２．５％から９７．５％点の間に「９５％」が収まる →９７．５ー２．５＝９５ 89

90.

𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の％点 2 𝜒0.975 ≈ 11.14

91.

𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の％点 2 𝜒0.975 ≈ 11.14 2 2 𝜒0.025 以上、 𝜒0.975 以下の 𝜒 2 値が発生する確率は95％＝この範囲の面積が0.95

92.

𝟐 𝝌 分布の利用 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ今までのまとめ③ 確率変数がある範囲に入る確率などを計算できる例）自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 ここからの類推標本抽出のモデルを使えば、以下が成り立つ 2 2 𝑃 𝜒0.025 ≤ 𝜒 2 値 ≤ 𝜒0.975 = 0.95 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 92

93.

内容 1． 𝝌𝟐 分布の％点 2． 𝝌𝟐 分布を用いた母分散の区間推定 93

94.

𝟐 𝝌 分布の利用 𝑛−1 2 2値 𝑈 = 𝜒 𝜎2 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ今までのまとめ④ 標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑛−1 2 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 0.975 𝜎2 𝜎 2 ≤？？ ≤ 𝜎2 「？」には何が入るか 94

95.

𝟐 𝝌 分布の利用不等式を母分散𝝈𝟐 について解く① 𝑛−1 2 2 𝑛−1 2 𝜒0.025 ≤ 𝑈 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝜎 2 ∙ 𝜒0.025 ≤ 𝑛 − 1 𝑈2 2 𝑛 − 1 𝑈 𝜎2 ≤ 2 𝜒0.025 95

96.

𝟐 𝝌 分布の利用不等式を母分散𝝈𝟐 について解く② 𝑛−1 2 2 𝑛−1 2 𝑈 ≤ 𝜒 2 2 0.975 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝑛 − 1 𝑈 2 ≤ 𝜎 2 ∙ 𝜒0.975 𝑛 − 1 𝑈2 2 ≤ 𝜎 2 𝜒0.975 96

97.

𝟐 𝝌 分布の利用 𝑛−1 2 2値 𝑈 = 𝜒 𝜎2 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ今までのまとめ④（復習）標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑃 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 = 0.95 母分散について、確率を加味した「区間」を提示できた！ 97

98.

𝟐 𝝌 分布の利用 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ母分散の区間推定標本抽出のモデル想定したうえで、以下の範囲を計算する 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 上記の範囲を「母分散の９５％信頼区間」と呼ぶ上記のように信頼区間を求める方法を「区間推定」と呼ぶ 2 2 𝜒0.025 , 𝜒0.975 の代わりに、好きな％点𝜒𝛼2 を使えば、様々な「○○％信頼区間」が計算できる信頼の度合いを確率で表現しながら母分散の区間を求める 98

99.

𝟐 𝝌 分布の利用母分散の区間推定についての補足より一般的な議論や区間推定の解釈については、後日解説とりあえず式変形して区間を計算できる計算の意味を理解できるモデルの前提を説明できる計算演習は後日 (テストには出る) 実務的には「解釈」と「使い方」が大切 99

100.

𝟐 𝝌 分布の利用やや発展的な注意事項モデルの構造が変われば、結果も（当然）変わるので注意母集団分布が正規分布でなかったら、母集団からの単純ランダムサンプリングができなければ（たとえば標本が互いに独立では無ければ） 𝜒 2 値は𝜒 2 分布に従わない！モデルの中での議論であることに注意モデルが変われば、結果も変わる 100

101.

統計学 II 第6回：正規分布から得られる標本分布その2

102.

内容 1．前回の復習＋今回やることの説明 2．標本平均の標本分布 3．𝒕分布 4．𝒕分布の利用 102

103.

前回の復習 103

104.

標本分布の考え方標本分布標本の統計量が従う確率分布のこと例）標本平均が従う確率分布標本から計算された不偏分散が従う確率分布標本分布のイメージ「母集団からの標本抽出」を何度も何度も繰り返した結果、得られる分布であることに注意 104

105.

標本分布の考え方単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布母集団についての仮定＋標本抽出の仮定を組み合わせたモデル 105

106.

標本分布の考え方単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布標本から不偏分散を計算した不偏分散は0.72だった 106

107.

標本分布の考え方単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布もう一回標本を抽出してもう一回不偏分散を計算すると、 0.72とは異なる不偏分散が得られるはず標本から不偏分散を計算した不偏分散は0.72だった 107

108.

標本分布の考え方現実「標本抽出＋不偏分散の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、不偏分散を何度も計算する不偏分散○○ 不偏分散×× 不偏分散がたくさん得られる不偏分散△△ 108

109.

不偏分散の標本分布不偏分散のヒストグラム標本抽出のモデルより、1万回標本抽出＋不偏分散の計算（コンピュータシミュレーションを利用した）

110.

不偏分散の標本分布不偏分散のヒストグラム標本抽出のモデルより、1万回標本抽出＋不偏分散の計算（コンピュータシミュレーションを利用した）不偏分散は不偏性を持つので「不偏分散の平均値」は母分散と等しい（実際に、このシミュレーション結果の平均値は0.64で、母分散とほぼ等しくなった）

111.

不偏分散の標本分布不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる

112.

不偏分散の標本分布不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる母分散が大きいと、大きな不偏分散が得られやすい

113.

不偏分散の標本分布不偏分散の変形不偏分散の計算式 𝑛 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 母分散の影響を中和これを𝜒 2 値と呼ぶ（「カイ2乗」と読む） 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 𝜎 2 ：母分散 𝑛：サンプルサイズ 113

114.

不偏分散の標本分布 𝜒 2 値のヒストグラム(母分散を変更) 変換すると、母分散の違いが見えなくなる

115.

標本分布の考え方単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布母分散などを固定しなくても議論が成立 𝝌𝟐 値は便利！ 115

116.

𝟐 𝝌 値の標本分布 𝜒 2 値のヒストグラム(サンプルサイズ変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い

117.

𝟐 𝝌 値の標本分布変換した後の不偏分散（𝝌𝟐 値）のヒストグラム 𝜒 2 値のヒストグラムと𝜒 2 分布の折れ線グラフがきれいに対応

118.

𝟐 𝝌 分布の利用モデルを使った分析についての馬場の雑感モデルの構造と現実世界が大きく乖離していたら、モデルから導かれた結果は役に立たない Q. なぜこんな不便な方法を使うのか？ A. これ以外に使いやすい方法が見当たらないから本来、標本は1回しか取得できないのに（1万回も釣りに出かけるのは不可能）「もし何度も釣りに行ったら、○○になるだろう」と推測を行おうとしている →これはすごく難しい問題 →難易度VERY HARDの問題に立ち向かうためにはやや制約があるものの、モデルを使うしかない 118

119.

𝟐 𝝌 分布の利用不偏分散の分布（先週）不偏分散を変換して𝜒 2 値を算出 →モデルを利用すると𝜒 2 値が𝜒 2 分布に従うことが証明できる標本平均の分布（今週）標本平均をそのまま使うのではなく、変換して𝑡値を算出 →モデルを利用すると𝑡値が𝑡分布に従うことが証明できる不偏分散の議論とほぼ同様の流れで標本平均の分布について調べていく 119

120.

標本平均の標本分布今回の講義のストーリー 1．コンピュータシミュレーションにより標本平均のヒストグラムを作る →標本平均の標本分布を視覚的に調べる 2．標本平均を変換した𝑡値を算出する 3．𝑡値が従う分布である𝑡分布を導入 →シミュレーションの結果と𝑡分布を比較 4．𝑡分布の利用 →区間推定への利用の方法を簡単に紹介 120

121.

標本平均の標本分布 121

122.

内容 1．標本平均の標本分布（ヒストグラム） 2．標本平均をt 値に変換する 122

123.

内容 1．標本平均の標本分布（ヒストグラム） 2．標本平均をt 値に変換する 123

124.

クイズ母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均のヒストグラム標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された標本平均のヒストグラムとして正しいものを選べ（直観でOK）

125.

クイズ（回答）母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均のヒストグラム標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された標本平均のヒストグラムとして正しいものを選べ（直観でOK）

126.

標本平均の標本分布母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均の分布上記の母集団から単純ランダムサンプリングによって得られた標本から計算された標本平均の分布 126

127.

標本平均の標本分布母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均の分布上記の母集団から単純ランダムサンプリングによって得られた標本から計算された標本平均の分布標本平均は不偏推定量 →標本平均の平均値は母平均となる母平均(４)と大体同じ標本平均が得られる 127

128.

標本平均の標本分布母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 母平均が変わった場合母平均が4の時と、母平均が6の時で、標本平均のヒストグラムはどのように変わるか 128

129.

標本平均の標本分布母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 母平均が変わった場合母平均が4の時と、母平均が6の時で、標本平均のヒストグラムはどのように変わるかヒストグラムの中心位置が6に移動する 129

130.

標本平均の標本分布母平均𝜇 = 4、サンプルサイズ𝑛 = 5 母分散が変わった場合母分散が0.64の時と、母分散が1.44の時で、標本平均のヒストグラムはどのように変わるか 130

131.

標本平均の標本分布母平均𝜇 = 4、サンプルサイズ𝑛 = 5 母分散が変わった場合母分散が0.64の時と、母分散が1.44の時で、標本平均のヒストグラムはどのように変わるかばらつきが大きくなる 131

132.

標本平均の標本分布サンプルサイズ𝑛 = 5 母平均・母分散が変わった場合母平均も母分散も変わった 132

133.

内容 1．標本平均の標本分布（ヒストグラム） 2．標本平均をt 値に変換する 133

134.

𝜇 ：母平均 𝑈 2 :不偏分散 𝑛 ：サンプルサイズ 𝒕値標本平均の分布そのものを扱うわけではない標本平均の分布をそのまま検討するのではなく扱いやすくなるように変換した結果を用いる 𝑛 標本平均の計算式 𝑋ത = 1 ෍ 𝑋𝑖 𝑛 𝑖=1 𝑡値の計算式 𝑡値 = 𝑋ത − 𝜇 𝑈 2ൗ 𝑛 𝑋ത − 𝜇 = 𝑆𝐸 134

135.

𝒕値標準誤差推定量の標準偏差を推定したもの母平均の推定量として標本平均を使う場合標本平均の標準偏差を推定したものが標準誤差となる 𝑆𝐸（Standard Error）と表記する 135

136.

𝒕値 𝜇 ：母平均、 𝜎 2 : 母分散 𝑈 2 :不偏分散 𝑛 ：サンプルサイズ標本平均の分散 2 とすると、 ത 標本平均を𝑋、サンプルサイズを𝑛、母分散を𝜎 標本平均の分散𝑉 𝑋ത は以下のようになる 𝜎2 𝑉 𝑋ത = 𝑛 標本平均の標準偏差の推定分散の平方根が標準偏差母分散𝜎 2 の代わりに、母分散の推定量である不偏分散を使う 𝑉 𝑋ത = 𝜎2 𝑛 𝑆𝐸 𝑋ത = 𝑈2 𝑛 136

137.

𝜇 ：母平均 𝑈 2 :不偏分散 𝑛 ：サンプルサイズ 𝒕値 t 値の計算式 𝑡値 = 𝑋ത − 𝜇 𝑈 2ൗ 𝑛 𝑋ത − 𝜇 = 𝑆𝐸 𝑋ത − 𝜇を標準誤差で割ったものが𝑡値 𝑡値が従う確率分布については、モデルを使って理論的に導出できる 137

138.

標本平均の標本分布 𝒕値のヒストグラム変換すると、母平均・母分散の違いが見えなくなる

139.

母集団からの標本抽出というモデル単純ランダムサンプリング母平均𝜇 = 4、母分散𝜎 2 = 0.64の正規分布が母集団分布母平均・母分散を固定せずに議論が成立 →𝒕値は便利！ 139

140.

標本平均の標本分布 𝒕値のヒストグラム（サンプルサイズを変更）変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い

141.

標本平均の標本分布 𝒕値のヒストグラム（サンプルサイズを変更） 0付近に近い値が出やすくなる変換した後も、サンプルサイズの影響は受けるので注意 0から離れた値は出にくくなる →逆に言うと、サンプルサイズだけを考慮すれば良い →「裾が狭い」と表現する

142.

t 分布 142

143.

内容 1．𝒕分布 2．𝒕分布と標本平均の関係 143

144.

内容 1．𝒕分布 2．𝒕分布と標本平均の関係 144

145.

𝒕分布 𝒕分布 2つの独立な確率変数𝑋, 𝑌を考える𝑋~𝒩 0,1 , 𝑌~𝜒 2 𝑘 であるとき、以下の計算結果が従う確率分布を 𝑡分布と呼び、 𝑡 𝑘 と表記する 𝑋 𝑌ൗ 𝑘 𝑡分布のパラメータは𝑘のみパラメータ𝑘のことを「自由度」と呼ぶ（単なる呼び名）標本平均（から計算されたt 値）と密接な関係がある

146.

𝒕分布自由度4の𝒕分布 𝑡分布の例として、自由度4の𝑡分布の折れ線グラフを見る

147.

𝒕分布自由度ごとの𝒕分布自由度というパラメータが変わると、確率分布も変わる →自由度が大きくなると、わずかに裾が狭くなる

148.

𝒕分布 𝒕分布の特徴平均値は0 0を中心に左右対称自由度が大きくなると、少しずつ裾が狭くなる

149.

𝒕分布 𝒕分布の補足確率分布の形が、標準正規分布𝒩 0,1 とよく似ている 𝑡分布なんか使わず、標準正規分布でいいんじゃない 𝑡分布は標準正規分布よりばらつきが大きいだからちょっとだけ違うよ自由度が大きい場合はどうなの？うむ……。自由度が無限に大きい場合は、標準正規分布と漸近的に等しくなるようだ

150.

内容 1．𝒕分布 2．𝒕分布と標本平均の関係 150

151.

𝒕分布 𝒕値と𝒕分布 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑡値 = = 𝑆𝐸 2 𝑈 ൗ 𝑛 ത 𝑋:標本平均 𝑈 2 ：不偏分散 𝜇：母平均 𝑛：サンプルサイズ 𝑆𝐸:標準誤差標本抽出のモデルを利用すると、 𝑡値が自由度𝑛 − 1の𝑡分布に従うことが証明できる（証明はちょっと難しい。教科書にも載っていないので略）標本平均の標本分布を議論する際 𝒕分布はとても便利 151

152.

𝒕分布 𝒕値のヒストグラムと𝒕分布の折れ線グラフの比較 𝑡値のヒストグラムと𝑡分布の折れ線グラフがきれいに対応

153.

𝒕分布の利用中間テストまでの最大の山場である「区間推定」の導入的解説（ちゃんとした説明は来週） 153

154.

内容 1． 𝒕分布の％点 2． 𝒕分布を用いた母平均の区間推定 154

155.

内容 1． 𝒕分布の％点 2． 𝒕分布を用いた母平均の区間推定 155

156.

𝒕分布の利用ここからのテーマ 𝑡分布を統計的推定に利用しよう →今まで学んできたことは、どのように利用できるか？区間推定の利用母集団のパラメータである母平均𝜇の推定に、 𝑡分布を利用してみる →母平均𝜇の推定の際「範囲」を提示する →「範囲」の計算の際、確率を使う 156

157.

𝒕分布の利用 𝒕分布から計算できる％点確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼％点」と呼ぶ例） 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5％点 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5％点自由度(サンプルサイズから求まる)さえ決めれば、機械的に計算可能 157

158.

𝒕分布の利用 𝒕分布から計算できる％点（自由度が4の時）確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼％点」と呼ぶ例） 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5％点𝑡0.05 ≈ −2.132 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5％点𝑡0.025 ≈ −2.776 大体の統計分析ソフトウェアを使えば、この程度の計算は簡単にできる 158

159.

𝒕分布の利用 𝒕分布から計算できる％点色々（自由度が4の時）参考（覚えなくていい）２．５％点 𝑡0.025 ≈ −2.776 𝑡0.05 ≈ −2.132 ５％点１０％点５０％点９０％点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←５０％点＝中央値９５％点 𝑡0.95 ≈ 2.132 ９７．５％点 𝑡0.975 ≈ 2.776 159

160.

𝒕分布の利用 𝒕分布から計算できる％点色々（自由度が4の時）参考（覚えなくていい）平均値（0）を中心に２．５％点 𝑡0.025 ≈ −2.776 左右対称 𝑡0.05 ≈ −2.132 ５％点１０％点５０％点９０％点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←５０％点＝中央値９５％点 𝑡0.95 ≈ 2.132 ９７．５％点 𝑡0.975 ≈ 2.776 160

161.

𝒕分布の利用自由度4の𝒕分布の％点

162.

𝒕分布の利用自由度4の𝒕分布の％点 𝑡0.1 ≈ −1.553 𝑡0.5 = 0 𝑡0.9 ≈ 1.553

163.

𝒕分布の利用自由度4の𝒕分布の％点 𝑡0.5 以下になる確率は50％＝0以下の面積が0.5 （ 𝑡分布に下限は無い） 𝑡0.5 = 0

164.

𝒕分布の利用 𝒕分布から計算できる％点色々（自由度が4の時）ある範囲に収まる確率の計算１０％点９０％点 𝑡0.1 ≈ −1.553 𝑡0.9 ≈ 1.553 自由度4の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.1 ≤ 𝑌 ≤ 𝑡0.9 = 0.8 １０％から９０％点の間に「８０％」が収まる →９０ー１０＝８０ 164

165.

𝒕分布の利用 𝒕分布から計算できる％点色々（自由度が4の時）ある範囲に収まる確率の計算２．５％点 𝑡0.025 ≈ −2.776 ９７．５％点 𝑡0.975 ≈ 2.776 自由度4の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.025 ≤ 𝑌 ≤ 𝑡0.975 = 0.95 ２．５％から９７．５％点の間に「９５％」が収まる →９７．５ー２．５＝９５ 165

166.

𝒕分布の利用自由度4の𝒕分布の％点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776

167.

𝒕分布の利用自由度4の𝒕分布の％点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776 𝑡0.025 以上、𝑡0.975 以下になる確率は95％＝この範囲の面積が0.95

168.

𝒕分布の利用 2 ത 𝑋:標本平均、𝑈 ：不偏分散 𝜇：母平均 𝑆𝐸:標準誤差今までのまとめ確率変数がある範囲に入る確率などを計算できる例）自由度𝑘の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.025 ≤ 𝑌 ≤ 𝑡0.975 = 0.95 ここからの類推標本抽出のモデルを使えば、以下が成り立つ 𝑃 𝑡0.025 ≤ 𝑡値 ≤ 𝑡0.975 = 0.95 𝑃 𝑡0.025 𝑋ത − 𝜇 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 168

169.

内容 1． 𝒕分布の％点 2． 𝒕分布を用いた母平均の区間推定 169

170.

𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 𝒕分布の利用基の不等式標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑋ത − 𝜇 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝜇 ≤？？≤𝜇 「？」には何が入るか 170

171.

𝒕分布の利用不等式を母平均𝝁について解く① 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑡0.025 ≤ 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑡0.025 ∙ 𝑆𝐸 ≤ 𝑋ത − 𝜇 𝑡0.025 ∙ 𝑆𝐸 − 𝑋ത ≤ −𝜇 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 171

172.

𝒕分布の利用不等式を母平均𝝁について解く② 𝑋ത − 𝜇 𝑋ത − 𝜇 ≤ 𝑡0.975 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑋ത − 𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 −𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 − 𝑋ത 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 172

173.

𝒕分布の利用 𝑛−1 2 2値 𝑈 = 𝜒 𝜎2 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ今までのまとめ標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑃 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 = 0.95 母平均について、確率を加味した「区間」を提示できた！ 173

174.

𝒕分布の利用 2 ത 𝑋:標本平均、𝑈 ：不偏分散 𝜇：母平均 𝑆𝐸:標準誤差母平均の区間推定標本抽出のモデル想定したうえで、以下の範囲を計算する 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 上記の範囲を「母平均の９５％信頼区間」と呼ぶ上記のように信頼区間を求める方法を「区間推定」と呼ぶ 𝑡0.025 , 𝑡0.975 の代わりに、好きな％点𝑡𝛼 を使えば、様々な「○○％信頼区間」が計算できる信頼の度合いを確率で表現しながら母平均の区間を求める 174

175.

統計学 II 第7回：区間推定1 母平均の区間推定

176.

前回の復習 176

177.

区間推定 177

178.

内容 1．母平均の区間推定の概要 2．母平均の区間推定の計算 178

179.

内容 1．母平均の区間推定の概要 2．母平均の区間推定の計算 179

180.

区間推定点推定推定値を1つだけ提示する用語の使用例標本の平均値が25.1だったので母集団の平均値も25.1と点推定されました点推定値として、標本から計算された統計量と同じ値を使った 180

181.

区間推定区間推定推定値に幅を持たせた推定方法のこと今回は母平均の区間推定の問題を扱う信頼係数区間推定の幅における信頼の度合いを、確率で表現したもの。95%がしばしば使われる（90%などほかの信頼係数でもOK） 95%信頼区間 95%の信頼係数を満たす区間のこと今回は母平均の95%信頼区間を計算する 181

182.

区間推定信頼限界信頼区間の、下限値（下側信頼限界）と上限値（上側信頼限界）のこと用語の使用例信頼係数を95%と指定して、区間推定を行いました 95%信頼区間は、20 ～ 30 と計算されました下側信頼限界上側信頼限界 182

183.

95%信頼区間の意味 95%という数字は、「長い目で見て」解釈ができる値「何度も何度も標本抽出と信頼区間の計算」を繰り返すことを想定して解釈する 95%信頼区間の意味母集団からの標本抽出を100回(本当はもっとたくさん)行う標本から95%信頼区間を100回求めた時およそ95回は、その区間に母平均を含むはず 183

184.

95%信頼区間の意味母平均 95%信頼区間この2つは母平均を含まないたくさん計算された95%信頼区間が、正しい母平均を含む割合は95% 184

185.

内容 1．母平均の区間推定の概要 2．母平均の区間推定の計算 185

186.

𝒕分布の利用 𝒕分布から計算できる％点確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼％点」と呼ぶ例） 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5％点 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5％点自由度(サンプルサイズから求まる)さえ決めれば、機械的に計算可能 186

187.

𝒕分布の利用 𝒕分布から計算できる％点（自由度が4の時）確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼％点」と呼ぶ例） 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5％点𝑡0.05 ≈ −2.132 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5％点𝑡0.025 ≈ −2.776 大体の統計分析ソフトウェアを使えば、この程度の計算は簡単にできる 187

188.

𝒕分布の利用 𝒕分布から計算できる％点色々（自由度が4の時）参考（覚えなくていいです）２．５％点 𝑡0.025 ≈ −2.776 𝑡0.05 ≈ −2.132 ５％点１０％点５０％点９０％点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←５０％点＝中央値９５％点 𝑡0.95 ≈ 2.132 ９７．５％点 𝑡0.975 ≈ 2.776 188

189.

𝒕分布の利用 𝒕分布から計算できる％点色々（自由度が4の時）参考（覚えなくていいです）平均値（0）を中心に２．５％点 𝑡0.025 ≈ −2.776 左右対称 𝑡0.05 ≈ −2.132 ５％点１０％点５０％点９０％点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←５０％点＝中央値９５％点 𝑡0.95 ≈ 2.132 ９７．５％点 𝑡0.975 ≈ 2.776 189

190.

𝒕分布の利用自由度4の𝒕分布の％点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776

191.

𝒕分布の利用自由度4の𝒕分布の％点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776 𝑡0.025 以上、𝑡0.975 以下になる確率は95％＝この範囲の面積が0.95

192.

𝒕分布の利用 𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 ത 𝑋：標本平均 𝜇：母平均 𝑆𝐸：標準誤差今までのまとめ確率変数がある範囲に入る確率などを計算できる例）自由度𝑘の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.025 ≤ 𝑌 ≤ 𝑡0.975 = 0.95 ここからの類推標本抽出のモデルを使えば、以下が成り立つ 𝑃 𝑡0.025 ≤ 𝑡値 ≤ 𝑡0.975 = 0.95 𝑃 𝑡0.025 𝑋ത − 𝜇 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 192

193.

𝒕分布の利用 𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 ത 𝑋：標本平均 𝜇：母平均 𝑆𝐸：標準誤差基の不等式標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑋ത − 𝜇 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝜇 ≤？？≤𝜇 「？」には何が入るか 193

194.

𝒕分布の利用不等式を母平均𝝁について解く① 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑡0.025 ≤ 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑡0.025 ∙ 𝑆𝐸 ≤ 𝑋ത − 𝜇 𝑡0.025 ∙ 𝑆𝐸 − 𝑋ത ≤ −𝜇 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 194

195.

𝒕分布の利用不等式を母平均𝝁について解く② 𝑋ത − 𝜇 𝑋ത − 𝜇 ≤ 𝑡0.975 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑋ത − 𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 −𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 − 𝑋ത 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 195

196.

𝒕分布の利用 𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 ത 𝑋：標本平均 𝜇：母平均 𝑆𝐸：標準誤差今までのまとめ標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑃 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 = 0.95 母平均について、確率を加味した「区間」を提示できた！ 196

197.

区間推定 ത 𝑋：標本平均 𝜇：母平均 𝑆𝐸：標準誤差母平均の区間推定標本抽出のモデル想定したうえで、以下の範囲を計算する 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 上記の範囲を「母平均の９５％信頼区間」と呼ぶ上記のように信頼区間を求める方法を「区間推定」と呼ぶ 𝑡0.025 , 𝑡0.975 の代わりに、好きな％点𝑡𝛼 を使えば、様々な「○○％信頼区間」が計算できる信頼の度合いを確率で表現しながら母平均の区間を求める 197

198.

区間推定計算演習配布プリントを使って、母平均の区間推定の計算を解説 →穴埋め式になっている。空白を埋めよう！ 198

199.

区間推定区間推定の補足（母分散が既知の場合）教科書などでは「母分散が既知の場合」と「母分散が未知の場合」で場合分けをしたうえで母平均の区間推定を行っている →現実的に「母分散が既知」というシチュエーションはありえないので、今回の講義では省略した母分散𝜎 2 が既知の場合は𝑡値の代わりに𝑧値を使う 𝑡値 = 𝑋ത − 𝜇 𝑈 2ൗ 𝑛 𝑋ത − 𝜇 = 𝑆𝐸 𝑧値 = 𝑋ത − 𝜇 𝜎 2ൗ 𝑛 199

200.

区間推定 𝑧値 = 𝑋ത − 𝜇 𝜎 2ൗ 𝑛 区間推定の補足（母分散が既知の場合）標本抽出のモデルを利用すると 𝑧値は標準正規分布に従うことが証明できる標準正規分布は、平均0、分散1の正規分布自由度などは考慮しなくてもOK →計算がちょっと簡単になる →でも、利用できるシチュエーションはほぼ存在しない 200

201.

区間推定 𝑧値 = 𝑋ത − 𝜇 𝜎 2ൗ 𝑛 区間推定の補足（母分散が既知の場合）自由度が無限である𝑡分布は標準正規分布と一致する →サンプルサイズが増えると、 𝑡分布と標準正規分布のどちらを使っても、信頼区間の計算結果はほとんど変わらない →とはいえ、標準正規分布を使う積極的な理由もない今回の講義では𝑡値と𝑡分布を使って信頼区間を計算するもしも標準正規分布を使って信頼区間を計算したいなら自由度が無限であるときの𝑡分布の％点を使えばOK （参照する％点が変わるだけ） 201

202.

統計学 II 第8回：区間推定2 母分散の区間推定

203.

不偏分散の標本分布の復習 203

204.

区間推定 204

205.

内容 1．区間推定の復習 2．母分散の区間推定の計算 205

206.

内容 1．区間推定の復習 2．母分散の区間推定の計算 206

207.

区間推定点推定推定値を1つだけ提示する用語の使用例標本の平均値が25.1だったので母集団の平均値も25.1と点推定されました点推定値として、標本から計算された統計量と同じ値を使った 207

208.

区間推定区間推定推定値に幅を持たせた推定方法のこと今回は母分散の区間推定の問題を扱う信頼係数区間推定の幅における信頼の度合いを、確率で表現したもの。95%がしばしば使われる（90%などほかの信頼係数でもOK） 95%信頼区間 95%の信頼係数を満たす区間のこと今回は母分散の95%信頼区間を計算する 208

209.

区間推定信頼限界信頼区間の、下限値（下側信頼限界）と上限値（上側信頼限界）のこと用語の使用例信頼係数を95%と指定して、区間推定を行いました 95%信頼区間は、 20 ～ 30 と計算されました下側信頼限界上側信頼限界 209

210.

95%信頼区間の意味 95%という数字は、「長い目で見て」解釈ができる値「何度も何度も標本抽出と信頼区間の計算」を繰り返すことを想定して解釈する 95%信頼区間の意味母集団からの標本抽出を100回(本当はもっとたくさん)行う標本から95%信頼区間を100回求めた時およそ95回は、その区間に母平均・母分散を含むはず 210

211.

95%信頼区間の意味母分散 95%信頼区間この2つは母分散を含まないたくさん計算された95%信頼区間が、正しい母分散を含む割合は95% 211

212.

内容 1．区間推定の復習 2．母分散の区間推定の計算 212

213.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼％点」と呼ぶ例） 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 𝜒0.05 は5％点 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 𝜒0.025 は2.5％点自由度(サンプルサイズから求まる)さえ決めれば、機械的に計算可能 213

214.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点（自由度が4の時）確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼％である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼％点」と呼ぶ例） 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 2 𝜒0.05 は5％点𝜒0.05 ≈ 0.71 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 2 𝜒0.025 は2.5％点𝜒0.025 ≈ 0.48 大体の統計分析ソフトウェアを使えば、この程度の計算は簡単にできる 214

215.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点色々（自由度が4の時）参考（覚えなくていい） 2 ≈ 0.48 ２．５％点 𝜒0.025 2 ５％点 𝜒0.05 ≈ 0.71 １０％点５０％点９０％点 2 𝜒0.1 ≈ 1.06 2 𝜒0.5 ≈ 3.36 2 𝜒0.9 ≈ 7.78 ←５０％点＝中央値 2 ９５％点 𝜒0.95 ≈ 9.49 2 ９７．５％点 𝜒0.975 ≈ 11.14 215

216.

𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる％点色々（自由度が4の時）ある範囲に収まる確率の計算 2 ２．５％点 𝜒0.025 ≈ 0.48 2 ９７．５％点 𝜒0.975 ≈ 11.14 自由度4の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 ２．５％から９７．５％点の間に「９５％」が収まる →９７．５ー２．５＝９５ 216

217.

𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の％点 2 𝜒0.975 ≈ 11.14

218.

𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の％点 2 𝜒0.975 ≈ 11.14 2 2 𝜒0.025 以上、 𝜒0.975 以下の 𝜒 2 値が発生する確率は95％＝この範囲の面積が0.95

219.

𝟐 𝝌 分布の利用 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ今までのまとめ確率変数がある範囲に入る確率などを計算できる例）自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 ここからの類推標本抽出のモデルを使えば、以下が成り立つ 2 2 𝑃 𝜒0.025 ≤ 𝜒 2 値 ≤ 𝜒0.975 = 0.95 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 219

220.

𝟐 𝝌 分布の利用 𝑈 2 ：不偏分散 𝑛−1 2 2 値 𝜎 2 ：母分散 𝑈 = 𝜒 𝜎2 𝑛：サンプルサイズ元の不等式標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑛−1 2 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 0.975 𝜎2 𝜎 2 ≤？？ ≤ 𝜎2 「？」には何が入るか 220

221.

𝟐 𝝌 分布の利用不等式を母分散𝝈𝟐 について解く① 𝑛−1 2 2 𝑛−1 2 𝜒0.025 ≤ 𝑈 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝜎 2 ∙ 𝜒0.025 ≤ 𝑛 − 1 𝑈2 2 𝑛 − 1 𝑈 𝜎2 ≤ 2 𝜒0.025 221

222.

𝟐 𝝌 分布の利用不等式を母分散𝝈𝟐 について解く② 𝑛−1 2 2 𝑛−1 2 𝑈 ≤ 𝜒 2 2 0.975 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝑛 − 1 𝑈 2 ≤ 𝜎 2 ∙ 𝜒0.975 𝑛 − 1 𝑈2 2 ≤ 𝜎 2 𝜒0.975 222

223.

𝟐 𝝌 分布の利用 𝑈 2 ：不偏分散 𝑛−1 2 2 値 𝜎 2 ：母分散 𝑈 = 𝜒 𝜎2 𝑛：サンプルサイズ元の不等式標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑃 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 = 0.95 母分散について、確率を加味した「区間」を提示できた！ 223

224.

𝟐 𝝌 分布の利用 𝑈 2 ：不偏分散 𝜎 2 ：母分散 𝑛：サンプルサイズ母分散の区間推定標本抽出のモデル想定したうえで、以下の範囲を計算 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 上記の範囲を「母分散の９５％信頼区間」と呼ぶ 2 2 𝜒0.025 , 𝜒0.975 の代わりに、好きな％点𝜒𝛼2 を使えば、様々な「○○％信頼区間」が計算できる信頼の度合いを確率で表現しながら母分散の区間を求める 224

225.

区間推定計算演習配布プリントを使って、母分散の区間推定の計算を解説 →穴埋め式になっている。空白を埋めよう！ 225

226.

中間テストまでの復習 226

227.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル 4．点推定とその根拠づけ 5．区間推定 227

228.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル 4．点推定とその根拠づけ 5．区間推定 228

229.

問題意識母集団：知りたいと思っている集団全体今回の例では、湖の中にいるすべての魚 229

230.

問題意識標本：手に入れた一部のデータ標本抽出：標本を得る行為 230

231.

問題意識たまたま「中くらいのサイズ」の魚が釣れた 231

232.

問題意識たまたま「小さめのサイズ」の魚が釣れた 232

233.

問題意識たまたま「大きめのサイズ」の魚が釣れた 233

234.

問題意識ランダムに一部の魚を標本として抽出ここで確率が登場する 234

235.

問題意識湖の中のすべての魚の体長母集団すべてのデータ未知のデータを含む標本母集団の一部手に入ったデータ釣りをして得られた魚の体長標本を使って、母集団の議論手持ちのデータで未知データの議論

236.

問題意識母集団にまつわる用語母平均→母集団の平均母分散→母集団の分散（標本平均とは区別）（標本分散とは区別）母平均を推定してみよう母集団分布の平均を言い当てることを目指す 236

237.

問題意識「釣った魚」の体長の平均値が4cmだった（標本平均）だから「湖の中のすべての魚」も体長の平均値は 4cmなのでは？（母平均） 237

238.

問題意識母平均の推定くらい、簡単？標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測するなんか4cmって小さくない？標本平均に5を足した結果を使おうぜ！たくさんのデータを集計するの面倒だな～そうだ、データを1つだけ選んで、それを使おう！無茶苦茶な意見に聞こえるでも、具体的に「何が悪い」のか？ 238

239.

問題意識母平均の推定くらい、簡単？標本平均に5を足した結果を使うとどうなる？ほとんどのデータを捨てて、1つだけを使うとどうなる？そんなことしたらダメだろ！え～、なんで～どのみち母集団のことわかんないだから、好きに計算したらいいじゃん。たまたま「小さめのサイズ」の魚ばっかり釣れたんだったら大きめに補正した方がいいでしょ？ 239

240.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル 4．点推定とその根拠づけ 5．区間推定 240

241.

モデルを用いた解決案モデル現象を単純化した「模型」のことプラモデルのモデル後期ではモデルの使い方を何度もシチュエーションを変えて説明するモデルを使うメリット実際に行動する前に、結果について議論できる 241

242.

モデルを用いた解決案統計学におけるモデル観測したデータを生み出す確率的な過程を簡潔に記述したもの。 Graham Upton, Ian Cook．(白幡慎吾監訳)．(2010)．統計学辞典．共立出版モデルを使うメリット実際にデータを取得する前に、得られるであろう結果について議論できる 242

243.

モデルを用いた解決案モデルの例飛行機のモデル（模型）を考えるぼくの考えた「さいきょう」の飛行機だよ！！ (馬場が描きました) プロペラが無いので飛ばない 243

244.

モデルを用いた解決案モデルの例飛行機のモデル（模型）を考えるモデルを使えば、実際に行動する前に、結果について議論できる何億円ものお金をかけて本物を作る前に、空気抵抗や推進力などいろいろなことを検討できる統計学IIでプラモデルを作ることはない統計モデルと呼ばれるモデルを作る 244

245.

モデルを用いた解決案推測統計の問題に、どうやって取り組むのか認めること① 標本という「一部」しか使わないので「母集団を完全に明らかにする」ことは無理認めること② 標本は確率的に変動する「標本から計算された統計量」も確率的に変動するそれでも頑張ること。それでもなお、あきらめないこと標本や「標本から計算された統計量」がどのように変化するか、確率的な特徴を明らかにする 245

246.

モデルを用いた解決案標本から計算された統計量の確率的な挙動を探る方法「標本抽出＋標本平均の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、標本平均を何度も計算する標本平均○○ 標本平均×× 標本平均がたくさん得られる標本平均△△

247.

モデルを用いた解決案標本から計算された統計量の確率的な挙動を探る方法「標本抽出＋標本平均の計算」を、何度も何度も行う例）同じ条件で湖から釣りをして5つの標本を得て、標本平均を何度も計算する標本平均○○ 標本平均×× 標本平均△△ たくさん得られた標本平均を集計することで、たまたま「中くらいのサイズ」の標本平均になる割合やたまたま「大きめのサイズ」の標本平均になる割合などがわかるすると、確率的な挙動について調べることができるはず！標本平均がたくさん得られる

248.

モデルを用いた解決案素朴な方法論の問題点何度も何度も湖に出かけないといけない何度も釣りをして、何度も平均値を計算するのは手間現実的には、同じ調査を何度もやるのは極めて困難！標本平均○○ 標本平均×× そうだ。モデルを使おう標本平均△△

249.

モデルを用いた解決案モデルの利用標本や、標本から計算される統計量の確率的な変化について調べるために、モデルを使う「本物の飛行機を飛ばすことはしないで、プラモデルの飛行機を使って空気抵抗を調べる」同じような使い道！「実際に何度も調査に行くことはしないで、モデルを使って、統計量などの確率的性質を調べる」 249

250.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル 4．点推定とその根拠づけ 5．区間推定 250

251.

統計学IIで利用するモデル単純なモデルを利用した推測統計学IIでは「正規母集団」からの「単純ランダムサンプリング」という極めて単純な想定をしたうえでモデルを構築する統計学の入門編ではこのモデルを使う現実に見合うかどうか、注意が必要 251

252.

統計学IIで利用するモデル単純なモデルを利用した推測統計学IIでは「正規母集団」からの「単純ランダムサンプリング」という極めて単純な想定をしたうえでモデルを構築するまずは単純ランダムサンプリングの復習から 252

253.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル仮定①：単純ランダムサンプリング仮定②：正規母集団 253

254.

単純ランダムサンプリング単純ランダムサンプリング（無作為抽出）母集団の1つ1つが無作為に、言い換えると「すべて等しい確率で選ばれる」という選び方以下では単に「サンプリング」と書いた場合、それは単純ランダムサンプリングを指すことにする単純ランダムサンプリングによって標本が抽出されたというのがとても大事 254

255.

単純ランダムサンプリング母集団分布母集団が従う確率分布無作為標本単純ランダムサンプリングによって得られた標本のこと無作為標本の特徴(とても大事) 標本は、母集団分布に従う確率変数とみなせるサンプルサイズ標本の大きさ。観測値の個数。魚を2尾釣ったならサンプルサイズは2 255

256.

単純ランダムサンプリング母集団分布の例体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.2 0.2 0.2 0.2 0.2 単純ランダムサンプリングによって、母集団分布に従い標本が得られる →どの体長も、0.2の確率で得られる

257.

単純ランダムサンプリング母集団分布の例（別の湖）体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.1 0.2 0.4 0.2 0.1 この湖では、3㎝の魚が多くいる →この湖で釣りをすると、3㎝の魚が釣れやすいはずだ！

258.

単純ランダムサンプリング母集団分布の例（さらに別の湖）体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝確率 0.1 0.1 0.2 0.2 0.4 この湖では、5㎝の魚が多くいる →この湖で釣りをすると、5㎝の魚が釣れやすいはずだ！

259.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル仮定①：単純ランダムサンプリング仮定②：正規母集団 259

260.

正規母集団正規分布とは確率分布の1種パラメータを変えることで、様々な確率分布を作れる正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 平均（期待値）が𝜇で、分散が𝜎 2 、標準偏差が𝜎となる正規分布という確率分布を魚の体長の分布を表現するモデルに使う 260

261.

正規母集団正規分布の確率密度関数のグラフ 261

262.

正規母集団正規分布のグラフの特徴「釣り鐘型」や「ベル型」と呼ぶこともある平均に対して左右対称平均値𝜇に対して左右対称 262

263.

正規母集団魚の体長の変化の仕方「魚の体長の母集団分布が正規分布に従っている」という場合、魚の体長はどのように変化していると考えられるだろうか 263

264.

正規母集団仮定①：魚の「標準的な大きさ」は決まっているコイツが標準的な大きさの魚仮定②：小さな変化の積み重ねで体長が変化食べ物の多い・少ない気温の高い・低い雨量の多い・少ない小さな変化の積み重ねは何をもたらす？ 264

265.

正規母集団小標準大たまたま食べ物が多かったちょっとだけ大きくなる 265

266.

正規母集団小標準大たまたま気温が低かった標準体長に戻る正負の影響が混ざって、元に戻る 266

267.

正規母集団小標準 ×食べ物、×気温（アンラッキー）大 ○食べ物、○気温（ラッキー）極端な結果にはなりにくいはず 267

268.

正規母集団 1．体長は平均0の小さな誤差の積み重ねで決まると仮定 2．小さな誤差は、正負共に50%の確率で加わると仮定ほかにもいくつかの導出がある 1 2 1 4 標準 1 2 1 2 1 4 268

269.

体長のヒストグラム正規母集団 1 2 1 4 標準 1 2 1 2 1 4 標準体長になる確率が最も高い極端な体長になる確率は低い 269

270.

正規母集団体長のヒストグラム左右対称のベル型 270

271.

正規母集団小さな変化の積み重ねで体長が変化 1 2 標準 1 4 1 2 1 2 1 4 正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 体長分布のモデルとして正規分布を使う 271

272.

正規母集団中心極限定理 𝑛個の独立同一分布に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 において、確率変数の期待値を𝜇と分散を𝜎 2 とする。 𝑛個の確率変数の合計値が従う確率分布は、 𝑛が大きくなると正規分布に近づく確率変数がたくさんあれば、その合計値は正規分布に従う 272

273.

正規母集団中心極限定理のいいところ確率変数の合計値が正規分布に近づくことの数学的な定理正規分布をモデルとして利用することの理由付けの1つ中心極限定理の注意点確率変数の合計値が正規分布に近づくことに注意確率変数そのものが正規分布に従うと勘違いしないように（本屋で売られている本でも間違った記載がたまにある） 𝑛がいくつ以上あればよいのかは、割と不明確（30以上と書いてある本もあるが、根拠はないので注意） 273

274.

本来、現実は複雑統計学IIで利用するモデルでも、単純な状況を想定する現実世界の想定母平均𝜇母分散𝜎 2 の正規母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得した対応モデル標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である 274

275.

統計学IIで利用するモデル現実世界の想定母平均𝜇母分散𝜎 2 の正規母集団から単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得した対応モデル標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である確率論の言葉を使って、現実世界を計算しやすいようにモデル化 275

276.

統計学IIで利用するモデルモデルを作るときに大切にすること(私案) モデルはなるべく使いやすいほうがいい • 解釈がしやすい • 計算がしやすい（正規分布は、ほとんどの統計ソフトで利用できる）モデルはなるべく現実に合うものにしたい • 現実と異なるモデルを作っても意味がない • 予測が当たらない、母集団が現実と異なる…… モデルは、その扱いやすさと、現実への整合性の2つが大切 276

277.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル 4．点推定とその根拠づけ 5．区間推定 277

278.

点推定とその根拠づけ母平均の推定くらい、簡単？標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測するなんか4cmって小さくない？標本平均に5を足した結果を使おうぜ！たくさんのデータを集計するの面倒だな～そうだ、データを1つだけ選んで、それを使おう！ 278

279.

点推定とその根拠づけ不偏性推定量の期待値が、母集団のパラメータと等しくなる特性のこと不偏推定量不偏性を持つ推定量のこと不偏推定量は、平均すると、過大にも、過少にもなっていない偏りのない推定量 279

280.

点推定とその根拠づけ一致性サンプルサイズが大きくなると、推定量が正しいパラメータに近づくという特性のこと一致推定量一致性を持つ推定量のことサンプルサイズが無限に大きいなら、推定量と母集団のパラメータは一致する 280

281.

点推定とその根拠づけ標本平均標本平均は母平均に対する不偏推定量であり、一致推定量でもある 𝑛 標本平均 𝑋ത = 1 ෍ 𝑋𝑖 𝑛 𝑖=1 不偏分散不偏分散は母分散に対する不偏推定量であり、一致推定量でもある 𝑛 不偏分散 𝑈2 1 = ෍ 𝑋𝑖 − 𝑋ത 𝑛−1 𝑖=1 281 2

282.

点推定とその根拠づけ点推定値の特徴母平均の点推定のために標本平均を使う母分散の点推定のために不偏分散を使う「なぜ」これらの指標を使うのか、説明できるようにある「良さの基準」を想定することで、上記の指標を使うことが正当化される →ほかの「良さの基準」を想定するならば、ほかの指標を使うべきという結論になるかも (今回の統計学IIでは気にしなくてOK) (勉強を続けると、様々な「良さの基準」に出くわすはず) 282

283.

内容 1．問題意識 2．モデルを用いた解決案 3．統計学IIで利用するモデル 4．点推定とその根拠づけ 5．区間推定 283

284.

区間推定母平均の95％信頼区間標本抽出のモデル想定したうえで、以下の範囲を計算 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 母分散の95％信頼区間標本抽出のモデル想定したうえで、以下の範囲を計算 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 284

285.

区間推定モデルと現実の対応に要注意モデルの飛行機には、エンジンもプロペラもあってちゃんと飛ぶことがわかりましたでもなんか、本物の飛行機は飛ばんのだが本物の飛行機には、エンジンついてないからね～ダメじゃん

286.

区間推定モデルと現実の対応に要注意母平均の95％信頼区間は〇～×の範囲になったよ！データは正規母集団からの無作為標本？全然違います。テキトーな感じでデータとりましたダメじゃん

287.

区間推定モデルと現実の対応に要注意正規母集団からの無作為標本でなければ、 𝑡値は𝑡分布に従わない → 𝑡分布を使った区間推定は現実と全然違う飛行機の模型を飛ばすようなもの →モデルを使って得られた結果の利用は要注意完璧に現実世界を反映した「正しいモデル」はおそらく作ることができないけれども、できるだけ現実との乖離を減らすための努力をすることは大切あるいは「モデルというレンズ(色眼鏡)」を通して世界を見ているという意識を持つことが大切 287

288.

区間推定モデルを利用する際の格言 Boxという先生の以下の格言が有名全てのモデルは間違っているだが、その中のいくつかは役に立つ All models are wrong, but some are useful 参考：Wikipedia(最終閲覧2022年2月18日) https://en.wikipedia.org/wiki/All_models_are_wrong モデルを使うと色々なことがわかるけど、モデルと現実世界の対応関係に気を遣う必要がある 288

https://en.wikipedia.org/wiki/All_models_are_wrong

Logics of Blue

関連スライド

統計学I-1

統計学I-2

統計学II-1

統計学II-3

学振特別研究員になるために～2026年度申請版

EGG '24 | ゲーム業界ホワイト化の光と影

各ページのテキスト