29.5K Views
February 18, 23
スライド概要
2022年度統計学IIの講義資料です。
好きな色は緑です。
統計学 II-2 ・推測統計の導入 ・標本抽出 ・点推定 ・標本分布 ・区間推定 ・仮説検定 https://logics-of-blue.com/
本資料について 本資料の成り立ち 馬場が担当する学部1年生向け統計学IIの講義資料抜粋 統計学を初めて学ぶ、文系の学生が受講する想定 本資料の取り扱い あくまでも、本来の講義資料の抜粋なので注意 (計算演習・講義内クイズ・前回講義の復習 口頭での説明内容等は省略) SNSなどでスライドのスクショを張り付けるのは、 避けてほしい (文脈がわからないと、誤った理解を促すため) 2
本資料について 本資料の使い方 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する ※想定②の場合は、下記参考文献も参照すること 参考文献 馬場真哉,2022,翔泳社 『Pythonで学ぶあたらしい統計学の教科書 第2版』 倉田博史・星野崇宏,2009,新世社 『入門統計解析』 鈴木武・山田作太郎,1996,内田老鶴圃 『数理統計学』 3
本資料の範囲 1.オリエンテーション 2.推測統計の基本 3.母平均と標本平均 4.母分散と標本分散 5.正規分布から得られる標本分布1 6.正規分布から得られる標本分布2 7.区間推定1:母平均の区間推定 8.区間推定2:母分散の区間推定 9.中間テスト
統計学 II 第5回:正規分布から得られる標本分布
内容 1.標本分布の考え方 2.不偏分散の標本分布 3.𝝌𝟐 分布 4.𝝌𝟐 分布の利用 6
標本分布の考え方 7
標本分布の考え方 標本分布 標本の統計量が従う確率分布のこと 例)標本平均が従う確率分布 標本から計算された不偏分散が従う確率分布 標本分布のイメージ 「母集団からの標本抽出」を何度も何度も繰り返した結果、 得られる分布であることに注意 8
標本分布の考え方 正規分布の表記 これから正規分布を頻繁に使うので、以下のように略記する 確率変数𝑋𝑖 が 平均(期待値)が𝜇で、分散が𝜎 2 の正規分布に従う 𝑋𝑖 ~𝒩 𝜇, 𝜎 2 𝑋 ~𝒩 𝜇, 𝜎 2 チルダ記号「 ~ 」が 「従う」を表すマーク 添え字「 𝑖 」は 省略することもある 9
標本分布の考え方 今回の講義の想定 母集団分布は正規分布である(二項分布などではない) 標本は単純ランダムサンプリング(無作為抽出)で得られる →標本は同一の正規分布に従う独立な確率変数 確率変数 𝑋1 , 𝑋2 , … , 𝑋𝑛 無作為抽出 標本抽出のモデル 𝑋𝑖 ~𝒩 𝜇, 𝜎 2 10
標本分布の考え方 今回の講義の想定 話を簡単にするために、母平均𝜇 = 4、母分散𝜎 2 = 0.64 母標準偏差𝜎 = 0.8とする (母平均・母分散は普通はわからないので注意) 確率変数 𝑋1 , 𝑋2 , … , 𝑋𝑛 無作為抽出 標本抽出のモデル 𝑋𝑖 ~𝒩 𝜇 = 4, 𝜎 2 = 0.64 11
標本分布の考え方 本日のテーマ 右図のような 標本抽出のモデルを想定 標本抽出のモデル 𝑋𝑖 ~𝒩 𝜇 = 4, 𝜎 2 = 0.64 そして標本から不偏分散𝑈 2 を計算する ത (𝑋は標本平均、 𝑛はサンプルサイズ) →今回はサンプルサイズ𝑛 = 5とする 𝑛 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 不偏分散𝑈 2 が従う確率分布を調べる 12
標本分布の考え方 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 母集団についての仮定+ 標本抽出の仮定を組み合わせたモデル 13
標本分布の考え方 やや発展的な注意事項 モデルの構造が変われば、結果も(当然)変わるので注意 →「統計学入門編」ではモデルの構造は決め打ちで進める 母集団分布が正規分布でなかったら、 以下で述べる議論の多くは成り立たない 単純ランダムサンプリングをしていなかったら (たとえば標本が互いに独立でなかったら) 以下で述べる議論の多くは成り立たない 先週までと違って、今回は 母集団分布が正規分布であることが必須 14
母集団からの標本抽出というモデル 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 標本から不偏分散を計算した 不偏分散は0.72だった 15
母集団からの標本抽出というモデル 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 もう一回標本を抽出して もう一回不偏分散を計算すると、 0.72とは異なる不偏分散が得られるはず 標本から不偏分散を計算した 不偏分散は0.72だった 16
推測統計の勘所 現実 「標本抽出+不偏分散の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 不偏分散を何度も計算する 不偏分散○○ 不偏分散×× 不偏分散がたくさん得られる 不偏分散△△ 17
確率分布の基礎 確率分布のイメージ 確率の定義から、確率の合計値は1 「全体1」である確率を配分したものが確率分布 (確率分布のことを、単に分布と呼ぶこともある) 動物の分布 不偏分散の標本分布 ・キリン →アフリカに存在 不偏分散が0.2から0.4に なる確率は20% ・キタキツネ →北海道に存在 不偏分散が0.4から0.6に なる確率は30% ・コウテイペンギン →南極に存在 不偏分散が0.6から0.8に なる確率は15% 18
不偏分散の標本分布 先ほどのシチュエーションの下で 不偏分散の標本分布がどのようになるか調べる 19
内容 1.ヒストグラムの復習 2.不偏分散の標本分布(ヒストグラム) 3.不偏分散を少し変換する 20
内容 1.ヒストグラムの復習 2.不偏分散の標本分布(ヒストグラム) 3.不偏分散を少し変換する 21
確率分布の基礎 確率分布の表現の仕方の復習(前期の内容です) 確率分布の表現の方法は大きく3つ 1.確率分布の数表を作る 2.関数を使う(確率密度関数・確率質量関数) →不偏分散は連続型の確率変数なので 「確率密度関数」を使う 3.グラフで表現する 本日の講義では、わかりやすいので 基本的にはグラフを使う 22
確率分布の基礎 確率分布を数表で表現する 不偏分散の標本分布の例 →細かく表記するのが大変 階級 0~0.3 0.3~0.6 0.6~0.9 0.9~1.2 …… 確率 0.24 0.32 0.21 0.12 …… 23
確率分布の基礎 確率分布をグラフで表現する 後ほど、確率密度関数の折れ線グラフを紹介 今回は、まずヒストグラムを使う 前期で登場した、身長のヒストグラム 24
度数分布 度数 ある属性に属するデータの数のこと 度数分布 属性と度数を対応させたもの 度数分布表 度数分布を表にしたもの どんなデータが、何個あったかを数える 25
度数分布 階級 数値をある範囲で区切ったもの 階級値 階級を代表する値 階級下限・階級上限・階級幅 階級の下限・上限とその範囲 「どの範囲のデータ」が、何個あったか 26
度数分布 度数分布表の例: 身長の構成 合計:25人 階級 155~164.9㎝ 165~174.9㎝ 175~184.9㎝ 185~194.9㎝ 階級として範囲を区切ると とても見やすい 度数 5 12 6 2
ヒストグラム ヒストグラム(復習) データの分布を可視化する 階級 度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 185~194.9㎝ 2
度数分布 相対度数 度数の、全データに占める割合 合計:25人 階級 度数 相対度数 155~164.9㎝ 5 165~174.9㎝ 12 175~184.9㎝ 6 5 ÷ 25 = 0.2 12 ÷ 25 = 0.48 6 ÷ 25 = 0.24 185~194.9㎝ 2 2 ÷ 25 = 0.08 29
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 相対度数分布と、桁が1 つずれているが、 これが正しい
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 この棒に着目
ヒストグラム ヒストグラムと相対度数 ヒストグラムの面積が 相対度数を表す 横幅10 階級 度数 相対度数 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 175~184.9㎝ 6 0.24 185~194.9㎝ 2 0.08 棒の面積は0.2であり、 相対度数と一致する 高さ 0.02 33
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 (階級幅を変化させた) 和 0.32 175~195で、階級幅が広い ただし、相対度数を足し合わ せてはいけない 高さ 0.016
階級 度数 相対度数 ヒストグラム 155~164.9㎝ 5 0.2 165~174.9㎝ 12 0.48 ヒストグラム 175~184.9㎝ 6 0.24 (面積を相対度数にした) 185~194.9㎝ 2 0.08 (階級幅を変化させた) 和 0.32 棒の面積は0.24 + 0.08 = 0.32であり、 相対度数の和と一致する 横幅20(175~195) 高さ 0.016
ヒストグラム ヒストグラム 度数分布をグラフで表したもの →ヒストグラムの面積が度数と比例する ヒストグラムと相対度数分布の関係 ヒストグラムの「面積」を、 相対度数分布と対応させる図をしばしば利用する →縦軸は、度数でも、相対度数でもない! →「面積」が相対度数
内容 1.ヒストグラムの復習 2.不偏分散の標本分布(ヒストグラム) 3.不偏分散を少し変換する 37
不偏分散の標本分布 議論の流れ 教科書などでは、「不偏分散を少し変換したもの」を対象に 標本分布を議論することが多い (このほうが理論的には整然とする) ただし、いきなり変換後の結果を見せても、 イメージしにくいかもしれない そこで、先に(理論的には少し扱いにくいが)、 一切変換しない、不偏分散の標本分布を見ていく
クイズ 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 不偏分散のヒストグラム 標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された不偏分散のヒストグラムとして 正しいものを選べ (縦棒は母分散と等しい0.64の位置を表している) (直観でOK)
不偏分散の標本分布 考え方 案①:母分散が0.64なのだから、不偏分散も0.64に近そう 案②:不偏分散は絶対にマイナスの値を取らない 𝑛 1 𝑈 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 2 𝑖=1 「2乗」の計算を行うので 絶対に0以上
クイズ(再掲) 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 不偏分散のヒストグラム 標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された不偏分散のヒストグラムとして 正しいものを選べ (縦棒は母分散と等しい0.64の位置を表している)
クイズ(回答) 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 不偏分散のヒストグラム 標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された不偏分散のヒストグラムとして 正しいものを選べ (縦棒は母分散と等しい0.64の位置を表している)
不偏分散の標本分布 不偏分散のヒストグラム 標本抽出のモデルより、1万回標本抽出+不偏分散の計算 (コンピュータシミュレーションを利用した)
不偏分散の標本分布 不偏分散のヒストグラム 標本抽出のモデルより、1万回標本抽出+不偏分散の計算 (コンピュータシミュレーションを利用した) 不偏分散は不偏性を持つので 「不偏分散の平均値」は母分散と等しい (実際に、このシミュレーション結果の平均値 は0.64で、母分散とほぼ等しくなった)
不偏分散の標本分布 不偏分散のヒストグラム(サンプルサイズを変更) サンプルサイズ𝑛を5、10、30の3パターンに変更して 不偏分散の標本分布を調べた
不偏分散の標本分布 不偏分散のヒストグラム(サンプルサイズを変更) サンプルサイズ𝑛を5、10、30の3パターンに変更して 不偏分散の標本分布を調べた サンプルサイズが大きいと、 母分散と近い不偏分散が得られやすい →サンプルサイズが大きいのは大切
内容 1.ヒストグラムの復習 2.不偏分散の標本分布(ヒストグラム) 3.不偏分散を少し変換する 47
不偏分散の標本分布 不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる
不偏分散の標本分布 不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる 母分散が大きいと、 大きな不偏分散が得られやすい
不偏分散の標本分布 不偏分散の変形 不偏分散の計算式 𝑛 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 母分散の影響を中和 これを𝜒 2 値と呼ぶ (「カイ2乗」と読む) 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 𝜎 2 :母分散 𝑛:サンプルサイズ 50
不偏分散の標本分布 𝜒 2 値のヒストグラム(母分散を変更) 変換すると、母分散の違いが見えなくなる
不偏分散の標本分布 𝜒 2 値のヒストグラム(サンプルサイズ変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い
𝝌𝟐 分布 シミュレーションに頼るのではなく 不偏分散の標本分布を理論的に導出する 53
内容 1.標準正規分布 2. 𝝌𝟐 分布 3.𝝌𝟐 分布と不偏分散の関係 54
内容 1.標準正規分布 2. 𝝌𝟐 分布 3.𝝌𝟐 分布と不偏分散の関係 55
𝟐 𝝌 分布 標準正規分布 平均(期待値)𝜇 = 0で、分散𝜎 2 = 1(標準偏差も1)である 正規分布のこと 正規分布 𝒩 𝜇, 𝜎 2 標準正規分布 𝒩 0,1 平均0で分散1である、特別な正規分布 →パラメータ固定なので扱いが簡単
内容 1.標準正規分布 2. 𝝌𝟐 分布 3.𝝌𝟐 分布と不偏分散の関係 57
𝟐 𝝌 分布 𝝌𝟐 分布 標準正規分布𝒩 0,1 に従う独立な𝑘個の確率変数 𝑋1 , 𝑋2 , … , 𝑋𝑘 があるとき、 以下で計算される確率変数の2乗和が従う確率分布を 自由度𝑘の𝜒 2 分布と呼び、𝜒 2 𝑘 と表記する 𝑘 𝑋𝑖2 𝑖=1 𝜒 2 分布のパラメータは𝑘のみ パラメータ𝑘のことを「自由度」と呼ぶ(単なる呼び名) なんだか突然出てきた分布ではあるが 不偏分散と密接な関係がある
𝟐 𝝌 分布 自由度4の𝝌𝟐 分布 𝜒 2 分布の例として、自由度4の𝜒 2 分布の折れ線グラフを見る
𝟐 𝝌 分布 自由度ごとの𝝌𝟐 分布 自由度というパラメータが変わると、確率分布も変わる
𝟐 𝝌 分布 𝝌𝟐 分布を利用するポイント 計算式は複雑なので省略するが、 𝜒 2 分布の確率密度関数が数学的に導出されている (計算式や証明は略) →確率密度関数を使えば簡単に色々な確率を計算できる 例) 自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝑌 ≤ 𝜒0.05 = 0.05であるような点𝜒0.05 を求める、など 2 →確率変数𝑌が「ある値𝜒0.05 」以下となる確率が5%である 2 →このような𝜒0.05 のことを「5%点」などと呼ぶ → 𝜒 2 分布を使えば、様々な%点を計算可能
内容 1.標準正規分布 2. 𝝌𝟐 分布 3.𝝌𝟐 分布と不偏分散の関係 62
𝟐 𝝌 分布 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 𝝌𝟐 値 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 標本抽出のモデルを利用すると、 𝜒 2 値が自由度𝑛 − 1の𝜒 2 分布に従うことが証明できる (証明はちょっと難しい。教科書にも載っていないので略) 不偏分散の標本分布を議論する際 𝝌𝟐 分布はとても便利 63
不偏分散の標本分布 変換した後の不偏分散(𝝌𝟐 値)のヒストグラム 𝜒 2 値のヒストグラムと𝜒 2 分布の折れ線グラフがきれいに対応
ここまでのまとめ 65
まとめ 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 母集団についての仮定+ 標本抽出の仮定を組み合わせたモデル 66
まとめ 実際に何度も釣りをするのは無理なので コンピュータシミュレーションを実施 現実 「標本抽出+不偏分散の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 不偏分散を何度も計算する 不偏分散○○ 不偏分散×× 不偏分散がたくさん得られる 不偏分散△△ 67
まとめ 不偏分散のヒストグラム 標本抽出のモデルより、1万回標本抽出+不偏分散の計算 (コンピュータシミュレーションを利用した) シミュレーション結果はこんな感じ
まとめ 不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる 母分散が大きいと、 大きな不偏分散が得られやすい →不偏分散はちょっと扱いにくい
まとめ ത 𝑋𝑖 :データ(確率変数)、 𝑋:標本平均 𝜎 2 :母分散、𝑛:サンプルサイズ 不偏分散の変形 不偏分散の計算式 𝑛 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 母分散の影響を中和 これを𝜒 2 値と呼ぶ (「カイ2乗」と読む) 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 𝝌𝟐 値が従う確率分布は理論的に求まる この確率分布を𝝌𝟐 分布と呼ぶ 70
まとめ 𝜒 2 値のヒストグラム(母分散を変更) 変換すると、母分散の違いが見えなくなる
まとめ 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 母分散などを固定しなくても議論が成立 𝝌𝟐 値は便利! 72
まとめ 𝜒 2 値のヒストグラム(サンプルサイズ変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い
まとめ 変換した後の不偏分散(𝝌𝟐 値)のヒストグラム 𝜒 2 値のヒストグラムと𝜒 2 分布の折れ線グラフがきれいに対応
まとめ 今まで シミュレーションによって、 不偏分散と𝜒 2 値の標本分布が得られた シミュレーションしなくても、 計算によって確率分布が得られる → 𝜒 2 値が従う確率分布は𝜒 2 分布! →これからは𝜒 2 分布を使っていろいろな確率の計算をする 𝜒 2 分布と不偏分散の標本分布の関係を理解しよう! これから 𝜒 2 分布の利用方法を学ぶ → 𝜒 2 分布を使えば、母分散の推定にもっと工夫ができる
まとめ メモ 𝑋𝑖 :データ(確率変数) ത 𝑋:標本平均 𝜎 2 :母分散、𝑛:サンプルサイズ まとめ 不偏分散を変形したものが𝜒 2 値 𝑛 不偏分散 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 2 𝜒 値(「カイ2乗」と読む) 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 サンプルサイズ𝑛の標本から計算された 𝜒 2 値は 自由度𝑛 − 1の𝜒 2 分布に従う → 𝜒 2 分布は理論的な性質(%点など)がすでに知られている →これからは𝜒 2 分布を使っていろいろな確率の計算をする
𝝌𝟐 分布の利用 中間テストまでの最大の山場である 「区間推定」の導入的解説 (ちゃんとした説明は後日) 77
内容 1. 𝝌𝟐 分布の%点 2. 𝝌𝟐 分布を用いた母分散の区間推定 78
内容 1. 𝝌𝟐 分布の%点 2. 𝝌𝟐 分布を用いた母分散の区間推定 79
𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 𝟐 𝝌 分布の利用 今までのまとめ① 𝜒2値 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 標本抽出のモデルを利用すると、 𝜒 2 値が自由度𝑛 − 1の𝜒 2 分布に従うことがわかった 今までのまとめ② 𝜒 2 分布の確率密度関数を使えば、色々な確率を計算できる 例) 自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝑌 ≤ 𝜒0.05 = 0.05であるような点𝜒0.05 を求める、など 80
𝟐 𝝌 分布の利用 ここからのテーマ 𝜒 2 分布を統計的推定に利用しよう →今まで学んできたことは、どのように利用できるか? 区間推定の利用 母集団のパラメータである母分散𝜎 2 の推定に、 𝜒 2 分布を利用してみる →母分散𝜎 2 の推定の際「範囲」を提示する →「範囲」の計算の際、確率を使う 81
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点 確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼%点」と呼ぶ 例) 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 𝜒0.05 は5%点 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 𝜒0.025 は2.5%点 サンプルサイズ(あるいは自由度)さえ 決めれば、機械的に計算可能 82
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点(自由度が4の時) 確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼%点」と呼ぶ 例) 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 2 𝜒0.05 は5%点𝜒0.05 ≈ 0.71 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 2 𝜒0.025 は2.5%点𝜒0.025 ≈ 0.48 大体の統計分析ソフトウェアを使えば、 この程度の計算は簡単にできる 83
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点色々(自由度が4の時) 参考(覚えなくていい) 2 ≈ 0.48 2.5%点 𝜒0.025 2 5%点 𝜒0.05 ≈ 0.71 10%点 50%点 90%点 2 𝜒0.1 ≈ 1.06 2 𝜒0.5 ≈ 3.36 2 𝜒0.9 ≈ 7.78 ←50%点=中央値 2 95%点 𝜒0.95 ≈ 9.49 2 97.5%点 𝜒0.975 ≈ 11.14 84
𝟐 𝝌 分布 自由度4の𝝌𝟐 分布の%点
2 𝜒0.1 ≈ 1.06 𝟐 𝝌 分布 2 𝜒 自由度4の𝝌 分布の%点0.5 ≈ 3.36 𝟐 2 𝜒0.9 ≈ 7.78
𝟐 𝝌 分布 分布の下限(0) 2 𝜒 自由度4の𝝌 分布の%点0.5 ≈ 3.36 𝟐 2 𝜒0.5 以下の𝜒 2 値が発生する確率は50% =この範囲の面積が0.5
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点色々(自由度が4の時) ある範囲に収まる確率の計算 10%点 90%点 2 𝜒0.1 ≈ 1.06 2 𝜒0.9 ≈ 7.78 自由度4の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.1 ≤ 𝑌 ≤ 𝜒0.9 = 0.8 10%から90%点の間に「80%」が収まる →90ー10=80 88
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点色々(自由度が4の時) ある範囲に収まる確率の計算 2 2.5%点 𝜒0.025 ≈ 0.48 2 97.5%点 𝜒0.975 ≈ 11.14 自由度4の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 2.5%から97.5%点の間に「95%」が収まる →97.5ー2.5=95 89
𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の%点 2 𝜒0.975 ≈ 11.14
𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の%点 2 𝜒0.975 ≈ 11.14 2 2 𝜒0.025 以上、 𝜒0.975 以下の 𝜒 2 値が発生する確率は95% =この範囲の面積が0.95
𝟐 𝝌 分布の利用 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 今までのまとめ③ 確率変数がある範囲に入る確率などを計算できる 例) 自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 ここからの類推 標本抽出のモデルを使えば、以下が成り立つ 2 2 𝑃 𝜒0.025 ≤ 𝜒 2 値 ≤ 𝜒0.975 = 0.95 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 92
内容 1. 𝝌𝟐 分布の%点 2. 𝝌𝟐 分布を用いた母分散の区間推定 93
𝟐 𝝌 分布の利用 𝑛−1 2 2値 𝑈 = 𝜒 𝜎2 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 今までのまとめ④ 標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑛−1 2 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 0.975 𝜎2 𝜎 2 ≤? ? ≤ 𝜎2 「?」には何が入るか 94
𝟐 𝝌 分布の利用 不等式を母分散𝝈𝟐 について解く① 𝑛−1 2 2 𝑛−1 2 𝜒0.025 ≤ 𝑈 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝜎 2 ∙ 𝜒0.025 ≤ 𝑛 − 1 𝑈2 2 𝑛 − 1 𝑈 𝜎2 ≤ 2 𝜒0.025 95
𝟐 𝝌 分布の利用 不等式を母分散𝝈𝟐 について解く② 𝑛−1 2 2 𝑛−1 2 𝑈 ≤ 𝜒 2 2 0.975 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝑛 − 1 𝑈 2 ≤ 𝜎 2 ∙ 𝜒0.975 𝑛 − 1 𝑈2 2 ≤ 𝜎 2 𝜒0.975 96
𝟐 𝝌 分布の利用 𝑛−1 2 2値 𝑈 = 𝜒 𝜎2 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 今までのまとめ④(復習) 標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑃 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 = 0.95 母分散について、 確率を加味した「区間」を提示できた! 97
𝟐 𝝌 分布の利用 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 母分散の区間推定 標本抽出のモデル想定したうえで、以下の範囲を計算する 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 上記の範囲を「母分散の95%信頼区間」と呼ぶ 上記のように信頼区間を求める方法を「区間推定」と呼ぶ 2 2 𝜒0.025 , 𝜒0.975 の代わりに、好きな%点𝜒𝛼2 を使えば、 様々な「○○%信頼区間」が計算できる 信頼の度合いを確率で表現しながら 母分散の区間を求める 98
𝟐 𝝌 分布の利用 母分散の区間推定についての補足 より一般的な議論や区間推定の解釈については、後日解説 とりあえず式変形して 区間を計算できる 計算の意味を理解できる モデルの前提を説明できる 計算演習は後日 (テストには出る) 実務的には「解釈」と「使い方」が大切 99
𝟐 𝝌 分布の利用 やや発展的な注意事項 モデルの構造が変われば、結果も(当然)変わるので注意 母集団分布が正規分布でなかったら、 母集団からの単純ランダムサンプリングができなければ (たとえば標本が互いに独立では無ければ) 𝜒 2 値は𝜒 2 分布に従わない! モデルの中での議論であることに注意 モデルが変われば、結果も変わる 100
統計学 II 第6回:正規分布から得られる標本分布 その2
内容 1.前回の復習+今回やることの説明 2.標本平均の標本分布 3.𝒕分布 4.𝒕分布の利用 102
前回の復習 103
標本分布の考え方 標本分布 標本の統計量が従う確率分布のこと 例)標本平均が従う確率分布 標本から計算された不偏分散が従う確率分布 標本分布のイメージ 「母集団からの標本抽出」を何度も何度も繰り返した結果、 得られる分布であることに注意 104
標本分布の考え方 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 母集団についての仮定+ 標本抽出の仮定を組み合わせたモデル 105
標本分布の考え方 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 標本から不偏分散を計算した 不偏分散は0.72だった 106
標本分布の考え方 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 もう一回標本を抽出して もう一回不偏分散を計算すると、 0.72とは異なる不偏分散が得られるはず 標本から不偏分散を計算した 不偏分散は0.72だった 107
標本分布の考え方 現実 「標本抽出+不偏分散の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 不偏分散を何度も計算する 不偏分散○○ 不偏分散×× 不偏分散がたくさん得られる 不偏分散△△ 108
不偏分散の標本分布 不偏分散のヒストグラム 標本抽出のモデルより、1万回標本抽出+不偏分散の計算 (コンピュータシミュレーションを利用した)
不偏分散の標本分布 不偏分散のヒストグラム 標本抽出のモデルより、1万回標本抽出+不偏分散の計算 (コンピュータシミュレーションを利用した) 不偏分散は不偏性を持つので 「不偏分散の平均値」は母分散と等しい (実際に、このシミュレーション結果の平均値 は0.64で、母分散とほぼ等しくなった)
不偏分散の標本分布 不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる
不偏分散の標本分布 不偏分散のヒストグラム(母分散を変更) 母分散が変わると、標本から計算される不偏分散も変わる 母分散が大きいと、 大きな不偏分散が得られやすい
不偏分散の標本分布 不偏分散の変形 不偏分散の計算式 𝑛 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 2 𝑖=1 母分散の影響を中和 これを𝜒 2 値と呼ぶ (「カイ2乗」と読む) 𝜒2 𝑛−1 2 = 𝑈 2 𝜎 𝜎 2 :母分散 𝑛:サンプルサイズ 113
不偏分散の標本分布 𝜒 2 値のヒストグラム(母分散を変更) 変換すると、母分散の違いが見えなくなる
標本分布の考え方 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64 の正規分布が母集団分布 母分散などを固定しなくても議論が成立 𝝌𝟐 値は便利! 115
𝟐 𝝌 値の標本分布 𝜒 2 値のヒストグラム(サンプルサイズ変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い
𝟐 𝝌 値の標本分布 変換した後の不偏分散(𝝌𝟐 値)のヒストグラム 𝜒 2 値のヒストグラムと𝜒 2 分布の折れ線グラフがきれいに対応
𝟐 𝝌 分布の利用 モデルを使った分析についての馬場の雑感 モデルの構造と現実世界が大きく乖離していたら、 モデルから導かれた結果は役に立たない Q. なぜこんな不便な方法を使うのか? A. これ以外に使いやすい方法が見当たらないから 本来、標本は1回しか取得できないのに (1万回も釣りに出かけるのは不可能) 「もし何度も釣りに行ったら、○○になるだろう」と 推測を行おうとしている →これはすごく難しい問題 →難易度VERY HARDの問題に立ち向かうためには やや制約があるものの、モデルを使うしかない 118
𝟐 𝝌 分布の利用 不偏分散の分布(先週) 不偏分散を変換して𝜒 2 値を算出 →モデルを利用すると𝜒 2 値が𝜒 2 分布に従うことが証明できる 標本平均の分布(今週) 標本平均をそのまま使うのではなく、変換して𝑡値を算出 →モデルを利用すると𝑡値が𝑡分布に従うことが証明できる 不偏分散の議論とほぼ同様の流れで 標本平均の分布について調べていく 119
標本平均の標本分布 今回の講義のストーリー 1.コンピュータシミュレーションにより 標本平均のヒストグラムを作る →標本平均の標本分布を視覚的に調べる 2.標本平均を変換した𝑡値を算出する 3.𝑡値が従う分布である𝑡分布を導入 →シミュレーションの結果と𝑡分布を比較 4.𝑡分布の利用 →区間推定への利用の方法を簡単に紹介 120
標本平均の標本分布 121
内容 1.標本平均の標本分布(ヒストグラム) 2.標本平均をt 値に変換する 122
内容 1.標本平均の標本分布(ヒストグラム) 2.標本平均をt 値に変換する 123
クイズ 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均のヒストグラム 標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された標本平均のヒストグラムとして 正しいものを選べ(直観でOK)
クイズ(回答) 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均のヒストグラム 標本抽出のモデルに従って、標本抽出を1万回行った 1万回計算された標本平均のヒストグラムとして 正しいものを選べ(直観でOK)
標本平均の標本分布 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均の分布 上記の母集団から単純ランダムサンプリングによって 得られた標本から計算された標本平均の分布 126
標本平均の標本分布 母平均𝜇 = 4、母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 標本平均の分布 上記の母集団から単純ランダムサンプリングによって 得られた標本から計算された標本平均の分布 標本平均は不偏推定量 →標本平均の平均値は 母平均となる 母平均(4)と大体同じ 標本平均が得られる 127
標本平均の標本分布 母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 母平均が変わった場合 母平均が4の時と、母平均が6の時で、 標本平均のヒストグラムはどのように変わるか 128
標本平均の標本分布 母分散𝜎 2 = 0.64 サンプルサイズ𝑛 = 5 母平均が変わった場合 母平均が4の時と、母平均が6の時で、 標本平均のヒストグラムはどのように変わるか ヒストグラムの中心 位置が6に移動する 129
標本平均の標本分布 母平均𝜇 = 4、 サンプルサイズ𝑛 = 5 母分散が変わった場合 母分散が0.64の時と、母分散が1.44の時で、 標本平均のヒストグラムはどのように変わるか 130
標本平均の標本分布 母平均𝜇 = 4、 サンプルサイズ𝑛 = 5 母分散が変わった場合 母分散が0.64の時と、母分散が1.44の時で、 標本平均のヒストグラムはどのように変わるか ばらつきが大きくなる 131
標本平均の標本分布 サンプルサイズ𝑛 = 5 母平均・母分散が変わった場合 母平均も母分散も変わった 132
内容 1.標本平均の標本分布(ヒストグラム) 2.標本平均をt 値に変換する 133
𝜇 :母平均 𝑈 2 :不偏分散 𝑛 :サンプルサイズ 𝒕値 標本平均の分布そのものを扱うわけではない 標本平均の分布をそのまま検討するのではなく 扱いやすくなるように変換した結果を用いる 𝑛 標本平均の計算式 𝑋ത = 1 𝑋𝑖 𝑛 𝑖=1 𝑡値の計算式 𝑡値 = 𝑋ത − 𝜇 𝑈 2ൗ 𝑛 𝑋ത − 𝜇 = 𝑆𝐸 134
𝒕値 標準誤差 推定量の標準偏差を推定したもの 母平均の推定量として標本平均を使う場合 標本平均の標準偏差を推定したものが標準誤差となる 𝑆𝐸(Standard Error)と表記する 135
𝒕値 𝜇 :母平均、 𝜎 2 : 母分散 𝑈 2 :不偏分散 𝑛 :サンプルサイズ 標本平均の分散 2 とすると、 ത 標本平均を𝑋、サンプルサイズを𝑛、母分散を𝜎 標本平均の分散𝑉 𝑋ത は以下のようになる 𝜎2 𝑉 𝑋ത = 𝑛 標本平均の標準偏差の推定 分散の平方根が標準偏差 母分散𝜎 2 の代わりに、 母分散の推定量である不偏分散を使う 𝑉 𝑋ത = 𝜎2 𝑛 𝑆𝐸 𝑋ത = 𝑈2 𝑛 136
𝜇 :母平均 𝑈 2 :不偏分散 𝑛 :サンプルサイズ 𝒕値 t 値の計算式 𝑡値 = 𝑋ത − 𝜇 𝑈 2ൗ 𝑛 𝑋ത − 𝜇 = 𝑆𝐸 𝑋ത − 𝜇を標準誤差で割ったものが𝑡値 𝑡値が従う確率分布については、 モデルを使って理論的に導出できる 137
標本平均の標本分布 𝒕値のヒストグラム 変換すると、母平均・母分散の違いが見えなくなる
母集団からの標本抽出というモデル 単純ランダムサンプリング 母平均𝜇 = 4、母分散𝜎 2 = 0.64の 正規分布が母集団分布 母平均・母分散を固定せずに議論が成立 →𝒕値は便利! 139
標本平均の標本分布 𝒕値のヒストグラム(サンプルサイズを変更) 変換した後も、サンプルサイズの影響は受けるので注意 →逆に言うと、サンプルサイズだけを考慮すれば良い
標本平均の標本分布 𝒕値のヒストグラム(サンプルサイズを変更) 0付近に近い値が出やすくなる 変換した後も、サンプルサイズの影響は受けるので注意 0から離れた値は出にくくなる →逆に言うと、サンプルサイズだけを考慮すれば良い →「裾が狭い」と表現する
t 分布 142
内容 1.𝒕分布 2.𝒕分布と標本平均の関係 143
内容 1.𝒕分布 2.𝒕分布と標本平均の関係 144
𝒕分布 𝒕分布 2つの独立な確率変数𝑋, 𝑌を考える𝑋~𝒩 0,1 , 𝑌~𝜒 2 𝑘 であるとき、以下の計算結果が従う確率分布を 𝑡分布と呼び、 𝑡 𝑘 と表記する 𝑋 𝑌ൗ 𝑘 𝑡分布のパラメータは𝑘のみ パラメータ𝑘のことを「自由度」と呼ぶ(単なる呼び名) 標本平均(から計算されたt 値) と密接な関係がある
𝒕分布 自由度4の𝒕分布 𝑡分布の例として、自由度4の𝑡分布の折れ線グラフを見る
𝒕分布 自由度ごとの𝒕分布 自由度というパラメータが変わると、確率分布も変わる →自由度が大きくなると、わずかに裾が狭くなる
𝒕分布 𝒕分布の特徴 平均値は0 0を中心に左右対称 自由度が大きくなると、少しずつ裾が狭くなる
𝒕分布 𝒕分布の補足 確率分布の形が、標準正規分布𝒩 0,1 とよく似ている 𝑡分布なんか使わず、標準正規分布でいいんじゃない 𝑡分布は標準正規分布よりばらつきが大きい だからちょっとだけ違うよ 自由度が大きい場合はどうなの? うむ……。自由度が無限に大きい場合は、 標準正規分布と漸近的に等しくなるようだ
内容 1.𝒕分布 2.𝒕分布と標本平均の関係 150
𝒕分布 𝒕値と𝒕分布 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑡値 = = 𝑆𝐸 2 𝑈 ൗ 𝑛 ത 𝑋:標本平均 𝑈 2 :不偏分散 𝜇:母平均 𝑛:サンプルサイズ 𝑆𝐸:標準誤差 標本抽出のモデルを利用すると、 𝑡値が自由度𝑛 − 1の𝑡分布に従うことが証明できる (証明はちょっと難しい。教科書にも載っていないので略) 標本平均の標本分布を議論する際 𝒕分布はとても便利 151
𝒕分布 𝒕値のヒストグラムと𝒕分布の折れ線グラフの比較 𝑡値のヒストグラムと𝑡分布の折れ線グラフがきれいに対応
𝒕分布の利用 中間テストまでの最大の山場である 「区間推定」の導入的解説 (ちゃんとした説明は来週) 153
内容 1. 𝒕分布の%点 2. 𝒕分布を用いた母平均の区間推定 154
内容 1. 𝒕分布の%点 2. 𝒕分布を用いた母平均の区間推定 155
𝒕分布の利用 ここからのテーマ 𝑡分布を統計的推定に利用しよう →今まで学んできたことは、どのように利用できるか? 区間推定の利用 母集団のパラメータである母平均𝜇の推定に、 𝑡分布を利用してみる →母平均𝜇の推定の際「範囲」を提示する →「範囲」の計算の際、確率を使う 156
𝒕分布の利用 𝒕分布から計算できる%点 確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼%点」と呼ぶ 例) 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5%点 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5%点 自由度(サンプルサイズから求まる)さえ 決めれば、機械的に計算可能 157
𝒕分布の利用 𝒕分布から計算できる%点(自由度が4の時) 確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼%点」と呼ぶ 例) 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5%点𝑡0.05 ≈ −2.132 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5%点𝑡0.025 ≈ −2.776 大体の統計分析ソフトウェアを使えば、 この程度の計算は簡単にできる 158
𝒕分布の利用 𝒕分布から計算できる%点色々(自由度が4の時) 参考(覚えなくていい) 2.5%点 𝑡0.025 ≈ −2.776 𝑡0.05 ≈ −2.132 5%点 10%点 50%点 90%点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←50%点=中央値 95%点 𝑡0.95 ≈ 2.132 97.5%点 𝑡0.975 ≈ 2.776 159
𝒕分布の利用 𝒕分布から計算できる%点色々(自由度が4の時) 参考(覚えなくていい) 平均値(0)を中心に 2.5%点 𝑡0.025 ≈ −2.776 左右対称 𝑡0.05 ≈ −2.132 5%点 10%点 50%点 90%点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←50%点=中央値 95%点 𝑡0.95 ≈ 2.132 97.5%点 𝑡0.975 ≈ 2.776 160
𝒕分布の利用 自由度4の𝒕分布の%点
𝒕分布の利用 自由度4の𝒕分布の%点 𝑡0.1 ≈ −1.553 𝑡0.5 = 0 𝑡0.9 ≈ 1.553
𝒕分布の利用 自由度4の𝒕分布の%点 𝑡0.5 以下になる確率は50% =0以下の面積が0.5 ( 𝑡分布に下限は無い) 𝑡0.5 = 0
𝒕分布の利用 𝒕分布から計算できる%点色々(自由度が4の時) ある範囲に収まる確率の計算 10%点 90%点 𝑡0.1 ≈ −1.553 𝑡0.9 ≈ 1.553 自由度4の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.1 ≤ 𝑌 ≤ 𝑡0.9 = 0.8 10%から90%点の間に「80%」が収まる →90ー10=80 164
𝒕分布の利用 𝒕分布から計算できる%点色々(自由度が4の時) ある範囲に収まる確率の計算 2.5%点 𝑡0.025 ≈ −2.776 97.5%点 𝑡0.975 ≈ 2.776 自由度4の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.025 ≤ 𝑌 ≤ 𝑡0.975 = 0.95 2.5%から97.5%点の間に「95%」が収まる →97.5ー2.5=95 165
𝒕分布の利用 自由度4の𝒕分布の%点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776
𝒕分布の利用 自由度4の𝒕分布の%点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776 𝑡0.025 以上、𝑡0.975 以下になる 確率は95% =この範囲の面積が0.95
𝒕分布の利用 2 ത 𝑋:標本平均、𝑈 :不偏分散 𝜇:母平均 𝑆𝐸:標準誤差 今までのまとめ 確率変数がある範囲に入る確率などを計算できる 例) 自由度𝑘の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.025 ≤ 𝑌 ≤ 𝑡0.975 = 0.95 ここからの類推 標本抽出のモデルを使えば、以下が成り立つ 𝑃 𝑡0.025 ≤ 𝑡値 ≤ 𝑡0.975 = 0.95 𝑃 𝑡0.025 𝑋ത − 𝜇 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 168
内容 1. 𝒕分布の%点 2. 𝒕分布を用いた母平均の区間推定 169
𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 𝒕分布の利用 基の不等式 標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑋ത − 𝜇 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝜇 ≤? ?≤𝜇 「?」には何が入るか 170
𝒕分布の利用 不等式を母平均𝝁について解く① 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑡0.025 ≤ 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑡0.025 ∙ 𝑆𝐸 ≤ 𝑋ത − 𝜇 𝑡0.025 ∙ 𝑆𝐸 − 𝑋ത ≤ −𝜇 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 171
𝒕分布の利用 不等式を母平均𝝁について解く② 𝑋ത − 𝜇 𝑋ത − 𝜇 ≤ 𝑡0.975 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑋ത − 𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 −𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 − 𝑋ത 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 172
𝒕分布の利用 𝑛−1 2 2値 𝑈 = 𝜒 𝜎2 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 今までのまとめ 標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑃 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 = 0.95 母平均について、 確率を加味した「区間」を提示できた! 173
𝒕分布の利用 2 ത 𝑋:標本平均、𝑈 :不偏分散 𝜇:母平均 𝑆𝐸:標準誤差 母平均の区間推定 標本抽出のモデル想定したうえで、以下の範囲を計算する 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 上記の範囲を「母平均の95%信頼区間」と呼ぶ 上記のように信頼区間を求める方法を「区間推定」と呼ぶ 𝑡0.025 , 𝑡0.975 の代わりに、好きな%点𝑡𝛼 を使えば、 様々な「○○%信頼区間」が計算できる 信頼の度合いを確率で表現しながら 母平均の区間を求める 174
統計学 II 第7回:区間推定1 母平均の区間推定
前回の復習 176
区間推定 177
内容 1.母平均の区間推定の概要 2.母平均の区間推定の計算 178
内容 1.母平均の区間推定の概要 2.母平均の区間推定の計算 179
区間推定 点推定 推定値を1つだけ提示する 用語の使用例 標本の平均値が25.1だったので 母集団の平均値も25.1と点推定されました 点推定値として、標本から計算された 統計量と同じ値を使った 180
区間推定 区間推定 推定値に幅を持たせた推定方法のこと 今回は母平均の区間推定の問題を扱う 信頼係数 区間推定の幅における信頼の度合いを、 確率で表現したもの。95%がしばしば使われる (90%などほかの信頼係数でもOK) 95%信頼区間 95%の信頼係数を満たす区間のこと 今回は母平均の95%信頼区間を計算する 181
区間推定 信頼限界 信頼区間の、下限値(下側信頼限界)と 上限値(上側信頼限界)のこと 用語の使用例 信頼係数を95%と指定して、区間推定を行いました 95%信頼区間は、20 ~ 30 と計算されました 下側信頼限界 上側信頼限界 182
95%信頼区間の意味 95%という数字は、「長い目で見て」解釈ができる値 「何度も何度も標本抽出と信頼区間の計算」を 繰り返すことを想定して解釈する 95%信頼区間の意味 母集団からの標本抽出を100回(本当はもっとたくさん)行う 標本から95%信頼区間を100回求めた時 およそ95回は、その区間に母平均を含むはず 183
95%信頼区間の意味 母平均 95%信頼区間 この2つは 母平均を含まない たくさん計算された95%信頼区間が、 正しい母平均を含む割合は95% 184
内容 1.母平均の区間推定の概要 2.母平均の区間推定の計算 185
𝒕分布の利用 𝒕分布から計算できる%点 確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼%点」と呼ぶ 例) 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5%点 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5%点 自由度(サンプルサイズから求まる)さえ 決めれば、機械的に計算可能 186
𝒕分布の利用 𝒕分布から計算できる%点(自由度が4の時) 確率変数𝑌が「ある値𝑡𝛼 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝑡𝛼 = 𝛼 →このような𝑡𝛼 のことを「100𝛼%点」と呼ぶ 例) 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝑡0.05 = 0.05となる 𝑡0.05 は5%点𝑡0.05 ≈ −2.132 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝑡0.025 = 0.025となる 𝑡0.025 は2.5%点𝑡0.025 ≈ −2.776 大体の統計分析ソフトウェアを使えば、 この程度の計算は簡単にできる 187
𝒕分布の利用 𝒕分布から計算できる%点色々(自由度が4の時) 参考(覚えなくていいです) 2.5%点 𝑡0.025 ≈ −2.776 𝑡0.05 ≈ −2.132 5%点 10%点 50%点 90%点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←50%点=中央値 95%点 𝑡0.95 ≈ 2.132 97.5%点 𝑡0.975 ≈ 2.776 188
𝒕分布の利用 𝒕分布から計算できる%点色々(自由度が4の時) 参考(覚えなくていいです) 平均値(0)を中心に 2.5%点 𝑡0.025 ≈ −2.776 左右対称 𝑡0.05 ≈ −2.132 5%点 10%点 50%点 90%点 𝑡0.1 ≈ −1.533 𝑡0.5 = 0 𝑡0.9 ≈ 1.533 ←50%点=中央値 95%点 𝑡0.95 ≈ 2.132 97.5%点 𝑡0.975 ≈ 2.776 189
𝒕分布の利用 自由度4の𝒕分布の%点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776
𝒕分布の利用 自由度4の𝒕分布の%点 𝑡0.025 ≈ −2.776 𝑡0.975 ≈ 2.776 𝑡0.025 以上、𝑡0.975 以下になる 確率は95% =この範囲の面積が0.95
𝒕分布の利用 𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 ത 𝑋:標本平均 𝜇:母平均 𝑆𝐸:標準誤差 今までのまとめ 確率変数がある範囲に入る確率などを計算できる 例) 自由度𝑘の𝑡分布に従う確率変数𝑌において 𝑃 𝑡0.025 ≤ 𝑌 ≤ 𝑡0.975 = 0.95 ここからの類推 標本抽出のモデルを使えば、以下が成り立つ 𝑃 𝑡0.025 ≤ 𝑡値 ≤ 𝑡0.975 = 0.95 𝑃 𝑡0.025 𝑋ത − 𝜇 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 192
𝒕分布の利用 𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 ത 𝑋:標本平均 𝜇:母平均 𝑆𝐸:標準誤差 基の不等式 標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑋ത − 𝜇 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝜇 ≤? ?≤𝜇 「?」には何が入るか 193
𝒕分布の利用 不等式を母平均𝝁について解く① 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑡0.025 ≤ 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑡0.025 ∙ 𝑆𝐸 ≤ 𝑋ത − 𝜇 𝑡0.025 ∙ 𝑆𝐸 − 𝑋ത ≤ −𝜇 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 194
𝒕分布の利用 不等式を母平均𝝁について解く② 𝑋ത − 𝜇 𝑋ത − 𝜇 ≤ 𝑡0.975 𝑡0.025 ≤ ≤ 𝑡0.975 𝑆𝐸 𝑆𝐸 𝑋ത − 𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 −𝜇 ≤ 𝑡0.975 ∙ 𝑆𝐸 − 𝑋ത 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 195
𝒕分布の利用 𝑋ത − 𝜇 = 𝑡値 𝑆𝐸 ത 𝑋:標本平均 𝜇:母平均 𝑆𝐸:標準誤差 今までのまとめ 標本抽出のモデルを使えば、以下が成り立つ 𝑋ത − 𝜇 𝑃 𝑡0.025 ≤ ≤ 𝑡0.975 = 0.95 𝑆𝐸 上記の不等式を母平均𝝁について解く 𝑃 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 = 0.95 母平均について、 確率を加味した「区間」を提示できた! 196
区間推定 ത 𝑋:標本平均 𝜇:母平均 𝑆𝐸:標準誤差 母平均の区間推定 標本抽出のモデル想定したうえで、以下の範囲を計算する 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 上記の範囲を「母平均の95%信頼区間」と呼ぶ 上記のように信頼区間を求める方法を「区間推定」と呼ぶ 𝑡0.025 , 𝑡0.975 の代わりに、好きな%点𝑡𝛼 を使えば、 様々な「○○%信頼区間」が計算できる 信頼の度合いを確率で表現しながら 母平均の区間を求める 197
区間推定 計算演習 配布プリントを使って、母平均の区間推定の計算を解説 →穴埋め式になっている。空白を埋めよう! 198
区間推定 区間推定の補足(母分散が既知の場合) 教科書などでは「母分散が既知の場合」と 「母分散が未知の場合」で場合分けをしたうえで 母平均の区間推定を行っている →現実的に「母分散が既知」というシチュエーションは ありえないので、今回の講義では省略した 母分散𝜎 2 が既知の場合は𝑡値の代わりに𝑧値を使う 𝑡値 = 𝑋ത − 𝜇 𝑈 2ൗ 𝑛 𝑋ത − 𝜇 = 𝑆𝐸 𝑧値 = 𝑋ത − 𝜇 𝜎 2ൗ 𝑛 199
区間推定 𝑧値 = 𝑋ത − 𝜇 𝜎 2ൗ 𝑛 区間推定の補足(母分散が既知の場合) 標本抽出のモデルを利用すると 𝑧値は標準正規分布に従うことが証明できる 標準正規分布は、平均0、分散1の正規分布 自由度などは考慮しなくてもOK →計算がちょっと簡単になる →でも、利用できるシチュエーションはほぼ存在しない 200
区間推定 𝑧値 = 𝑋ത − 𝜇 𝜎 2ൗ 𝑛 区間推定の補足(母分散が既知の場合) 自由度が無限である𝑡分布は標準正規分布と一致する →サンプルサイズが増えると、 𝑡分布と標準正規分布のどちらを使っても、 信頼区間の計算結果はほとんど変わらない →とはいえ、標準正規分布を使う積極的な理由もない 今回の講義では𝑡値と𝑡分布を使って信頼区間を計算する もしも標準正規分布を使って信頼区間を計算したいなら 自由度が無限であるときの𝑡分布の%点を使えばOK (参照する%点が変わるだけ) 201
統計学 II 第8回:区間推定2 母分散の区間推定
不偏分散の標本分布の復習 203
区間推定 204
内容 1.区間推定の復習 2.母分散の区間推定の計算 205
内容 1.区間推定の復習 2.母分散の区間推定の計算 206
区間推定 点推定 推定値を1つだけ提示する 用語の使用例 標本の平均値が25.1だったので 母集団の平均値も25.1と点推定されました 点推定値として、標本から計算された 統計量と同じ値を使った 207
区間推定 区間推定 推定値に幅を持たせた推定方法のこと 今回は母分散の区間推定の問題を扱う 信頼係数 区間推定の幅における信頼の度合いを、 確率で表現したもの。95%がしばしば使われる (90%などほかの信頼係数でもOK) 95%信頼区間 95%の信頼係数を満たす区間のこと 今回は母分散の95%信頼区間を計算する 208
区間推定 信頼限界 信頼区間の、下限値(下側信頼限界)と 上限値(上側信頼限界)のこと 用語の使用例 信頼係数を95%と指定して、区間推定を行いました 95%信頼区間は、 20 ~ 30 と計算されました 下側信頼限界 上側信頼限界 209
95%信頼区間の意味 95%という数字は、「長い目で見て」解釈ができる値 「何度も何度も標本抽出と信頼区間の計算」を 繰り返すことを想定して解釈する 95%信頼区間の意味 母集団からの標本抽出を100回(本当はもっとたくさん)行う 標本から95%信頼区間を100回求めた時 およそ95回は、その区間に母平均・母分散を含むはず 210
95%信頼区間の意味 母分散 95%信頼区間 この2つは 母分散を含まない たくさん計算された95%信頼区間が、 正しい母分散を含む割合は95% 211
内容 1.区間推定の復習 2.母分散の区間推定の計算 212
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点 確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼%点」と呼ぶ 例) 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 𝜒0.05 は5%点 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 𝜒0.025 は2.5%点 自由度(サンプルサイズから求まる)さえ 決めれば、機械的に計算可能 213
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点(自由度が4の時) 確率変数𝑌が「ある値𝜒𝛼2 」以下となる確率が100𝛼%である → 𝑃 𝑌 ≤ 𝜒𝛼2 = 𝛼 →このような𝜒𝛼2 のことを「100𝛼%点」と呼ぶ 例) 2 𝛼 = 0.05の場合𝑃 𝑌 ≤ 𝜒0.05 = 0.05となる 2 2 𝜒0.05 は5%点𝜒0.05 ≈ 0.71 2 𝛼 = 0.025の場合𝑃 𝑌 ≤ 𝜒0.025 = 0.025となる 2 2 𝜒0.025 は2.5%点𝜒0.025 ≈ 0.48 大体の統計分析ソフトウェアを使えば、 この程度の計算は簡単にできる 214
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点色々(自由度が4の時) 参考(覚えなくていい) 2 ≈ 0.48 2.5%点 𝜒0.025 2 5%点 𝜒0.05 ≈ 0.71 10%点 50%点 90%点 2 𝜒0.1 ≈ 1.06 2 𝜒0.5 ≈ 3.36 2 𝜒0.9 ≈ 7.78 ←50%点=中央値 2 95%点 𝜒0.95 ≈ 9.49 2 97.5%点 𝜒0.975 ≈ 11.14 215
𝟐 𝝌 分布の利用 𝝌𝟐 分布から計算できる%点色々(自由度が4の時) ある範囲に収まる確率の計算 2 2.5%点 𝜒0.025 ≈ 0.48 2 97.5%点 𝜒0.975 ≈ 11.14 自由度4の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 2.5%から97.5%点の間に「95%」が収まる →97.5ー2.5=95 216
𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の%点 2 𝜒0.975 ≈ 11.14
𝟐 𝝌 分布 2 𝜒0.025 ≈ 0.48 自由度4の𝝌𝟐 分布の%点 2 𝜒0.975 ≈ 11.14 2 2 𝜒0.025 以上、 𝜒0.975 以下の 𝜒 2 値が発生する確率は95% =この範囲の面積が0.95
𝟐 𝝌 分布の利用 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 今までのまとめ 確率変数がある範囲に入る確率などを計算できる 例) 自由度𝑘の𝜒 2 分布に従う確率変数𝑌において 2 2 𝑃 𝜒0.025 ≤ 𝑌 ≤ 𝜒0.975 = 0.95 ここからの類推 標本抽出のモデルを使えば、以下が成り立つ 2 2 𝑃 𝜒0.025 ≤ 𝜒 2 値 ≤ 𝜒0.975 = 0.95 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 219
𝟐 𝝌 分布の利用 𝑈 2 :不偏分散 𝑛−1 2 2 値 𝜎 2 :母分散 𝑈 = 𝜒 𝜎2 𝑛:サンプルサイズ 元の不等式 標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑛−1 2 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 0.975 𝜎2 𝜎 2 ≤? ? ≤ 𝜎2 「?」には何が入るか 220
𝟐 𝝌 分布の利用 不等式を母分散𝝈𝟐 について解く① 𝑛−1 2 2 𝑛−1 2 𝜒0.025 ≤ 𝑈 2 2 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝜎 2 ∙ 𝜒0.025 ≤ 𝑛 − 1 𝑈2 2 𝑛 − 1 𝑈 𝜎2 ≤ 2 𝜒0.025 221
𝟐 𝝌 分布の利用 不等式を母分散𝝈𝟐 について解く② 𝑛−1 2 2 𝑛−1 2 𝑈 ≤ 𝜒 2 2 0.975 𝜒0.025 ≤ 𝑈 ≤ 𝜒 𝜎2 0.975 𝜎2 2 𝑛 − 1 𝑈 2 ≤ 𝜎 2 ∙ 𝜒0.975 𝑛 − 1 𝑈2 2 ≤ 𝜎 2 𝜒0.975 222
𝟐 𝝌 分布の利用 𝑈 2 :不偏分散 𝑛−1 2 2 値 𝜎 2 :母分散 𝑈 = 𝜒 𝜎2 𝑛:サンプルサイズ 元の不等式 標本抽出のモデルを使えば、以下が成り立つ 𝑃 2 𝜒0.025 𝑛−1 2 2 ≤ 𝑈 ≤ 𝜒 = 0.95 0.975 2 𝜎 上記の不等式を母分散𝝈𝟐 について解く 𝑃 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 = 0.95 母分散について、 確率を加味した「区間」を提示できた! 223
𝟐 𝝌 分布の利用 𝑈 2 :不偏分散 𝜎 2 :母分散 𝑛:サンプルサイズ 母分散の区間推定 標本抽出のモデル想定したうえで、以下の範囲を計算 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 上記の範囲を「母分散の95%信頼区間」と呼ぶ 2 2 𝜒0.025 , 𝜒0.975 の代わりに、好きな%点𝜒𝛼2 を使えば、 様々な「○○%信頼区間」が計算できる 信頼の度合いを確率で表現しながら 母分散の区間を求める 224
区間推定 計算演習 配布プリントを使って、母分散の区間推定の計算を解説 →穴埋め式になっている。空白を埋めよう! 225
中間テストまでの復習 226
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 4.点推定とその根拠づけ 5.区間推定 227
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 4.点推定とその根拠づけ 5.区間推定 228
問題意識 母集団:知りたいと思っている集団全体 今回の例では、湖の中にいるすべての魚 229
問題意識 標本 :手に入れた一部のデータ 標本抽出:標本を得る行為 230
問題意識 たまたま 「中くらいのサイズ」 の魚が釣れた 231
問題意識 たまたま 「小さめのサイズ」 の魚が釣れた 232
問題意識 たまたま 「大きめのサイズ」 の魚が釣れた 233
問題意識 ランダムに一部の魚を標本として抽出 ここで確率が登場する 234
問題意識 湖の中のすべての魚の体長 母集団 すべてのデータ 未知のデータを含む 標本 母集団の一部 手に入ったデータ 釣りをして得られた魚の体長 標本を使って、母集団の議論 手持ちのデータで未知データの議論
問題意識 母集団にまつわる用語 母平均→母集団の平均 母分散→母集団の分散 (標本平均とは区別) (標本分散とは区別) 母平均を推定してみよう 母集団分布の平均を言い当てることを目指す 236
問題意識 「釣った魚」の体長の平均値 が4cmだった(標本平均) だから 「湖の中のすべての魚」も 体長の平均値は 4cmなのでは?(母平均) 237
問題意識 母平均の推定くらい、簡単? 標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測する なんか4cmって小さくない? 標本平均に5を足した結果を使おうぜ! たくさんのデータを集計するの面倒だな~ そうだ、データを1つだけ選んで、それを使おう! 無茶苦茶な意見に聞こえる でも、具体的に「何が悪い」のか? 238
問題意識 母平均の推定くらい、簡単? 標本平均に5を足した結果を使うとどうなる? ほとんどのデータを捨てて、1つだけを使うとどうなる? そんなことしたらダメだろ! え~、なんで~ どのみち母集団のことわかんないだから、 好きに計算したらいいじゃん。 たまたま「小さめのサイズ」の魚ばっかり釣れたん だったら大きめに補正した方がいいでしょ? 239
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 4.点推定とその根拠づけ 5.区間推定 240
モデルを用いた解決案 モデル 現象を単純化した「模型」のこと プラモデルのモデル 後期ではモデルの使い方を 何度もシチュエーションを変えて 説明する モデルを使うメリット 実際に行動する前に、 結果について議論できる 241
モデルを用いた解決案 統計学におけるモデル 観測したデータを生み出す確率的な過程を 簡潔に記述したもの。 Graham Upton, Ian Cook.(白幡慎吾 監訳).(2010).統計学辞典.共立出版 モデルを使うメリット 実際にデータを取得する前に、 得られるであろう結果について議論できる 242
モデルを用いた解決案 モデルの例 飛行機のモデル(模型)を考える ぼくの考えた「さいきょう」の 飛行機だよ!! (馬場が描きました) プロペラが無いので飛ばない 243
モデルを用いた解決案 モデルの例 飛行機のモデル(模型)を考える モデルを使えば、 実際に行動する前に、結果について議論できる 何億円ものお金をかけて本物を作る前に、 空気抵抗や推進力などいろいろなことを検討できる 統計学IIでプラモデルを作ることはない 統計モデルと呼ばれるモデルを作る 244
モデルを用いた解決案 推測統計の問題に、どうやって取り組むのか 認めること① 標本という「一部」しか使わないので 「母集団を完全に明らかにする」ことは無理 認めること② 標本は確率的に変動する 「標本から計算された統計量」も確率的に変動する それでも頑張ること。それでもなお、あきらめないこと 標本や「標本から計算された統計量」が どのように変化するか、確率的な特徴を明らかにする 245
モデルを用いた解決案 標本から計算された統計量の確率的な挙動を探る方法 「標本抽出+標本平均の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 標本平均を何度も計算する 標本平均○○ 標本平均×× 標本平均がたくさん得られる 標本平均△△
モデルを用いた解決案 標本から計算された統計量の確率的な挙動を探る方法 「標本抽出+標本平均の計算」を、何度も何度も行う 例)同じ条件で湖から釣りをして5つの標本を得て、 標本平均を何度も計算する 標本平均○○ 標本平均×× 標本平均△△ たくさん得られた標本平均を集計することで、 たまたま「中くらいのサイズ」の標本平均になる割合や たまたま「大きめのサイズ」の標本平均になる割合などがわかる すると、確率的な挙動について調べることができるはず! 標本平均がたくさん得られる
モデルを用いた解決案 素朴な方法論の問題点 何度も何度も湖に出かけないといけない 何度も釣りをして、何度も平均値を計算するのは手間 現実的には、同じ調査を何度もやるのは極めて困難! 標本平均○○ 標本平均×× そうだ。モデルを使おう 標本平均△△
モデルを用いた解決案 モデルの利用 標本や、標本から計算される統計量の 確率的な変化について調べるために、モデルを使う 「本物の飛行機を飛ばすことはしないで、 プラモデルの飛行機を使って空気抵抗を調べる」 同じような使い道! 「実際に何度も調査に行くことはしないで、 モデルを使って、統計量などの確率的性質を調べる」 249
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 4.点推定とその根拠づけ 5.区間推定 250
統計学IIで利用するモデル 単純なモデルを利用した推測 統計学IIでは 「正規母集団」からの「単純ランダムサンプリング」 という極めて単純な想定をしたうえでモデルを構築する 統計学の入門編ではこのモデルを使う 現実に見合うかどうか、注意が必要 251
統計学IIで利用するモデル 単純なモデルを利用した推測 統計学IIでは 「正規母集団」からの「単純ランダムサンプリング」 という極めて単純な想定をしたうえでモデルを構築する まずは単純ランダムサンプリングの 復習から 252
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 仮定①:単純ランダムサンプリング 仮定②:正規母集団 253
単純ランダムサンプリング 単純ランダムサンプリング(無作為抽出) 母集団の1つ1つが無作為に、言い換えると 「すべて等しい確率で選ばれる」という選び方 以下では単に「サンプリング」と書いた場合、 それは単純ランダムサンプリングを指すことにする 単純ランダムサンプリングによって 標本が抽出されたというのがとても大事 254
単純ランダムサンプリング 母集団分布 母集団が従う確率分布 無作為標本 単純ランダムサンプリングによって得られた標本のこと 無作為標本の特徴(とても大事) 標本は、母集団分布に従う確率変数とみなせる サンプルサイズ 標本の大きさ。観測値の個数。 魚を2尾釣ったならサンプルサイズは2 255
単純ランダムサンプリング 母集団分布の例 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.2 0.2 0.2 0.2 0.2 単純ランダムサンプリングによって、 母集団分布に従い標本が得られる →どの体長も、0.2の確率で得られる
単純ランダムサンプリング 母集団分布の例 (別の湖) 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.1 0.2 0.4 0.2 0.1 この湖では、3㎝の魚が多くいる →この湖で釣りをすると、3㎝の魚が 釣れやすいはずだ!
単純ランダムサンプリング 母集団分布の例 (さらに別の湖) 体長 1㎝ 2㎝ 3㎝ 4㎝ 5㎝ 確率 0.1 0.1 0.2 0.2 0.4 この湖では、5㎝の魚が多くいる →この湖で釣りをすると、5㎝の魚が 釣れやすいはずだ!
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 仮定①:単純ランダムサンプリング 仮定②:正規母集団 259
正規母集団 正規分布とは 確率分布の1種 パラメータを変えることで、様々な確率分布を作れる 正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 平均(期待値)が𝜇で、分散が𝜎 2 、標準偏差が𝜎となる 正規分布という確率分布を 魚の体長の分布を表現するモデルに使う 260
正規母集団 正規分布の確率密度関数のグラフ 261
正規母集団 正規分布のグラフの特徴 「釣り鐘型」や「ベル型」 と呼ぶこともある 平均に対して左右対称 平均値𝜇に対して 左右対称 262
正規母集団 魚の体長の変化の仕方 「魚の体長の母集団分布が正規分布に従っている」 という場合、 魚の体長はどのように変化していると考えられるだろうか 263
正規母集団 仮定①:魚の「標準的な大きさ」は決まっている コイツが標準的な大きさの魚 仮定②:小さな変化の積み重ねで体長が変化 食べ物の多い・少ない 気温の高い・低い 雨量の多い・少ない 小さな変化の積み重ねは何をもたらす? 264
正規母集団 小 標準 大 たまたま食べ物が多かった ちょっとだけ大きくなる 265
正規母集団 小 標準 大 たまたま気温が低かった 標準体長に戻る 正負の影響が混ざって、元に戻る 266
正規母集団 小 標準 ×食べ物、×気温 (アンラッキー) 大 ○食べ物、○気温 (ラッキー) 極端な結果にはなりにくいはず 267
正規母集団 1.体長は平均0の小さな誤差の積み重ねで決まると仮定 2.小さな誤差は、正負共に50%の確率で加わると仮定 ほかにもいくつかの導出がある 1 2 1 4 標準 1 2 1 2 1 4 268
体長のヒストグラム 正規母集団 1 2 1 4 標準 1 2 1 2 1 4 標準体長になる確率が最も高い 極端な体長になる確率は低い 269
正規母集団 体長のヒストグラム 左右対称のベル型 270
正規母集団 小さな変化の積み重ねで体長が変化 1 2 標準 1 4 1 2 1 2 1 4 正規分布の確率密度関数 Normal 𝑋 𝜇, 𝜎 2 = 1 2𝜋𝜎 2 𝑒 𝑥−𝜇 2 − 2𝜎 2 体長分布のモデルとして正規分布を使う 271
正規母集団 中心極限定理 𝑛個の独立同一分布に従う確率変数𝑋1 , 𝑋2 , … , 𝑋𝑛 において、 確率変数の期待値を𝜇と分散を𝜎 2 とする。 𝑛個の確率変数の合計値が従う確率分布は、 𝑛が大きくなると正規分布に近づく 確率変数がたくさんあれば、 その合計値は正規分布に従う 272
正規母集団 中心極限定理のいいところ 確率変数の合計値が正規分布に近づくことの数学的な定理 正規分布をモデルとして利用することの理由付けの1つ 中心極限定理の注意点 確率変数の合計値が正規分布に近づくことに注意 確率変数そのものが正規分布に従うと勘違いしないように (本屋で売られている本でも間違った記載がたまにある) 𝑛がいくつ以上あればよいのかは、割と不明確 (30以上と書いてある本もあるが、根拠はないので注意) 273
本来、現実は複雑 統計学IIで利用するモデル でも、単純な状況を想定する 現実世界の想定 母平均𝜇母分散𝜎 2 の正規母集団から 単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得した 対応 モデル 標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である 274
統計学IIで利用するモデル 現実世界の想定 母平均𝜇母分散𝜎 2 の正規母集団から 単純ランダムサンプリングでサンプルサイズ𝑛の標本を取得した 対応 モデル 標本𝑋𝑖 は独立で同一な確率分布Normal 𝑋 𝜇, 𝜎 2 に従う 𝑛個の確率変数である 確率論の言葉を使って、 現実世界を計算しやすいようにモデル化 275
統計学IIで利用するモデル モデルを作るときに大切にすること(私案) モデルはなるべく使いやすいほうがいい • 解釈がしやすい • 計算がしやすい (正規分布は、ほとんどの統計ソフトで利用できる) モデルはなるべく現実に合うものにしたい • 現実と異なるモデルを作っても意味がない • 予測が当たらない、母集団が現実と異なる…… モデルは、その扱いやすさと、 現実への整合性の2つが大切 276
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 4.点推定とその根拠づけ 5.区間推定 277
点推定とその根拠づけ 母平均の推定くらい、簡単? 標本平均を計算して、それを母平均だと考えてみる →標本平均が4cmなら、母平均も4cmだと推測する なんか4cmって小さくない? 標本平均に5を足した結果を使おうぜ! たくさんのデータを集計するの面倒だな~ そうだ、データを1つだけ選んで、それを使おう! 278
点推定とその根拠づけ 不偏性 推定量の期待値が、 母集団のパラメータと等しくなる特性のこと 不偏推定量 不偏性を持つ推定量のこと 不偏推定量は、平均すると、過大にも、 過少にもなっていない偏りのない推定量 279
点推定とその根拠づけ 一致性 サンプルサイズが大きくなると、 推定量が正しいパラメータに近づくという特性のこと 一致推定量 一致性を持つ推定量のこと サンプルサイズが無限に大きいなら、 推定量と母集団のパラメータは一致する 280
点推定とその根拠づけ 標本平均 標本平均は母平均に対する 不偏推定量であり、一致推定量でもある 𝑛 標本平均 𝑋ത = 1 𝑋𝑖 𝑛 𝑖=1 不偏分散 不偏分散は母分散に対する 不偏推定量であり、一致推定量でもある 𝑛 不偏分散 𝑈2 1 = 𝑋𝑖 − 𝑋ത 𝑛−1 𝑖=1 281 2
点推定とその根拠づけ 点推定値の特徴 母平均の点推定のために標本平均を使う 母分散の点推定のために不偏分散を使う 「なぜ」これらの指標を使うのか、説明できるように ある「良さの基準」を想定することで、 上記の指標を使うことが正当化される →ほかの「良さの基準」を想定するならば、 ほかの指標を使うべきという結論になるかも (今回の統計学IIでは気にしなくてOK) (勉強を続けると、様々な「良さの基準」に出くわすはず) 282
内容 1.問題意識 2.モデルを用いた解決案 3.統計学IIで利用するモデル 4.点推定とその根拠づけ 5.区間推定 283
区間推定 母平均の95%信頼区間 標本抽出のモデル想定したうえで、以下の範囲を計算 𝑋ത − 𝑡0.975 ∙ 𝑆𝐸 ≤ 𝜇 ≤ 𝑋ത − 𝑡0.025 ∙ 𝑆𝐸 母分散の95%信頼区間 標本抽出のモデル想定したうえで、以下の範囲を計算 2 𝑛 − 1 𝑈2 𝑛 − 1 𝑈 2 ≤ ≤ 𝜎 2 2 𝜒0.975 𝜒0.025 284
区間推定 モデルと現実の対応に要注意 モデルの飛行機には、エンジンもプロペラもあって ちゃんと飛ぶことがわかりました でもなんか、本物の飛行機は飛ばんのだが 本物の飛行機には、エンジンついてないからね~ ダメじゃん
区間推定 モデルと現実の対応に要注意 母平均の95%信頼区間は〇~×の範囲になったよ! データは正規母集団からの無作為標本? 全然違います。テキトーな感じでデータとりました ダメじゃん
区間推定 モデルと現実の対応に要注意 正規母集団からの無作為標本でなければ、 𝑡値は𝑡分布に従わない → 𝑡分布を使った区間推定は 現実と全然違う飛行機の模型を飛ばすようなもの →モデルを使って得られた結果の利用は要注意 完璧に現実世界を反映した「正しいモデル」は おそらく作ることができない けれども、できるだけ現実との乖離を減らすための 努力をすることは大切 あるいは「モデルというレンズ(色眼鏡)」を通して 世界を見ているという意識を持つことが大切 287
区間推定 モデルを利用する際の格言 Boxという先生の以下の格言が有名 全てのモデルは間違っている だが、その中のいくつかは役に立つ All models are wrong, but some are useful 参考:Wikipedia(最終閲覧2022年2月18日) https://en.wikipedia.org/wiki/All_models_are_wrong モデルを使うと色々なことがわかるけど、 モデルと現実世界の対応関係に気を遣う必要がある 288