3.5K Views
December 22, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「09_推定」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 09 推定 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
前回のおさらい ▌母集団分布が正規分布じゃなくても 母集団分布が平均𝜇,分散𝜎 2 の場合 標本分布は 𝑁 𝜎2 𝜇, 𝑛 母集団が正規分布じゃなくても になる 私達が実際に 分かる範囲 標本分布 母集団分布 標本平均 𝑥ҧ 𝜎2 𝑥,ҧ 𝑛 標本分布𝑁 を生み出す母集団分布は 形はともかく母平均は 𝑥ҧ と考えるのが妥当だろう! 標本平均 𝑥ҧ を生み落とした 標本分布は𝑁 𝜇 = 𝜎2 𝑥,ҧ 𝑛 が最もしっくり来る 𝜎 2 がすでに分かっているとしたら 母集団が正規分布じゃなくても 09 推定 2
前回のおさらい ▌標本分散に関する推測 母集団分布が平均𝜇,分散𝜎 2 の場合の標本分布は 𝑛−1 2 形はともかく期待値が 𝜎 になる 母集団が正規分布じゃなくても 𝑛 標本分布 母集団分布 形は母集団分布による 𝑛−1 2 とにかく期待値が 𝜎 𝑛 私達が実際に 分かる範囲 標本分散 𝑠𝑥2 標本分散 期待値が𝑠𝑥2 になる標本分布を生み出す母集団分布は 𝑛 形はともかく母分散は 𝑠𝑥2 と考えるのが妥当だろう! 標本分散 𝑠𝑥2 を生み落とした 標本分布の期待値は当然 𝑠𝑥2 が最もしっくり来る 𝑛−1 上の青い部分の逆数 09 推定 3
いよいよ推定していきましょう ▌まずは点推定のお話です A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 全国の高校生100人にオンライン調査し 4 3 女 160 5 4 男 178 たら,平均勉強時間が2.5時間だった。 6 5 女 153 ふきだし 今年の全国の高校生の勉強時間の 7 6 男 169 8 7 男 165 平均ってどんなもんだと思う?? 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 そりゃ2.5時間なんじゃないですか…? 直感的にもそんな予測になるうえに, このケースではその予測で全く正しいのですが… 「一つの値を出せ」と言われたら 2.5時間で良いでしょう。 今回は • なぜその直感的な考え方で正しいと言えるのか • 母平均以外でもその考え方は通用するのか を見ていきましょう 09 推定 4
点推定 point estimation ▌目的は母数を当てること 推定値が母数に近いほどうれしい ▌勘と経験に頼るのは? 母平均を推定してよ A 1 ID 過去の経験などから決める ざっと見た感じ大体○○じゃないっすか? 客観的じゃないので説得力に欠ける B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 8 7 男 165 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 推定の方法に根拠が無いと 正しいかもわからない ▌推定をもっと統計的に考えると… 標本から得た標本統計量に基づいて推定するのが自然 09 推定 5
統計量をつかって推定する ▌直感的には母数に対応する標本統計量をまず思いつく 母平均を推定してよ ならとりあえず標本平均でしょうな ▌でも実は何でも良いのでは? 母平均を推定してよ 究極的には母数はわからないので どちらがより真値に近いか本来はわからない (というか標本によって変わる) ここ ヒストグラムの形的にも 標本中央値とかどうすか? どの標本統計量を使うと良いのか? 09 推定 6
推定量 estimator ▌母数を推定する時に使用する統計量のこと 一般的には母数を𝜃,推定量を𝜃と表します 得られたデータに基づいて推定した値(推定量の実現値) のことは推定値 (estimate) と呼びます 例| 母平均の推定量として標本平均を用いる場合 ▶ 𝜃 = 𝜇, 𝜃 = 𝑥ҧ ▌「良い」推定量を選ぶ必要がある 前ページの例で言えば,まず少なくとも no problem 母平均の推定量として標本平均を使っても「良い」 ことを示した上で,何らかの基準によって better 母平均の推定量としては標本中央値より標本平均のほうがより「良い」 と証明できれば良い 標本平均こそが正義 じゃあどんな基準で推定量の良さを測ったらいいの? 09 推定 7
「良い」推定量を選ぼう ▌統計学なので「何回も繰り返したら」と考えてみる 期待値は母数に一致していてほしい ▶ 不偏性 標本統計量では標本分布が得られる ▼ 期待値や分散を計算することが出来る 平均的に推定がズレてたら困る 中心極限定理とか大数の法則とか 𝐸 𝜃 = 𝜃 母数周辺でなるべくバラつかないでほしい ▶ 有効性(効率性) できればどんな標本でも母数近くに 𝑉 𝜃 がなるべく小さい ▌統計学なので「サンプルサイズが大きかったら」と考えてみる サンプルサイズが無限だったらさすがに母数に一致していてほしい ▶ 一致性 lim 𝑃 𝜃 − 𝜃 > 𝜀 = 0 𝑛→∞ とても小さな値 09 推定 または lim 𝐸 𝜃 = 𝜃 不偏性が満たされてたらOK ቐ𝑛→∞ lim 𝑉 𝜃 = 0 𝑛→∞ 8
(補足)推定量の性質の優先順位 ▌点推定の目的をおさらいすると p. 5 点推定 𝜃と𝜃の差が小さいほどうれしい 目的は母数を当てること ▶𝐸 推定値が母数に近いほどうれしい 勘と経験に頼るのは? ▌誤差の期待値を分解すると 母平均を推定してよ 𝐸 𝜃መ − 𝜃 2 = 𝐸 𝜃መ − 𝜃 2 𝜃 − 𝜃 2 が小さいほどうれしい 過去の経験などから決める ざっと見た感じ大体 + 𝑉 𝜃መ ▶ じゃないっすか? 推定量のズレ + 推定量のばらつき トレードオフの関係にあることが知られている 客観的じゃないので説得力に欠ける 正しいかもわからない 推定の方法に根拠が無いと 推定をもっと統計的に考えると ▌とりあえず不偏性を満たす推定量のなかで考えることが多い 標本から得た に基づいて推定するのが自然 サンプルサイズを増やせば 𝑉 𝜃 は小さくできるので 推定 09 推定 9
母平均に対する標本平均は「良い」のか? 母平均が 𝜇 のとき,中心極限定理によって標本平均の標本分布は𝑥ҧ ∼ 𝑁 ▌とりあえず不偏性が満たされていたらそのまま使える 𝜎2 𝜇, 𝑛 不偏性あり 標本平均の標本分布の期待値は 𝐸 𝑥ҧ = 𝜇 ▶ 𝜇Ƹ = 𝑥ҧ とおけば 𝐸 𝜇Ƹ = 𝜇 ▌有効性はどうだろうか 有効性あり 標本平均の標本分布の分散は 𝑉 𝑥ҧ = 𝜎2 𝑛 ▶ どんな推定量よりも小さいと知られている 例えば標本中央値の標本分布は ▌一致性はどうだろうか 一致性あり (大数の法則から明らかに) lim 𝑉 𝑥ҧ = 𝑛→∞ 𝜎2 lim 𝑛→∞ 𝑛 母集団分布に関わらず =0 有効性 𝜋 𝜎2 𝑁 𝜇, 2 𝑛 標本平均こそが最強 不偏性 母平均に対して,標本平均は最小分散不偏推定量である 09 推定 10
イントは「標準 」しているという点 じゃあ母分散に対して標本分散はどうなのか? 標本を標準 する場合,標本平均 理 ▶ 2 の 標本分布は無限さ を って標準 する = なくとも 関数の を える場合, 標準 している時点で標本平均は 定される 的には 標本における 2 の 中心極限定理みたいなものはないですが 標本平均が ならば = + + 2 ▶ は になる 母集団分布の分散を 2 で表すと まとめると 関数の 母集団分布が ン 分布 の 分布 2 の期待値は なので 関数 = 2 の期待値はやはり 標本分布 2 母集団分布が何であっても 2 2 の分散 な = 2 2 変数の 2 2 2 2 2 の の 2 の標本分散は 分布は の 分布 2 ▶ 平均値 分散 2 = = イ または 𝑛− 𝐸 = 𝜎2 𝑛 分布 ▼ 不偏性が無い 𝑠𝑥2 何 の か るいは ラ ータ 2 がある 分布 標準正規分布に従う 2 の の分散 2 標本分布 2 よく使う(関心がある)標本統計量は平均値と分散くらい 標本平均と標本分散の標本分布には関数の によらない 2 2 標本分散の標本分布は 標本最大値 標本 関係数 まずは標本平均の標本分布を見てみましょう 的に何分布になるかは によって るが イ もちろん母集団分布が正規分布のときも 標本統計量の でないといけない + するような がする は に関して標準標本平均 されたもの 標本分散 ▶ が変われば 標本中央値 も変わるため のときの の標本分布 2 , だけ 正規分布 分布 ン分布 実際には 母 標本統計量の なので が大きいほど分布は に 2 2 資料08 標本分布 2 2 0 ズレを補正した「母分散の点推定値」を 計算する必要があります 標本分布 09 推定 11
なぜちょっと小さくなるのか?(イ ージで説明) 母分散の期待値 母平均からの偏差で考える 標本分散の期待値 𝑛 𝑛 𝐸 𝑛 𝑥𝑖 − 𝜇 標本平均からの偏差で考える 2 = 𝜎2 𝐸 𝑖=1 𝑛 𝑥𝑖 − 𝑥ҧ 2 =? 𝑖=1 ▌サンプルサイズが2のときで考えてみると 𝑥1 − 𝑥ҧ 標本平均 𝑥ҧ は標本の値をもとに決まる 𝑛 ▼ 実は 𝑥𝑖 − 𝑎 2 を最小 するのは𝑎 = 𝑥のとき ҧ 𝑛 𝑖=1 ▼ 𝑥1 − 𝜇 𝑥2 − 𝑥ҧ 標本分散は母分散よりもちょっと小さくなる 𝑥2 − 𝜇 𝜇 𝑥1 𝑥ҧ 資料02 pp. 23-25 𝑥2 𝑥 𝑥ҧ からの偏差の の平均 09 推定 𝜇 からの偏差の の平均 12
具体的にどれくらい小さくなるのか?(イ ージで説明) 母分散の期待値 標本分散の期待値 𝑛 𝑛 𝐸 𝑛 𝑥𝑖 − 𝜇 2 = 𝜎2 𝐸 𝑖=1 ▌サンプルサイズが2のときで考えてみると 𝑥1 − 𝑥ҧ 𝑥2 − 𝑥ҧ 𝑥2 − 𝜇 𝑥1 2 =? 𝑖=1 サンプルサイズが小さいほど 𝜇 と 𝑥ҧ が離れやすくなるため 母分散と標本分散の乖離が大きくなっていくのです 2 𝑥1 − 𝜇 𝜇 𝑛 𝑥𝑖 − 𝑥ҧ 𝑥ҧ 𝑥2 𝑥 標本分散と母分散の差は 𝜇 と 𝑥ҧ の差で決まる 𝑥ҧ ∼ 𝑁 𝜇, 𝜎 𝑛 分散なので ▼ 𝜎2 2 = 標本平均 𝑥ҧ と母平均 𝜇 のずれの の期待値は 𝐸 𝜇 − 𝑥ҧ 𝑛 ▼ 2 𝜎 𝑛− 2 𝜎2 母分散の期待値 𝜎 から を引いたら 𝑛 𝑛 09 推定 13
標本分散の偏りを補正する 母集団分布 𝑁 𝜇, 𝜎 2 から 𝑛 個のデータをサンプリングすると 𝑛−1 2 2 2 標本分散𝑠𝑥 の期待値は𝐸 𝑠𝑥 = 𝜎 になる 𝑛 𝑛 𝑛 2 し調整して 𝑠𝑥 の期待値ならばちょうど 𝐸 𝑠𝑥2 𝑛−1 𝑛−1 𝑛 = 00 人のサンプリングを 繰り返したら 真の 母集団分布 𝑁 70,82 標本分散 母分散の予測 = 𝜎 2 になる 母分散とのズレ 65.2 65.2× 00 99 +1.86 62.9 62.9× 00 99 -0.46 63.8 63.8× 00 99 +0.44 ︙ ︙ ︙ ︙ ︙ ︙ 64.5 64.5× 00 99 +1.15 62.1 62.1× 00 99 -1.27 09 推定 ズレの 平均値 0 14
不偏性を手に入れた ▌標本分散 𝑠𝑥2 に対する 不偏分散とよぶ 𝑛 𝑠𝑥2 のことを 𝑛−1 母分散の点推定値として不偏分散を用いる作戦を何回も繰り返したら 平均的には過小推定にならないので「良い」推定といえる 体はシンプルなもの ▌式 𝑛 𝑛 の代 りに 𝑛 − で割るだけ 𝑠𝑥2 = 𝑛 𝑥𝑖 − 𝑥ҧ 2 𝑖=1 𝑛 𝑛 𝑠𝑥2 = 𝑥𝑖 − 𝑥ҧ 𝑛− 𝑛− 【ちなみに】 統計解析の フトウェ では,分散を計算する関数が デフォルトで「𝑛 − で割る」挙動になっていることが多々あります。 また,Excelやpythonには 「𝑛 − で割って不偏分散を求める関数」と 「𝑛 − で割って標本分散を求める関数」が両方用意されています。 2 ほかのどの不偏推定量よりも 分散が小さい 𝑖=1 母集団分布に関わらず ちなみに 有効性 不偏性 母分散に対して,不偏分散は最小分散不偏推定量である 09 推定 15
標本分散と不偏分散 ▌目的が違う 標本分散|手元のデータのばらつきが知りたいとき に う(記述統計) 不偏分散|母分散を予測したいとき に う(推測統計) ▌サンプルサイズが大きければ大した問題ではない 𝜎2 不偏分散と標本分散の差異は 𝑛 ちなみに 𝐸 𝑠𝑥2 = なので,𝑛 が大きければ2つはほぼ同じになる 標本分散は不偏推定量ではないですが 𝑛−1 2 𝜎 𝑛 なので lim 𝐸 𝑠𝑥2 = 𝜎 2 さらに lim 𝑉 𝑠𝑥2 = 0 になる 𝑛→∞ 𝑛→∞ ▶ 一致推定量ではあります とはいえそもそものコンセプトが違うので サンプルサイズが大きくても意識的に使い分けられるようになりましょう 09 推定 16
最尤推定 maximum likelihood estimation: MLE ▌標本統計量からは「良い」推定量が得られないことがある 標本統計量ベースでは不偏推定量が作れないことが る 特に 数の数が多い複雑な解析(多変量解析)を行う場合 ▌そんな場合でも,使える推定量を作るための方法が最尤推定 ▌尤 (ゆうど)とは もっと 観測されたデータに対して,母数の値がどの程度「尤もらしい」か 関数 密 関数 𝑃 𝑋=𝑥𝜃 𝑓 𝑋 = 𝑥|𝜃 同じ関数の見方を変える 母数が 𝜃 のとき データが 𝑥 になる (密 𝐿 𝜃 = 𝑡|𝑥 ) 𝑥 というデータが得られたとき 母数が 𝜃መ = 𝑡 という推定の尤もらしさ 09 推定 17
(密 )関数と尤 ▌𝑛 = 関数の関係 関数 の 分布の場合 𝑃 𝑋 = 𝑥 𝑛 = , 𝑝 = 3𝐶𝑥 𝑝 𝑥 −𝑝 3−𝑥 尤 𝑃 𝑋=0 𝑃 𝑋= 𝑃 𝑋=2 = 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 関数 𝑃 𝑋= 𝜃 = 0.0 1.000 0.000 0.000 0.000 𝜃 = 0. 0.729 0.243 0.027 0.001 𝜃 = 0.2 0.512 0.384 0.096 0.008 𝜃 = 0. 0.343 0.441 0.189 0.027 𝜃 = 0.4 0.216 0.432 0.288 0.064 𝜃 = 0.5 0.125 0.375 0.375 0.125 𝜃 = 0.6 0.064 0.288 0.432 0.216 𝜃 = 0.7 0.027 0.189 0.441 0.343 𝜃 = 0.8 0.008 0.096 0.384 0.512 𝜃 = 0.9 0.001 0.027 0.243 0.729 𝜃 = .0 0.000 0.000 0.000 1.000 09 推定 関数 𝑃 𝑋 = 𝑥 𝑝 = 0.2 尤 関数 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 18
尤 関数を使って最尤推定 問 あたり がわからないくじを3回引いたら2回当たりました。 このとき,当たり はいくつと推定するのが最も尤もらしいでしょうか。 尤 関数 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 ちなみに 計算すると 𝑝Ƹ = ෑ 𝐿 𝑝Ƹ = 𝑡|𝑥 = 𝑥𝑖 データは普通複数 る 𝑖=1 ▶ 無作為抽出ならば なので 単純に尤 の積を取れば良い 問 尤 関数が最も高くなる 𝑡 の値が 点推定値 𝑝Ƹ に最もふさわしい 𝑛 くじをを3人が3回引いたらそれぞれ 1回,3回,2回当たりました。 このとき,当たり はいくつと推定する のが最も尤もらしいでしょうか。 𝐿 𝑝Ƹ = 𝑡 𝑥 = × 𝐿 𝑝Ƹ = 𝑡 𝑥 = × 𝐿 𝑝Ƹ = 𝑡 𝑥 = 2 を最大 する 𝑡 の値を求めたら良い 2 3 実際はコンピュータを使った数値計算で求めます 09 推定 19
標本統計量に基づく推定量と最尤推定量の関係 簡単な 分布であれば最尤推定量は解析的に求められる ▌正規母集団の場合 𝑛 𝑛 尤度関数は ෑ 𝐿 𝜇, 𝜎 2 |𝑥 = 𝑥𝑖 𝑖=1 𝑥−𝜇 =ෑ exp − 2 2𝜎 2 2𝜋𝜎 𝑖=1 ▶ これを最大にする 𝜇, 𝜎 2 を求めたら良い 積だと最大値を求めるのが大変なので, 実際には尤 の対数をとってから計算します。 𝑛 log 𝑖=1 2 𝑥−𝜇 exp − 2𝜎 2 2𝜋𝜎 2 頑張って解くと 2 最尤推定量は 𝑛 場合によっては標本統計量と 同じ・似た形になることもある 𝜇 = 𝑥,ҧ 𝜎 2 = 𝑛 𝑥𝑖 − 𝑥ҧ 𝑖=1 2 つまり分散の最尤推定量は 不偏推定量ではありません 結局それぞれ標本平均と標本分散になる 09 推定 20
サンプルサイズの設計 ▌推定するなら誤差は小さい方が嬉しい は計算できる ▌誤差がある値以下になる 𝜎2 𝜇, 𝑛 標本平均ならば標本分布が 𝑁 になるので 期待値プラスマイナスいくつ以下の範囲に何%が含まれているか計算できる ▌最低限な必要な推定の精 を担保するために データを める前に,必要なサンプルサイズを推計しておくことができる 母平均を推定したいんだけど そんな予算な ん ○○人くらい集めると 十分に信頼できる結果が出せます ど サヨウデゴザイマスカ・・・・・・・ 09 推定 21
サンプルサイズの設計 ▌ひとことで言ってしまえば,サンプルサイズで標準誤差を操作する 問 ある農作物の重さは例年標準偏差が10gになることが知られています。 今年の農作物の重さの平均を推定することを考えたとき, 真値からの誤差が90%の で3g未満になるようにするには 最低で何個の重さを測れば良いでしょうか。 1. 農作物の重さの母平均の点推定値は標本平均 2. 標本平均の標本分布は中心極限定理によれば𝑁 102 𝜇, 𝑛 3. 真値からの誤差が90%の確率で3g未満ということは 右の図のような状態 09 推定 22
サンプルサイズの設計 ▌ひとことで言ってしまえば,サンプルサイズで標準誤差を操作する 問 ある農作物の重さは例年標準偏差が10gになることが知られています。 今年の農作物の重さの平均を推定することを考えたとき, 真値からの誤差が90%の で3g未満になるようにするには 最低で何個の重さを測れば良いでしょうか。 4. 標準正規分布表によれば およそ 𝜇 ± .64𝜎 の区間が90%なので 1.64 (標準誤差)が3より小さくなれば良い .64 × 4. これを解くと 𝑛 > 29.88 02 6.4 = < 𝑛 𝑛 【答】 30個以上 09 推定 23
点推定の限界 点推定値のばらつきは平均値ならば 中心極限定理で説明可能 ▌サンプルサイズを考慮していない 𝜎2 𝑁 𝜇, 𝑛 高校生20人に聞いたところ 平均勉強時間が2.5時間でした。 したがって,全国の高校生の平均も 2.5時間だと推定されます。 高校生2,000,000人に聞いたところ 平均勉強時間が2.5時間でした。 したがって,全国の高校生の平均も 2.5時間だと推定されます。 20人程度だと サンプルのばらつきが大きいので 2.5時間はさほど正確な予測ではないかも 200万人もデータが取れたら サンプルのばらつきもほぼゼロになるので 2.5時間はほぼ完璧な予測といえそう サンプルサイズを考慮した推定をしよう 09 推定 24
区間推定をしよう ▌結果の一般 を目指して A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 全国の高校生100人にオンライン調査し 4 3 女 160 5 4 男 178 たら,平均勉強時間が2.5時間だった。 6 5 女 153 ふきだし 今年の全国の高校生の勉強時間の 7 6 男 169 8 7 男 165 平均ってどんなもんだと思う?? 47 0.8 31 54 4.0 34 69 3.8 51 42 1.9 87 80 1.9 39 70 2.1 48 9 8 女 155 42 0.8 73 10 9 男 159 63 2.4 62 11 10 女 148 40 1.7 34 12 11 女 147 42 1.6 84 そりゃ2.5時間なんじゃないですか…? 今回 まった100人ではたまたま2.5時間だったが 別の100人に調査したら平均値は変わるはず ▶ 多 のズレを考慮した推測が求められる この区間推定の解釈は厳密には し正しくないです。 後ほど正しい解釈はお伝えしますが, 現時点では かりやすさ重視で ざと曲解します。 ランダムなばらつきを考えると 大体2.3~2.7時間くらいと予測する のが妥当ではないでしょうか。 区間推定をします 09 推定 25
区間推定の考え方は ▌台風の予報円と似ている 遠い未来の予想ほど難しいので 未来ほど予報円の直径が大きくなっているのです 過去のデータをもとに 台風の進路を予測する 11日15時の時点で 台風の中心が この円の中にある が70% 事前には わからな れど 台風の進路ははじめから 予報円は 運命づけられているようなもの 70%の確率で台風の中心が その円の中にある 09 推定 26
区間推定の考え方は ▌台風の予報円と同じように データが少ないほど予想は難しいので 予想の区間の幅が大きくなっていきます 手元のデータをもとに 母数を予測する 母平均が この区間の中にある が95% 事前にも事後にも 真の値は わからな れど 母集団分布(母平均)は 信頼区間は はじめから決まっていると考える これも厳密には正しい解釈ではない のですが,とり えずは こんな感じで理解しておいてください 09 推定 95%の確率で母数が その区間の中にある この区間の作り方を 学んでいきます 27
区間推定イ ージ① 標本分布ができるまで 2 1 母集団の分布を なにか仮定する 出現しうる標本の ターンが分かる 3 資料05 p. 23 各標本で平均値 などを計算する 標本の平均値 170.4 母集団分布 169.3 population distribution 4 を関数に置き換えた バージョン 標本の平均値の 分布を作れる ︙ ︙ ︙ ︙ 171.4 172.3 標本分布 sampling distribution 無限の母集団から 無限回サンプリングすると考える 09 推定 28
区間推定イ ージ② 信頼区間の位置づけ 2 1 母集団の分布を なにか仮定する 出現しうる標本の ターンが分かる 3 各標本で平均値 などを計算する 標本の平均値 それぞれの 170.4 母集団分布 169.3 標本で population distribution 4 標本の平均値の 分布を作れる ︙ ︙ ︙ ︙ とある 区間 172.3 171.4 を つくります 09 推定 標本分布 sampling distribution 29
区間推定イ ージ③ 95%区間をつくる 例 以後,母分散は82 とわかっているとします 100人サンプリングしたら標本平均が165.7だった 平均値周りの この標本分布の95%区間をつくる ▶ 真の母平均は からない ▶▶ 代 りに推定値(標本平均)を って 「もしも標本平均が母平均と一致していたら」 と えてみる 165.7を中心に 面積が0.95になる範囲 母集団分布が 𝑁 65.7, 82 とした場合の 上下2.5%ずつを切り取ったら95% 標本分布 𝑁 今回の場合は(164.1 – 167.3) 82 65.7, 00 最終的にこれが95%区間推定値なのですが なぜこれで区間推定ができるのでしょうか? 09 推定 30
区間推定イ ージ④ 標本平均と95%区間の関係 𝜇 = 65 標本平均 163 標本平均が この間 ??? 以後,真の母平均が165のケースを考えます 163 161.4 標本平均の値が変わると 95%区間はどう変 するか 164.6 ▶ 前スライドと同じ方法で計算 ??? 164 164 162.4 165.6 にあれば 95%区間は 165 真の母平均 165.7 𝜇 = 65 を含む 166 ??? 165 163.4 164.1 166.6 165.7 前スライドで 計算したのはこの区間 167.3 166 164.4 167.6 ??? 167 165.4 09 推定 167 168.6 31
区間推定イ ージ⑤ 95%区間が母平均を含むのは? 問 95%区間の上限が165になるのは標本平均がいくつのとき? ◀ 95%区間の上限がちょうど165になる標本分布 82 𝑁 𝑋തmin , ത の値よりも つまり,このときの 𝑋 00 しでも標本平均が小さな値のとき 95%区間は165を含まなくなります 𝑋തmin ▶ 95%区間が真の母平均を含まないという状態 09 推定 32
区間推定イ ージ⑤ 95%区間が母平均を含むのは? 問 95%区間の上限が165になるのは標本平均がいくつのとき? 正規分布の対称性を利用して考えてみます 真の母集団分布 𝑁 65,82 のもとでの標本分布 赤い分布 𝑁 青い分布|𝑁 𝑋തmin 82 65, 100 82 赤い分布の下2.5%点, 100 一方の分布の端2.5%点は 同時にもう一方の分布の平均値 を表している 青い分布の上2.5%点は赤い分布の平均値 赤い分布の下2.5%点は青い分布の平均値 09 推定 33
区間推定イ ージ⑤ 95%区間が母平均を含むのは? 問 95%区間の上限が165になるのは標本平均がいくつのとき? 正規分布の対称性を利用して考えてみます 青い分布の上端2.5%点がちょうど165なので 標本平均がこれより大きければ 95%区間は母平均を含む 𝑋തmin 青い分布の平均は左の赤い点線 ▶ 赤い分布の下側2.5%点の値を 求めてあげれば良い 09 推定 34
区間推定イ ージ⑤ 95%区間が母平均を含むのは? 問 95%区間が165を含むのは標本平均がいくつのとき? 同じように上限も考えてあげると 標本平均が青い分布の平均値と 緑の分布の平均値の間にあれば 95%区間は母平均を含むことになる 言い換えれば赤い分布の 下側2.5%点と上側2.5%点の値の間 ▶ 赤い点線の間に標本平均があれば良い そうなる確率は95%である ※緑の分布= 95%区間の下限がちょうど165になる標本分布 赤い分布は真の母集団分布に基づく標本分布なので 無数にあるうちの95%の標本平均は赤い点線の間の値になる,という意味 09 推定 35
区間推定イ ージ⑥ 標本がいっぱい取れたら グレーの分布=真の母集団分布 𝑁 𝜇, 𝜎 2 における標本平均の標本分布 黒い点は一つ一つの 標本の標本平均を表す 当然母平均 𝜇 の近くに なることが多い 09 推定 36
区間推定イ ージ⑥ 標本がいっぱい取れたら グレーの分布=真の母集団分布 𝑁 𝜇, 𝜎 2 における標本平均の標本分布 母平均の値が何であろうと 1. 標本平均の値を母平均の代わりに 使って標本分布をつくる 2. その標本分布において 95%区間を算出する を全ての標本で行うと,その区間は 必ず95%の割合で母平均を含む 全標本中5%が 作る区間は 母平均を含まない この区間を confidence interval (CI) 95%信頼区間 と呼びます 09 推定 37
ということで 区間推定イ ージ 区間をつくる 人サンプリングしたら標本平均が ▶ 真の母平均は からない ▶▶ 代 りに推定値(標本平均)を 95%信頼区間 以後,母分散は82 とわかっているとします 平均値周りの だった この標本分布の 区間をつくる って と えてみる 面積が 母集団分布が を中心に になる範囲 正確な意味 無限 る標本から その方法で区間を無限 作ると そのうち95%の標本の区間は 母平均を含む,そんな区間 間違い 65.7, 82 とした場合の 上下 標本分布 ずつを切り取ったら 今回の場合は 母平均は95%の確率で その区間の中に る 母平均は「答えは からないけど 一つに決まった値」なので ある標本から作った信頼区間が 母平均を含むかはすでに決定事 ▶ 実際に含んでいるかは一生分からないが 「場合によって含んだり含まなかったりする」 ということはない 推定 母平均は「答えは からないけど一つに決まった値」なので 「母平均が動く」かのような解釈は出来ないことに注意! 09 推定 38
輪投げのようなイ ージで ▌真の母数はすでに決まっている ▶ 輪投げの的の位置は動かない ▌データが 「真値が動く」という考え方は「輪投げの的が動く」と同じ状態です ないと信頼区間の幅は広くなる ▶ 経験が少ないと,大きい輪でないと100回中95回入れることはできない ▌データが増えると信頼区間の幅は狭くなる ▶ 経験を積むことで,より小さい輪でも100回中95回入れられるようになる 前ページまでの赤い分布は「真の母 分布に基づく標本分布」なので 例えば平均値で れば中心極限定理によって 𝑁 𝜎2 𝜇, になります。 𝑛 したがって,サンプルサイズ 𝑛 が大きくなるほど標本分布の幅は狭くなり, 結果的に下側2.5%点と上側2.5%点の値の幅も狭くなるため,信頼区間は狭くなります ※平均値だけでなく,分散や相関係数などの標本分布も同様に サンプルサイズ 𝑛 が大きくなるほど幅は狭くなるため,信頼区間も狭くなります。 09 推定 39
信頼区間の計算例 【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 1 「標本平均が正しい」と仮定して標本分布を作る 中心極限定理によって標本分布は𝑁 2 𝜎2 𝜇, 𝑛 だと かるので,今回は𝑁 82 65.7, 100 となる。 得られた標本分布のもとで95%区間を作る 信頼区間の上限を𝜇𝑈 ,下限を𝜇𝐿 とすると,求めたいのは𝑃 𝜇𝐿 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.95となる𝜇𝐿 , 𝜇𝑈 の値 正規分布は左 対称なので,半分ずつ える 上側| 𝑃 65.7 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.475となる𝜇𝑈 の値を探せば良い 下側| 𝑃 𝜇𝐿 ≤ 𝑋ത ≤ 65.7 = 0.475となる𝜇𝐿 の値を探せば良い 正規分布なので標準化して求めます 09 推定 40
信頼区間の計算例 【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 標準 標準化前 する 標本平均 𝑋ത の標本分布が 𝑁 ▶ 標準 ത 𝑋−165.7 した値 0.8 82 65.7, 100 82 = 0.82 00 に従う = 𝑍ҧ が標準正規分布 𝑁 0, に従う いま求めたいのは 𝑃 65.7 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.475 になる 𝜇𝑈 の値 ▶ 左辺を標準 すると𝑃 165.7−165.7 0.8 ≤ ത 𝑋−165.7 0.8 𝑃 0 ≤ 𝑍ҧ ≤ ≤ 𝜇𝑈 −165.7 0.8 標準化後 = 0.475 𝜇𝑈 − 65.7 = 0.475 0.8 09 推定 41
信頼区間の計算例 【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 4 標準化後 標準正規分布表から値を探す 𝑃 0 ≤ 𝑍ҧ ≤ 𝜇𝑈 −165.7 0.8 = 0.475 となるのは 𝜇𝑈 がいくつのときか? 標準正規分布表を えば,𝑃 0 ≤ 𝑧 ≤ .96 = 0.475 だと かる 𝜇𝑈 −165.7 ▶ 0.8 式 = .96 形すると 𝜇𝑈 = 65.7 + .96 × 0.8 = 67.268 標本平均 ※正規分布は左 標準誤差 対称なので,下限も同様に𝜇𝐿 = 65.7 − .96 × 0.8 = 64. つまり母平均の95%信頼区間は常に (標本平均)± 1.96 ×(標準誤差)になります 09 推定 2と求められる 【答】 164.132から167.268 42
(補足)より一般的なやり方 pp. 40-42の計算方法は分布の対称性がある場合 (標本平均の区間推定)に限り使える方法です。 【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 1 とりあえず95%区間を作る 求めたい区間の上限・下限をそれぞれ𝜇𝐿 , 𝜇𝑈 とする ▶ 𝑃 𝜇𝐿 ≤ 𝜇 ≤ 𝜇𝑈 = 0.95 になるような𝜇𝐿 , 𝜇𝑈 の値を求めたら良い 𝜇𝐿 , 𝜇𝑈 の値をどのように設定したら「𝜇𝐿 から𝜇𝑈 の間に母平均 𝜇 が含まれている確率(割合)が95%になる」のかを求めたい 2 既知の 分布に従う統計量になるように変形する 𝜎 中心極限定理により,標本平均の標本分布は𝑋ത ∼ 𝑁 𝜇, 2 𝑛 ▶ 標本平均を標準 した𝑍ҧ = ▶𝑃 𝜇𝐿 ≤ 𝜇 ≤ 𝜇𝑈 ത 𝑋−𝜇 は,標準正規分布に従う 𝜎 𝑛 ത 𝑋−𝜇 の真ん中が 𝜎 𝑛 となる 𝑋ത − 𝜇 𝑍ҧ = ∼ 𝑁 0, 𝜎 𝑛 になるように変形させると𝑃 09 推定 ത 𝑈 𝑋−𝜇 𝜎 𝑛 ≤ 一旦逆になりますが ത 𝑋−𝜇 𝜎 𝑛 ≤ ത 𝐿 𝑋−𝜇 𝜎 𝑛 43 にしない
(補足)より一般的なやり方 pp. 40-42の計算方法は分布の対称性がある場合 (標本平均の区間推定)に限り使える方法です。 【問】100人サンプリングしたら標本平均が165.7でした。母分散は82 だと分かっているとします。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 もう一つ95%区間を作る 𝑍ҧ = ത 𝑋−𝜇 が標準正規分布に従う,ということは 𝜎 𝑛 ത 𝑋−𝜇 ▶ 標準正規分布表を用いると,𝑃 − .96 ≤ 4 𝜎 𝑛 ≤ .96 = 0.95 と分かる 2つの式を対応させると… 𝑋ത − 𝜇 ≤ .96 = 0.95 3 より 𝑃 − .96 ≤ 𝜎 𝑛 𝑋ത − 𝜇𝑈 𝑋ത − 𝜇 𝑋ത − 𝜇𝐿 ≤ ≤ = 0.95 2 より 𝑃 𝜎 𝑛 𝜎 𝑛 𝜎 𝑛 𝜎 𝜎 𝑃 𝑋ത − .96 ≤ 𝜇 ≤ 𝑋ത + .96 = 0.95 𝑛 𝑛 ▶ すべての標本でこの区間を作った場合 95%の割合で真値𝜇が含まれる 𝑋ത = 65.7 𝜎=8 𝑛 = 00 𝑋ത − 𝜇𝐿 = .96 𝜎 𝑛 𝑋ത − 𝜇𝑈 = − .96 𝜎 𝑛 𝜇𝐿 = 𝑋ത − .96 𝜎 𝑛 𝜇𝑈 = 𝑋ത + .96 𝜎 𝑛 65.7 − .96 × 0.8 ≤ 𝜇 ≤ 65.7 + .96 × 0.8 既知の値を 当てはめると 09 推定 当然前ページと同じ結果 【答】 164.132から167.268 44
母分散が分かってるなんてことあるかね? p. 30 区間推定イ ージ 区間をつくる 人サンプリングしたら標本平均が 以後,母分散は82 とわかっているとします 平均値周りの だった この標本分布の ▌母平均が分からなくて母分散だけ分かってる…? ▶ 真の母平均は からない ▶▶ 代 りに推定値(標本平均)を 区間をつくる って 多くの場合,母分散も からない ▶ 不偏分散によって点推定している と えてみる 「もしも不偏分散が母分散と一致していたら」と えてみる を中心に 区間推定イ ージ 面積が になる範囲 母集団分布が ▌母分散が既知の場合のおさらい 65.7, 82 とした場合の 𝜎2 標本分布 標本平均 𝑋ത の標本分布は 𝑁 𝜇, ▶ これを標準 した値 𝑋ത − 𝜇 𝜎2 𝑛 𝑛 区間をつくる 人サンプリングしたら標本平均が になる 上下 ▶ 真の母平均は からない ずつを切り取ったら ▶▶ 代 りに推定値(標本平均)を 以後,母分 だった って 今回の場合は の標本分布は 𝑁 0, と えてみる 母集団分布が 65.7, 82 𝑛 推定 2 2 𝑠𝑥 = 𝑠𝑥′ を使った場合の標本分布はどうなる? 𝜎 の代わりに不偏分散 𝑛− 2 09 推定 とした場合の 標本分布 45 p. 30
ちょっと式変形してみる 標本分散の標本分布 ▌不偏分散をつかって標準 した標本平均は イントは「標準 」しているという点 𝑋ത − 𝜇 𝑛 𝜎 2 のところに 𝑠𝑥2 が入るので 𝜎 2 𝑛−1 する場合,標本平均 標本を標準 𝑛 ▶ ▌ 2 の を える場合, 標準 標本における の について考えてみると ならば = 𝑛 2 𝑠 𝑛−1 𝑥 𝜎2 標本平均が 𝑠𝑥2 ▶𝜒 2 は 𝑛− 𝑛− 𝜎2 = = 𝑛− 𝑛 𝜎2 2 𝑧 𝑛 − 𝑛 𝑛−1 𝜎2 = = 𝑋ത − 𝜇 × = 標準正規分布に従う を𝑛 って標準 する 𝑛 𝑠=2 𝑠𝑥2 𝑛− 𝑥 𝑛− 𝑛 𝑛 𝜎 2 定される している時点で標本平均は 𝑁 0, 𝑧 2 の を表す とします + 2 はに従う確率 になる数𝑧 2𝑛−1 まとめると 𝑛 𝑠𝑥2 2 𝑋ത − 𝜇 𝜎2 の 𝑛 𝑧 2𝑛−1 𝑛− , の イ 分布に従う 𝑛− + 𝜎2 𝑛 𝑠𝑥2 𝑛− 𝜎2 は に関して標準 されたもの ▶ が変われば も変わるため に従う + でないといけない 資料08 p. 25 倍で ることを利用すると 2 2 の 2 の分散 2 変数 2 09 推定 標本分布 変数 の分散 2 2 46
ここで新しい 分布 𝑡 分布 𝑘の イ ▌標準正規分布と 関数 ラ ータ Γ 𝑓 𝑋=𝑥 = 𝑘 𝑘− 2 分布にそれぞれ従う + 𝑘 𝑘𝜋Γ 𝑛 𝑘+1 2 − 2 𝑥 𝑘 𝑡= 変数の比の 標準正規分布に従う 𝑘の イ 分布 変数 分布に従う 𝑘 (degree of freedom) 𝑡 𝑘 または 𝑡𝑘 平均値 0 分散 𝑘 𝑘−2 基本的な形は標準正規分布と同じ左 対称 ▶ 分子が 𝑧 で るため が小さいほど 𝑁 0, よりも裾が重くなる ▶ イメージ的には 𝑧 のばらつきに𝑠𝑥2 のばらつきが加 る感じ 09 推定 47 変数
母分散が未知の場合の標本平均の標本分布 ▌標本平均の標本分布を 𝑡 分布で表していく 𝑡= 標準正規分布に従う 𝑘の イ 標本平均の標本分布を導出する場合は 𝑋ത − 𝜇 𝑋ത − 𝜇 𝑧 = × = 2 𝑛 𝜎 𝑧 2𝑛−1 𝑧 2𝑛−1 𝑠𝑥2 𝑛− 𝑛 𝑛− 𝑛− 𝑛 変数 分布に従う 𝑘 【比較】 母分散を使って標本平均を標準 𝑋ത − 𝜇 の標本分布は 𝜎2 𝑛 標準正規分布になる 変数 不偏分散を使って標本平均を標準 した値 𝑋ത − 𝜇 𝑛 𝑠𝑥2 𝑛− 𝑛 した値 の標本分布は 𝑛 − の 𝑡 分布になる 09 推定 48
𝑡 分布を用いた母平均の信頼区間の計算例 【問】10人サンプリングしたら標本平均が165.7でした。また,標本分散は72でした。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 1 不偏分散を計算する 標準化前 10 9 サンプルサイズが10なので, 2 標本平均を標準 正規分布よりは裾の重い分布 × 72 = 80 する 標本平均と不偏分散を用いて標本平均 𝑋ത を標準 する ത 𝑋−165.7 ▶ 標準 した値 = 𝑡が 9 の 𝑡 分布に従う 80 10 いま求めたいのは 𝑃 65.7 ≤ 𝑋ത ≤ 𝜇𝑈 = 0.475 になる 𝜇𝑈 の値 ▶ 式を標準 すると𝑃 165.7−165.7 8 ≤ ത 𝑋−165.7 8 ≤ 𝜇𝑈 −165.7 8 09 推定 =𝑃 0≤𝑡≤ 𝜇𝑈 −165.7 8 = 0.475 49
𝑡 分布を用いた母平均の信頼区間の計算例 【問】10人サンプリングしたら標本平均が165.7でした。また,標本分散は72でした。 このとき,母平均の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 標準化後 𝑡 分布表から値を探す 𝑃 0≤𝑡≤ 𝜇𝑈 −165.7 8 𝑁 0, 𝑡 9 = 0.475 となるのは 𝜇𝑈 がいくつのときか? 𝑡 分布表を えば,𝑃 0 ≤ 𝑡 ≤ 2.262 = 0.475 だと かる ▶ 𝜇𝑈 −165.7 8 = 2.262 式 形すると 8 ≃ 2.828 𝜇𝑈 = 65.7 + 2.262 × 2.828 = 72.097 標本平均 ※𝑡 分布は左 標準誤差 対称なので,下限も同様に𝜇𝐿 = 65.7 − 2.262 × 2.828 = 59. 0 と求められる つまり基本的には母分散が既知の場合と同じ え方で 標準誤差を何倍するかだけが変わります 09 推定 【答】 159.303から172.907 50
する (おまけ1)母分散の区間推定 標本分散の標本分布には対称性が無いため pp.40-42のようなやり方は使えない ▶ pp. 43-44と同じやり方で 【問】10人サンプリングしたら標本分散が40.40でした。 このとき,母分散の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 = 1 とりあえず95%区間を作る 平均は 定される 求めたい区間の上限・下限をそれぞれ𝜎𝐿2 , 𝜎𝑈2 とする は に関して標準 されたもの ▶ 𝑃 𝜎𝐿2 ≤ 𝜎 2 ≤ 𝜎𝑈2 = 0.95 になるような𝜎𝐿2 , 𝜎𝑈2 の値を求めたら良い ▶ が変われば も変わるため 𝜎𝐿2 , 𝜎𝑈2 の値をどのように設定したら「𝜎𝐿2 から 𝜎𝑈2 の間に母分散 𝜎 2 が含まれている確率(割合)が95%になる」のかを求めたい でないといけない 2 既知の 2 資料08 p. 25 分布に従う統計量になるように変形する の の分散 の分散 標本分散 𝑛 倍したもの 𝑛−1 𝑥 の不偏分散 𝑠Ƹ𝑥2 は,標本分散を 2 2 2 2 𝑠Ƹ𝑥2 は 𝑛−1 2 𝑠Ƹ 𝜎2 𝑥 𝜎2 2 𝜒 𝑛−1 𝑛− は 𝜒2 𝑛 − 09 推定 に従う 𝑃 𝑃 𝜎𝐿2 ≤ 𝜎 2 ≤ 𝜎𝑈2 𝑛− 2 𝑛− 2 𝑛− 2 2 𝑠Ƹ𝑥 ≤ 𝜎 2 𝑠Ƹ𝑥 ≤ 2 𝑠Ƹ𝑥 𝜎𝑈 𝜎𝐿 に従う 51
(おまけ1)母分散の区間推定 標本分散の標本分布には対称性が無いため pp.40-42のようなやり方は使えない ▶ pp. 43-44と同じやり方で 【問】10人サンプリングしたら標本分散が40.40でした。 このとき,母分散の95%信頼区間を求めてください。ただし母集団分布は正規分布であるとします。 3 2.70 もう一つ95%区間を作る 4 3 より に従う 𝑛−1 2 𝑠Ƹ 𝜎2 𝑥 が95%の確率で含まれる区間は 𝑛− 2 𝜒 2 分布表というものを用いて求めます 𝑃 2.70 ≤ 𝑠 Ƹ ≤ 9.02 = 0.95 𝑥 𝜎2 𝜒2 9 密 𝜒2 𝑛 − 19.02 2つの式を対応させると… 𝑛− 2 𝑃 2.70 ≤ 𝑠Ƹ ≤ 9.02 = 0.95 𝜎2 𝑥 𝑛− 2 𝑛− 2 𝑛− 2 より 𝑃 𝑠Ƹ𝑥 ≤ 𝑠Ƹ ≤ 𝑠Ƹ𝑥 = 0.95 2 𝜎2 𝑥 𝜎𝑈2 𝜎𝐿2 𝑛− 2 𝑛− 2 𝑃 𝑠𝑥Ƹ ≤ 𝜎 2 ≤ 𝑠Ƹ = 0.95 9.02 2.70 𝑥 ▶ すべての標本でこの区間を作った場合 95%の割合で真値𝜎 2 が含まれる 𝑠Ƹ𝑥2 = 6.72 𝑛= 0 𝑛− 2 𝑠Ƹ𝑥 = 9.02 𝜎𝐿2 𝑛− 2 𝑠Ƹ𝑥 = 2.70 𝜎𝑈2 既知の値を 当てはめると 0 𝑠Ƹ𝑥2 = × 40.40 ≃ 44.89 = 6.72 9 09 推定 𝜎𝐿2 = 𝜎𝑈2 𝑛− 𝑠Ƹ𝑥2 9.02 𝑛− 2 = 𝑠Ƹ 2.70 𝑥 9 9 × 6.72 ≤ 𝜎 2 ≤ × 6.72 9.02 2.70 【答】 およそ21.24から149.63 52
(おまけ2)母比 の区間推定 【問】500人のランダムサンプリングによる世 調査の結果,内閣支持 は17.2%でした。 このとき,母比 (母集団全体での内閣支持 )の95%信頼区間を求めてください。 1 とりあえず95%区間を作る 求めたい区間の上限・下限をそれぞれ𝑝𝐿 , 𝑝𝑈 とする ▶ 𝑃 𝑝𝐿 ≤ 𝑝 ≤ 𝑝𝑈 = 0.95 になるような𝑝𝐿 , 𝑝𝑈 の値を求めたら良い 𝑝𝐿 , 𝑝𝑈 の値をどのように設定したら「 𝑝𝐿 から 𝑝𝑈 の間に真の内閣支持率 𝑝 が含まれている確率(割合)が95%になる」のかを求めたい 2 既知の 分布に従う統計量になるように変形する 正規近似と中心極限定理により,「支持する」と回答する人数の標本分布はX ∼ 𝑁 𝑛𝑝, 𝑛𝑝 ▶ これを標準 した𝑍 = ▶𝑃 𝑝𝐿 ≤ 𝑝 ≤ 𝑝𝑈 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 は,標準正規分布に従う の真ん中が 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 𝑍ҧ = 𝑋 − 𝑛𝑝 𝑛𝑝 −𝑝 になるように変形させると 𝑃 09 推定 −𝑝 で近似できる ∼ 𝑁 0, 一旦逆になりますが 𝑋−𝑛𝑝𝑈 𝑛𝑝 1−𝑝 ≤ 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 ≤ にしない 𝑋−𝑛𝑝𝐿 𝑛𝑝 1−𝑝 53
(おまけ2)母比 の区間推定 【問】500人のランダムサンプリングによる世 調査の結果,内閣支持 は17.2%でした。 このとき,母比 (母集団全体での内閣支持 )の95%信頼区間を求めてください。 3 もう一つ95%区間を作る 𝑍ҧ = 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 が標準正規分布に従う,ということは ▶ 標準正規分布表を用いると,𝑃 − .96 ≤ 4 𝑋−𝑛𝑝 𝑛𝑝 1−𝑝 ≤ .96 = 0.95 と分かる 2つの式を対応させると… 3 より 2 より 𝑃 𝑃 − .96 ≤ 𝑋 − 𝑛𝑝𝑈 𝑛𝑝 −𝑝 ≤ 𝑋 − 𝑛𝑝 𝑛𝑝 −𝑝 𝑋 − 𝑛𝑝 𝑛𝑝 −𝑝 𝑋 − 𝑛𝑝𝐿 ≤ .96 = 0.95 ≤ 𝑋 − 𝑛𝑝𝐿 𝑛𝑝 −𝑝 𝑛𝑝 − 𝑝 𝑋 − 𝑛𝑝𝑈 = 0.95 𝑛𝑝 終わり よ… 09 推定 −𝑝 = .96 𝑝𝐿 = 𝑋 − .96 𝑛𝑝 𝑛 −𝑝 = − .96 𝑝𝑈 = 𝑋 + .96 𝑛𝑝 𝑛 −𝑝 このままだと真値𝑝がわからないと 信頼区間が作れない… 54
(おまけ2)母比 の区間推定 【問】500人のランダムサンプリングによる世 調査の結果,内閣支持 は17.2%でした。 このとき,母比 (母集団全体での内閣支持 )の95%信頼区間を求めてください。 5 推定値で代用する 標本比率(内閣支持率) 𝑝Ƹ = 𝑋 𝑛 は 支持する=1 支持しない=0 としたときの標本平均 𝑛 が十分に大きければ 𝑝 のかわりに𝑝Ƹ を用いて区間を作ったとしても 同じ95%の割合で真値 𝑝 を含む区間になる ということです。 ▶ 大数の法則によって,サンプルサイズが大きければ 𝑝Ƹ は母数 𝑝 に一致する! 𝑋 − .96 𝑛𝑝 𝑝𝐿 = 𝑛 −𝑝 𝑋 + .96 𝑛𝑝 𝑝𝑈 = 𝑛 −𝑝 𝑝Ƹ = 0. 72 𝑛 = 500 𝑝Ƹ で置き換え 既知の値を 当てはめると 𝑝𝐿 = 𝑝Ƹ − .96 𝑝𝑈 = 𝑝Ƹ + .96 𝑛𝑝Ƹ − 𝑝Ƹ 𝑃 𝑝ො − .96 𝑛 𝑛𝑝Ƹ − 𝑝Ƹ 𝑛𝑝ො − 𝑝ො 𝑛 ≤ 𝑝 ≤ 𝑝ො + .96 𝑛𝑝ො ▶ すべての標本でこの区間を作った場合 95%の割合で真値 𝑝 が含まれる − 𝑝ො 𝑛 𝑛 7 .208 7 .208 0. 72 − .96 ≤ 𝑝 ≤ 0. 72 + .96 500 500 【答】 およそ0.139から0.205 結局標本平均の区間推定に帰着しているため,信頼区間は (標本平均)± 1.96 ×(標準誤差)の形になっています 09 推定 55 = 0.95