20.6K Views
May 07, 24
スライド概要
神戸大学大学院経営学研究科で2024年度より開講している「ベイズ統計」の講義資料「04_事前分布・基本的なベイズ推論1」です。ベイズ統計における事前分布の設定および共役事前分布の説明をした後で,最も基本的な問題として二項分布のパラメータ推定問題について,最尤法・共役事前分布を用いた解析的な導出・stanでの推定を試し,結果の比較や点推定・区間推定を行います。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
ベイズ統計 04 事前分布・基本的なベイズ推論(1) 分寺 杏介 神戸大学大学院 経営学研究科 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
(前回のおさらい)尤度関数|頻度主義の場合 ▌尤度関数は「所与のデータ𝑌は,どの 設定 から発生しやすいか」を表すもの 頻度主義的には,パラメータの「真の値」=「真の 設定 」がただ一つ存在する ▶ 統計的推測としては,最も発生しやすい 設定 を選ぶのが良かろう ▌最尤推定 (maximum likelihood estimation: MLE) 例 クジを3回ひいたらちょうど1回当たった。このときクジの当たり確率 𝜋 の最尤推定値は? 尤度関数は𝐿 𝜋 𝑘 = 1 = 3𝐶1 𝜋 1 1 − 𝜋 2 = 3𝜋 1 − 𝜋 2 【左図】 1 3 この尤度関数は, 𝜋 = のときに最大値を取るので 最尤推定値は 𝜋ො = 1 3 「3回中1回当たった」という結果は 𝜋ො = 1 の設定から発生したと考えるのが 3 一番尤もらしい推論ですねぇ 04 事前分布・基本的なベイズ推論(1) 2
(前回のおさらい)尤度関数の使い方|ベイズ統計の場合 ▌尤度関数は「所与のデータ𝑌は,どの 設定 から発生しやすいか」を表すもの ベイズ統計的には,各 設定 に対する信念の強さを確率分布として表す ▶ ベイズ統計では,尤度関数がそのまま各 設定 に対する信念の更新式となる 例 クジを3回ひいたらちょうど1回当たった。このときクジの当たり確率 𝜋 の事後確率は? 尤度関数は𝐿ベイズの定 𝜋 𝑘 = 1 と確率分 = 3𝐶1 𝜋 1 1 − 𝜋 2 = 3𝜋 1 − 𝜋 2 【左図】 ここからはデータを , ラ ータを とする これがそのまま 「データによる信念の更新」 を表す 尤度 04 事前分布・基本的なベイズ推論(1) 3
完成したstanコード data { どんな形のデータ(𝑌)が与えられるかを指 int N; • 試行数 int K; • 当たり数 する。今回の例では } の2つが与えられている。 ※stanコードでは「こんな形式のデータが来る」を指 実際のデータはRから渡します。 parameters { 推定する する。今回の例では real <lower=0,upper=1> pi; ラ ータ(𝜃)を指 • 成功確率 } の1つだけ。 model { 実際に事後分 の形を規定するもの(𝑃 𝑌 𝜃 𝑃 𝜃 )を指 する。 K ~ binomial(N, pi); } します。 そのため,事前分布𝑃 𝜃 と尤度𝑃 𝑌 𝜃 の両方を書いている。 𝑃 𝜃𝑌 = 𝑃 𝑌𝜃 𝑃 𝜃 𝑃 𝑌 04 事前分布・基本的なベイズ推論(1) まだ尤度しか書いていない ▶ 事前分布の設定の話へ 4
1 事前分 引き続き二項分 の推定を例に 04 事前分布・基本的なベイズ推論(1) 5
事前分 とは データを𝑌 , ラ ータを𝜃 とする ベイズの定理 𝑃 𝑌𝜃 𝑃 𝜃 𝑃 𝜃𝑌 = 𝑃 𝑌 事前分 データが与えられる前から持っている,パラメータ自体の確率分布。 なおベイズ統計では主観確率分布を置くことが可能。つまり • 去年の国勢調査から得られた分布,みたいなデータに基づくものでも • 「俺はこう思う」というなんの根拠のないものも(理論上)許してくれる。 04 事前分布・基本的なベイズ推論(1) 6
stanにおける事前分 の設定 ▌基本的な書き方は尤度関数とほぼ同じです p. 4のコードの場合,当たり確率パラメータ pi の事前分布を指 pi ~ xxx(y, z); 【例】一様分布を指 したいので パラメータがy, zのxxx分布,という意味 𝜋 ∼ 𝑥𝑥𝑥(𝑦, 𝑧) したい場合(piは0から1の値なので) model { pi ~ uniform(0, 1); K ~ binomial(N, pi); } 事前分布と尤度を書く順番は自由です ※stanでは,事前分布を書かなければ 「その ラ ータが取りうる値すべて」を範囲に持 一様分 04 事前分布・基本的なベイズ推論(1) が自動的に置かれる 7
事前分 に情報を与えたい ▌一様分 はいわば「 由不十分の法則」 データのみから客観的に当たり確率を推測している という意味では一つの考え方としては間違ってはいない 当たり確率に関する情報が何も無い,という状態しか表現できない ▌一方で「ベイズ統計は事前情報を加えてこそ」という意見もある その情報が客観的か主観的か,についてはいろいろな考えがあるけれども なんの情報もない事前分 一様分 uniform(0,1) 主観的な?信念を加えた事前分 こい は何分 ? (根拠はないが) 今日は設定が 甘いはず! 04 事前分布・基本的なベイズ推論(1) 8
ベータ分 |Beta distribution ▌ベルヌーイ試行の「確率」や「割合」などに関する確率分 𝑁回 • シュートが決まる確率 • 病気になる確率 • 商品を買う確率 関数 ラ ータ 略記 期待値 分散 B 𝛼, 𝛽 は「ベータ関数」ですが 正規化 数なので気にしなくてOKです 1 𝑃 𝜋 = 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 𝛼 𝛽 確率 𝜋 確率 1−𝜋 2つで分布の形が決まる 𝐵𝑒𝑡𝑎(𝛼, 𝛽) 𝛼 𝛼+𝛽 𝛼𝛽 𝛼 + 𝛽 2 (𝛼 + 𝛽 + 1) 04 事前分布・基本的なベイズ推論(1) 9
ベータ分 の特徴 一様分 ▌0から1の範囲しかとらない ▌ ラ ータによって多様な形に変わる ▶ 0から1の値をとる変数なら基本これでOK ▌確率に関する事前分 として用いられる みたい 𝛼 = 1, 𝛽 = 1 左右対称の山 左下がり 𝛼 = 15, 𝛽 = 15 𝛼 = 4, 𝛽 = 10 𝛼 = 5, 𝛽 = 2 𝛼 = 1, 𝛽 = 3 𝛼 = 5, 𝛽 = 1 ゼロイチの信念 𝛼 = 0.1, 𝛽 = 0.1 左に偏った信念 右に偏った信念 右下がり 𝛼, 𝛽の値を変えることで,事前の信念の強さを 自由に表現することができる 現在では事前分布として何らかの確率分布を用いるとき, その分布の本来の意味は大して重要ではないことが多い。 単に「分布の形がそれっぽい」「計算上楽だから」という 由で大抵は選ばれている 04 事前分布・基本的なベイズ推論(1) 10
ベータ分 2 の の ラ ータ ラ ータ 𝜃 = {𝛼, 𝛽} の意味は? ▌二項分 と比べてみる 二項分 の確率関数 𝑘 ベータ分 𝑃 𝑘 𝜋, 𝑛 = 𝑛𝐶𝑘 𝜋 1 − 𝜋 𝑛−𝑘 の確率密度 1 𝑃 𝜋 = 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 カーネルの形がよく似ている! どちらのカーネルも𝜋 成功した数 1 − 𝜋 失敗した数 だと考えると 二項分 ベータ分 𝑘回成功し, 𝑛 − 𝑘回失敗する確率 𝛼 − 1回成功し, 𝛽 − 1回失敗した際の 成功率の信念を表したもの 04 事前分布・基本的なベイズ推論(1) 11
事前分
を指定して再度stanを実行してみる
▌事前分 を追加したstanコード
model_binom.stan
あとは前回と同じように走らせるだけ
data {
int N;
int K;
library(cmdstanr)
model <- cmdstan_model(“model_binom.stan”)
stan_data <- list(N=3, K=1)
}
parameters {
result2 <- model$sample(data = stan_data)
real <lower=0,upper=1> pi;
}
前回の結果と
比べてみましょう
model {
pi ~ beta(5,2);
K ~ binomial(N, pi);
}
04 事前分布・基本的なベイズ推論(1)
12
事前分 を変えてみる ▌事後分 を比較する データは変わらず(N=3,K=1),事前分 // pi ~ beta(1, 1); だけが変わっている pi ~ beta(5, 2); pi ~ uniform(0, 1); 前回の結果 回の結果 04 事前分布・基本的なベイズ推論(1) 13
事前分 の恣意性の問題 ▌ベイズの定 に従って事後分 𝐿(𝜋|𝑘 = 1, 𝑛 = 3) uniform(0, 1); × 前回 ∝ 𝐿(𝜋|𝑘 = 1, 𝑛 = 3) beta(5, 2); 回 が生成されるのだから当然の結果 × ∝ 04 事前分布・基本的なベイズ推論(1) 14
ベイズ推定における大事なこと (特にデータが少ない場合)事前分 分析時には事前分 は結果に大きな影響を与える の報告が必要 そして「なぜその事前分布を採用したのか」 由付けも重要 ▌査読や学会発表で言われがちなコ ント こんな結果になりました 素人質問で恐縮ですが… その結果って事前分 の 設定の影響受けてないですか? ………… 04 事前分布・基本的なベイズ推論(1) 15
事前分 に関する疑問点 1. そもそもなぜ ラ ータ𝜋の事前分 2. じゃあ他の場合はどんな分 にベータ分 を置いたの? を置けばいいの? 3. 事前分 の形はどうやって決めたら怒られないの? 論的にはフリーハンドで書いたこんなのでもいいのだが 現実的にはこんな分布は使えない。なぜ? あるいはデータからノンパラメトリックな 事前分布を用意したらだめなのか? 04 事前分布・基本的なベイズ推論(1) 信念の主観性を極限まで認めたら こんなグネグネな分 になりそう 16
(前提として)そもそも ▌ノン ラ トリックな確率分 を用いる 由 ラ トリックな事前分 の場合 事前分 尤度 事後分 × ∝ 0.25では0.264で,0.26では0.275で,… 一応フーリエ級数展開などを使えば これも関数として表せると思いますが 複雑すぎて扱いにくくなってしまいます ノン ラ トリックな分 を使ってしまうと 結局 ラ ータの取りうる各点での値を 一 一 計算する必要が生じてしまう 04 事前分布・基本的なベイズ推論(1) この例のように1 ラ ータの場合や 離散 ラ ータならできなくはないのですが… 17
(前提として)そもそも ラ トリックな確率分 を用いる 由 ▌取り扱いがラクだから ちっちゃい事は 気にするな 一応フーリエ級数展開などを使えば これも関数として表せると思いますが 複雑すぎて扱いにくくなってしまいます 1 𝑃 𝜋 = 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 扱いやすい関数の形で 表現してあげる 04 事前分布・基本的なベイズ推論(1) 18
事前分 の決め方①|分 の形 Q. 成功確率のパラメータ𝜋の事前分布をベータ分布にした 由は? A. そもそも𝜋は(0,1)の値しか取らないのでベータ分 代わりに切断分 𝑁(0.5, 1) が自然だから を使うのはダ でしょうか? 𝜋 = 0.5が一番ありそう だけどあまり自信はない 高いか低いかは五分五分 04 事前分布・基本的なベイズ推論(1) 𝑁(0.5, 1)の一部 19
事前分 の決め方①|分 の形 Q. 成功確率のパラメータ𝜋の事前分布をベータ分布にした 由は? A. そもそも𝜋は(0,1)の値しか取らないのでベータ分 代わりに切断分 が自然だから を使うのはダ でしょうか? 𝑁(0.5, 1)の一部 両端を除けば 𝐵𝑒𝑡𝑎(1, 1) だいたい同じ ▼ ← は無情報 事前分 ? 04 事前分布・基本的なベイズ推論(1) 20
事前分 の決め方①|分 の形 Q. 成功確率のパラメータ𝜋の事前分布をベータ分布にした 由は? A. そもそも𝜋は(0,1)の値しか取らないのでベータ分 代わりに切断分 が自然だから を使うのはダ でしょうか? 𝑁(0.5, 100)の一部 完 全 に 一 致 04 事前分布・基本的なベイズ推論(1) 𝐵𝑒𝑡𝑎(1, 1) 21
事前分 の決め方①|分 の形 Q. 適当な分布を(0,1)で切断したら何でも良い?それよりもベータ分布が良い 由は? A. 自然共役事前分 だから 𝑃 𝜃𝑌 ∝𝑃 𝑌𝜃 𝑃 𝜃 において,事前分 𝑃 𝜃 と事後分 𝑃 𝜃 𝑌 が同じ※ になることが知られている分 のこと ※もちろんパラメータは変わるが,この場合は同じ「ベータ分布」になるということ 04 事前分布・基本的なベイズ推論(1) 22
自然共役事前分 ベータ分 の ラ ータ 𝑃 𝜃 𝑌 ∝ 𝑃 𝑌 𝜃 𝑃 𝜃 に いて 2 の ラ ータ 𝑃 𝜃 にベータ分 事前分 二項分 , (𝐵𝑒𝑡𝑎(𝛼, 𝛽)), 𝑃 𝑌 𝜃 に二項分 の確率関数 = (𝐵𝑖𝑛𝑜𝑚(𝜋, 𝑛))を置く 尤度 と比べてみる 二項分 p. 11より = { , } の意味は? ベータ分 の確率密度 1 カーネルの形がよく似ている! どちらのカーネルも 成功した数 1 失敗した数だと考えると 二項分 回成功し, ベータ分 回失敗する確率 1回成功し, 1回失敗した際の 成功率の信念を表したもの 04 事前分布・基本的なベイズ推論(1) 確率と確率分布 23
自然共役事前分 𝑃 𝜃 𝑌 ∝ 𝑃 𝑌 𝜃 𝑃 𝜃 に いて 𝑃 𝜃 にベータ分 (𝐵𝑒𝑡𝑎(𝛼, 𝛽)), 𝑃 𝑌 𝜃 に二項分 (𝐵𝑖𝑛𝑜𝑚(𝜋, 𝑛))を置く 尤度 事前分 𝑃 𝑘 𝜋, 𝑛 × 𝑃 𝜋 = 𝑛𝐶𝑘 𝜋 𝑘 1 − 𝜋 𝑛−𝑘 × 1 = 𝑛𝐶𝑘 × 𝜋 𝑘+ 𝛼−1 1 − 𝜋 B 𝛼, 𝛽 1 𝜋 𝛼−1 1 − 𝜋 𝛽−1 B 𝛼, 𝛽 𝑛−𝑘 + 𝛽−1 = 正規化 数 × 𝜋 𝛼+𝑘 −1 1 − 𝜋 事前分 𝛽+𝑛−𝑘 −1 事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 04 事前分布・基本的なベイズ推論(1) 24
ベータ分 の更新 事前分 事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 𝐵𝑒𝑡𝑎 𝛼, 𝛽 𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 成功回数𝛼 − 1, 成功回数𝛼 + 𝑘 − 1, 失敗回数𝛽 − 1のときの 失敗回数𝛽 + (𝑛 − 𝑘) − 1のときの 成功確率の分布 データ (尤度) これまでに 10回ヒットを打っており 20回アウトになっている 𝐵𝑒𝑡𝑎(11,21) 成功確率の分布 日の試合 ヒット4回 アウト1回 04 事前分布・基本的なベイズ推論(1) これまでに 10+4回ヒットを打っており 20+1回アウトになっている 𝐵𝑒𝑡𝑎(15,22) 25
ベータ分 の更新 事前分 事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 𝐵𝑒𝑡𝑎 𝛼, 𝛽 𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 成功回数𝛼 − 1, 成功回数𝛼 + 𝑘 − 1, 失敗回数𝛽 − 1のときの 失敗回数𝛽 + (𝑛 − 𝑘) − 1のときの 成功確率の分布 𝐵𝑒𝑡𝑎(11,21) データ (尤度) 成功確率の分布 𝐵𝑒𝑡𝑎(15,22) 日の試合 ヒット4回 アウト1回 04 事前分布・基本的なベイズ推論(1) 26
更新前後の期待値 事前分 事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった ▌ベータ分 𝛼 𝐵𝑒𝑡𝑎 𝛼, 𝛽 の期待値は 𝛼+𝛽 ▶ 事後分 の期待値は ラ ータ 意味 事前 分 𝛼+𝛽 𝛼 𝛼+𝛽 事前情報の総量 尤度 𝑛 データの総量 𝑘 𝑛 データの平均値 𝛼+𝑘 𝛼+𝑘 = 𝛼 + 𝑘 + (𝛽 + 𝑛 − 𝑘) 𝛼 + 𝛽 + 𝑛 𝛼+𝛽 𝛼 𝑛 𝑘 = + 𝛼 +𝛽 +𝑛𝛼 +𝛽 𝛼 +𝛽 +𝑛𝑛 合計1 事前期待値 事後期待値 = 事前情報のウェイト × 事前期待値 + データのウェイト × (データの平均値) 04 事前分布・基本的なベイズ推論(1) 27
確認するまでもないこと 𝑃 𝜃 𝑌 ∝ 𝑃 𝑌 𝜃 𝑃 𝜃 に いて 𝑃 𝜃 に切断正規分 事前分 (𝑁 𝜇, 𝜎 [0,1]), 𝑃 𝑌 𝜃 に二項分 尤度 (𝐵𝑖𝑛𝑜𝑚(𝜋, 𝑛))を置く 3.14のほう 2 𝜋 − 𝜇 𝑘 1 − 𝜋 𝑛−𝑘 × 𝐶 𝜋 exp − 𝑃 𝑘 𝜋, 𝑛 × 𝑃 𝜋 = ൞ 𝑛 𝑘 2𝜎 2 2𝜋𝜎 2 0 1 正規化定数 × exp − 2 𝜋− 事後 𝜇 2 事後 𝜎 2 0≤𝜋≤1 otherwise の形にはならない 事後分 事前分 𝑁 𝜇, 𝜎 が尤度によって更新されても𝑁(∗,∗)にはならない 04 事前分布・基本的なベイズ推論(1) 28
自然共役事前分 の組み合わせ https://avilen.co.jp/personal/knowledge-article/conjugate-prior-distribution/ (2024/04/17閲覧) 04 事前分布・基本的なベイズ推論(1) 29
共役事前分 すごいじゃないですか! ▌ リット 計算しやすい 事前分布においたパラメータの意味がわかりやすい・説明しやすい 計算機などなかった当時には「計算しやすい」という リットは莫大だったが, 現代ではその リットはあまり感じられない(データが超大きいときくらい?)。 そのため普通に一様分 をおいたり,切断分 を使うことはよくある。 ▌デ リット 複雑な問題では存在しないことが多々ある 完全にフラットな事前分布を設 そもそも推 できないことが多い 上問題があるケースがある 04 事前分布・基本的なベイズ推論(1) 30
(補足)stanにおける事前分
▌基本的には形だけで決めたら良い
前半の例で言えば
pi ~ beta(1,1) でも pi ~ uniform(0,1) でも結果にはなんの影響もない…はず
計算時間もほぼ変わらない
▌ただし切断分
切断分布を使う場合
の使用は要注意
parameters {
形が同じなら最終的な結果も同じになるはずだが
単純に計算効率が低下してしまう
real <lower=0,upper=1> pi;
}
model {
1. normal(0, 100)に基づいて乱数生成
pi ~ normal(0, 100);
2. もし(0,1)の範囲外だったら生成した乱数を棄却
K ~ binomial(N, pi);
}
04 事前分布・基本的なベイズ推論(1)
31
共役事前分 がうまくいかないケース 例 逆ガンマ分 正規分 の分散 ラ ータの共役事前分 𝜎 ∼ 𝐼𝑛𝑣𝐺𝑎𝑚𝑚𝑎(𝑟, 𝑠) ▌ 詳しい はそのうち出てきます ラ ータの意味的には2 が小さくなるほど無情報に近づく つまり一様分布に近づいていく,はず ▌しかし実際には…? 𝑟 = 𝑠 = 0.001 𝑟=𝑠=1 𝑟 = 𝑠 = 0.01 𝑟 = 𝑠 = 0.1 𝑟 = 𝑠 = 0.1 𝑟 = 𝑠 = 0.001 𝑟 = 𝑠 = 0.01 [0, 0.05]を 拡大 04 事前分布・基本的なベイズ推論(1) 𝑟=𝑠=1 32
共役事前分 がうまくいかないケース 例 逆ガンマ分 正規分 の分散 ラ ータの共役事前分 𝜎 ∼ 𝐼𝑛𝑣𝐺𝑎𝑚𝑚𝑎(𝑟, 𝑠) ▌ 詳しい はそのうち出てきます ラ ータの意味的には2 が小さくなるほど無情報に近づく つまり一様分布に近づいていく,はず ▌しかし実際には…? とても小さい値に山が残ってしまう 𝑟 = 𝑠 = 0.001 「分散はとても小さい」という信念? 𝑟 = 𝑠 = 0.01 𝑟 = 𝑠 = 0.1 推定結果に変な影響を与えてしまう (e.g., Gelman, 2006) ただし常識的な 𝜎 の値においてはほぼ完全にフラットな分布 ▶ その点においては確かに「無情報」を表している 04 事前分布・基本的なベイズ推論(1) 𝑟=𝑠=1 33
事前分 に関する疑問点 1. そもそもなぜ ▶ 共役事前分 ラ ータ𝜋の事前分 にベータ分 を置いたの? だから(ただしstanの中では別に一様分 とかでもOK) 2. じゃあ他の場合はどんな分 を置けばいいの? ケースバイケースなので,先行研究を参考にしたりしましょう。 後の授業でも少しず 分かってくると思います。 3. 事前分 の形はどうやって決めたら怒られないの? 04 事前分布・基本的なベイズ推論(1) 34
事前分 に関する疑問点 1. そもそもなぜ ▶ 共役事前分 ラ ータ𝜋の事前分 にベータ分 を置いたの? だから(ただしstanの中では別に一様分 とかでもOK) 2. じゃあ他の場合はどんな分 を置けばいいの? ケースバイケースなので,先行研究を参考にしたりしましょう。 後の授業でも少しず 分かってくると思います。 3. 事前分 の形はどうやって決めたら怒られないの? 04 事前分布・基本的なベイズ推論(1) 35
事前分 の決め方②|分 の ラ ータ ▌「事前分 にどの程度の情報を入れるか」はベイズにとって諸刃の剣 情報を入れることで推 が安 するようになったり精度があがったり 情報を入れることで「主観的だ」と叩かれたり 個人的なおすすめ 基本的には情報をあまり入れないが,現実的に取りうる範囲はきちんと定める 主観的だといわれたくない 確率分布が正則 (proper) ではあってほしい 積分したら1になる Gelmanのおすすめ こちらのページを参照してください。 04 事前分布・基本的なベイズ推論(1) 36
Gelmanのおすすめ(抜粋) ▌Gelmanって誰? コロンビア大学の統計学の教授 stanを作った人 Bayesian Data Analysis (BDA) の第一著者 ▌事前分 の5 のレベル 標準化されたスケールでの話 基本的に事前分布は「どの程度の情報を含むか」がカギ • Flat prior (not usually recommended); • Super-vague but proper prior: normal(0, 1e6) (not usually recommended); • Weakly informative prior, very weak: normal(0, 10); • Generic weakly informative prior: normal(0, 1); • Specific informative prior: normal(0.4, 0.2) or whatever. 04 事前分布・基本的なベイズ推論(1) 37
Gelmanのおすすめ(抜粋) ▌弱情報事前分 の場合は どう考えてもありえない値は出ないように もしかしたらありえる値は出てもおかしくないように ▌Fully informativeよりはWeakly informativeに 事前分布の情報が減ると基本的には推 精度が下がるが, それよりも広い範囲の値をカバーできる頑健性のメリットのほうが大きい ▌常に使用した事前分 は明示すること When using informative priors, be explicit about every choice ▌一様分 や切断分 よりは弱情報事前分 がよい ベイズ統計では尤度と事前分 の両方 を分析者が決める必要があるので 事前分 を報告しないと 「コイツ分かってないな」 と思われてしまいます! 値域が明確に決まる場合でないと制約がきつすぎる 04 事前分布・基本的なベイズ推論(1) 38
感度分析 (sensitivity analysis) 事前分 を変えてみて,結果に与える影響を判断する方法 例 クジを100回ひいたらちょうど20回当たりました。ただ,元々「結構当たる」との評判を聞いてい たので事前分 を𝐵𝑒𝑡𝑎(5,2)と設定してクジの当たり確率 𝜋 の事後分 を出してみました。 すると,「その結果,事前分 の影響を受けてない?」と突っ込まれました。 ▌まずは普通に事後分 を出してみる 事後分 A 尤度 𝐵𝑒𝑡𝑎(5,2) 𝐵𝑒𝑡𝑎(25,82) 80回ハズレ,20回当たり 事前分 × どんな分布? ∝ 04 事前分布・基本的なベイズ推論(1) 39
感度分析 事前分 を変えてみて,結果に与える影響を判断する方法 例 クジを100回ひいたらちょうど20回当たりました。ただ,元々「結構当たる」との評判を聞いてい たので事前分 を𝐵𝑒𝑡𝑎(5,2)と設定してクジの当たり確率 𝜋 の事後分 を出してみました。 すると,「その結果,事前分 の影響を受けてない?」と突っ込まれました。 ▌よくあるやり方 事前分布をできるだけ無情報に近づける A 尤度 × どんな分布? 𝐵𝑒𝑡𝑎(21,81) 80回ハズレ,20回当たり 事前分 𝐵𝑒𝑡𝑎(1,1) 事後分 Flat or Super-vague prior ∝ 04 事前分布・基本的なベイズ推論(1) 40
感度分析 事前分 を変えてみて,結果に与える影響を判断する方法 例 クジを100回ひいたらちょうど20回当たりました。ただ,元々「結構当たる」との評判を聞いてい たので事前分 を𝐵𝑒𝑡𝑎(5,2)と設定してクジの当たり確率 𝜋 の事後分 を出してみました。 すると,「その結果,事前分 の影響を受けてない?」と突っ込まれました。 ▌2 の事前分 のもとで結果を比べてみると 黒:𝐵𝑒𝑡𝑎(5,2) 赤:𝐵𝑒𝑡𝑎(1,1) 当然多少のズレはあるものの 概ね同じような結果になっている といえるような気がする もちろん扱っている変数の中身や 要求される精度によって受け取り方は変わります 04 事前分布・基本的なベイズ推論(1) 41
感度分析 ▌もし結果が大して変わらなければ 事前分布の恣意性はそんなに影響が無いのだろう そう言えるくらいデータが集まっているとか 自分の予想としては𝐵𝑒𝑡𝑎(5, 2)で表せる くらいの信念だったが,報告したら文句を 言われたので𝐵𝑒𝑡𝑎(1, 1)でも試してみました。 そしたら結果がほとんど変わらなかったので, 𝐵𝑒𝑡𝑎(5, 2)で良くない?ってことになりました。 ▌もし結果が結構ちがったら やはり事前分布に明確な 由付けが必要となるだろう 「なぜ無情報にしたのか?」とか「なぜ値域がそのように制限できるのか?」とか ▌感度分析の比較対象は同じ分 でなくても良い 「𝐵𝑒𝑡𝑎(1,1)」vs.「𝑁(0, 100, 0, 1)」とか ベータ分布 切断正規分布 04 事前分布・基本的なベイズ推論(1) 42
2 分析実践編(1) 二項分 の ラ ータ 04 事前分布・基本的なベイズ推論(1) 43
いよいよここからは 実際の分析をやっていきたいと思います ▌基本的には同じ分析を ① 非ベイズ的方法(最尤法や標本 論的な仮説検定)◀ 時間がなさそうだったらスキップ ② 解析的なベイズ(共役事前分 を利用した方法) ③ 数値計算的なベイズ(StanでMCMC) の1+2 ターンでやっていきます。 ▌その過程で stanに慣れましょう できればRにも慣れましょう 04 事前分布・基本的なベイズ推論(1) 44
事例 例 あなたはある地域でテレビ番組の視聴率調査を任されました。ただお金がないので その地域の家を一軒一軒回って「番組を見ているか」100件訪ねて調べることにしました。 その結果13件がその番組を見ていました。 このとき,番組の視聴率の点推定・区間推定をしてみましょう。 まずはなにより事例の整 推定に必要な情報 𝑌 調査した件数 𝑛 = 100 視聴していた件数 𝑘 = 13 𝜃 視聴率 𝜋 尤度 𝑃(𝑌|𝜃) 二項分布 𝐵𝑖𝑛𝑜𝑚(𝑘|𝜋, 𝑛) 事前分布 𝑃(𝜃) (例)ベータ分布 𝐵𝑒𝑡𝑎(1,1) データ 推 回の事例 したいパラメータ 04 事前分布・基本的なベイズ推論(1) 「視聴率なんだから0-100%まで 一様なはずがない」と思って 情報を与えるのも一つの策です。 【例】そもそもその時間にテレビを 見てる人が40%くらいらしいので 高々40%と仮 して𝐵𝑒𝑡𝑎(2,9) 45
非ベイズ的点推定 ▌二項分 の最尤推定値は簡単に求めることができます 本来の最尤法 ▌尤度関数が最大になるポイントを発見する =対数尤度関数が最大になるポイントを発見する 𝐿 𝜋 𝑘, 𝑛 = 𝑓 𝑘 𝜋, 𝑛 = 𝑛𝐶𝑘 𝜋 𝑘 1 − 𝜋 𝑛−𝑘 04 事前分布・基本的なベイズ推論(1) 𝐿𝐿 𝜋 𝑘, 𝑛 46
非ベイズ的点推定 ▌二項分 の最尤推定値は簡単に求めることができます 本来の最尤法 ▌尤度関数が最大になるポイントを発見する =対数尤度関数が最大になるポイントを発見する 対数尤度関数の導関数がゼロになるポイントを発見する 𝐿𝐿 𝜋 𝑘, 𝑛 𝐿𝐿 𝜋 𝑘, 𝑛 = log 𝑛𝐶𝑘 𝜋 𝑘 1 − 𝜋 𝑛−𝑘 = log 𝑛𝐶𝑘 + 𝑘 log 𝜋 + 𝑛 − 𝑘 log 1 − 𝜋 𝐿𝐿 𝜋 𝑘, 𝑛 ′ = 𝑘 𝑛−𝑘 + =0 𝜋 1−𝜋 最尤推定量 𝑥 𝜋ො = 𝑛 04 事前分布・基本的なベイズ推論(1) 0.13 47
非ベイズ的区間推定 (いく か方法がありますが…一 の方法をご紹介します) ▌二項分 二項分 の正規近似を利用した方法 は 𝑛 が大きいとき正規分 𝑁 𝑛𝜋, 𝑛𝜋 1 − 𝜋 で近似できる 標準偏差 今回の場合𝑛 = 100, 𝜋ො = 0.13 なので… 𝐵𝑖𝑛𝑜𝑚(100,0.13) 𝑁(13, 3.36) ほ ぼ 同 じ 04 事前分布・基本的なベイズ推論(1) 48
非ベイズ的区間推定の手順 1 とりあえず95%区間を作る 求めたい区間の上限・下限をそれぞれ𝜋𝐿 , 𝜋𝑈 とする ▶ 𝜋𝐿 , 𝜋𝑈 をどのように設定すると 𝑃 𝜋𝐿 ≤ 𝜋 ≤ 𝜋𝑈 = 0.95 となるかを求めたら良い 𝜋𝐿 , 𝜋𝑈 の値をどのように設定したら「 𝜋𝐿 から 𝜋𝑈 の間に真の視聴率 𝑝 が含まれている確率(割合)が95%になる」のかを求めたい 2 既知の確率分 に従う統計量になるように変形する 正規近似と中心極限定 により,視聴している世帯数の標本分布は 𝑘 ∼ 𝑁 𝑛𝜋, 𝑛𝜋 1 − 𝜋 ▶ これを標準化した 𝑧 = 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) ▶𝑃 𝜋𝐿 ≤ 𝜋 ≤ 𝜋𝑈 の真ん中が 𝑃 は,標準正規分布に従う 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) 𝑋 − 𝑛𝜋𝑈 𝑛𝜋(1 − 𝜋) 𝑧= 𝑘 − 𝑛𝜋 𝑛𝜋(1 − 𝜋) で近似できる ∼ 𝑁(0,1) になるように変形させると ≤ 𝑋 − 𝑛𝜋 𝑛𝜋(1 − 𝜋) 04 事前分布・基本的なベイズ推論(1) ≤ 𝑋 − 𝑛𝜋𝐿 𝑛𝜋(1 − 𝜋) 一旦逆になりますが気にしない 49
非ベイズ的区間推定の手順( づき) 3 もう一 95%区間を作る 𝑧= 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) が標準正規分布に従う,ということは ▶ 𝑃 −1.96 ≤ 𝑘−𝑛𝜋 𝑛𝜋(1−𝜋) ≤ 1.96 = 0.95 と分かる 4 2 の式を対応させると… 3 より 2 より 𝑃 𝑃 −1.96 ≤ 𝑋 − 𝑛𝜋𝑈 𝑛𝜋(1 − 𝜋) 𝑋 − 𝑛𝜋𝑈 𝑛𝜋(1 − 𝜋) ≤ = −1.96 このままだと真値𝜋がわからないと 信頼区間が作れない… 𝑋 − 𝑛𝑝 𝑛𝑝(1 − 𝑝) 𝑋 − 𝑛𝜋 𝑛𝜋(1 − 𝜋) 終わりだよ… ≤ 1.96 = 0.95 ≤ 𝑋 − 𝑛𝜋𝐿 𝑛𝜋(1 − 𝜋) 𝑋 − 𝑛𝜋𝐿 𝑛𝜋(1 − 𝜋) = 0.95 = 1.96 04 事前分布・基本的なベイズ推論(1) 𝑘 − 1.96 𝑛𝜋(1 − 𝜋) 𝑛 𝑘 + 1.96 𝑛𝜋(1 − 𝜋) 𝜋𝑈 = 𝑛 𝜋𝐿 = 50
非ベイズ的区間推定の手順( づき) 5 推定値で代用する 𝑘 標本比率(視聴率)の最尤推 量 𝜋 ො = は一致性を持つ 𝑛 𝑛 が十分に大きければ 𝜋 のかわりに 𝜋ො を用いて区間を作ったとしても 同じ95%の割合で真値 𝜋 を含む区間になる ということです。 ▶ サンプルサイズが大きければ 𝜋ො は母数 𝜋 に一致する! 𝑛𝜋(1 ො − 𝜋) ො 𝜋𝐿 = 𝜋ො − 1.96 𝑛 𝑘 − 1.96 𝑛𝜋(1 − 𝜋) 𝜋𝐿 = 𝑛 𝜋ො で置き換え 𝜋𝑈 = 𝑘 + 1.96 𝑛𝜋(1 − 𝜋) 𝑛 𝜋𝑈 = 𝜋ො + 1.96 0.13 − 1.96 𝜋ො = 0.13 𝑛 = 100 𝑃 𝜋ො − 1.96 回のデータを 当てはめると 𝑛𝜋(1 ො − 𝜋) ො 𝑛 𝑛𝜋(1 ො − 𝜋) ො 𝑛𝜋(1 ො − 𝜋) ො ≤ 𝜋 ≤ 𝜋ො + 1.96 𝑛 𝑛 = 0.95 ▶ すべての標本でこの区間を作った場合 95%の割合で真値 𝜋 が含まれる 3.36 3.36 ≤ 𝑝 ≤ 0.13 + 1.96 100 100 答 およそ0.064から0.196 04 事前分布・基本的なベイズ推論(1) 51
ベイズ推定(まずは解析的に) ▌二項分 の ラ ータ𝜋を手計算で行うには共役事前分 を利用する 推定に必要な情報 𝑌 調査した件数 𝑛 = 100 視聴していた件数 𝑘 = 13 𝜃 視聴率 𝜋 尤度 𝑃(𝑌|𝜃) 二項分布 𝐵𝑖𝑛𝑜𝑚(𝑘|𝜋, 𝑛) 事前分布 𝑃(𝜃) (例)ベータ分布 𝐵𝑒𝑡𝑎(1,1) データ 推 回の事例 したいパラメータ 事後分 は A 𝐵𝑒𝑡𝑎(14,88) 04 事前分布・基本的なベイズ推論(1) 52
(再掲)ベータ分 の更新 事前分 事後分 𝐵𝑒𝑡𝑎 𝛼, 𝛽 が尤度によって更新され𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 になった 𝐵𝑒𝑡𝑎 𝛼, 𝛽 𝐵𝑒𝑡𝑎 𝛼 + 𝑘, 𝛽 + 𝑛 − 𝑘 成功回数𝛼 − 1, 成功回数𝛼 + 𝑘 − 1, 失敗回数𝛽 − 1のときの 失敗回数𝛽 + (𝑛 − 𝑘) − 1のときの 成功確率の分布 これまでに 0件視聴しており 0件視聴していなかった 𝐵𝑒𝑡𝑎(1, 1) データ (尤度) 成功確率の分布 日の調査 視聴13 未視聴87 04 事前分布・基本的なベイズ推論(1) これまでに 0+13件視聴しており 0+87件は未視聴 𝐵𝑒𝑡𝑎(14, 88) 53
点推定はどうする? ▌これが ラ ータの分 だとすると,この分 の代表値を使えば良さそう 代表値と言えば… ① 平均値(期待値) 事後期待値(EAP) ② 中央値 事後中央値(MED) ③ 最頻値 事後確率最大推 値(MAP) 04 事前分布・基本的なベイズ推論(1) 54
点推定値①平均値 ① 平均値(期待値) 事後期待値(EAP: Expected A Posteriori) ▌ 期待値なので正確には න 𝜃𝑃 𝜃 𝑌 𝑑𝜃 Θ Rの組み込み関数でやる場合 integrate(function(pi){dbeta(pi,14,88)*pi},lower=0,upper=1) すべてのありえる𝜃について 事後確率𝑃 𝜃 𝑌 による 重み付け平均を取る ▌ もうちょっと簡単には 0.137 1. 右の分布から乱数を作りまくる 2. 平均をとる mean(rbeta(100000,14,88)) stanも乱数を大量に作る方法なので, このやり方でEAPが計算できます(後ほど紹介) 04 事前分布・基本的なベイズ推論(1) 55
点推定値②中央値 ② 中央値 事後中央値(MED: median) ▌ 中央値なので正確には qbeta(0.5,14,88) ▌ もうちょっと簡単に 事後分 が解析的に わからない場合 0.135 1. 右の分布から乱数を作りまくる 2. 中央値をとる median(rbeta(100000,14,88)) stanも乱数を大量に作る方法なので, このやり方でMEDも計算できます(後ほど紹介) 04 事前分布・基本的なベイズ推論(1) 56
点推定値③最頻値 ③ 最頻値 事後確率最大推定値(MAP: Maximum A Posteriori) 0.13 まりこれは最尤法だ! • 事前分 が一様で • 点推定値がMAP推定値 のときベイズ推定の結果は最尤法と完全に一致 Rの組み込み関数でやる場合 optimize(¥(x) dbeta(x,14,88), interval = c(0,1), maximum = TRUE) ▌ もうちょっと簡単に? 先程までと同じように乱数の最頻値を取ってもだめ(連続変数の場合) 04 事前分布・基本的なベイズ推論(1) 57
点推定はどうする? ▌これが ラ ータの分 だとすると,この分 の代表値を使えば良さそう 代表値と言えば… 𝜋 =0.1から0.15までを拡大してみると 0.13 0.135 0.137 ① 平均値(期待値) 事後期待値(EAP)=0.137 ② 中央値 事後中央値(MED)=0.135 ③ 最頻値 事後確率最大推 値(MAP)=0.13 結局どれがいいの? 04 事前分布・基本的なベイズ推論(1) 58
点推定値の選び方 基本的には,記述統計量としての代表値の選択と同じです(ケースバイケース) ▌完全に左右対称の分 なら全部同じになる ▌こんなのだったらどうする? MAPなら最尤法と同じ感じでわかりやすい? EAPは分布の情報をきちんと使ってる ただしEAPは外れ値に大きく引っ張られるので注意 よく使われる気がする MEDは外れ値に対して頑健 (ベイズ的な推 値) ▶パラメータを確率分布 として考えるという意味で 04 事前分布・基本的なベイズ推論(1) 59
ベイズ的区間推定 ▌事後分 において,頻度主義的な信頼区間と同じように「範囲」を考えると? ① 左右の端を切る 事後分 Equal-tailed interval 𝐵𝑒𝑡𝑎(14,88) ② 上から数えていく Highest posterior density interval ▌ベイズ統計における区間 確信区間または信用区間 と呼ばれます credible interval ベイズ統計では「信念」を考えていると言えるので ラ ータの設定に対して「強い信念=確信がある」的な ニュアンスで「確信区間」と呼んでいる…のかも? 04 事前分布・基本的なベイズ推論(1) 60
ベイズ的区間推定①左右の端を切る ① 左右の端を切る 等裾事後確信区間 (ETI: Equal-tailed interval) 非ベイズ的信頼区間と同じように左右の端を2.5%ずつ切り取ると95% 事後分 右の場合の95%確信区間は 0.078 qbeta(0.025,14,88) から 0.210 𝐵𝑒𝑡𝑎(14,88) の間 qbeta(0.975,14,88) 04 事前分布・基本的なベイズ推論(1) 61
ベイズ的区間推定②上から数えていく ② 上から数えていく 最大事後密度確信区間 (HDI: Highest posterior density interval) ▌ 事後分 を「各値のありえそう度(信念)の強さの集合」として見ると ▶ 事後密度が高いところは「最もありえそうな気がする設定」といえる ▼ 最もありえそうな一点(=MAP) 04 事前分布・基本的なベイズ推論(1) ▼ ありえそうランキング上位50% 62
ベイズ的区間推定②上から数えていく ② 上から数えていく 最大事後密度確信区間 (HDI: Highest posterior density interval) ▌ 同じ調子で「最もありえそうな上位95%」を集めていけば… ▼ ありえそうランキング上位95% 右の場合の95%HDIはだいたい 0.073 から 0.204 の間 04 事前分布・基本的なベイズ推論(1) 63
区間推定値の選び方 ▌左右対称の分 なら結局同じ ▌ETI(等裾信用区間)のほうが計算はラク 乱数の場合でも分位点(2.5, 97.5%点)を計算するのは簡単 ▌こんなのだったらどうする? このあたり 山が複数ある 実際に事後分布がこの様になった場合 推 がうまく行っていない可能性もありますが 複雑なモデルではありえないことも無いのです のあたりが含まれるのおかしくない? ▌左右の端を切った場合 HPDが良いのかもしれない おすすめされるが計算が大変なので,単峰の場合はとりあえず両端を切ってもまあ大丈夫 04 事前分布・基本的なベイズ推論(1) 64
区間推定値の選び方 ▌左右対称の分 なら結局同じ ▌ETI(等裾信用区間)のほうが計算はラク 乱数の場合でも分位点(2.5, 97.5%点)を計算するのは簡単 ゼロ付近を拡大したもの ▌こんなのだったらどうする? 頂点が無い 【例】 二項分布に従う試行について 「n回挑戦して一回も成功しなかったデータ」 (負の二項分布や指数分布) ▌最頻値(この場合ゼロ)が含まれないのおかしくない? HPDが良いのかもしれない おすすめされるが計算が大変,あるいはこのような場合は右だけで5%切るのもあり,かも 04 事前分布・基本的なベイズ推論(1) 65
最後はstanで同じ結果を出してみる
推定に必要な情報
model_binom.stan
data {
回の事例
𝑌
調査した件数
𝑛 = 100
視聴していた件数
𝑘 = 13
𝜃
視聴率
𝜋
尤度
𝑃(𝑌|𝜃)
二項分布
𝐵𝑖𝑛𝑜𝑚(𝑘|𝜋, 𝑛)
事前分布
𝑃(𝜃)
(例)ベータ分布
𝐵𝑒𝑡𝑎(1,1)
データ
int N;
int K;
}
parameters {
推
したいパラメータ
real <lower=0,upper=1> pi;
}
model {
}
library(cmdstanr)
pi ~ beta(1,1);
model <- cmdstan_model(“model_binom.stan”)
K ~ binomial(N, pi);
stan_data <-
A
list(N=100, K=13)
result <- model$sample(data = stan_data)
04 事前分布・基本的なベイズ推論(1)
66
結果から点推定値を出す Rユーザーはこういうときsummary()を使いたくなりますが, cmdstanrではこのようにオブジェクトの中にメソッドがある,という表し方をします result$summary() 対数尤度 点推定はどうする? 左から これが ラ ータの分 だとすると,この分 の代表値を使えば良さそう 90%確信区間 事後平均値(EAP),事後中央値(MED),事後分 のSD 代表値と言えば (Equal-tailed interval) p. 58 とりあえず EAPとMEDは 先程の結果と完全に一致 = 平均値(期待値) 事後期待値( から までを拡大してみると ) 中央値 事後中央値( ) 最頻値 事後確率最大推 値( ) 結局どれがいいの? 04 事前分布・基本的なベイズ推論(1) 67
その他の推定値の出し方 ▌MAP ▶ cmdstanの中に最適化計算(=最尤推定)がある MAP <- model$optimize(data = stan_data) MAP$summary() ▌95%(ETI / HDI) ▶ 別の (準備) ッケージを使うのが良さそうです install.packages(“tidybayes”) library(tidybayes) (実行) result$draws(format = “df”) |> # 乱数を全部取り出す(出力形式を指定して) spread_draws(pi) |> # 下の関数が使いやすいように整形 mode_hdi() # その名の通り最頻値(MAP)とHDIを計算 04 事前分布・基本的なベイズ推論(1) 68
点推定と区間推定 ▌95%(ETI / HDI) ▶ tidybayes (実行) ッケージを使う result$draws(format = “df”) |> # 乱数を全部取り出す(出力形式を指定して) spread_draws(pi) |> # 下の関数が使いやすいように整形 mode_hdi() # その名の通り最頻値(MAP)とHDIを計算 他の点推定・区間推定も xxx_yyy()の名前で実行可能 点推定値 mode (MAP) 関数名 設定 意味 xxx mean 事後平均 (EAP) median 事後中央値 (MED) mode 事後最頻値 (MAP) qi 等裾信用区間 (ETI) hdi 最高事後密度区間 (HDI) 区間推定値 (HDI) ▲ 前ページと僅かにずれているのですが よくわかりません… yyy (例)mean_qi(), median_hdi() 04 事前分布・基本的なベイズ推論(1) 69
一応事後分 も書いてみる ▌tidybayes (実行) ッケージの関数を使って書いてみると library(ggplot2) result$draws(format = "df") |> spread_draws(pi) |> ggplot(aes(x=pi)) + stat_halfeye(point_interval = "mode_hdi") 点推定値と95%区間 04 事前分布・基本的なベイズ推論(1) 70
まとめと次回予告 まとめ ▌事前分 の決め方がなんとなく分かりました 基本的には結構弱めの情報を入れておくくらいがよい どういう設 にせよ,その根拠を明確にする必要がある ▌二項分 の ラ ータ推定を最尤法&ベイズで実行しました 共役事前分布がある場合には解析的に事後分布を求めることができる 事前分布が一様分布のとき,最尤推 値はMAPと一致する 点推 ・区間推 のいくつかの方法もstanの結果からできる 次回予告 共役事前分布がある=解析的にも解ける 引き続き,いくつかの基本的な問題例を見ていきます。 04 事前分布・基本的なベイズ推論(1) 71