308 Views
February 25, 22
スライド概要
データサイエンス演習(R システムを使用)
https://www.kkaneko.jp/cc/rd/index.html
金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html
金子邦彦(かねこくにひこ) 福山大学・工学部・教授 ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko
rd-4. 平均と分散 データサイエンス演習 (R システムを使用) https://www.kkaneko.jp/de/rd/index.html 金子邦彦 1
「1,000,000個の中から ランダムに標本を選ぶ」 標本 128 104 124 85 120 サイズ: 1,000,000 80 80 126 122 79 標本 平均 97.4 不偏分散 591.8 平均 112.2 不偏分散 314.2 118 110 96 85 109 標本 平均 103.6 不偏分散 170.3 2
アウトライン 4-1 変数 4-2 平均と不偏分散 4-3 母平均と母分散 3
4-1 変数
変数の例 変数が3つ 科目 受講者 国語 A 国語 B 算数 A 算数 B 理科 A 得点 90 80 95 90 80 プログラムでの変数 ◆ 値を1つ保持するためのもの ここで説明する変数 ◆ 変化する値のこと 元データ 5
変数の例 値が変化する何か 5月 7日 80個 5月 8日 110個 5月 9日 120個 5月 10日 70個 5月 11日 120個 <変数> (例) 日本人全員 (超巨大だったり) 1900年から2100年までの人口変化 (未知だったり) <標本> (例) ランダム抽出された30人 2016年5月8日から11日までのデータ 6
変数と標本の例 各標本のデータ数(標本の大きさ) を決め,標本を得る 値が変化する何か <変数> 128 104 124 85 120 118 110 96 85 109 80 80 126 122 79 127 72 111 82 81 標本1 標本2 標本3 標本4 ◆ 標本をとるたびに違う値 7
4-2 平均と不偏分散
平均と不偏分散 128 104 124 85 120 標本1 ■ 平均とは すべての数値を足して,データの個数 で割った値 ■ 不偏分散とは 数値データの散らばり具合を表す数値 の1つ 数値データの 集まり 9
平均と不偏分散 値が変化する何か <変数> 128 104 124 85 120 118 110 96 85 109 80 80 126 122 79 127 72 111 82 81 標本1 標本2 標本3 標本4 それぞれの平均と不偏分散を求めると 平均 112.2 不偏分散 314.2 103.6 170.3 97.4 94.6 591.8 543.3 10
R のベクトル ベクトルとは,データの並びのこと. 各要素に番号(添え字)がある. • コンストラクタ(ベクトルデータの組み立て) c や numeric など • 添え字によるアクセス [] 11
R での平均と不偏分散 • 平均 mean • 不偏分散 var ※ 不偏分散は,標本値のばらつきを表す値 12
R での平均と不偏分散 128 104 124 85 120 118 110 96 85 109 80 80 126 122 79 127 72 111 82 81 c1 <- c(128, 104, 124, 85, 120) c2 <- c(118, 110, 96, 85, 109) c3 <- c(80, 80, 126, 122, 79) c4 <- c(127, 72, 111, 82, 81) mean(c1) mean(c2) mean(c3) mean(c4) var(c1) var(c2) var(c3) var(c4) 13
4-3 母平均と母分散
母平均と母分散 値が変化する何か <変数> 母平均:変数値の平均 母分散:変数値の分散 128 104 124 85 120 118 110 96 85 109 80 80 126 122 79 127 72 111 82 81 標本1 標本2 標本3 標本4 平均 112.2 103.6 97.4 94.6 不偏分散 314.2 170.3 591.8 543.3 15
変数に関するも の 母平均 標本に関するも の 平均 母分散 不偏分散 標本や不偏分散を使って, 母平均や母分散を推定する 標本データから, 平均,不偏分散が求まる 16
今から行うことのイメージ 値が変化する何か <変数> たくさんの標本 平均,不偏分散の算出 母平均,母分散の推定 17
今から行うこと 「1,000,000個の中から ランダムに標本を選ぶ」 128 104 124 85 120 乱数による 合成データ サイズ:1,000,000 80 80 126 122 79 標本 標本 118 110 96 85 109 標本 18
今から行うこと 「1,000,000個の中から ランダムに標本を選ぶ」 128 104 標本 R では 124 ベクトルデータ x の85 1,000,000個の中から ランダムに5個選びたいときは 120 乱数による 118 合成データ 110 x[floor( runif(5, 1, 1000000+1) )] 80 96 サイズ:1,000,000 標本 80 85 126 標本 109 122 79 19
合成データからランダムに5個選び標本を 作る 合成データ タイプ:数値 サイズ:1,000,000 サイズ5 の標本 毎回違う結果が出る x <- round( rnorm(1000000, mean=100, sd=20) ) x[floor( runif(5, 1, 1000000+1) )] x[floor( runif(5, 1, 1000000+1) )] x[floor( runif(5, 1, 1000000+1) )] 乱数による合成データの生成 20
標本を20個作り,各標本の平均や不偏分散を 求める 合成データ タイプ:数値 サイズ:1,000,000 サイズ5 の標本を 20個 各標本の 平均や 不偏分散 毎回違う結果が出る x <- round( rnorm(1000000, mean=100, sd=20) ) m <- numeric(20) v <- numeric(20) for (i in 1:20) { s <- x[floor( runif(5, 1, 1000000+1) )] m[i] <- mean(s) 合成データからランダムに v[i] <- var(s) 5個選び標本を作る } 平均と不偏分散 print(m) print(v) 21
各標本の平均値を比べる 標本の例 128 118 80 127 104 110 80 72 124 96 126 111 85 85 122 82 120 109 79 81 標本2個の各平均値 112.2 103.6 総平均:107.9 標本3個の各平均値 112.2 103.6 97.4 総平均:104.4 標本4個の各平均値 112.2 103.6 97.4 94.6 総平均:101.95 22
各標本の不偏分散値を比べる 標本 128 118 80 127 104 110 80 72 124 96 126 111 85 85 122 82 120 109 79 81 標本2個の各不偏分散値 314.2 170.3 その平均:242.25 標本3個の各不偏分散値 314.2 170.3 591.8 その平均:358.7667 標本4個の各不偏分散値 314.2 170.3 591.8 543.3 その平均:404.9 23
各標本の平均値や不偏分散値を集めて,平 均をとる 合成データ タイプ:数値 サイズ:1,000,000 サイズ5 の標本を 20個 x <- round( rnorm(1000000, mean=100, sd=20) ) m <- numeric(20) v <- numeric(20) for (i in 1:20) { s <- x[floor( runif(5, 1, 1000000+1) )] m[i] <- mean(s) v[i] <- var(s) } for (i in 1:20) { print( mean(m[1:i]) ) } for (i in 1:20) { print( mean(v[1:i]) ) } 各標本の 平均値や 不偏分散値 平均 24
だんだんと 100 に近づく 各標本の平均値を集めて 平均を求める だんだんと 400 に近づく 各標本の不偏分散値を集めて 平均を求める ランダムなので,毎回違う結果が出る 25
だんだんと 100 に近づく だんだんと 400 に近づく 何度やっても同じ 何度やっても同じ 各標本の平均値を集めて 平均を求める 各標本の不偏分散値を集めて 平均を求める ランダムなので,毎回違う結果が出る 26
標本の個数を 20 から 1000 の間で変えて, 総平均を求めてみる だんだんと 100 に近づく 各標本の平均値を集めて総平均を求める 27
標本の個数を 20 から 1000 の間で変えて, 総平均を求めてみる だんだんと 400 に近づく 各標本の不偏分散値を集めて総平均を求める 28
だんだんと 100 に近づく 変数 標本 母平均 平均 ※ R では mean 不偏分散 ※ R では var その値は 100 であると推定 母分散 だんだんと 400 に近づく その値は 400 であると推定 標本や不偏分散を使って, 母平均や母分散を推定する 標本はデータなので, 平均は不偏分散は求まる 29