第3回記述統計(pdf)

425 Views

October 04, 23

#社会科学 #記述統計 #データ分析 #尺度の分類 #代表値の計算

スライド概要

Yuma Ishii

@7583596

スライド一覧

university student

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

第2回サンプルサイズと尺度値(pdf)

Yuma Ishii 1K

第4回分布と推定(pdf)

Yuma Ishii 797

学振特別研究員になるために～2026年度申請版

pd jsps 学振 dc1 dc2 研究費申請書キャリア

大上雅史 3.8M

EGG '24 | ゲーム業界ホワイト化の光と影

egg24 プロ

EGG（EEKANJI NO GAME GAKKAI） 1.7M

学振特別研究員になるために～2027年度申請版

jsps pd dc dc1 dc2 学振研究費申請書キャリア研究活動

大上雅史 1.1M

統計学I-1

講義資料統計学

Logics of Blue 310.4K

各ページのテキスト

記述統計量の種類第3回社会科学情報処理本資料は立教大学「社会科学情報処理(古賀)」の授業での使用を目的としたものです。当該授業での学習目的以外の利用を禁じます。また本資料の全体、または一部のインターネットへのアップロード、または二次使用などを一切禁じます。

尺度（数値）の4分類(Stevens, 1946) 質的変数名義尺度 •分類を表し入換可能、計算不可順序尺度 •順番を表し入換不可、計算不可量的変数間隔尺度 •等間隔の距離を持つ離散変量、入換不可、計算可比例尺度 •原点0を持ち比率が一定の実数、入換不可、計算可

記述統計量名義尺度/順序尺度の場合 •質問紙の数値自体は分析に利用できない •数値＝分類に該当する人数/個数を分析に利用する •数値（分類）が現れる頻度を表すので「度数」という •2つの尺度を組み合わせた度数の表(クロス表)もよく利用される間隔尺度/比例尺度の場合 •質問紙の数値自体を分析に利用できる •代表値を算出しデータの傾向を表す

名義尺度・間隔尺度の値は計算できない大きさを持たない値なので計算しても結果に意味がない順序尺度は大きさはあるが等間隔ではない回答の値（選択項目/順位）の出現頻度＝度数を利用するその項目は何人に選択されたか？値による偏りはあるか？

度数分布表やヒストグラムを作成回答の偏りを調べるため間隔・名義尺度であっても度数分布表やヒストグラムを作成する場合もある ■ 回答頻度の表＝度数分布表、頻度のグラフ＝ヒストグラム – 回答(級)ごとの人数（頻度）を調べ、表や棒グラフで表す ■ 順序・間隔・比例尺度で回答の類が多い場合、5～15段階の区切りの良い等間隔の区間（級）でまとめ人数を調べる – 100点のテストなら10点ごとの区間で人数を調べるなど – 級数の目安（スタージェスの法則) 階級数1 + log 2 サンプルサイズ 10 20 30 40 50 60 70 80 90 -20 -30 -40 -50 -60 -70 -80 -90 -100 2 4 8 13 15 18 14 10 3 1 級区間 0-10 頻度 20 18 16 14 12 10 8 6 4 2 0 10 20 30 40 50 60 70 80 90 100

代表値：量的データの特徴を表す数値（サンプルの値を3,5,2,7,5,4,3,6,5とすると） ■ 平均（算術平均/相加平均） – サンプルの総計をサンプルサイズで割ったもの ■ (3+5+2+7+5+4+3+6+5)÷9=4.44 ■ 中央値 – サンプル全ての値を大小順に並べ中央に位置する値 ■ 大小順に並べると2,3,3,4,5,5,5,6,7→5番目にあたる5 ■ 標本数が偶数の場合は中央の2つの値の平均を利用 ■ 最頻値 – 回答の値を一定区間に区切り最も度数の大きい区間 ■ 度数自体が最頻値ではない ■ 2,4,6,7の度数が1、3の度数が2、5の度数が3→度数が最大の5 ■ 最頻値は複数存在する可能性がある

平均値 ■ 全ての値が関わって算出された数値なので情報量が多い ■ 全ての値が影響するため外れ値の影響を強く受ける今月電車に乗った日数を尋ねて各回答者から以下の値が得られたとする（図は各回答者の回答を横に並べており、電車の数が乗った日数を表す）平均値3 平均値2 その値以上と以下の距離の合計が同じになる位置が平均（重心の位置）この値に引きずられて平均が上がっている外れ値(全体の傾向から大きく外れた値)があると平均値はその方向に引きずられてしまう

中央値 ■ 大小順に並べた中央の値だけに注目するので情報量は少ない ■ 外れ値の影響を受けない図は今月電車に乗った日数の回答を大小順に並べたもの中央値以外の値は影響しない中央値2 10件のデータを大小順に並べた5件目と6件目の値 • • 件数が偶数だと中央が2つになるのでその平均を採る奇数の場合中央の値は1つなので値をそのまま採択する中央値2 外れ値がどれだけ大きくても影響しない

最頻値 ■ 情報量が多いかどうかは場合による – 頻度の偏りが少ないと情報量も少なく信頼性も低い ■ 複数の最頻値が存在する場合がある – その場合は平均値をとらず並記する ■ 外れ値の影響は受けない最頻値は１と3。平均をとると実際の最頻値ではない2になってしまう頻度1～3までしかなく分布の偏りが小さいので 1と3は最頻値ではあるが集団の実態とはいいにくい最頻値1 最頻値3 外れ値がどれだけ大きくても影響しない

10.

代表値の選択 ■ 充分な数が無作為抽出されている標本 – 「全ての値を算出に利用＝情報量が多い」平均値がよく利用される ■ 標本数が少ない、または外れ値が存在する標本 – 外れ値に影響されない中央値がよく利用される ■ 頻度に偏りがある、または中央の頻度が最大でない標本 – 最頻値を利用する場合があるたとえば下のようなデータはどの値を代表値とするのが適切か？「家計調査報告（貯蓄・負債編）：貯蓄現在高階級別世帯分布－2019年－（二人以上の世帯）(P6)」総務省統計局

https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/2019_gai2.pdf

11.

ダレル・ハフ「統計でウソをつく法」講談社ブルーバックス p48 相加平均と中央値と最頻値の誤差 ■ 3つの値に大きく差がある例(左) ■ 3つの値が一致する例(下) 最頻値2 平均値2 中央値2 • 外れ値が無い • 大小順に並べた時に中央にくる値ほどデータ数が多い • 左右両方向の端に近い値程データ数が少ないと3つの値は一致しやすい

12.

平均については散布度も考慮する散布度(ばらつき)が異なると同じ平均値でも意味が異なる可能性がある５良い４まあまあ良い３普通２あまりよくない１悪い商品A レビュー平均3点 1人 2人 10人 2人 1人商品B レビュー平均3点 6人 1人 2人 1人 6人

13.

散布度の種類範囲：最小値から最大値までの幅 • 範囲は外れ値に影響されやすくデータの偏りを表すことができない四分位数：大小順に並べたデータを個数で4分割し1/4、2/4、3/4に該当する値 • 1/4にあたる値をQ1、2/4にあたる値をQ2、3/4にあたる値をQ3と表す（Q2は中央値と同じ） • 中央を示す値として平均値や中央値以外に四分位偏差 (Q3―Q1) / 2も使用される標準偏差(SD)：標本が平均からどの程度離れているかを表す • 標本の中央にデータが集まる左右対称形のばらつき(正規分布)である場合 • 標本±SDの範囲に標本の約68.3%が含まれる • 標本±2SDの範囲に標本の約95.4%、標本±3SDの範囲に約99.7%が含まれる

14.

レビュー平均3点 SD=0.87 5 商品A ±2SD 4 3 ±1SD 平均からの距離 2 1 データごとの「平均までの距離」の合計が大きい程ばらつきが大きいといえるレビュー平均3点商品B 5 4 3 2 1 ±1SD SD=1.77 ±2SD

15.

標準偏差とその他の散布度偏差各値と平均値との距離（データごとに算出）偏差平方和偏差の二乗の合計(二乗することで±が相殺できる）分散 S= σ 𝓍 − 𝓍ҧ 𝓃 偏差平方和をサンプル数nで割ったもの標準偏差分散が二乗した大きさなので分散に√をかけたもの「偏差値(Z score)」は50+10×(偏差÷標準偏差)、つまり平均が50、1Sが10になるよう補正した値。小文字のz scoreだと偏差÷標準偏差、つまり平均が0、1Sが1になるよう補正した値を意味する。 2