274 Views
October 04, 23
スライド概要
university student
記述統計量の種類 第3回 社会科学情報処理 本資料は立教大学「社会科学情報処理(古賀)」の授業での使用を目的としたものです。 当該授業での学習目的以外の利用を禁じます。また本資料の全体、または一部の インターネットへのアップロード、または二次使用などを一切禁じます。
尺度(数値)の4分類(Stevens, 1946) 質 的 変 数 名義尺度 •分類を表し入換可能、計算不可 順序尺度 •順番を表し入換不可、計算不可 量 的 変 数 間隔尺度 •等間隔の距離を持つ離散変量、入換不可、計算可 比例尺度 •原点0を持ち比率が一定の実数、入換不可、計算可
記述統計量 名義尺度/順序尺度の場合 •質問紙の数値自体は分析に利用できない •数値=分類に該当する人数/個数を分析に利用する •数値(分類)が現れる頻度を表すので「度数」という •2つの尺度を組み合わせた度数の表(クロス表)もよく利用される 間隔尺度/比例尺度の場合 •質問紙の数値自体を分析に利用できる •代表値を算出しデータの傾向を表す
名義尺度・間隔尺度の値は計算できない 大きさを持たない値なので計算しても結果に意味がない 順序尺度は大きさはあるが等間隔ではない 回答の値(選択項目/順位)の出現頻度=度数を利用する その項目は何人に選択されたか?値による偏りはあるか?
度数分布表やヒストグラムを作成 回答の偏りを調べるため間隔・名義尺度であっても度数分布表やヒストグラムを作成する場合もある ■ 回答頻度の表=度数分布表、頻度のグラフ=ヒストグラム – 回答(級)ごとの人数(頻度)を調べ、表や棒グラフで表す ■ 順序・間隔・比例尺度で回答の類が多い場合、5~15段階の区切 りの良い等間隔の区間(級)でまとめ人数を調べる – 100点のテストなら10点ごとの区間で人数を調べるなど – 級数の目安(スタージェスの法則) 階級数1 + log 2 サンプルサイズ 10 20 30 40 50 60 70 80 90 -20 -30 -40 -50 -60 -70 -80 -90 -100 2 4 8 13 15 18 14 10 3 1 級区間 0-10 頻度 20 18 16 14 12 10 8 6 4 2 0 10 20 30 40 50 60 70 80 90 100
代表値:量的データの特徴を表す数値 (サンプルの値を3,5,2,7,5,4,3,6,5とすると) ■ 平均(算術平均/相加平均) – サンプルの総計をサンプルサイズで割ったもの ■ (3+5+2+7+5+4+3+6+5)÷9=4.44 ■ 中央値 – サンプル全ての値を大小順に並べ中央に位置する値 ■ 大小順に並べると2,3,3,4,5,5,5,6,7→5番目にあたる5 ■ 標本数が偶数の場合は中央の2つの値の平均を利用 ■ 最頻値 – 回答の値を一定区間に区切り最も度数の大きい区間 ■ 度数自体が最頻値ではない ■ 2,4,6,7の度数が1、3の度数が2、5の度数が3→度数が最大の5 ■ 最頻値は複数存在する可能性がある
平均値 ■ 全ての値が関わって算出された数値なので情報量が多い ■ 全ての値が影響するため外れ値の影響を強く受ける 今月電車に乗った日数を尋ねて各回答者から以下の値が得られたとする (図は各回答者の回答を横に並べており、電車の数が乗った日数を表す) 平均値3 平均値2 その値以上と以下の距離の合計が同じになる位置が平均 (重心の位置) こ の 値 に 引 き ず ら れ て 平 均 が 上 が っ て い る 外れ値(全体の傾向から大きく外れた値)があると 平均値はその方向に引きずられてしまう
中央値 ■ 大小順に並べた中央の値だけに注目するので 情報量は少ない ■ 外れ値の影響を受けない 図は今月電車に乗った日数の回答を大小順に並べたもの 中央値以外の値は影響しない 中央値2 10件のデータを大小順に並べた5件目と6件目の値 • • 件数が偶数だと中央が2つになるのでその平均を採る 奇数の場合中央の値は1つなので値をそのまま採択する 中央値2 外 れ 値 が ど れ だ け 大 き く て も 影 響 し な い
最頻値 ■ 情報量が多いかどうかは場合による – 頻度の偏りが少ないと情報量も少なく信頼性も低い ■ 複数の最頻値が存在する場合がある – その場合は平均値をとらず並記する ■ 外れ値の影響は受けない 最頻値は1と3。平均をとると実際の 最頻値ではない2になってしまう 頻度1~3までしかなく分布 の偏りが小さいので 1と3は最頻値ではあるが 集団の実態とはいいにくい 最頻値1 最頻値3 外 れ 値 が ど れ だ け 大 き く て も 影 響 し な い
代表値の選択 ■ 充分な数が無作為抽出されている標本 – 「全ての値を算出に利用=情報量が多い」平均値が よく利用される ■ 標本数が少ない、または外れ値が存在する標本 – 外れ値に影響されない中央値がよく利用される ■ 頻度に偏りがある、または中央の頻度が最大でない標本 – 最頻値を利用する場合がある たとえば下のようなデータはどの値を代表値とするのが適切か? 「家計調査報告(貯蓄・負債編):貯蓄現在高階級別世帯分布-2019年- (二人以上の世帯)(P6)」 総務省統計局
ダレル・ハフ「統計でウソをつく法」 講談社ブルーバックス p48 相加平均と中央値と最頻値の誤差 ■ 3つの値に大きく差がある例(左) ■ 3つの値が一致する例(下) 最頻値2 平均値2 中央値2 • 外れ値が無い • 大小順に並べた時に中央にくる値ほどデータ数が多い • 左右両方向の端に近い値程データ数が少ない と3つの値は一致しやすい
平均については散布度も考慮する 散布度(ばらつき)が異なると同じ平均値でも意味が異なる可能性がある 5 良い 4 まあまあ良い 3 普通 2 あまりよくない 1 悪い 商品A レビュー 平均3点 1人 2人 10人 2人 1人 商品B レビュー 平均3点 6人 1人 2人 1人 6人
散布度の種類 範囲:最小値から最大値までの幅 • 範囲は外れ値に影響されやすくデータの偏りを表すことができない 四分位数:大小順に並べたデータを個数で4分割し1/4、2/4、3/4に該当する値 • 1/4にあたる値をQ1、2/4にあたる値をQ2、3/4にあたる値をQ3と表す(Q2は中央値と同じ) • 中央を示す値として平均値や中央値以外に四分位偏差 (Q3―Q1) / 2も使用される 標準偏差(SD):標本が平均からどの程度離れているかを表す • 標本の中央にデータが集まる左右対称形のばらつき(正規分布)である場合 • 標本±SDの範囲に標本の約68.3%が含まれる • 標本±2SDの範囲に標本の約95.4%、標本±3SDの範囲に約99.7%が含まれる
レビュー平均3点 SD=0.87 5 商品A ±2SD 4 3 ±1SD 平均からの距離 2 1 データごとの「平均までの距離」の合計が大きい程ばらつきが大きいといえる レビュー平均3点 商品B 5 4 3 2 1 ±1SD SD=1.77 ±2SD
標準偏差とその他の散布度 偏差 各値と平均値との距離(データごとに算出) 偏差平方和 偏差の二乗の合計(二乗することで±が相殺できる) 分散 S= σ 𝓍 − 𝓍ҧ 𝓃 偏差平方和をサンプル数nで割ったもの 標準偏差 分散が二乗した大きさなので分散に√をかけたもの 「偏差値(Z score)」は50+10×(偏差÷標準偏差)、つまり平均が50、1Sが10になるよう補正した値。 小文字のz scoreだと偏差÷標準偏差、つまり平均が0、1Sが1になるよう補正した値を意味する。 2