2.9K Views
October 13, 23
スライド概要
神戸大学経営学部で2022年度より担当している「経営統計」の講義資料「02_1変数の記述統計量」を公開用に調整したものです。
神戸大学経営学研究科准教授 分寺杏介(ぶんじ・きょうすけ)です。 主に心理学的な測定・教育測定に関する研究を行っています。 講義資料や学会発表のスライドを公開していきます。 ※スライドに誤りを見つけた方は,炎上させずにこっそりお伝えいただけると幸いです。
経営統計 02 1変数の記述統計量 分寺 杏介 神戸大学 経営学部 [email protected] ※本スライドは,クリエイティブ・コモンズ 表示-非営利 4.0 国際 ライセンス(CC BY-NC 4.0)に従って利用が可能です。
(おさらい)統計学でやろうとしていること 主に統計学の 知識が必要 仮 説 を た て る デ ー タ を 集 め る 領域の専門的な 知識が必要 要 約 す る 統 計 的 仮 説 検 定 手元のデータで計算する データの相関係数が0.32でした 02 基本的な記述統計量 結 論 を 出 す 一 般 化 で き る 全体にも当てはまるかを統計的に検証する 全体の相関係数もゼロではなさそうですね 2
(おさらい)統計学でやろうとしていること 仮 説 を た て る デ ー タ を 集 め る 要 約 す る 統 計 的 仮 説 検 定 結 論 を 出 す 一 般 化 で き る 今日からはこの部分のお話 02 基本的な記述統計量 3
記述統計量 またの名を要約統計量 データの特徴を簡潔に説明・把握するために A 1 ID B 性別 C D 身長 E 体重 F 勉強時間 テストの得点 2 1 男 172 70 3.0 91 3 2 女 158 47 0.8 31 4 3 女 160 54 4.0 34 5 4 男 178 69 3.8 51 6 5 女 153 42 1.9 87 7 6 男 169 80 1.9 39 165 70 2.1 48 155 42 0.8 73 159 63 2.4 62 148 40 1.7 34 147 42 1.6 84 8 7 男 この前とったデータから 9 8 女 10 9 男 みんなの身長は 11 10 女 どんな感じだったか教えて 11 女 12 えっと…1人目が172cm,2人目が 158cm,3人目が160cmで…(略) データが多くなると,一つ一つを見ていてもきりがない 上に,結局よくわからない 平均は169.5cm,標準偏差は5.6cmでした。 知りたいことは結構シンプルで,例えば 「平均はこれくらいで,これくらいのバラツキがある」 くらいがわかれば良かったりする これを記述統計量と呼ぶ 02 基本的な記述統計量 4
代表値|平均値 mean すべてのデータを足して,個数で割った値 𝑛 1 1 𝑥ҧ = 𝑥𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 𝑛 𝑖=1 例|5人の大学生の年齢がそれぞれ19, 21, 20, 19, 22だったら 19 + 21 + 20 + 19 + 22 101 = = 20.2 5 5 長所 すべてのデータを使っているので,いかにも「代表」らしい 短所 外れ値の影響を受けやすい 無視されているデータが無く 全部を活用しているという意味です 大人の学び直し 例|5人の年齢がそれぞれ19, 21, 20, 19, 56だったら 一般的な大学生とはかけ離れてるなぁ 19 + 21 + 20 + 19 + 56 135 = = 27.0 5 5 02 基本的な記述統計量 5
外れ値があったらどうする? 単純なミスならば迷わず除外 or 修正する 例|身長が1573cmだった ▶ 記録の元を確認したら157.3cmかもしれない ありえる値だったら基本的には残しておく もちろんミスではないことを確認した上で 例|年収が12000万円というのは「外れ値」だが現実にありえる値 ▶ むしろ除外してしまうとデータ全体を反映した平均値にならないのでダメ ありえる値でも意図的に除外するケースもある 02 基本的な記述統計量 人数 年収12000万円が入っている左図では, データの分布がよくわからない。 このような場合「外れ値は除外した」ことを明記して 関心のある区間に絞ったヒストグラム(右図)を 作ったりする 人数 例|ヒストグラムを作るとき 6
代表値|中央値 median データを小さい順に並べたときの真ん中の値 例|5人の年齢がそれぞれ19, 21, 20, 19, 22だったら ▶小さい順に並べると19, 19, 20, 21, 22なので,真ん中は20 データが偶数個のときは真ん中に近い2つの平均値をとる 長所 外れ値につよい 短所 すべてのデータを使っているわけではない 例|5人の年齢がそれぞれ19, 21, 20, 19, 56だとしても ▶小さい順に並べると19, 19, 20, 21, 56なので,真ん中は20のまま 極端な話,5人の年齢がそれぞれ「20未満」,「20未満」,20,「20以上」,「20以上」ならば, 他の4人の年齢がいくつであっても中央値は20になる。 平均値がすべてのデータを反映した代表値であった一方で,中央値は「小さい順での真ん中の値」以外は (順序以外)全く反映されていないという点で,「代表」感は薄いと感じるかもしれない。 02 基本的な記述統計量 7
代表値|最頻値 mode 最も出現回数(度数)の多い値 例|5人の年齢がそれぞれ19, 21, 20, 19, 22だったら ▶最も出現回数が多いのは19(唯一2回出現) 長所 外れ値につよい 短所 すべてのデータを使っているわけではない ここが代表値? 分布の端になってしまうかもしれない 上の例でも19はデータの中での最小値 「代表」と言っているくせに分布の端を採用するのは違和感がある 連続変数だと使いづらい 3 2 1 本来連続変数では小数を細かくしたら同じ値は無いはずなので, すべての度数が1になり最頻値が定義されなくなってしまう 02 基本的な記述統計量 0 19 20 21 22 8
で,結局どれを使えばいいの? ルールも正解もないんだよ 「外れ値があるときは平均値はダメだ!」 「こういうときはこう」と決めつけてしまうと判断ミスを招く可能性が あるので,状況に応じて柔軟に使い分けてください 「最頻値は代表値としては欠陥品だ!使わないほうがいい!」 みんな違って,みんないい 何をもって「代表」とするかの考え方が色々ある,というだけの話 ▶「なぜその代表値を使うのか」に責任と自覚を持ってください そのために,各代表値の定義と特徴を きちんと理解しておく必要があるのです なんなら全部報告しても問題ない 例|身長の平均値も中央値も最頻値も172cmでした ▶ 身長の分布が「だいたい左右対称」であることがわかる 後の回でもう少し出てきますが,とりあえず 「完全に左右対称の分布では平均値と中央値が同じになる」 ということは覚えておいて損はありません 02 基本的な記述統計量 9
散布度 データの散らばり具合 今回のデータの平均値・中央値・最頻値 はすべて50でした。 代表値が同じでも,散布度が異なるとデータ の分布のイメージは全く異なってしまう こんな感じかな? 実際には代表値も散布度も同じだからといって 分布が完全一致するわけでもないので, 最終的にはヒストグラムなど図を使って データを確認するのを忘れずに! 02 基本的な記述統計量 10
偏差 deviation 平均値からの差 例|5人の身長がそれぞれ172, 168, 170, 159, 176だったら 身長 172 168 170 159 176 平均を引く 172-169 168-169 170-169 159-169 176-169 偏差 3 -1 1 -10 7 数直線上で表すと… -1 1 -10 159 168 170 169 3 平均値は169 7 172 偏差の大きさ=ばらつきの大きさ 176 すべてのデータが近い値だと 偏差もすべて小さくなるので ▶散布度は「偏差の代表値」として表す 02 基本的な記述統計量 11
散布度|平均偏差 mean deviation あまり使うことは無いですが、考え方の導入として紹介します 偏差の代表値=偏差の平均値 身長 172 168 170 159 176 平均を引く 172-169 168-169 170-169 159-169 176-169 偏差 3 -1 1 -10 7 平均値は0 - - 偏差 3 -1 1 -10 絶対値 3 1 1 10 7 7 基本的な記述統計量 3 + 1 + 1 + 10 + 7 22 平均偏差 = = 4.4 5 5 平均値169cmから平均して4.4cmずれている という解釈になる 偏差の平均値をとると必ず0になる 「ばらつき」という意味では偏差が プラスかマイナスかは関係ない 平均値からのズレの大きさは 「-10」も「10」も同じ 絶対値の 偏差の絶対値の平均値を計算してあげる これが平均偏差 02 基本的な記述統計量 12
散布度|分散と標準偏差 variance and standard deviation テキストによっては 𝑛 − 1で割っているものもありますが 今は完全無視してください。 偏差の平均値その2 身長 172 168 170 159 176 平均を引く 172-169 168-169 170-169 159-169 176-169 偏差 3 -1 1 -10 7 平均値は0 𝑛 偏差 3 -1 1 -10 7 二乗 9 1 1 100 49 9 + 1 + 1 + 100 + 49 160 分散 = = 32 5 5 本当は 32 ≒ ±5.656 ですが,散布度は負の値になら ないので+5.656になります 標準偏差 32 ≒ 5.656 これも平均値169cmから平均して5.656cmずれている という感じで解釈できる 偏差の二乗の平均値を計算してあげる 二乗の これが分散 分散は二乗されているため 平均偏差のように解釈できない ルートをとることで 単位をもとに戻してあげる これが標準偏差 02 基本的な記述統計量 1 𝑣 = 𝑥𝑖 − 𝑥ҧ 𝑛 2 𝑖=1 分散の単位は二乗されているため 「平均値169cmから32cmずれてい る」という解釈はできない 𝑛 𝑣= 1 𝑥𝑖 − 𝑥ҧ 𝑛 𝑖=1 13 2
変数変換と散布度 ① 変数を 𝑛 倍したとき テスト得点 80 56 76 63 70 平均を引く 80-69 56-69 76-69 63-69 70-69 偏差 11 -13 7 -6 1 偏差の二乗 121 169 49 36 1 平均値は69 分散は75.2 標準偏差はおよそ8.67 例|2倍すると テスト得点 2×80 2×56 2×76 2×63 2×70 平均を引く 2×(80-69) 2×(56-69) 2×(76-69) 2×(63-69) 2×(70-69) 偏差 2×11 2×-13 2×7 2×-6 2×1 偏差の二乗 22×121 22×169 22×49 22×36 22×1 平均値は2×69 分散は22×75.2 標準偏差はおよそ2×8.67 22 × 75.2 = 02 基本的な記述統計量 22 × 75.2 = 2 × 75.2 ≒ 2 × 8.67 14
変数変換と散布度 ② 変数に 𝑚 を足したとき テスト得点 80 56 76 63 70 平均を引く 80-69 56-69 76-69 63-69 70-69 偏差 11 -13 7 -6 1 偏差の二乗 121 169 49 36 1 平均値は69 分散は75.2 標準偏差はおよそ8.67 例|5を足すと テスト得点 5+80 5+56 平均を引く (5+80)-(5+69) 偏差 11 -13 7 -6 1 偏差の二乗 121 169 49 36 1 (5+56) (5+69) 5+76 (5+76) (5+69) 5+63 (5+63) (5+69) 平均値は5+69 5+70 (5+70) (5+69) 分散は75.2 標準偏差はおよそ8.67 つまり散布度は変わらない 02 基本的な記述統計量 15
変数変換と散布度 まとめると 𝑛倍する 𝑚を足す 𝑛倍して𝑚を足す 平均値 𝑛倍になる 𝑚大きくなる 𝑛倍+𝑚になる 中央値 𝑛倍になる 𝑚大きくなる 𝑛倍+𝑚になる 最頻値 𝑛倍になる 𝑚大きくなる 𝑛倍+𝑚になる 平均偏差 𝑛倍になる 変わらない 𝑛倍になる 分散 𝑛2 倍になる 変わらない 𝑛2 倍になる 𝑛倍になる 変わらない 標準偏差 ― 159 170 7 172 169 ― 1 ― 164 02 基本的な記述統計量 168 3 176 5を足すと 𝑛倍になる この表をそのまま覚えるのではなく, それぞれの統計量の定義をきちんと理解しましょう 1 ― 173 175 3 7 175 181 174 全員同じ値を足しても数直線上では平行移動するだけ ▶ばらつきが変わることはない 16
記述統計量は他にもいろいろ 用途に応じて柔軟に考えましょう 変動係数 coefficient of variation 一般的に、値が大きいものほどばらつきは大きくなる • CEOの年収の標準偏差 … ウン千万? • フリーターの年収の標準偏差 … せいぜい100-200万くらい? 「値の大きさの割にばらついている」度を表現したい 02 基本的な記述統計量 変動係数 = 標準偏差 𝑣 = 𝑥ҧ 平均値 17
記述統計量は他にもいろいろ 用途に応じて柔軟に考えましょう 幾何平均 geometric mean 徐々に増えるものの「率」に関心がある場合に使われる • 10年間で、売り上げは年平均何%増加したか? ◀ 毎年30%ずつ増えた場合 (いわゆる複利) ◀ 毎年20%ずつ増えた場合 ◀ 毎年10%ずつ増えた場合 増加率が一つ決まると、曲線がひかれる 02 基本的な記述統計量 18
記述統計量は他にもいろいろ 用途に応じて柔軟に考えましょう 幾何平均 geometric mean 徐々に増えるものの「率」に関心がある場合に使われる • 10年間で、売り上げは年平均何%増加したか? ◀ 始点と終点を結ぶ曲線を作る増加率が幾何平均 実際の値 ▼ 𝑛 幾何平均 = ෑ 𝑎𝑖 1 𝑛 = 𝑛 𝑎1 𝑎2 𝑎3 ⋯ 𝑎𝑛 𝑖=1 𝑥𝑖 ※ ここでの 𝑎𝑖 は 𝑖 時点目での増加率 𝑎𝑖 = 𝑥 𝑖−1 02 基本的な記述統計量 19
散布度|範囲 range 最大値と最小値の差 身長 172 168 170 159 176 範囲 17 159 168 170 172 176 範囲内の散らばり具合は全くわからない 身長 175 174 160 159 176 最大値と最小値のみを用いて計算するので 外れ値の影響もモロに受ける 範囲 17 159 160 174 175 176 02 基本的な記述統計量 20
四分位数と四分位範囲 quartile and interquartile range 【データの数が奇数の場合】 1. 中央値にあたるデータを除外してから 2. 上位群の中央値が第3四分位数 3. 下位群の中央値が第1四分位数 データを4つに分けた範囲 例|100人の身長を小さい順に並べたもの 第1四分位群 順位 身長 1 2 148.0 149.2 … … 下位群の人数をちょうど 半分ずつに分ける値(中央値) 第2四分位群 25 26 160.2 160.6 … … 160.4 第1四分位数 第3四分位群 50 51 … 169.2 169.4 169.3 中央値 (第2四分位数) … 75 第4四分位群 76 175.4 175.8 175.6 第3四分位数 … … 99 189.9 192.1 上位群の人数をちょうど 半分ずつに分ける値(中央値) 15.2 四分位範囲 148.6 最小値 160.4 第1四分位数 169.3 中央値 02 基本的な記述統計量 175.6 第3四分位数 100 192.1 最大値 21
(おまけ)平均偏差よりも標準偏差が使われる理由① 平均偏差では場合分けが必要になるため 平均値が 𝑎 のときのデータ 𝑥 の偏差 𝑦 を式で表してみる |𝑎| は 𝑎 の絶対値を表す記号 例: −3 = 3, 3 = 3 平均偏差の場合 標準偏差の場合 𝑦 = |𝑥 − 𝑎| 𝑦 = 𝑥−𝑎 これはそのまま扱える なのだが,実際には 𝑥−𝑎 𝑦=൝ −𝑥 + 𝑎 (𝑥 ≥ 𝑎のとき) (𝑥 < 𝑎のとき) 絶対値を使うと いちいち場合分けして 2つの式を考える必要が生じる 2 二乗を使うと 場合分けする必要がなく 1つの式を考えるだけで済む 加えて,絶対値がある式は微分ができないという 弱点があるため,平均偏差は何かと使いづらいのです 02 基本的な記述統計量 22
(おまけ)平均偏差よりも標準偏差が使われる理由② 分散のほうが平均値と密接に関係しているため ここでは,代表値を代表値たらしめる理由について考えます。 「平均値」だ何だという知識は一旦おいて 直感的に「代表」っぽいと感じる方を選ぶとすると…? Q.どちらのほうが代表値っぽいですか? 身長 159 172 168 170 159 176 A B 169 178 168 170 172 たぶん平均値を知らない人に聞いても 大多数はAを選ぶのではないでしょうか 02 基本的な記述統計量 176 リーダーってクラスの中心人物が 選ばれることが多いですよね 23
(おまけ)平均偏差よりも標準偏差が使われる理由② なんでAのほうが「代表」っぽいのか? 人によっては別の理由を思いつくかもしれませんが ここではあくまで「一般論」として話を進めます BよりもAのほうがデータに近いから 身長 172 168 170 B 178 176 172 176 169 A 169 159 159 168 170 178 Bのほうが矢印が長い=偏差が大きい 159 言い方を変えると 168 170 172 176 代表値とは 全体的にその値からの偏差が小さくなるような値のことである 02 基本的な記述統計量 24
(おまけ)平均偏差よりも標準偏差が使われる理由② 「全体的に」なので「偏差の○○の合計値」が 小さくなる値を考えます 具体的に「全体的に偏差が小さくなる値」って? 偏差の扱い方によって変わります 偏差の絶対値の場合 偏差の絶対値の合計が 最小になる値は データの中央値 偏差の二乗の場合 偏差の二乗の合計が 最小になる値は データの平均値 赤い線(代表値)を右に動かすと「偏差の絶対値の合計」は1小さくなる ▶ 赤い線より大きいデータの数のほうが小さいデータの数よりも多いため ▶ 赤い線より大きいデータの数と小さいデータの数が同じになると「偏差の絶対値の合計」は最小 =赤い線が中央値のとき 159 168 170 172 176 代表値として中央値よりも 平均値=「偏差の二乗の合計が最小になる値」がよく使われる 散布度も,平均値によって最小化された値である 分散(および標準偏差)がよく使われる 02 基本的な記述統計量 25
(おまけついでに)最頻値は偏差の何を最小化する代表値なのか? 答.偏差の絶対値が一定の値以 のデータの割合を最小化する代表値 データのボリュームゾーンを捉えるのに適した代表値と言える 例|ある変数のヒストグラムが2つの山になっていたら 最頻値 平均値の場合 平均値 平均値は2つの山の ちょうど中間くらいになる 例えば平均値±3の範囲のデータは 結構少ない 最頻値の場合 最頻値は2つの山の どちらか一方の頂点になる 最頻値±3の範囲のデータは 平均値±3の範囲のデータよりも多い 02 基本的な記述統計量 26
標準化とは 異なる変数のスケールを揃えるために 前回の模試では70点だったのに, 異なる変数をそのまま比較する場合 ただ値を比較すると良くない 今回は50点に下がってるじゃない! 成績が落ちてるから睡眠禁止です! 変数のスケールを揃えることで 比較できる形にしよう 前回より難しかっただけなのになぁ… テストで大事なことは 他の人よりもできているか 言い換えると 平均値よりどれくらい高得点か 言い換えると 平均値からの偏差はいくつか 偏差に変換してみます 02 基本的な記述統計量 27
標準化とは 偏差に変換した結果 前回の模試では平均値+10点だったのに, 平均値からの偏差に変換しただけでは まだ比較は十分ではない 今回は平均値+5点に下がってるじゃない! やっぱり成績が落ちてるから睡眠禁止です! 【極端な例】 前回の模試 平均60点 期末はみんな似たような 点数だったんだよなぁ… 順位 点数 1 2 3 ︙ 100 99 99 ︙ 70 ︙ 32 ︙ 最下位 今回の模試 平均45点 順位 点数 1 2 3 ︙ ︙ 最下位 55 55 54 ︙ 50 ︙ 36 どうしたら比較できる? 02 基本的な記述統計量 28
ヒストグラムを書いてみると 平均値 前回の模試 今回の模試のほうが 平均値からの偏差は小さいが 分布の中では 位にいる なぜ? 今回の模試のほうが 散布度が小さいため 平均値付近に多くの人がいる 平均値 今回の模試 つまり? 偏差を散布度で調整したら 異なる変数を比較できる! この手続きを標準化と呼ぶ 02 基本的な記述統計量 29
標準化のイメージ 散布度は「偏差の代表値」でした 実際には標準偏差は「偏差の平均値」ではない ですが,ここではイメージを掴むために「偏差の 平均値」として話を進めます 平均値 前回の模試 平均60 標準偏差10ということは平均値からの偏差の平均が10 標準偏差10 の平均値+10点はある意味「平均的」なズレ あるいは偏差10 標準化とは 偏差が「標準偏差」いくつ分なのか 平均値 に変換すること 今回の模試 平均45 標準偏差3 標準偏差3ということは平均値からの偏差の平均が3 の平均値+5点は「平均的」よりもちょっと上 あるいは偏差5 偏差が標準的(=偏差が3)な人と比べると の偏差は5/3=1.67倍もある,ということ 02 基本的な記述統計量 30
標準化の手順 ① 変数を平均値からの偏差に変換する=平均値を引く ② 偏差を標準偏差で割る これだけ。 前回の模試 だから成績は 上がってるんですよ 奥さん 平均点60点,標準偏差10点のテストで70 点をとったので 70 − 60 10 = =1 10 10 今回の模試 標準化得点 平均点45点,標準偏差3点のテストで 50点をとったので 50 − 45 5 = ≒ 1.67 3 3 02 基本的な記述統計量 31
「標準化」 standardization 本当は平均値と標準偏差が特定の値になるような操作全般を指す 平均値0,標準偏差1に限った話ではない IQテストは何種類かあって それぞれ異なる標準偏差を採用している 例|IQは平均値100,標準偏差10~15程度に標準化された指標 ただ一般的には平均値0,標準偏差1に合わせることを指す こうして得られた標準化得点は,特にZ得点と呼ばれる 平均をzeroに合わせるから,という説 一般的には「標準化得点」といえばZ得点のことを指す 以後の授業においても,Z得点のことを「標準化得点」と呼びます 02 基本的な記述統計量 32
実はおなじみの標準化 日本の高校生は標準化得点に人生を左右されている… 偏差値 = 50 + 10 × 標準化得点 あるいはテスト得点を平均値50,標準偏差10に 標準化した値とも言える 前回の模試 ほら,偏差値も 上がっているでしょう? 奥さん 平均点60点,標準偏差10点のテストで70 点をとったので標準化得点は1 偏差値は 50 + 10 × 1 = 60 今回の模試 平均点45点,標準偏差3点のテストで 50点をとったので標準化得点は1.67 偏差値は 50 + 10 × 1.67 = 66.7 02 基本的な記述統計量 33
なんで偏差値を使うの? 【前提】偏差値を教育場面で使用するのはほぼ日本だけです。 偏差値を使う理由は標準化得点のメリットから説明できる? 模試の得点から入試の合格可能性を判定するときに • 素点について「何点以上なら合格可能性80%か」を算出したいが, 模試の難易度も入試の難易度と同じではないので難しい • 一方標準化得点は難易度に関わらず「集団内での位置」を表してくれる 例|理論上は,標準化得点が1の人は全受験者の上位16%になる 難易度によらず「偏差値いくつ以上なら80%か」を考えることはできそう 平均値50,標準偏差10にした理由はよくわかりません 理論的には標準化得点のままでも何の問題もないけど… 入試で「全受験者の上位何%が合格するか」 がわかれば,対応する標準化得点=偏差値を 計算できる (たぶん)テストはふつう100点満点なので50点が真ん中になるのがしっくり来たから? 02 基本的な記述統計量 34
標準化のメリット 変数の分布を揃えることができる 前回の模試 今回の模試 標 準 偏 差 で 割 る 平 均 値 を 引 く 02 基本的な記述統計量 ほぼ完全に一致 35
標準化(Z得点化)の特徴 標準化得点は必ず平均0,標準偏差1になる 厳密には「もとの標準偏差が0じゃなければ」 当然もとの平均値・標準偏差がいくつであっても成り立つ 標準化前後で分布の大まかな形は変わらない 左右対称 じゃなくても も と の 分 布 2つの山が あっても 前スライドの内容と合わせると もとの分布の形状が同じであれば 平均値・標準偏差が何であれ 標準化得点の分布は同じ形になる といえる 標 準 化 得 点 の 分 布 「分布の形状が同じ」の意味に関しては どこかで詳しく説明しますが,例えば 前スライドの「前回の模試」と「今回の模試」は 同じ形状の分布(正規分布)として扱われます。 02 基本的な記述統計量 36
もうちょっと記述統計量 平均値と分散(標準偏差)だけでは分布の形はわからない 標 準 化 得 点 の 分 布 どちらも 平均0、分散1 もともと 𝑛 個あったデータなので2つ(平均・分散)だけでは表せない 同じような統計量が 𝑛 個あればデータを完全再現できる (しないけど) モーメントを使った記述統計量 平均値は「原点 から値がどれだけ動くか」=「原点 からの偏差」 の平均値 分散 は「平均値から値がどれだけ動くか」=「平均値からの偏差」の二乗の平均値 ▶ 同じようにして三乗、四乗と考えてみましょう https://www.oreyume.com/magazine/learn/19702/ 02 基本的な記述統計量 37
もうちょっと記述統計量 平均値は「原点 から値がどれだけ動くか」=「原点 からの偏差」 の平均値 分散 は「平均値から値がどれだけ動くか」=「平均値からの偏差」の二乗の平均値 歪度 skewness 「平均値からの偏差」の三乗の平均値 身長 172 168 170 159 176 平均を引く 172-169 168-169 170-169 159-169 176-169 偏差 3 -1 1 -10 7 三乗 9 ー1 1 ー1000 343 𝑛 三乗の場合、もとの偏差と符号がおなじになる 1 𝑥𝑖 − 𝑥ҧ 歪度 = 𝑛 𝑣 平均値から大きく離れた値があると、歪度はその符号に合わせて動く 歪度マイナス 歪度ゼロ 02 基本的な記述統計量 歪度プラス 3 𝑖=1 標準化はしてもしなくて も良いが、一般的な定義 では標準化している 38
もうちょっと記述統計量 平均値は「原点 から値がどれだけ動くか」=「原点 からの偏差」 の平均値 分散 は「平均値から値がどれだけ動くか」=「平均値からの偏差」の二乗の平均値 歪度 は「平均値から値がどれだけ動くか」=「平均値からの偏差」の三乗の平均値 尖度 kurtosis 「平均値からの偏差」の四乗の平均値 身長 172 168 170 159 176 平均を引く 172-169 168-169 170-169 159-169 176-169 偏差 3 -1 1 -10 7 四乗 27 1 1 10000 2401 𝑛 四乗の場合、偏差の影響が分散よりも相当拡大される 尖度は分散よりも「平均値周辺の集約度」を表しているといえる 尖度小さめ 尖度ふつう 02 基本的な記述統計量 尖度大きめ 1 𝑥𝑖 − 𝑥ҧ 尖度 = 𝑛 𝑣 4 𝑖=1 標準化はしてもしなくて も良いが、一般的な定義 では標準化している 39