rd-2. ヒストグラム，散布図，折れ線グラフ，要約統計量

633 Views

February 25, 22

#r #ヒストグラム #散布図 #折れ線グラフ #要約統計量 #R #Data Science #Histogram #Scatter Plot #Line Graph

スライド概要

データサイエンス演習（R システムを使用）
https://www.kkaneko.jp/cc/rd/index.html

金子邦彦研究室ホームページ
https://www.kkaneko.jp/index.html

kunihikokaneko

@6674398749

スライド一覧

金子邦彦（かねこくにひこ）福山大学・工学部・教授ホームページ: https://www.kkaneko.jp/index.html 金子邦彦 YouTube チャンネル: https://youtube.com/user/kunihikokaneko

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

dn-5. 顔検出，顔認識（Dlib, InsightFace を使用）

kunihikokaneko 15.8K

bt-7. Blender 3.0 の液体のアニメーション

blender 流体アニメーションドメインフローエフェクター液体ジオメトリ流入口ベイク

kunihikokaneko 5.8K

ae-9. 姿勢推定

姿勢推定人体の姿勢推定頭部の姿勢推定オブジェクトの姿勢推定ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 5.6K

NVIDIA ドライバ, CUDA 11.6, cuDNN 8.4 のインストール (Windows 上) (2022年4月の最新版)

プログラミング nvidia cuda nvidia cudnn nvidia ドライバインストール windows

kunihikokaneko 5.1K

1. データベースとは，データベースシステムとは，情報とデータ

データベースデータベースシステム情報とデータデータの種類オープンデータ情報化社会

kunihikokaneko 3.9K

ae-2. 機械学習の基礎（教師なし学習，教師あり学習）

機械学習機械学習の仕組み学習検証 iris データセット教師有り学習教師無し学習予測クラスタリング分離ディープラーニング人工知能金子邦彦研究室

kunihikokaneko 3.6K

各ページのテキスト

rd-2. ヒストグラム，散布図，折れ線グラフ，要約統計量データサイエンス演習（R システムを使用） https://www.kkaneko.jp/de/rd/index.html 金子邦彦 1

https://www.kkaneko.jp/de/rd/index.html

2-1 パッケージの追加インストール 2

パッケージの設定 (1/2) • 次の手順で，必要なパッケージをインストール • パッケージをインストールするのにインターネット接続が必要 • install.packages("ggplot2") を実行 • install.packages("dplyr") を実行 3

パッケージの設定 (2/2) • install.packages("tidyr") を実行 • install.packages("magrittr") を実行こんな表示がでたら Yes • install.packages("KernSmooth") を実行 ※ 「K」と「S」が大文字 4

2-2 R オブジェクトのコンストラクタ 5

コンストラクタの例年次 1985 1990 1995 2000 2005 2010 出生数 1432 1222 1187 1191 1063 1071 死亡数 752 820 922 962 1084 1197 テーブルの例 x1 <- data.frame( 年次=c(1985, 1990, 1995, 2000, 2005, 2010), 出生数=c(1432, 1222, 1187, 1191, 1063, 1071), 死亡数=c(752, 820, 922, 962, 1084, 1197) ) 上記のテーブルを生成するコンストラクタコンストラクタの動作画面 6

2-3 iris データセット 7

アヤメ属 (Iris) • 多年草 • 世界に 150種. 日本に 9種. • 花被片は 6個 • 外花被片（がいかひへん） Sepal 3個（大型で下に垂れる） • 内花被片（ないかひへん） Petal 3個（直立する） 8

Iris データセット • 3種のアヤメの外花被辺、内花被片の幅と長さを計測したデータセット Iris setosa Iris versicolor Iris データセットは，Ｒシステムの中に組み込み済み Iris virginica • データ数は 50 × 3 • 作成者：Ronald Fisher • 作成年：1936 9

10.

2-4 ヒストグラムの例 10

11.

iris の 4属性それぞれのヒストグラム属性： Sepal.Length, Sepal.Width, Petal.Length, Petal.Width 各属性のヒストグラム 11

12.

複数ヒストグラムの重ね合わせ表示 library(dplyr) d2 <- tbl_df( iris ) library(tidyr) library(magrittr) library(KernSmooth) library(ggplot2) d2 %>% select( Sepal.Length, Sepal.Width, Petal.Length, Petal.Width ) %>% gather() %>% ggplot( aes(x=value, fill=key) ) + geom_histogram( binwidth=dpih( use_series(d2, Sepal.Length) ), alpha=0.5, position="identity") + theme_bw() 12

13.

ヒストグラムでの区間幅の調整区間幅 = 0.1 library(ggplot2) ggplot(iris, aes(x = Sepal.Length)) + geom_histogram(binwidth=0.1) + theme_bw() 区間幅を、dpih 関数を用いて調整 library(magrittr) library(KernSmooth) library(ggplot2) ggplot(iris, aes(x = Sepal.Length)) + geom_histogram( binwidth=dpih( iris$Sepal.Length ) ) + theme_bw() 13

14.

2-5 散布図，折れ線グラフ 14

15.

散布図、折れ線グラフのバリエーション年次 1985 1990 1995 2000 2005 2010 出生数（千人）死亡数（千人） 1432 1222 1187 1191 1063 1071 752 820 922 962 1084 1197 散布図散布図＋折れ線散布図＋線形近似出生数、死亡数の推移出典：総務省「第63回日本統計年鑑平成26年」 15

16.

散布図年次出生数死亡数 1985 1432 752 1990 1995 1222 820 1187 922 2000 1191 962 2005 1063 1084 2010 1071 1197 x 軸 (フィールド名) 年次 y 軸 (フィールド名) 点の大きさ (数値) 出生数, 死亡数 x 軸の名前 (文字列) y 軸の名前 (文字列) 3 年次出生数, 死亡数 x1 <- data.frame( 年次=c(1985, 1990, 1995, 2000, 2005, 2010), 出生数=c(1432, 1222, 1187, 1191, 1063, 1071), 死亡数=c(752, 820, 922, 962, 1084, 1197) ) library(ggplot2) ggplot(x1, aes(x=年次)) + geom_point( aes(y=出生数, colour="出生数"), size=3 ) + geom_point( aes(y=死亡数, colour="死亡数"), size=3 ) + labs(x="年次", y="出生数, 死亡数") + theme_bw() 16

17.

散布図＋折れ線年次出生数死亡数 1985 1432 752 1990 1995 1222 820 1187 922 2000 1191 962 2005 1063 1084 2010 1071 1197 x 軸 (フィールド名) 年次 y 軸 (フィールド名) 点の大きさ (数値) 出生数, 死亡数 x 軸の名前 (文字列) y 軸の名前 (文字列) 3 年次出生数, 死亡数 x1 <- data.frame( 年次=c(1985, 1990, 1995, 2000, 2005, 2010), 出生数=c(1432, 1222, 1187, 1191, 1063, 1071), 死亡数=c(752, 820, 922, 962, 1084, 1197) ) library(ggplot2) ggplot(x1, aes(x=年次)) + geom_point( aes(y=出生数, colour="出生数"), size=6 ) + geom_point( aes(y=死亡数, colour="死亡数"), size=6 ) + geom_line( aes(y=出生数, colour="出生数"), size=2 ) + geom_line( aes(y=死亡数, colour="死亡数"), size=2 ) + labs(x="年次", y="出生数, 死亡数") + theme_bw() 17

18.

散布図＋線形近似出生死亡年次数数 x 軸 (フィールド名) 年次 y 軸 (フィールド名) 点の大きさ (数値) 出生数, 死亡数 1985 1432 752 1990 1995 1222 820 1187 922 2000 1191 962 2005 1063 1084 2010 1071 1197 x 軸の名前 (文字列) y 軸の名前 (文字列) 3 年次出生数, 死亡数 x1 <- data.frame( 年次=c(1985, 1990, 1995, 2000, 2005, 2010), 出生数=c(1432, 1222, 1187, 1191, 1063, 1071), 死亡数=c(752, 820, 922, 962, 1084, 1197) ) library(ggplot2) ggplot(x1, aes(x=年次)) + geom_point( aes(y=出生数, colour="出生数"), size=6 ) + geom_point( aes(y=死亡数, colour="死亡数"), size=6 ) + stat_smooth( method="lm", se=FALSE, aes(y=出生数, colour="出生数"), size=2 ) + stat_smooth( method="lm", se=FALSE, aes(y=死亡数, colour="死亡数"), size=2 ) + labs(x="年次", y="出生数, 死亡数") + 18 theme_bw()

19.

2-6 グラフのファイルへの保存 19

20.

png ファイルの作成ファイル f:/1.png に保存 x1 <- data.frame( 年次=c(1985, 1990, 1995, 2000, 2005, 2010), 出生数=c(1432, 1222, 1187, 1191, 1063, 1071), 死亡数=c(752, 820, 922, 962, 1084, 1197) ) library(ggplot2) png("f:/1.png") ggplot(x1, aes(x=年次)) + geom_point( aes(y=出生数, colour="出生数"), size=3 ) + labs(x="年次", y="出生数") + theme_bw() dev.off() 20

21.

2-7 要約統計量，頻度，ヒストグラム 21

22.

ここで行うこと各フィールドの頻度（数え上げ）種類ごとの数え上げ各フィールドの要約統計量の算出平均 (mean)、標準偏差 (sd)、分散 (var) 中央値 (median)、四分位点 (quantile)、最大値 (max)、最小値 (min) 科目受講者国語 A 国語 B 算数 A 算数 B 理科 A 得点 90 80 95 90 80 元データ要約統計量の例 22

23.

ここでの説明で使用するデータ成績データ科目受講者国語 A 国語 B 算数 A 算数 B 理科 A 得点 90 80 95 90 80 d1 <- data.frame( 科目=c("国語", "国語", "算数", "算数", "理科"), 受講者=c("A", "B", "A", "B", "A"), 得点=c(90, 80, 95, 90, 80) ) コンストラクタ ※ iris データセットは R システムに組み込み済み iris データセット 23

24.

要約統計量（summary を使用）① 成績科目受講者国語 A 国語 B 算数 A 算数 B 理科 A 得点 90 80 95 90 80 ◆ 数値属性に対しては最小、最大、平均、中央値、四分位点 d1 <- data.frame( 科目=c("国語", "国語", "算数", "算数", "理科"), 受講者=c("A", "B", "A", "B", "A"), 得点=c(90, 80, 95, 90, 80) ) summary(d1) 24

25.

頻度のグラフ化 ① 科目受講者得点国語 A 90 国語 B 80 算数 A 95 算数 B 90 理科 A 80 集約を行うテーブルの変数名集約したいフィールド名 x 軸の名前 (文字列) d1 科目科目 y 軸の名前 (文字列) 総数 d1 <- data.frame( 科目=c("国語", "国語", "算数", "算数", "理科"), 受講者=c("A", "B", "A", "B", "A"), 得点=c(90, 80, 95, 90, 80) ) library(ggplot2) ggplot(d1, aes( x=科目, fill=科目 )) + geom_bar(stat="count") + labs(x="科目", y="総数") + theme_bw() 25

26.

頻度のグラフ化 ② 科目受講者得点国語 A 90 国語 B 80 算数 A 95 算数 B 90 理科 A 80 集約を行うテーブルの変数名集約したいフィールド名 d1 得点 x 軸の名前 (文字列) y 軸の名前 (文字列) 得点総数 d1 <- data.frame( 科目=c("国語", "国語", "算数", "算数", "理科"), 受講者=c("A", "B", "A", "B", "A"), 得点=c(90, 80, 95, 90, 80) ) library(ggplot2) ggplot(d1, aes( x=得点 )) + geom_bar(stat="count") + labs(x="得点", y="総数") + theme_bw() 26

27.

要約統計量（summary を使用）② iris データセット summary(iris) 27