Introduction to R - Speaker Deck

Slide 1

Slide 1 text

Introduction to R fukuoka.R #13 @nonki1974 April 6, 2019

Slide 2

Slide 2 text

ベクトル | データ構造の基本 # 正規乱数を 6 個生成 rnorm(6) ## [1] -1.8346427 0.1121437 -0.2933256 ## [4] 0.8007794 -0.3860248 -0.2725474 → 行の先頭の [1] が何番目の要素かを示している 2

Slide 3

Slide 3 text

ベクトル | 数値（スカラ） → 数値も⻑さ 1 のベクトルとして扱われる 3+4 ## [1] 7 3

Slide 4

Slide 4 text

変数への代入 → 代入記号は <- → 変数 +[Enter] で中身を表示 x <- rnorm(2) x ## [1] 1.8786776 0.9995424 4

Slide 5

Slide 5 text

ベクトルの作成 → c() 関数で値をつなげて (combine) ベクトルを作成 y <- c(3, 4.5) y ## [1] 3.0 4.5 5

Slide 6

Slide 6 text

行列・配列 → 次元属性を持ったベクトル x <- rnorm(6) x ## [1] 0.2585055 0.6418958 -0.8850625 ## [4] -0.9304199 -0.2260441 1.4271053 dim(x) <- c(2, 3) x ## [,1] [,2] [,3] ## [1,] 0.2585055 -0.8850625 -0.2260441 ## [2,] 0.6418958 -0.9304199 1.4271053 6

Slide 7

Slide 7 text

要素の指定 | 行列・配列 x[2, 3] ## [1] 1.427105 # ベクトルの要素番号でも指定できる # （ベクトルとしての性質も保持している） x[5] ## [1] -0.2260441 7

Slide 8

Slide 8 text

リスト → データ型の異なる複数のベクトルや，複数のリストを一括して保持できるデータ構造。分析結果はリストで返されることが多い。 → リストの作成には list() 関数を使う。 date <- "2015-10-01" city <- c(" 福岡市", " 北九州市") popl <- c(154, 96) fukuoka <- list(date = date, city = city, popl = popl) 8

Slide 9

Slide 9 text

リスト fukuoka ## $date ## [1] "2015-10-01" ## ## $city ## [1] "福岡市" "北九州市" ## ## $popl ## [1] 154 96 9

Slide 10

Slide 10 text

要素の参照 | リスト → [[要素番号]] もしくは $ 要素名でリスト内のオブジェクト自身を参照できる → [要素番号] の場合はリストが返される fukuoka$city ## [1] "福岡市" "北九州市" fukuoka[[2]] ## [1] "福岡市" "北九州市" fukuoka[2] ## $city ## [1] "福岡市" "北九州市" 10

Slide 11

Slide 11 text

データフレーム → 行列風の外見を持つ同じ大きさのベクトルを要素とするリスト → data.frame() 関数で作成できる city <- c(" 福岡市", " 北九州市", " 久留米市") code <- c("40130", "40100", "40203") popl <- c(154, 96, 30) area <- c(343, 492, 230) fukuoka.df <- data.frame( city = city, code = code, popl = popl, area = area ) 11

Slide 12

Slide 12 text

データフレームの出力 fukuoka.df ## city code popl area ## 1 福岡市 40130 154 343 ## 2 北九州市 40100 96 492 ## 3 久留米市 40203 30 230 12

Slide 13

Slide 13 text

データフレームの要素の参照 fukuoka.df$popl ## [1] 154 96 30 fukuoka.df[,3] ## [1] 154 96 30 fukuoka.df[1,] ## city code popl area ## 1 福岡市 40130 154 343 colnames(fukuoka.df) ## [1] "city" "code" "popl" "area" 13

Slide 14

Slide 14 text

データファイルの読み込み → 様々なフォーマットのファイルを R に読み込むことができる → カンマ区切り，タブ区切りのテキストファイルなど → read.table() が基本 → ラッパーとして read.csv() や read.table() などがある 14

Slide 15

Slide 15 text

CSV ファイルを読み込む fukuoka2015 <- read.csv("fukuoka2015.csv", fileEncoding = "SJIS") head(fukuoka2015) ## area_code 地域総面積人口総数昼間人口世帯数 ## 1 40101 門司区 7367 99637 97946 43082 ## 2 40103 若松区 7131 82844 82591 33692 ## 3 40105 戸畑区 1661 59116 70519 27797 ## 4 40106 小倉北区 3923 181878 224589 91253 ## 5 40107 小倉南区 17174 212850 190913 88497 ## 6 40108 八幡東区 3626 68844 73391 31442 15

Slide 16

Slide 16 text

データフレームの操作 → 列（変数）の取り出しはリストと同様 → 要素の参照および行や列の参照は行列と同様 # 以下 2 つは同じ結果 fukuoka2015$地域 fukuoka2015[,2] # 行を取り出す（結果はデータフレーム） fukuoka2015[1,] ## area_code 地域総面積人口総数昼間人口世帯数 ## 1 40101 門司区 7367 99637 97946 43082 # 列名（変数名）を参照 colnames(fukuoka2015) ## [1] "area_code" "地域" "総面積" "人口総数" "昼間人口" "世帯数" 16

Slide 17

Slide 17 text

データフレームの要約 | summary() 関数 summary(fukuoka2015) ## area_code 地域総面積人口総数 ## Min. :40101 うきは市: 1 Min. : 572 Min. : 2174 ## 1st Qu.:40205 みやこ町: 1 1st Qu.: 2165 1st Qu.: 18805 ## Median :40227 みやま市: 1 Median : 4192 Median : 40270 ## Mean :40315 芦屋町 : 1 Mean : 6068 Mean : 70901 ## 3rd Qu.:40407 鞍手町 : 1 3rd Qu.: 7822 3rd Qu.: 87014 ## Max. :40647 宇美町 : 1 Max. :24671 Max. :306015 ## (Other) :62 ## 昼間人口世帯数 ## Min. : 1946 Min. : 742 ## 1st Qu.: 17175 1st Qu.: 7264 ## Median : 37514 Median : 16508 ## Mean : 71486 Mean : 30830 ## 3rd Qu.: 83004 3rd Qu.: 35107 ## Max. :381926 Max. :141682 ## 17

Slide 18

Slide 18 text

列（ベクトル）を取り出してプロット hist(fukuoka2015$総面積) plot(昼間人口 ~ 人口総数, data = fukuoka2015) Histogram of fukuoka2015$総面積 fukuoka2015$総面積 Frequency 0 5000 10000 15000 20000 25000 0 10 20 30 40 0 50000 150000 250000 0e+00 2e+05 人口総数昼間人口 18

Slide 19

Slide 19 text

パッケージによる機能拡張 → パッケージを使うことで多くのことが可能になる → install.packages() 関数を使ってインストール → パッケージ名 :: 関数名 () でパッケージ内の関数を利用できる → library() 関数でパッケージをロードすればパッケージ名を省略可能 → tidydata 形式をサポートしたパッケージ群を tidyverse パッケージで一括してインストールできる 19

Slide 20

Slide 20 text

パッケージの利用例 install.packages("tidyverse") library(tidyverse) fukuoka2015 %>% mutate(人口密度 = 100 * 人口総数 / 総面積) %>% ggplot(aes(人口密度, 昼間人口, label = 地域)) + geom_point() + theme_bw(base_size = 16) 20

Slide 21

Slide 21 text

パッケージの利用例 0e+00 1e+05 2e+05 3e+05 4e+05 昼間人口 21

Slide 22

Slide 22 text

因子型 (factor) → R で名義尺度および順序尺度を扱うためのデータ型 → 文字型 (character) と異なるので注意 → factor() 関数を使って，文字型のベクトルから因子型に変換できる → levels 引数で水準（カテゴリ）のベクトルを指定 → 因子型の実体は整数型のベクトルに水準を表すベクトルが加わったもの 22

Slide 23

Slide 23 text

とりあえず文字型 bloodtype <- c("B","A","A","A","AB", "B","AB","A","A","A","C") bloodtype ## [1] "B" "A" "A" "A" "AB" "B" "AB" "A" "A" "A" "C" # ベクトルの要素をカウント table(bloodtype) ## bloodtype ## A AB B C ## 6 2 2 1 23

Slide 24

Slide 24 text

因子型に変換 | factor() 関数 bloodtype.f <- factor(bloodtype, levels = c("A", "B", "O", "AB")) bloodtype.f ## [1] B A A A AB B AB A A A ## Levels: A B O AB # O 型がいない場合，度数ゼロで集計してくれる table(bloodtype.f) ## bloodtype.f ## A B O AB ## 6 2 0 2 table(addNA(bloodtype.f)) ## ## A B O AB ## 6 2 0 2 1 24

Slide 25

Slide 25 text

因子型の中身 str(bloodtype.f) ## Factor w/ 4 levels "A","B","O","AB": 2 1 1 1 4 2 4 1 1 1 ... # 整数型に変換 as.numeric(bloodtype.f) ## [1] 2 1 1 1 4 2 4 1 1 1 NA # 対応する水準ベクトルの文字に変換 as.character(bloodtype.f) ## [1] "B" "A" "A" "A" "AB" "B" "AB" "A" "A" "A" NA 25

Slide 26

Slide 26 text

因子型の利用例 | iris データを例に iris データ R に標準で組み込まれているデータセット多変量データの例としてよく用いられる head(iris, n = 3) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.1 3.5 1.4 0.2 setosa ## 2 4.9 3.0 1.4 0.2 setosa ## 3 4.7 3.2 1.3 0.2 setosa str(iris) ## 'data.frame': 150 obs. of 5 variables: ## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... ## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... ## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... ## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... ## $ Species : Factor w/ 3 levels "setosa","versicolor", ..: 1 1 1 1 1 1 1 1 1 1 ... 26

Slide 27

Slide 27 text

因子型の利用例 | 箱ひげ図 # Species ごとに Sepal.Length の箱ひげ図を描画 boxplot(Sepal.Length ~ Species, data = iris) setosa versicolor virginica 4.5 5.5 6.5 7.5 27

Slide 28

Slide 28 text

因子型の利用例 | 水準の並べ替え Species2 <- reorder(iris$Species, iris$Sepal.Length, function(x){-median(x)}) boxplot(Sepal.Length ~ Species2, data = iris) virginica versicolor setosa 4.5 5.5 6.5 7.5 28

Slide 29

Slide 29 text

因子型の利用例 | 層別散布図 ggplot(iris, aes(Sepal.Width, Petal.Width, color = Species)) geom_point() + facet_wrap(~Species) + theme_bw(base_size = 14) setosa versicolor virginica 2.0 2.5 3.0 3.5 4.0 4.52.0 2.5 3.0 3.5 4.0 4.52.0 2.5 3.0 3.5 4.0 4.5 0.0 0.5 1.0 1.5 2.0 2.5 Sepal.Width Petal.Width Species setosa versicolor virginica 29