因子型を使いこなそう@fukuoka.R#09

因子型を使いこなそう！ @nonki1974 2017/09/09 fukuoka.R#09

データ型データ構造データ型ベクトル行列・配列リストデータフレーム整数型実数型論理型
文字列因子型

データの種類（尺度水準）名義尺度順序尺度間隔尺度比例尺度同じものには同じ値（記号）異なるものには異なる値（記号）名義尺度＋順序関係値の間隔（差）に意味がある 10℃
→ 30℃ 20℃上昇した！温度が3倍になった！間隔尺度＋値の比に意味がある

変数の種類質的変数名義尺度順序尺度量的変数間隔尺度比例尺度

変数の種類質的変数名義尺度順序尺度量的変数間隔尺度比例尺度因子型

とりあえず文字型 > bloodtype <- c("B","A","A","A","AB", + "B","AB","A","A","A","C") > bloodtype [1]
"B" "A" "A" "A" "AB" "B" "AB" [8] "A" "A" "A" "C" > table(bloodtype) bloodtype A AB B C 6 2 2 1

因子型に変換 | factor()関数 > bloodtype.f <- factor(bloodtype, + levels =
c("A","B","O","AB")) > bloodtype.f [1] B A A A AB B AB [8] A A A <NA> Levels: A B O AB > table(bloodtype.f) bloodtype.f A B O AB 6 2 0 2 > table(addNA(bloodtype.f)) A B O AB <NA> 6 2 0 2 1 カテゴリ（水準）をベクトルで指定カテゴリに一致しないデータは<NA>に <NA>もカテゴリとして扱う

因子型の中身整数型ベクトル水準ベクトル > str(bloodtype.f) Factor w/ 4 levels "A","B","O","AB":
2 1 1 1 4 2 4 1 1 1 ... > # 整数型に変換 > as.numeric(bloodtype.f) [1] 2 1 1 1 4 2 4 1 1 1 NA > # 対応する水準ベクトルの文字に変換 > as.character(bloodtype.f) [1] "B" "A" "A" "A" "AB" "B" "AB" [8] "A" "A" "A" NA

データフレーム > pokemon <- read.csv("pokemon.csv") > head(pokemon$type1) [1] くさみず
むしむしノーマル [6] ノーマル 15 Levels: あくいわエスパーかくとう ... むし文字列を含んだ列は因子型として読み込まれる

文字型として読み込みたい | stringsAsFactors > pokemon2 <- read.csv("pokemon.csv", + stringsAsFactors =
FALSE) > head(pokemon2$type1) [1] "くさ" "みず" "むし" "むし" [5] "ノーマル" "ノーマル" 文字列処理をしたい場合とか。

集計と棒グラフ > table(pokemon$sex) オスなしメス 45 4 23 >
barplot(table(pokemon$sex)) オスなしメス 0 10 20 30 40

水準の順序を変更 > pokemon$sex <- factor(pokemon$sex, + levels = c("オス", "メス",
"なし")) > head(pokemon$sex) [1] オスオスオスメスオスオス Levels: オスメスなし > barplot(table(pokemon$sex)) オスメスなし 0 10 20 30 40

カテゴリごとの箱ひげ図 > boxplot(weight~type1, data=pokemon)

水準ごとの統計量で水準を並べ替え > pokemon$type1 <- reorder(pokemon$type1, + pokemon$weight, + function(x){-median(x)}) >
boxplot(weight~type1, data=pokemon) Type1ごとの weightの中央値の降順に水準を並び替え

因子型の扱い結構めんどくさい

そこで

forcats package > # パッケージのインストール > install.packages("forcats") > # パッケージのロード
> library(forcats) > pokemon <- read.csv("pokemon.csv") > boxplot(weight~fct_reorder(type1,weight,median,.desc=T), + data=pokemon)

例えば fct_lump() > # 頻出4水準のみ残して、後はOtherにする > boxplot(weight~fct_lump(pokemon$type1, 4), data=pokemon)

詳細は forcats kazutan

enjoy!

因子型を使いこなそう@fukuoka.R#09

因子型を使いこなそう@fukuoka.R#09

nonki1974

More Decks by nonki1974

Other Decks in Technology

Featured

Transcript

因子型を使いこなそう！ @nonki1974 2017/09/09 fukuoka.R#09

データ型データ構造データ型ベクトル行列・配列リストデータフレーム整数型実数型論理型

データの種類（尺度水準）名義尺度順序尺度間隔尺度比例尺度同じものには同じ値（記号）異なるものには異なる値（記号）名義尺度＋順序関係値の間隔（差）に意味がある 10℃

変数の種類質的変数名義尺度順序尺度量的変数間隔尺度比例尺度

変数の種類質的変数名義尺度順序尺度量的変数間隔尺度比例尺度因子型

とりあえず文字型 > bloodtype <- c("B","A","A","A","AB", + "B","AB","A","A","A","C") > bloodtype [1]

因子型に変換 | factor()関数 > bloodtype.f <- factor(bloodtype, + levels =

因子型の中身整数型ベクトル水準ベクトル > str(bloodtype.f) Factor w/ 4 levels "A","B","O","AB":

データフレーム > pokemon <- read.csv("pokemon.csv") > head(pokemon$type1) [1] くさみず

文字型として読み込みたい | stringsAsFactors > pokemon2 <- read.csv("pokemon.csv", + stringsAsFactors =

集計と棒グラフ > table(pokemon$sex) オスなしメス 45 4 23 >

水準の順序を変更 > pokemon$sex <- factor(pokemon$sex, + levels = c("オス", "メス",

カテゴリごとの箱ひげ図 > boxplot(weight~type1, data=pokemon)

水準ごとの統計量で水準を並べ替え > pokemon$type1 <- reorder(pokemon$type1, + pokemon$weight, + function(x){-median(x)}) >

因子型の扱い結構めんどくさい

そこで

forcats package > # パッケージのインストール > install.packages("forcats") > # パッケージのロード

例えば fct_lump() > # 頻出4水準のみ残して、後はOtherにする > boxplot(weight~fct_lump(pokemon$type1, 4), data=pokemon)

詳細は forcats kazutan

enjoy!