Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
因子型を使いこなそう@fukuoka.R#09
Search
nonki1974
September 09, 2017
Technology
0
230
因子型を使いこなそう@fukuoka.R#09
fukuoka.R #09 (2017/09/09) の発表資料
nonki1974
September 09, 2017
Tweet
Share
More Decks by nonki1974
See All by nonki1974
GTFS with Tidytransit package
nonki1974
0
300
TokyoR#84_Rexams
nonki1974
0
200
都道府県別焼き鳥屋ランキングの作成
nonki1974
1
870
Introduction to R
nonki1974
0
330
Introduction to dplyr
nonki1974
0
460
Introduction to ggplot2
nonki1974
1
490
Analyzing PSB tracks with R
nonki1974
0
580
introduction to fukuoka.R @ Fukuoka.LT
nonki1974
0
59
所要時間のヒートマップを作成する
nonki1974
0
520
Other Decks in Technology
See All in Technology
自律的なスケーリング手法FASTにおけるVPoEとしてのアカウンタビリティ / dev-productivity-con-2025
yoshikiiida
1
16k
関数型プログラミングで 「脳がバグる」を乗り越える
manabeai
1
190
United airlines®️ USA Contact Numbers: Complete 2025 Support Guide
unitedflyhelp
0
310
マネジメントって難しい、けどおもしろい / Management is tough, but fun! #em_findy
ar_tama
7
1.1k
SEQUENCE object comparison - db tech showcase 2025 LT2
nori_shinoda
0
140
CRE Camp #1 エンジニアリングを民主化するCREチームでありたい話
mntsq
1
120
20250707-AI活用の個人差を埋めるチームづくり
shnjtk
4
3.8k
How Do I Contact HP Printer Support? [Full 2025 Guide for U.S. Businesses]
harrry1211
0
120
品質と速度の両立:生成AI時代の品質保証アプローチ
odasho
1
340
What’s new in Android development tools
yanzm
0
310
ビギナーであり続ける/beginning
ikuodanaka
3
750
敢えて生成AIを使わないマネジメント業務
kzkmaeda
2
440
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Bash Introduction
62gerente
613
210k
Done Done
chrislema
184
16k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Making Projects Easy
brettharned
116
6.3k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Transcript
因子型を使いこなそう! @nonki1974 2017/09/09 fukuoka.R#09
データ型 データ構造 データ型 ベクトル 行列・配列 リスト データフレーム 整数型 実数型 論理型
文字列 因子型
データの種類(尺度水準) 名義尺度 順序尺度 間隔尺度 比例尺度 同じものには同じ値(記号) 異なるものには異なる値(記号) 名義尺度+順序関係 値の間隔(差)に意味がある 10℃
→ 30℃ 20℃上昇した! 温度が3倍になった! 間隔尺度+値の比に意味がある
変数の種類 質的変数 名義尺度 順序尺度 量的変数 間隔尺度 比例尺度
変数の種類 質的変数 名義尺度 順序尺度 量的変数 間隔尺度 比例尺度 因子型
とりあえず文字型 > bloodtype <- c("B","A","A","A","AB", + "B","AB","A","A","A","C") > bloodtype [1]
"B" "A" "A" "A" "AB" "B" "AB" [8] "A" "A" "A" "C" > table(bloodtype) bloodtype A AB B C 6 2 2 1
因子型に変換 | factor()関数 > bloodtype.f <- factor(bloodtype, + levels =
c("A","B","O","AB")) > bloodtype.f [1] B A A A AB B AB [8] A A A <NA> Levels: A B O AB > table(bloodtype.f) bloodtype.f A B O AB 6 2 0 2 > table(addNA(bloodtype.f)) A B O AB <NA> 6 2 0 2 1 カテゴリ(水準)を ベクトルで指定 カテゴリに一致しない データは<NA>に <NA>もカテゴリ として扱う
因子型の中身 整数型ベクトル 水準ベクトル > str(bloodtype.f) Factor w/ 4 levels "A","B","O","AB":
2 1 1 1 4 2 4 1 1 1 ... > # 整数型に変換 > as.numeric(bloodtype.f) [1] 2 1 1 1 4 2 4 1 1 1 NA > # 対応する水準ベクトルの文字に変換 > as.character(bloodtype.f) [1] "B" "A" "A" "A" "AB" "B" "AB" [8] "A" "A" "A" NA
データフレーム > pokemon <- read.csv("pokemon.csv") > head(pokemon$type1) [1] くさ みず
むし むし ノーマル [6] ノーマル 15 Levels: あく いわ エスパー かくとう ... むし 文字列を含んだ列は因子型として読み込まれる
文字型として読み込みたい | stringsAsFactors > pokemon2 <- read.csv("pokemon.csv", + stringsAsFactors =
FALSE) > head(pokemon2$type1) [1] "くさ" "みず" "むし" "むし" [5] "ノーマル" "ノーマル" 文字列処理をしたい場合とか。
集計と棒グラフ > table(pokemon$sex) オス なし メス 45 4 23 >
barplot(table(pokemon$sex)) オス なし メス 0 10 20 30 40
水準の順序を変更 > pokemon$sex <- factor(pokemon$sex, + levels = c("オス", "メス",
"なし")) > head(pokemon$sex) [1] オス オス オス メス オス オス Levels: オス メス なし > barplot(table(pokemon$sex)) オス メス なし 0 10 20 30 40
カテゴリごとの箱ひげ図 > boxplot(weight~type1, data=pokemon)
水準ごとの統計量で水準を並べ替え > pokemon$type1 <- reorder(pokemon$type1, + pokemon$weight, + function(x){-median(x)}) >
boxplot(weight~type1, data=pokemon) Type1ごとの weightの中央値の 降順に水準を並び替え
因子型の扱い 結構めんどくさい
そこで
forcats package > # パッケージのインストール > install.packages("forcats") > # パッケージのロード
> library(forcats) > pokemon <- read.csv("pokemon.csv") > boxplot(weight~fct_reorder(type1,weight,median,.desc=T), + data=pokemon)
例えば fct_lump() > # 頻出4水準のみ残して、後はOtherにする > boxplot(weight~fct_lump(pokemon$type1, 4), data=pokemon)
詳細は forcats kazutan
enjoy!