tidymodels紹介「モデリング過程料理で表現できる説」

Slide 1

Slide 1 text

japan.R 2020/12/5

Slide 2

Slide 2 text

@Ringa_hyj @Ringa_hyj Name <- ‘@Ringa_hyj’ 自己紹介スライドの間違い・指摘歓迎致します

Slide 3

Slide 3 text

https://www.slideshare.net/YutakaKuroki/tokyo-r-20181110 https://speakerdeck.com/dropout009/tokyo-dot-r83 Rコミュニティを通して知ったtidymodelsの存在 https://speakerdeck.com/dropout009/tidymodelsniyorutidynaji-jie-xue-xi https://speakerdeck.com/s_uryu/tidymodels

Slide 4

Slide 4 text

知らないパッケージを知る機会やっぱRコミュニティええなぁ… 受け取ったからには何かお返ししたい！！今日やること

Slide 5

Slide 5 text

tidymodelsの紹介検証対象今日やること

Slide 6

Slide 6 text

を今日やること

Slide 7

Slide 7 text

料理に例えるので親しんでもらいたい今日やること install.packages(‘tidymodels’) library(tidymodels) いれてみて！！

Slide 8

Slide 8 text

飛行機の遅延予測

Slide 9

Slide 9 text

食材の準備 = 欠損値 messy データ準備・前処理 library(nycflights13) #まず確認 library(skimr) skim(flights) library(tidyverse) glimpse(flights) #余分なゴミを落とす flight_data <- flights %>% mutate( arr_delay = ifelse(arr_delay >= 30, "late", "on_time"), arr_delay = factor(arr_delay), date = as.Date(time_hour) ) %>% inner_join(weather, by = c("origin", "time_hour")) %>% select(dep_time, flight, origin, dest, air_time, distance, carrier, date, arr_delay, time_hour) %>% na.omit() %>% mutate_if(is.character, as.factor)

Slide 10

Slide 10 text

食材の準備 = データ準備・前処理

Slide 11

Slide 11 text

食材の確認 = #食材の状態や揃っているかを確認 p <- ggplot(flight_data, aes(x = carrier,fill=arr_delay)) + geom_bar(stat = "count",position = "stack") + stat_count(aes(label = ..count..), geom = "text", vjust = 2, colour = "red") library(plotly) ggplotly(p) EDAで確認 EDA

Slide 12

Slide 12 text

食材の確認 = EDA

Slide 13

Slide 13 text

味見・評価する人 = train,test,valid #試食者にだけウケる味でなく #色々な人に良い評価をもらうため set.seed(123) data_split <- initial_split(flight_data, prop = 0.7) train_data <- training(data_split) test_data <- testing(data_split) train test valid 感想：内輪ウケ世間的な評価口コミ感想：一般ウケ

Slide 14

Slide 14 text

調理手順の設定 = モデル学習用の前処理 #どんな手順で調理するのが効率的か #料理直前の下ごしらえ #trainとtestの人で提供する食材の部分が変化しないか flights_rec <- recipe(arr_delay ~ ., data = train_data) %>% update_role(flight, time_hour, new_role = "ID") %>% step_date(date, features = c("dow", "month")) %>% step_holiday(date, holidays = timeDate::listHolidays("US")) %>% step_rm(date) %>% step_dummy(all_nominal(), -all_outcomes()) %>% step_zv(all_predictors()) #step_smote()今回不均衡だが不使用 ← themisにも対応 #recipeをかけた後がどうなるか #調理前にデータを味見する #prep, bake, juice flights_rec%>% prep() %>% juice() flights_rec %>% prep() %>% bake(test_data)

Slide 15

Slide 15 text

調理手順の設定 = モデル学習用の前処理従来まで・testにないカテゴリをone hotしないように！・ID列を予測に使ってないよな？・どの列box-coxしたっけ？・日付から月,日,曜日の特徴量合成したっけ？・正規化終わってたっけ？・予測対象がleakしてないよな？・あ、testにも同じパラメタで処理しなきゃいけないんだった… juice(), bake() レシピを展開

Slide 16

Slide 16 text

調理器具の設定 = モデル決め #調理前の下ごしらえも終わった #調理器具によってはマッチしない下ごしらえもある #フライパンか鍋か、IHかガスか lr_mod <- logistic_reg() %>% set_engine("glm")

Slide 17

Slide 17 text

調理器具の設定 = モデル決めモデル式の記述の違い(ベクトル,マトリックス,列名) lm glmnet lr_mod <- logistic_reg() %>% set_engine("lm") lr_mod <- logistic_reg() %>% set_engine("glm")

Slide 18

Slide 18 text

調理器具の設定 = モデル決め内部パラメタの名前の違い(おなじチューニングパラメタなのに…) ranger randomForest ranger randomForest parsnip 抽出サイズ mtry mtry → mtry 木の数 num.trees ntree → trees 分割サイズ min.node.size nodesize → min_n

Slide 19

Slide 19 text

調理場手順と器具を持ってへ = 学習・推論 #調理場へ持っていく flights_wflow <- workflow() %>% add_model(lr_mod) %>% add_recipe(flights_rec) #いざ調理 flights_fit <- flights_wflow %>% fit(data = train_data) #完成 predict(flights_fit, test_data) predict(flights_fit, test_data, type = "prob")

Slide 20

Slide 20 text

調理場手順と器具を持ってへ = 学習・推論従来のsummary() oh, messy…

Slide 21

Slide 21 text

調理場手順と器具を持ってへ = 学習・推論 tidy() is tidy !

Slide 22

Slide 22 text

調理場手順と器具を持ってへ = 学習・推論 bootstrapして fitして結果をnest & tidyにして回帰係数のサンプリング分布から最善モデルの選択

Slide 23

Slide 23 text

料理人から話を聞く= レシピ,データ逆引き #さっき調理fitした結果 #flights_fit <- # flights_wflow %>% # fit(data = train_data) #食材教えてぇな flights_fit %>% pull_workflow_mold() #レシピ教えてぇな flights_fit %>% pull_workflow_prepped_recipe() %>% broom::tidy() flights_fit %>% pull_workflow_preprocessor() %>% broom::tidy()

Slide 24

Slide 24 text

#評価結果は？ flights_pred <- predict(flights_fit, test_data, type = "prob") %>% bind_cols(test_data %>% select(arr_delay,time_hour,flight)) flights_pred %>% roc_curve(truth = arr_delay, .pred_late) %>% autoplot() 世間的な評価口コミ評価を調べる= 評価指標の確認

Slide 25

Slide 25 text

評価を調べる= 評価指標の確認 Tidymodelsのpredict思想・入力データと同じだけの p r e d を ( 行数一致、 b i n d _ c o l できる ) ・ I D 列を常に隣に保持できるように・列名は「 . p r e d 」で被りなく

Slide 26

Slide 26 text

Enjoy !

Slide 27

Slide 27 text

reference https://www.tidymodels.org/ https://rstudio-conf-2020.github.io/applied-ml/Part_3.html#1 https://unsplash.com/ https://www.tidyverse.org/blog/2020/02/themis-0-1-0/