tidymodels紹介「モデリング過程料理で表現できる説」

japan.R 2020/12/5

@Ringa_hyj @Ringa_hyj Name <- ‘@Ringa_hyj’ 自己紹介スライドの
間違い・指摘歓迎致します

https://www.slideshare.net/YutakaKuroki/tokyo-r-20181110 https://speakerdeck.com/dropout009/tokyo-dot-r83 Rコミュニティを通して知ったtidymodelsの存在 https://speakerdeck.com/dropout009/tidymodelsniyorutidynaji-jie-xue-xi https://speakerdeck.com/s_uryu/tidymodels

知らないパッケージを知る機会やっぱRコミュニティええなぁ… 受け取ったからには何かお返ししたい！！今日やること

tidymodelsの紹介検証対象今日やること

を今日やること

料理に例えるので親しんでもらいたい今日やること install.packages(‘tidymodels’) library(tidymodels) いれてみて！！

飛行機の遅延予測

食材の準備 = 欠損値 messy データ準備・前処理 library(nycflights13) #まず確認 library(skimr) skim(flights)
library(tidyverse) glimpse(flights) #余分なゴミを落とす flight_data <- flights %>% mutate( arr_delay = ifelse(arr_delay >= 30, "late", "on_time"), arr_delay = factor(arr_delay), date = as.Date(time_hour) ) %>% inner_join(weather, by = c("origin", "time_hour")) %>% select(dep_time, flight, origin, dest, air_time, distance, carrier, date, arr_delay, time_hour) %>% na.omit() %>% mutate_if(is.character, as.factor)

食材の準備 = データ準備・前処理

食材の確認 = #食材の状態や揃っているかを確認 p <- ggplot(flight_data, aes(x = carrier,fill=arr_delay))
+ geom_bar(stat = "count",position = "stack") + stat_count(aes(label = ..count..), geom = "text", vjust = 2, colour = "red") library(plotly) ggplotly(p) EDAで確認 EDA

食材の確認 = EDA

味見・評価する人 = train,test,valid #試食者にだけウケる味でなく #色々な人に良い評価をもらうため set.seed(123) data_split <- initial_split(flight_data,
prop = 0.7) train_data <- training(data_split) test_data <- testing(data_split) train test valid 感想：内輪ウケ世間的な評価口コミ感想：一般ウケ

調理手順の設定 = モデル学習用の前処理 #どんな手順で調理するのが効率的か #料理直前の下ごしらえ #trainとtestの人で提供する食材の部分が変化しないか flights_rec <- recipe(arr_delay
~ ., data = train_data) %>% update_role(flight, time_hour, new_role = "ID") %>% step_date(date, features = c("dow", "month")) %>% step_holiday(date, holidays = timeDate::listHolidays("US")) %>% step_rm(date) %>% step_dummy(all_nominal(), -all_outcomes()) %>% step_zv(all_predictors()) #step_smote()今回不均衡だが不使用 ← themisにも対応 #recipeをかけた後がどうなるか #調理前にデータを味見する #prep, bake, juice flights_rec%>% prep() %>% juice() flights_rec %>% prep() %>% bake(test_data)

調理手順の設定 = モデル学習用の前処理従来まで・testにないカテゴリをone hotしないように！・ID列を予測に使ってないよな？・どの列box-coxしたっけ？・日付から月,日,曜日の特徴量合成したっけ？
・正規化終わってたっけ？・予測対象がleakしてないよな？・あ、testにも同じパラメタで処理しなきゃいけないんだった… juice(), bake() レシピを展開

調理器具の設定 = モデル決め #調理前の下ごしらえも終わった #調理器具によってはマッチしない下ごしらえもある #フライパンか鍋か、IHかガスか lr_mod <- logistic_reg()
%>% set_engine("glm")

調理器具の設定 = モデル決めモデル式の記述の違い(ベクトル,マトリックス,列名) lm glmnet lr_mod <- logistic_reg()
%>% set_engine("lm") lr_mod <- logistic_reg() %>% set_engine("glm")

調理器具の設定 = モデル決め内部パラメタの名前の違い(おなじチューニングパラメタなのに…) ranger randomForest ranger randomForest parsnip
抽出サイズ mtry mtry → mtry 木の数 num.trees ntree → trees 分割サイズ min.node.size nodesize → min_n

調理場手順と器具を持ってへ = 学習・推論 #調理場へ持っていく flights_wflow <- workflow() %>%
add_model(lr_mod) %>% add_recipe(flights_rec) #いざ調理 flights_fit <- flights_wflow %>% fit(data = train_data) #完成 predict(flights_fit, test_data) predict(flights_fit, test_data, type = "prob")

調理場手順と器具を持ってへ = 学習・推論従来のsummary() oh, messy…

調理場手順と器具を持ってへ = 学習・推論 tidy() is tidy !

調理場手順と器具を持ってへ = 学習・推論 bootstrapして fitして結果をnest & tidyにして
回帰係数のサンプリング分布から最善モデルの選択

料理人から話を聞く= レシピ,データ逆引き #さっき調理fitした結果 #flights_fit <- # flights_wflow %>% #
fit(data = train_data) #食材教えてぇな flights_fit %>% pull_workflow_mold() #レシピ教えてぇな flights_fit %>% pull_workflow_prepped_recipe() %>% broom::tidy() flights_fit %>% pull_workflow_preprocessor() %>% broom::tidy()

#評価結果は？ flights_pred <- predict(flights_fit, test_data, type = "prob") %>% bind_cols(test_data
%>% select(arr_delay,time_hour,flight)) flights_pred %>% roc_curve(truth = arr_delay, .pred_late) %>% autoplot() 世間的な評価口コミ評価を調べる= 評価指標の確認

評価を調べる= 評価指標の確認 Tidymodelsのpredict思想・入力データ
と同じだけの p r e d を ( 行数一致、 b i n d _ c o l できる ) ・ I D 列を常に隣に保持できるように・列名は「 . p r e d 」で被りなく

Enjoy !

reference https://www.tidymodels.org/ https://rstudio-conf-2020.github.io/applied-ml/Part_3.html#1 https://unsplash.com/ https://www.tidyverse.org/blog/2020/02/themis-0-1-0/

tidymodels紹介「モデリング過程料理で表現できる説」

tidymodels紹介「モデリング過程料理で表現できる説」

Ringa_hyj

More Decks by Ringa_hyj

Other Decks in Technology

Featured

Transcript

japan.R 2020/12/5

@Ringa_hyj @Ringa_hyj Name <- ‘@Ringa_hyj’ 自己紹介スライドの

https://www.slideshare.net/YutakaKuroki/tokyo-r-20181110 https://speakerdeck.com/dropout009/tokyo-dot-r83 Rコミュニティを通して知ったtidymodelsの存在 https://speakerdeck.com/dropout009/tidymodelsniyorutidynaji-jie-xue-xi https://speakerdeck.com/s_uryu/tidymodels

知らないパッケージを知る機会やっぱRコミュニティええなぁ… 受け取ったからには何かお返ししたい！！今日やること

tidymodelsの紹介検証対象今日やること

を今日やること

料理に例えるので親しんでもらいたい今日やること install.packages(‘tidymodels’) library(tidymodels) いれてみて！！

飛行機の遅延予測

食材の準備 = 欠損値 messy データ準備・前処理 library(nycflights13) #まず確認 library(skimr) skim(flights)

食材の準備 = データ準備・前処理

食材の確認 = #食材の状態や揃っているかを確認 p <- ggplot(flight_data, aes(x = carrier,fill=arr_delay))

食材の確認 = EDA

味見・評価する人 = train,test,valid #試食者にだけウケる味でなく #色々な人に良い評価をもらうため set.seed(123) data_split <- initial_split(flight_data,

調理手順の設定 = モデル学習用の前処理 #どんな手順で調理するのが効率的か #料理直前の下ごしらえ #trainとtestの人で提供する食材の部分が変化しないか flights_rec <- recipe(arr_delay

調理手順の設定 = モデル学習用の前処理従来まで・testにないカテゴリをone hotしないように！・ID列を予測に使ってないよな？・どの列box-coxしたっけ？・日付から月,日,曜日の特徴量合成したっけ？

調理器具の設定 = モデル決め #調理前の下ごしらえも終わった #調理器具によってはマッチしない下ごしらえもある #フライパンか鍋か、IHかガスか lr_mod <- logistic_reg()

調理器具の設定 = モデル決めモデル式の記述の違い(ベクトル,マトリックス,列名) lm glmnet lr_mod <- logistic_reg()

調理器具の設定 = モデル決め内部パラメタの名前の違い(おなじチューニングパラメタなのに…) ranger randomForest ranger randomForest parsnip

調理場手順と器具を持ってへ = 学習・推論 #調理場へ持っていく flights_wflow <- workflow() %>%

調理場手順と器具を持ってへ = 学習・推論従来のsummary() oh, messy…

調理場手順と器具を持ってへ = 学習・推論 tidy() is tidy !

調理場手順と器具を持ってへ = 学習・推論 bootstrapして fitして結果をnest & tidyにして

料理人から話を聞く= レシピ,データ逆引き #さっき調理fitした結果 #flights_fit <- # flights_wflow %>% #

#評価結果は？ flights_pred <- predict(flights_fit, test_data, type = "prob") %>% bind_cols(test_data

評価を調べる= 評価指標の確認 Tidymodelsのpredict思想・入力データ

Enjoy !

reference https://www.tidymodels.org/ https://rstudio-conf-2020.github.io/applied-ml/Part_3.html#1 https://unsplash.com/ https://www.tidyverse.org/blog/2020/02/themis-0-1-0/