BQMLことはじめ

2021.01.14 Naoto Shimakoshi 株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies BQMLことはじめ AI技術共有会

3 名前島越直⼈ (シマコシナオト) よくトリゴエと間違えられますがシマコシです。 Twitter @nt_4o54 経歴
奈良県出⾝京都⼤学機械理⼯学専攻卒業 2019/04 ~ DeNA新卒⼊社 2020/04 ~ MoTに出向中⾃⼰紹介

4 Kaggle 3 (solo1), 3 (solo 3) ⾊々なドメインに触れるのが好きなので、⾊々出てます⾃⼰紹介

5 目次 01｜BQMLとは 02｜BQMLの機能紹介 03｜実際に使ってみた

6 目次 01｜BQMLとは

7 BigQuery上でMLモデルを構築できる 2021/01/14時点で以下のモデルに対応 l 線形回帰 l ロジスティック回帰 l KMeans l
Matrix Factorization (要申し込み) l ARIMA l XGBoost l DNN l Tensorflow modelのインポート l AutoML Tables (ベータ版) BQMLとは

8 メリット BQ上でデータの整形・学習・予測まで構築できるので管理コストが低いデータをGCSなどに⼀度外出しする必要がないので推論速度が上がるデメリット Pythonで学習・予測するのに⽐べて⾃由度は低い凝った特徴量を⼤量に作ろうとすると頭が痛くなる実験段階で何度も訓練を⾏ったりするとちょっと⾼い BQMLの概要

9 料⾦ BQMLの概要 https://cloud.google.com/bigquery-ml/pricing?hl=ja モデル値段線形回帰, ロジスティック回帰, KMeans, ARIMAの訓練
普通のBQクエリの50倍の値段 ($250 / TB) AutoML, DNN, XGBoostの訓練普通のBQクエリと同じ値段 ($5.00 / TB) + AI Platform費用 BQMLで作成したモデルを用いた予測普通のBQクエリと同じ値段 ($5.00 / TB)

10 目次 02｜BQMLの機能紹介

11 提供機能前処理関数 MinMaxScalerやStandardScaler、Ngramなど訓練関数訓練と各種パラメータの設定など評価関数 AUCやF1、MSEなどの基本的なものと混同⾏列、ROC曲線など予測関数訓練時と同じ変換を⾃動的に⾏い予測を⾏う
モデルのエクスポート Tensorflow SavedModelやXGBoostのmodelをGCSに出⼒ BQMLの関数

12 BQMLによる訓練出⼒先を指定モデル種類を指定各種パラメータの設定分割⽅法の指定 Labelの名前を指定 DATA_SPLIT_COLと INPUT_LABEL_COLSに指定してないカラム全てが
特徴量として認識される Random Split

13 BQMLによる訓練ダッシュボードで指標を確認できる

14 BQMLによる予測 (OOFの作成) ML.PREDICTとMODELでmodelを指定訓練に⽤いた前処理・特徴量を⾃動的に使⽤してくれる predicted_{label_name}_probs という名前で出⼒される(STRUCT型)

15 ⼊⼒変数の変換 (データ型に応じて⾃動変換) BQMLの⼊⼒ https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create?hl=ja#inputs ⼊⼒データ型変換⽅法 INT64, NUMERIC, FLOAT64
標準化 (KMeansを⽤いるときはOptionで選択) BOOL, STRING, BYTES, DATE, DATETIME, TIME One-hot Encoding (XGBoostはLabel Encoding) ARRAY Multi-hot Encoding TIMESTAMP TIMESTAMPから⾃動的に年・⽉・週・分・曜⽇・⽇などを抽出し、 One-hot Encoding (秒は標準化) STRUCT 各Fieldを⾃動的に単⼀の列に展開

16 ⼊⼒変数の補完 BQMLの⼊⼒ https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create?hl=ja#imputation 特徴量列の種類補完⽅法数値列訓練時に⼊⼒したデータ全体の平均値で補完 One-hot
/ Multi-hot Encode列訓練時は追加カテゴリとして扱い、未知のデータは予測時に重み0とする TIMESTAMP列秒に関しては平均値その他は追加カテゴリとして扱う STRUCT 各Fieldのタイプに応じて補完

17 ML.BUCKETIZE 数値列を指定したbinのARRAYで分割し、カテゴリ化する ML.POLYNOMIAL_EXPAND 指定した次数以下の数値列の組み合わせの積を計算する ML.FEATURE_CROSS 指定した次数以下のカテゴリの組み合わせを計算し、新たなカテゴリとする ML.NGRAMS ARRAYの⼊⼒からNGRAMを⽣成する ML.QUANTILE_BUCKETIZE
分位に基づいて指定したバケット数に数値列を分割し、カテゴリ化する前処理関数 https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-preprocessing-functions?hl=ja

18 ML.MIN_MAX_SCALER 数値列を[0, 1]にスケーリングする ML.STANDARD_SCALER 数値列を標準化する前処理関数 https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-preprocessing-functions?hl=ja

19 目次 03｜実際に使ってみた

20 KaggleのOttoのデータを⽤いて実験特徴︓93個の匿名特徴量 (整数値) + 9クラス分類 + それぞれの特徴が右に裾の⻑い分布精度を⾼めるというよりは肌感を掴む実験

21 Pipeline 元の特徴量とlogを取った特徴量 Kmeansのクラスタ中⼼までの距離特徴を各modelに突っ込むシンプルなStacking 実験

22 コード (https://github.com/shimacos37/bqml-tutorial) ロジスティック回帰: 訓練, OOF予測, test予測 XGBoost: 訓練, 予測はロジスティック回帰と同様
DNN: 訓練, 予測はロジスティック回帰と同様 KMeans: 訓練, 予測 Tensorflow: インポート, OOF予測, test予測 Stacking: 訓練, OOF予測, test予測訓練と予測

23 ⼀晩ぱっとSQLを書くだけでギリ銀圏くらいのスコアは出た結果 Localでやった⽅が何か精度⾼いこれを許容できるかはあなた次第 (少なくともKaggleでは無理)

24 EARLY_STOPの挙動がよく分からない過学習してるのに⽌まらないことがある (多分MIN_REL_PROGRESSの幅の改悪は⾒逃す設定になってる︖) 何round改善しなかったら終了みたいなことができないここが嫌だよBQML

25 XGBoost objectiveが回帰・分類でそれそれ固定 custom_objectiveやcustom_metricはもちろん使えない容量制限のためかMAX_ITERATIONSの最⼤値が1000 訓練途中で⾒込みのない実験を切るとかはやりにくい前述のEARLY_STOP謎挙動のせいでパラメータチューニングが⾟い Localでやった⽅が精度⾼い (無視できる差かはprj次第) DNN
BatchNormがデフォルトでFalseになっていて、しかも変更できないマルチタスク学習 / マルチラベル学習はできないここが嫌だよBQML

26 Tensorflow モデルサイズ制限が250MB 訓練時と同じ前処理するのが⼤変 (本当に⾟い, Tensorflowのグラフに前処理を含めたら良いかも) その他データセットの中が汚れる SQL駆動なのでデバッグが⾟いここが嫌だよBQML

27 l 簡単に訓練を並列化できる l 前処理を⾃動的にしてくれるのは楽 l ⼀度SQLを書いてしまうと管理は簡単 (な気がする) l 推論をBQ上で完結できる
(GKEなどを使わなくて良い) l 推論がスキャン量の課⾦だけで済む (インスタンス代を削れる) ここは良いよBQML

28 l 線形回帰・ロジスティック回帰などはスキャン量をなるべく抑えるため、訓練に投⼊するための中間テーブルを作成した⽅がいい。 l 特徴量追加やパラメータ探索の実験は、localで実験した⽅がコストを抑えられる。 l XGBoostは1000iter制限があり、learning
rateチューニング的なことをしないと精度が出ない。その他TIPS

29 今回のコードは全てgithubにあげているので興味のある⽅はご覧ください https://github.com/shimacos37/bqml-tutorial

BQMLことはじめ

BQMLことはじめ

shimacos

More Decks by shimacos

Other Decks in Technology

Featured

Transcript

2021.01.14 Naoto Shimakoshi 株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies BQMLことはじめ AI技術共有会

3 名前島越直⼈ (シマコシナオト) よくトリゴエと間違えられますがシマコシです。 Twitter @nt_4o54 経歴

4 Kaggle 3 (solo1), 3 (solo 3) ⾊々なドメインに触れるのが好きなので、⾊々出てます⾃⼰紹介

5 目次 01｜BQMLとは 02｜BQMLの機能紹介 03｜実際に使ってみた

6 目次 01｜BQMLとは

7 BigQuery上でMLモデルを構築できる 2021/01/14時点で以下のモデルに対応 l 線形回帰 l ロジスティック回帰 l KMeans l

9 料⾦ BQMLの概要 https://cloud.google.com/bigquery-ml/pricing?hl=ja モデル値段線形回帰, ロジスティック回帰, KMeans, ARIMAの訓練

10 目次 02｜BQMLの機能紹介

11 提供機能前処理関数 MinMaxScalerやStandardScaler、Ngramなど訓練関数訓練と各種パラメータの設定など評価関数 AUCやF1、MSEなどの基本的なものと混同⾏列、ROC曲線など予測関数訓練時と同じ変換を⾃動的に⾏い予測を⾏う

12 BQMLによる訓練出⼒先を指定モデル種類を指定各種パラメータの設定分割⽅法の指定 Labelの名前を指定 DATA_SPLIT_COLと INPUT_LABEL_COLSに指定してないカラム全てが

13 BQMLによる訓練ダッシュボードで指標を確認できる

14 BQMLによる予測 (OOFの作成) ML.PREDICTとMODELでmodelを指定訓練に⽤いた前処理・特徴量を⾃動的に使⽤してくれる predicted_{label_name}_probs という名前で出⼒される(STRUCT型)

15 ⼊⼒変数の変換 (データ型に応じて⾃動変換) BQMLの⼊⼒ https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create?hl=ja#inputs ⼊⼒データ型変換⽅法 INT64, NUMERIC, FLOAT64

16 ⼊⼒変数の補完 BQMLの⼊⼒ https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create?hl=ja#imputation 特徴量列の種類補完⽅法数値列訓練時に⼊⼒したデータ全体の平均値で補完 One-hot

18 ML.MIN_MAX_SCALER 数値列を[0, 1]にスケーリングする ML.STANDARD_SCALER 数値列を標準化する前処理関数 https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-preprocessing-functions?hl=ja

19 目次 03｜実際に使ってみた

20 KaggleのOttoのデータを⽤いて実験特徴︓93個の匿名特徴量 (整数値) + 9クラス分類 + それぞれの特徴が右に裾の⻑い分布精度を⾼めるというよりは肌感を掴む実験

21 Pipeline 元の特徴量とlogを取った特徴量 Kmeansのクラスタ中⼼までの距離特徴を各modelに突っ込むシンプルなStacking 実験

22 コード (https://github.com/shimacos37/bqml-tutorial) ロジスティック回帰: 訓練, OOF予測, test予測 XGBoost: 訓練, 予測はロジスティック回帰と同様

23 ⼀晩ぱっとSQLを書くだけでギリ銀圏くらいのスコアは出た結果 Localでやった⽅が何か精度⾼いこれを許容できるかはあなた次第 (少なくともKaggleでは無理)

24 EARLY_STOPの挙動がよく分からない過学習してるのに⽌まらないことがある (多分MIN_REL_PROGRESSの幅の改悪は⾒逃す設定になってる︖) 何round改善しなかったら終了みたいなことができないここが嫌だよBQML

26 Tensorflow モデルサイズ制限が250MB 訓練時と同じ前処理するのが⼤変 (本当に⾟い, Tensorflowのグラフに前処理を含めたら良いかも) その他データセットの中が汚れる SQL駆動なのでデバッグが⾟いここが嫌だよBQML

27 l 簡単に訓練を並列化できる l 前処理を⾃動的にしてくれるのは楽 l ⼀度SQLを書いてしまうと管理は簡単 (な気がする) l 推論をBQ上で完結できる

29 今回のコードは全てgithubにあげているので興味のある⽅はご覧ください https://github.com/shimacos37/bqml-tutorial