BigQueryMLハンズオン勉強会

Slide 1

Slide 1 text

BigQueryMLハンズオン柳沼慎哉グロービスデータサイエンティスト 2018/11/9

Slide 2

Slide 2 text

自己紹介柳沼慎哉 - 株式会社グロービスデータサイエンティスト - Tableau, DataStudioなどBIツールが得意 - 機械学習、統計学勉強中 twitter : @shinmaidssin Qiita : @s_yaginuma

Slide 3

Slide 3 text

これの分析やってます - 「BigQuery ML」でSQLを書いて機械学習モデルを構築&予測できる！ - BigqueryMLで作成したモデルをGoogle Data Studioで可視化してみた - ビギナーズラックで跳ねた記事：新米データサイエンティスト、研修プログラムを考える。

Slide 4

Slide 4 text

Qiita書いてます - 「BigQuery ML」でSQLを書いて機械学習モデルを構築&予測できる！ - BigqueryMLで作成したモデルをGoogle Data Studioで可視化してみた

Slide 5

Slide 5 text

アジェンダ - BigQueryMLの概要 - ハンズオン - BigQueryMLの強み、弱み - 懇親会

Slide 6

Slide 6 text

アジェンダ - BigQueryMLの概要 - ハンズオン - BigQueryMLの強み、弱み - 懇親会

Slide 7

Slide 7 text

BigQueryMLの概要・BigQuery：SQLライクなクエリを用いて大規模なデータに対しても高速に結果を返すことのできるDW ・BigQueryML：BigQueryのクエリエディタ上からSQLを書くように機械学習モデルの構築、評価、予測ができる Docs : すべての BigQuery ML ドキュメント

Slide 8

Slide 8 text

機械学習モデルとは？与えられたデータ（説明変数）から、ターゲットとなる変数（目的変数）を予測するモデル。目的変数が離散値：分類目的変数が連続値：回帰

Slide 9

Slide 9 text

学習のプロセス（線形回帰） ①初期化 y = a0x + b0

Slide 10

Slide 10 text

学習のプロセス（線形回帰） ②損失関数の計算 y = a0x + b0

Slide 11

Slide 11 text

学習のプロセス（線形回帰） ①重みの更新 y = a1x + b1

Slide 12

Slide 12 text

学習のプロセス（線形回帰） ④最適化 y = ax + b

Slide 13

Slide 13 text

学習のプロセス線形回帰 y = ax1 + bx2 + cx3 + dx4 + e a~d：最適化された重み重みが格納された配列 = モデル

Slide 14

Slide 14 text

機械学習モデルとは？具体例：コースの完了率 y = ax1 + bx2 + cx3 + d １ヶ月以内の完了率コースの長さコースの難易度１動画の長さ説明変数の重みが分かっていれば、新しいコースのリリース前にコース完了率を予測できる

Slide 15

Slide 15 text

Python, R vs BigQueryML 機械学習用のパッケージがあり、それを利用する必要がある。モデルの構築、評価、予測の一連のプロセスをSQLライクに書いて実行できる学習コストが高い学習コストが低い

Slide 16

Slide 16 text

アジェンダ - BigQueryMLの概要 - ハンズオン - BigQueryMLの強み、弱み - 懇親会

Slide 17

Slide 17 text

機械学習の流れデータの下処理モデルの作成モデルの評価新データに対しての予測 SQLで加工、集計

Slide 18

Slide 18 text

Boston Housing データ・ボストン近辺の住宅価格の予測 https://www.kaggle.com/c/boston-housing

Slide 19

Slide 19 text

BigQueryにデータセットを作成する・GCPコンソールのナビゲーションメニューからBigQueryを開く・自分のプロジェクト名にカーソルを合わせる・データセットを作成をクリック・データセットIDを入力し、データセットを作成する

Slide 20

Slide 20 text

・作成したデータセットをクリック・テーブルを作成をクリック・ソースデータ：アップロード → Slackからダウンロードしたデータを選択。形式はcsvを選択・テーブル名を入力、スキーマの自動検出をチェック、作成作成したデータセット内にテーブルを作成する

Slide 21

Slide 21 text

データの中身 - 目的変数 - medv : 区画の家の値段の中央値（/1000$） - 説明変数（13個）： - crim : 犯罪発生率 - zn : 住宅地の割合 - indus : 非小売業種の割合 - chas : チャールズ川の河川境界線かどうか - nox : 窒素酸化物濃度 - rm : 住居あたりの部屋数 - age : 1940年以前に建設された建物の割合 - dis : 5つのボストン雇用センターまでの距離の加重平均 - rad : 高速道路へのアクセスの良さ - tax : 1万ドルあたりの固定資産税率 - ptratio : 生徒と教師の比率 - black : 黒色人種居住者の割合 - lstat : 低所得者の割合

Slide 22

Slide 22 text

機械学習モデルの作成 CREATE MODEL ステートメント CREATE MODEL `<データセット名>.<モデル名>` OPTIONS( model_type='<使用するアルゴリズム>', input_label_cols=['<ターゲットのカラム名>'], ...) AS ( SELECT <学習に使用するデータを抽出するクエリ> ...)

Slide 23

Slide 23 text

トレーニングデータと評価データについてデータ・NGなケース学習用評価用モデルは学習データに対して適合するので、評価用データに学習用データと同じものを使うと実際よりも高い精度で予測され、真に未知のデータに対しての予測性能が測定できない！

Slide 24

Slide 24 text

トレーニングデータと評価データについてデータ・OKなケース学習用評価用予め学習用と評価用に分けておくことで、未知のデータへの予測性能を測定することができる

Slide 25

Slide 25 text

機械学習モデルの評価 ML.EVALUATE 関数 SELECT * FROM ML.EVALUATE(MODEL `<モデル名>`, (<モデル作成に使用した特徴量を抽出するクエリ>))

Slide 26

Slide 26 text

モデルの評価出力される評価指標： - mean_absolute_error：平均絶対値誤差 - mean_squared_error：平均二乗誤差 - mean_squared_log_error：平均二乗対数誤差 - median_absolute_error：絶対値誤差の中央値 - r2_score：決定係数 - explained_variance：因子寄与平均二乗誤差：データに対するズレ → 低い方が良い決定係数：データに対する当てはまり → 1に近い方が良い

Slide 27

Slide 27 text

作成したモデルで予測 ML.PREDICT 関数 SELECT * FROM ML.PREDICT(MODEL `<モデル名>`, (<予測するのに必要な特徴量を抽出するクエリ>))

Slide 28

Slide 28 text

特徴量の重みの確認 ML.WEIGHTS 関数 SELECT * FROM ML.WEIGHTS(MODEL `<モデル名>` y = ax1 + bx2 + cx3 + d

Slide 29

Slide 29 text

BigQueryMLが自動でやってくれること数値変数の標準化単位：cm, %, kg, $... → 単位が違うと重みを比較できない標準化：各データをそれぞれの特徴量の平均値を引き、標準偏差で割る特徴量の無次元化、スケーリング異なる単位でも重みを比較できる

Slide 30

Slide 30 text

分類：アイリスデータの分類 BigQueryMLで多クラス分類が可能に！ Google Cloud ブログ折角なのでやってみましょう。

Slide 31

Slide 31 text

分類：アイリスデータの分類 - 特徴量： - sepal length(cm) - sepal width(cm) - petal length(cm) - petal width(cm) - クラス： - Setosa - Versicolour - Virginica

Slide 32

Slide 32 text

手順： - BigQueryにアイリスデータを読み込む - iris/create_model.sqlでモデルを作成 - iris/evaluate_model.sqlでモデルを検証 - iris/predict.sqlで予測結果を出力

Slide 33

Slide 33 text

分類モデルの評価出力： - 予測値 - 予測確率

Slide 34

Slide 34 text

アジェンダ - BigQueryMLの概要 - ハンズオン - BigQueryMLの強み、弱み - 懇親会

Slide 35

Slide 35 text

BigQueryMLの良いところ - 簡単！ - データと同じ場所にモデルを置いておける - BIツールと連携しやすい（可視化） - 自動で色々やってくれる（データの分割、標準化）

Slide 36

Slide 36 text

（補足）BigQueryMLが自動でやってくれること② カテゴリ変数のダミー化カテゴリ：カテゴリA、カテゴリB、カテゴリC... というデータはそのまま機械学習に使えない ID カテゴリ 1 A 2 B 3 C ID カテゴリ_A カテゴリ_B カテゴリ_C 1 1 0 0 2 0 1 0 3 0 0 1

Slide 37

Slide 37 text

BigQueryMLの微妙なところ - 現状使用可能なモデルが少ない - BigQueryML単体だと可視化ができない - パラメータサーチがしづらい

Slide 38

Slide 38 text

BigQueryMLの微妙なところ現状使用可能なモデルが少ない機械学習教師あり学習教師なし学習：未対応回帰：線形回帰のみ分類：ロジスティック回帰のみクラスタリングや、人気のあるランダムフォレストなどの手法に対応していない。

Slide 39

Slide 39 text

BigQueryMLの微妙なところ BigQueryML単体だと可視化ができない下処理モデルの作成モデルの評価新データに対しての予測 EDA EDA：探索的データ解析分析の初期段階にデータの分布や目的変数への影響をデータを可視化、集計しながら観察する手法 BigQueryで可視化や集計結果の保持はしづらいため、他のサービスを使用する必要がある

Slide 40

Slide 40 text

BigQueryMLの微妙なところパラメータサーチがしづらいハイパーパラメータ：人間が設定する必要のあるパラメータ（例）最適なパラメータAを探したい場合： A = 0, 1, 2, 3, 4, 5, 10, ...に対しモデルを作成し精度を計算最も精度の高いパラメータの値が最適と判断、採用しかし、BigQueryMLではループ処理をサポートしていないため、不可能

Slide 41

Slide 41 text

現状考えられるユースケース・BigQueryMLのみで全てやるのは考えづらい下処理モデルの作成モデルの評価新データに対しての予測 EDA モニタリング Datalab BigQuery