Google Cloud Next '19 Summary: BigQuery BI Engine, AutoML, Data Fusion

Slide 1

Slide 1 text

Next ‘19 @ SF BigQuery BI Engine, AutoML Tables, Data Fusion GCPUG横浜 2019 Apr 24, 2019 @kenz 1

Slide 2

Slide 2 text

About me ● 米川賢治 @ GCPUG横浜 / JTUG オーガナイザ ● エンジニア ● 好きなもの ○ GCP, G Suite, ML, Go, Python, Vim, Zsh, BSD ○ 登山、ロッククライミング、キャンプ、スノボ ● 苦手なもの ○ 敬語 ● https://www.linkedin.com/in/kenjiyonekawa/ 2

Slide 3

Slide 3 text

本スライドで知れること、知れないこと知れること ● BigQuery BI Engine、AutoML Video Intelligence/Tables、Data Fusion の概要 ● AutoML Tables使った感じ ● Data Fusion使った感じ ● BigQuery BI Engine、AutoML Tables は良さそう。 3 知れないこと ● AutoML Tablesの詳細(公開されてない) ● Data Fusionのスケジューリング /拡張。(試せてない)

Slide 4

Slide 4 text

アウトライン ● BigQuery BI Engine ● AutoML ● Data Fusion 4

Slide 5

Slide 5 text

BigQuery BI Engine 5

Slide 6

Slide 6 text

BigQueryのインメモリ機能つけられる! ● BIツールからよくアクセスされるデータのキャッシュの他、クエリの最適化等が行われ、これまで分単位でかかっていた処理が秒単位になる。 ● BI Solutionの一つ。(もう1つはConnected Sheets) ● 今はベータ。(4/2019) ● 容量指定してリザーブするだけ。チューニング等は自動でされるので、容量監視して足りなくなったら足すぐらいで良さそう。 6

Slide 7

Slide 7 text

BigQueryアーキテクチャ 7

Slide 8

Slide 8 text

BI Engineのコスト ● ベータ期間中は無料:D ● BigQueryつつかずに、メモリから返せればコスト削減に！ ○ 現状Data Studioからのクエリのみなので使ってるならぜひ導入を。 8

Slide 9

Slide 9 text

設定方法: 1/3 9 プロジェクト、リージョン、容量 (1-10GB)を選ぶ

Slide 10

Slide 10 text

設定方法: 2/3 10 確認するだけ。値段出てきますがベータ期間中は無料。

Slide 11

Slide 11 text

設定方法: 3/3 11 確認するだけ。ビリング有効になるまで無料の旨記載されてます。

Slide 12

Slide 12 text

Done! ● Data Studioで操作すると早い(感じがする)。ちゃんと評価はしてないです。 12

Slide 13

Slide 13 text

AutoML Video Intelligence / Tables 13

Slide 14

Slide 14 text

AutoMLにVideo IntelligenceとTablesが追加！ ● AutoMLに元々あったVision、Natural Language、Translationに加えてVideo IntelligenceとTablesが新しく追加された。 ● 両方とも今はベータ。(4/2019) ● AutoMLの深い知識なくても利用できる！(これまでと一緒。) 14

Slide 15

Slide 15 text

AutoML Video Intelligence ● 動画のバイナリ/マルチクラス、マルチラベル分類をする教師あり学習。 ● ● 例で挙げられているユースケースは、サッカーの試合の分析のため、動画へ自動でラベルをつける処理等 ● ● ● ● 参考で必要とされているデータ: ○ クラス数が少ない場合 : クラスごとに200 ○ 50クラス以上やクラスが似てる場合 : クラスごとに1,000+ ● それなりのデータ/ラベルが必要。 15

Slide 16

Slide 16 text

AutoML Tables ● 構造化データの特定カラムを推測するAutoML。 ● 無料枠がある！！ ○ 6時間のトレーニング ○ と ○ 6時間のバッチプレディクション ○ ○ 実行時間が制御できるので、コスト試算できる ● モデルのexportは今の所できない。 ● こっち試してみました。 16

Slide 17

Slide 17 text

確認したかったこと ● お手軽に使えるものなのか ● 精度 ● モデル作成にかかる時間 ● モデル作成にかかるお金 17

Slide 18

Slide 18 text

AutoML Tablesの全体像 18 特徴量抽出、モデル選択、ハイパーパラメータチューニングを自動でやってくれる。やるのはデータの準備、選択と作られたモデルで OKかの判断ぐらい。

Slide 19

Slide 19 text

Input 19 BigQueryかGCSから取り込み可。

Slide 20

Slide 20 text

Deﬁne 20 スキーマの型とNullableを決める。ターゲット(MLする対象)もここで決める。 Additionalからデータの分け方、重み付け、タイムスリーズの設定できる。

Slide 21

Slide 21 text

Analyze 21 平均や標準偏差、データの種類、 NULLの割合に加え、指定したターゲットに対する相関が表示される。 Trainすると時間とお金かかるのでここでクレンジング必要か判断できると良さそう。

Slide 22

Slide 22 text

Train 22 Budgetが決められる！！それ以外に使うフィーチャー、オプティマイゼーションの方法が選べる。

Slide 23

Slide 23 text

Train 23 データ量の注意点。推奨値として出てくるデータサイズは下記の通り。無料の6時間だと500MB程度、72時間回すとしても100GB程度なので必要に応じてデータ量減らす必要がありそう。(72時間回すと$1,400ぐらい)

Slide 24

Slide 24 text

Train完了後 24 結果。元データの情報考えると結構良い。元データの情報

Slide 25

Slide 25 text

Evaluate 25 重要と認識された特徴が分かる。 AutoML内で特徴量エンジニアリングされているので、認識と違い過ぎたらデータ処理する、ぐらいで良いと思われる。

Slide 26

Slide 26 text

バッチプレディクション 26 バッチ推測であればデプロイしなくても使える。 BigQueryかGCSからデータ読んで同じく BigQueryかGCSに結果吐き出す。

Slide 27

Slide 27 text

オンラインレディクション 27 “DEPLOY MODEL”押せばオンライン用にデプロイされる。 (20分ぐらいかかった) 画面下にサンプルの実行方法が記載されている。

Slide 28

Slide 28 text

確認したかったこと ● お手軽に使えるものなのか ● 精度 ● モデル作成にかかる時間 ● モデル作成にかかるお金 28 お手軽に使える！特徴量抽出もAutoMLされるので、どこまでデータ処理しておけばいいのかは要調査。ほぼ未処理データなのに精度高い。モデル構築: 1.1hr (指定は6hrなので途中で学習完了した模様。 ) \12,799 ???? 無料枠。。？

Slide 29

Slide 29 text

お金 ● 6時間無料のはず。 ● 2時間弱でアーリーストップしてるみたいなので、問い合わせ中。 ● 試しなら短めに流したほうが良いかもしれないです。 29

Slide 30

Slide 30 text

Data Fusion 30

Slide 31

Slide 31 text

Data Fusion ● コーディングレスでデータパイプラインが構築できるフルマネージドサービス。スケジューリングやエラーハンドリング/通知も可能。 ● 2018年に買収したCask DataのCDAPのクラウドネイティブ版。CDAPのパイプラインがData Fusionにそのままインポートできる。 ● 現状ベータ (4/2019) 31

Slide 32

Slide 32 text

コンポーネント ● Data FusionのインスタンスはGKE、CloudSQL、GCS、PD、KMS、 Elasticsearch等が利用されている。 ○ テナントプロジェクト内にデプロイされるので気にする必要はない。 ○ システム系、UIはGKEが利用され、メタデータ管理に他サービスが利用されている。 ○ ● 実際のパイプライン処理の実行にはdataprocが使われる。自分で指定する OR 実行時にスピンアップ/ダウンしてもらうことが可能。 ○ dataflowになったらもっとスケール、コスト面で良さそう。 32

Slide 33

Slide 33 text

こんな感じ 33

Slide 34

Slide 34 text

Data Fusionのコスト ● 2種類存在する。 ● Basicは120時間/月無料。 ● 一旦Basicで試すことをおすすめ。 34

Slide 35

Slide 35 text

いろんな拡張ができる 35

Slide 36

Slide 36 text

使えるもの 36 namespaceでいろいろ分離できる ?作り方分からず。。ダッシュボード的なもの。デプロイ済みのパイプラインのリスト。パイプラインの構築。デプロイしたら上に入る。 wrangler。dataprepに比べると微妙。。メタデータの検索。

Slide 37

Slide 37 text

namespace 37 createの文言はあるけど作り方分からず。これからかな？

Slide 38

Slide 38 text

Control Center 38 存在するデータセットやパイプラインが見れる。

Slide 39

Slide 39 text

Pipeline: List 39 実行回数や最終実行時のステータスが見れる。

Slide 40

Slide 40 text

Pipeline: Studio 40 HUBから選んで利用できる。設定は各ボックスのプロパティから変更可能。全体像が確認できる。色でいろいろ分かれている。

Slide 41

Slide 41 text

Pipeline Studio: HUBにデフォルトであるもの 41

Slide 42

Slide 42 text

Wrangler 42 CDAPのdata prepが使える。がdataprepに比べると使い勝手が悪い。。 dataprepに置き換えられると嬉しい。

Slide 43

Slide 43 text

Metadata 43 Data fusion内の検索ができる。

Slide 44

Slide 44 text

動かしてみました。 ● インプット: BigQueryとGCS ● Transformation: Join、Group By ● アウトプット: BigQuery 44

Slide 45

Slide 45 text

Input (BigQuery) ● 45 BigQueryのスキーマは自動検知できる。

Slide 46

Slide 46 text

Input (GCS) ● 46 GCSのスキーマは自分で指定する必要がる。

Slide 47

Slide 47 text

Join 47 inner/outer joinする。 3つ以上のソースも可能。

Slide 48

Slide 48 text

Group By 48 普通のGroup By

Slide 49

Slide 49 text

Output 49 出力先と出力先のカラム決める。

Slide 50

Slide 50 text

実行例 50 ステータスや実行時間が確認できる。 Logsでログ確認できる。何件のデータがアウトプット、エラーとして出力されたか分かる。 configureでワーカノード数とか決められる。

Slide 51

Slide 51 text

感想 ● GUIでそこそこのパイプラインは作れる。 ● パイプライン作成中のエラーチェックは良くない。 ○ GCSのスキーマ指定やパイプラインの I/Oのつなぎで、作成中はエラーでずにデプロイできる->実行するとこけることが何度か。。 ○ 今回作ったのぐらいなら手組みの方が楽そう。 ● Wranglerの機能がいまいち、、dataprepつなげて欲しい。 ○ 初め入れてみようかと思ったが、触ってみて断念。 ● 今回拡張、スケジュールは試せてないです。 51

Slide 52

Slide 52 text

終わりに & 宣伝 52

Slide 53

Slide 53 text

色々新しいもの出てるので試して教えて下さい！:D JTUG (Japan Trifacta User Group)作りました。よかったら登録お願いします:) https://jtug.connpass.com/ 53

Slide 54

Slide 54 text

ありがとうございました！！ 54