Google Cloud Next '19 Summary: BigQuery BI Engine, AutoML, Data Fusion

Next ‘19 @ SF BigQuery BI Engine, AutoML Tables, Data
Fusion GCPUG横浜 2019 Apr 24, 2019 @kenz 1

About me • 米川賢治 @ GCPUG横浜 / JTUG オーガナイザ
• エンジニア • 好きなもの ◦ GCP, G Suite, ML, Go, Python, Vim, Zsh, BSD ◦ 登山、ロッククライミング、キャンプ、スノボ • 苦手なもの ◦ 敬語 • https://www.linkedin.com/in/kenjiyonekawa/ 2

本スライドで知れること、知れないこと知れること • BigQuery BI Engine、AutoML Video Intelligence/Tables、Data Fusion の概要
• AutoML Tables使った感じ • Data Fusion使った感じ • BigQuery BI Engine、AutoML Tables は良さそう。 3 知れないこと • AutoML Tablesの詳細(公開されてない) • Data Fusionのスケジューリング /拡張。(試せてない)

アウトライン • BigQuery BI Engine • AutoML • Data Fusion
4

BigQuery BI Engine 5

BigQueryのインメモリ機能つけられる! • BIツールからよくアクセスされるデータのキャッシュの他、クエリの最適化等が行われ、これまで分単位でかかっていた処理が秒単位になる。 • BI Solutionの一つ。(もう1つはConnected Sheets) • 今はベータ。(4/2019)
• 容量指定してリザーブするだけ。チューニング等は自動でされるので、容量監視して足りなくなったら足すぐらいで良さそう。 6

BigQueryアーキテクチャ 7

BI Engineのコスト • ベータ期間中は無料:D • BigQueryつつかずに、メモリから返せればコスト削減に！ ◦ 現状Data Studioからのクエリのみなので使ってるならぜひ導入を。 8

設定方法: 1/3 9 プロジェクト、リージョン、容量 (1-10GB)を選ぶ

設定方法: 2/3 10 確認するだけ。値段出てきますがベータ期間中は無料。

設定方法: 3/3 11 確認するだけ。ビリング有効になるまで無料の旨記載されてます。

Done! • Data Studioで操作すると早い(感じがする)。ちゃんと評価はしてないです。 12

AutoML Video Intelligence / Tables 13

AutoMLにVideo IntelligenceとTablesが追加！ • AutoMLに元々あったVision、Natural Language、Translationに加えてVideo IntelligenceとTablesが新しく追加された。 • 両方とも今はベータ。(4/2019) •
AutoMLの深い知識なくても利用できる！(これまでと一緒。) 14

AutoML Video Intelligence • 動画のバイナリ/マルチクラス、マルチラベル分類をする教師あり学習。 • • 例で挙げられているユースケースは、サッカーの試合の分析のため、動画へ自動でラベルをつける処理等 •
• • • 参考で必要とされているデータ: ◦ クラス数が少ない場合 : クラスごとに200 ◦ 50クラス以上やクラスが似てる場合 : クラスごとに1,000+ • それなりのデータ/ラベルが必要。 15

AutoML Tables • 構造化データの特定カラムを推測するAutoML。 • 無料枠がある！！ ◦ 6時間のトレーニング ◦ と
◦ 6時間のバッチプレディクション ◦ ◦ 実行時間が制御できるので、コスト試算できる • モデルのexportは今の所できない。 • こっち試してみました。 16

確認したかったこと • お手軽に使えるものなのか • 精度 • モデル作成にかかる時間 • モデル作成にかかるお金 17

AutoML Tablesの全体像 18 特徴量抽出、モデル選択、ハイパーパラメータチューニングを自動でやってくれる。やるのはデータの準備、選択と作られたモデルで OKかの判断ぐらい。

Input 19 BigQueryかGCSから取り込み可。

Deﬁne 20 スキーマの型とNullableを決める。ターゲット(MLする対象)もここで決める。 Additionalからデータの分け方、重み付け、タイムスリーズの設定できる。

Analyze 21 平均や標準偏差、データの種類、 NULLの割合に加え、指定したターゲットに対する相関が表示される。 Trainすると時間とお金かかるのでここでクレンジング必要か判断できると良さそう。

Train 22 Budgetが決められる！！それ以外に使うフィーチャー、オプティマイゼーションの方法が選べる。

Train 23 データ量の注意点。推奨値として出てくるデータサイズは下記の通り。無料の6時間だと500MB程度、72時間回すとしても100GB程度なので必要に応じてデータ量減らす必要がありそう。(72時間回すと$1,400ぐらい)

Train完了後 24 結果。元データの情報考えると結構良い。元データの情報

Evaluate 25 重要と認識された特徴が分かる。 AutoML内で特徴量エンジニアリングされているので、認識と違い過ぎたらデータ処理する、ぐらいで良いと思われる。

バッチプレディクション 26 バッチ推測であればデプロイしなくても使える。 BigQueryかGCSからデータ読んで同じく BigQueryかGCSに結果吐き出す。

オンラインレディクション 27 “DEPLOY MODEL”押せばオンライン用にデプロイされる。 (20分ぐらいかかった) 画面下にサンプルの実行方法が記載されている。

確認したかったこと • お手軽に使えるものなのか • 精度 • モデル作成にかかる時間 • モデル作成にかかるお金 28
お手軽に使える！特徴量抽出もAutoMLされるので、どこまでデータ処理しておけばいいのかは要調査。ほぼ未処理データなのに精度高い。モデル構築: 1.1hr (指定は6hrなので途中で学習完了した模様。 ) \12,799 ???? 無料枠。。？

お金 • 6時間無料のはず。 • 2時間弱でアーリーストップしてるみたいなので、問い合わせ中。 • 試しなら短めに流したほうが良いかもしれないです。 29

Data Fusion 30

Data Fusion • コーディングレスでデータパイプラインが構築できるフルマネージドサービス。スケジューリングやエラーハンドリング/通知も可能。 • 2018年に買収したCask DataのCDAPのクラウドネイティブ版。CDAPのパイプラインがData Fusionにそのままインポートできる。
• 現状ベータ (4/2019) 31

コンポーネント • Data FusionのインスタンスはGKE、CloudSQL、GCS、PD、KMS、 Elasticsearch等が利用されている。 ◦ テナントプロジェクト内にデプロイされるので気にする必要はない。 ◦ システム系、UIはGKEが利用され、メタデータ管理に他サービスが利用されている。 ◦
• 実際のパイプライン処理の実行にはdataprocが使われる。自分で指定する OR 実行時にスピンアップ/ダウンしてもらうことが可能。 ◦ dataflowになったらもっとスケール、コスト面で良さそう。 32

こんな感じ 33

Data Fusionのコスト • 2種類存在する。 • Basicは120時間/月無料。 • 一旦Basicで試すことをおすすめ。 34

いろんな拡張ができる 35

使えるもの 36 namespaceでいろいろ分離できる ?作り方分からず。。ダッシュボード的なもの。デプロイ済みのパイプラインのリスト。パイプラインの構築。デプロイしたら上に入る。 wrangler。dataprepに比べると微妙。。メタデータの検索。

namespace 37 createの文言はあるけど作り方分からず。これからかな？

Control Center 38 存在するデータセットやパイプラインが見れる。

Pipeline: List 39 実行回数や最終実行時のステータスが見れる。

Pipeline: Studio 40 HUBから選んで利用できる。設定は各ボックスのプロパティから変更可能。全体像が確認できる。色でいろいろ分かれている。

Pipeline Studio: HUBにデフォルトであるもの 41

Wrangler 42 CDAPのdata prepが使える。がdataprepに比べると使い勝手が悪い。。 dataprepに置き換えられると嬉しい。

Metadata 43 Data fusion内の検索ができる。

動かしてみました。 • インプット: BigQueryとGCS • Transformation: Join、Group By • アウトプット:
BigQuery 44

Input (BigQuery) • 45 BigQueryのスキーマは自動検知できる。

Input (GCS) • 46 GCSのスキーマは自分で指定する必要がる。

Join 47 inner/outer joinする。 3つ以上のソースも可能。

Group By 48 普通のGroup By

Output 49 出力先と出力先のカラム決める。

実行例 50 ステータスや実行時間が確認できる。 Logsでログ確認できる。何件のデータがアウトプット、エラーとして出力されたか分かる。 configureでワーカノード数とか決められる。

感想 • GUIでそこそこのパイプラインは作れる。 • パイプライン作成中のエラーチェックは良くない。 ◦ GCSのスキーマ指定やパイプラインの I/Oのつなぎで、作成中はエラーでずにデプロイできる->実行するとこけることが何度か。。 ◦
今回作ったのぐらいなら手組みの方が楽そう。 • Wranglerの機能がいまいち、、dataprepつなげて欲しい。 ◦ 初め入れてみようかと思ったが、触ってみて断念。 • 今回拡張、スケジュールは試せてないです。 51

終わりに & 宣伝 52

色々新しいもの出てるので試して教えて下さい！:D JTUG (Japan Trifacta User Group)作りました。よかったら登録お願いします:) https://jtug.connpass.com/ 53

ありがとうございました！！ 54

Google Cloud Next '19 Summary: BigQuery BI Engi...

Google Cloud Next '19 Summary: BigQuery BI Engine, AutoML, Data Fusion

More Decks by kenz

Other Decks in Technology

Featured

Transcript