Save 37% off PRO during our Black Friday Sale! »

Google Cloud Next '19 Summary: BigQuery BI Engine, AutoML, Data Fusion

4b45a7e80d4ae7da08069abcb499d696?s=47 kenz
April 24, 2019

Google Cloud Next '19 Summary: BigQuery BI Engine, AutoML, Data Fusion

Summary of features announced in Google Cloud Next'19. BigQuery BI Engine, AutoML (Video Intelligence, Tables), and Data Fusion is explained.
The slide is in Japanese. LMK if you want one in English:)

4b45a7e80d4ae7da08069abcb499d696?s=128

kenz

April 24, 2019
Tweet

Transcript

  1. Next ‘19 @ SF BigQuery BI Engine, AutoML Tables, Data

    Fusion GCPUG横浜 2019 Apr 24, 2019 @kenz 1
  2. About me • 米川 賢治 @ GCPUG横浜 / JTUG オーガナイザ

    • エンジニア • 好きなもの ◦ GCP, G Suite, ML, Go, Python, Vim, Zsh, BSD ◦ 登山、ロッククライミング、キャンプ、スノボ • 苦手なもの ◦ 敬語 • https://www.linkedin.com/in/kenjiyonekawa/ 2
  3. 本スライドで知れること、知れないこと 知れること • BigQuery BI Engine、AutoML Video Intelligence/Tables、Data Fusion の概要

    • AutoML Tables使った感じ • Data Fusion使った感じ • BigQuery BI Engine、AutoML Tables は良さそう。 3 知れないこと • AutoML Tablesの詳細(公開されてな い) • Data Fusionのスケジューリング /拡 張。(試せてない)
  4. アウトライン • BigQuery BI Engine • AutoML • Data Fusion

    4
  5. BigQuery BI Engine 5

  6. BigQueryのインメモリ機能つけられる! • BIツールからよくアクセスされるデータのキャッシュの他、クエリの最適化 等が行われ、これまで分単位でかかっていた処理が秒単位になる。 • BI Solutionの一つ。(もう1つはConnected Sheets) • 今はベータ。(4/2019)

    • 容量指定してリザーブするだけ。チューニング等は自動でされるので、容量 監視して足りなくなったら足すぐらいで良さそう。 6
  7. BigQueryアーキテクチャ 7

  8. BI Engineのコスト • ベータ期間中は無料:D • BigQueryつつかずに、メモリから返せればコスト削減に! ◦ 現状Data Studioからのクエリのみなので使ってるならぜひ導入を。 8

  9. 設定方法: 1/3 9 プロジェクト、リージョン、容量 (1-10GB)を選ぶ

  10. 設定方法: 2/3 10 確認するだけ。値段出てきますがベータ期間中は無料。

  11. 設定方法: 3/3 11 確認するだけ。ビリング有効になるまで無料の旨記載されて ます。

  12. Done! • Data Studioで操作すると早い(感じがする)。ちゃんと評価はしてないで す。 12

  13. AutoML Video Intelligence / Tables 13

  14. AutoMLにVideo IntelligenceとTablesが追加! • AutoMLに元々あったVision、Natural Language、Translationに加え てVideo IntelligenceとTablesが新しく追加された。 • 両方とも今はベータ。(4/2019) •

    AutoMLの深い知識なくても利用できる!(これまでと一緒。) 14
  15. AutoML Video Intelligence • 動画のバイナリ/マルチクラス、マルチラベル分類をする教師あり学習。 • • 例で挙げられているユースケースは、サッカーの試合の分析のため、動画へ 自動でラベルをつける処理等 •

    • • • 参考で必要とされているデータ: ◦ クラス数が少ない場合 : クラスごとに200 ◦ 50クラス以上やクラスが似てる場合 : クラスごとに1,000+ • それなりのデータ/ラベルが必要。 15
  16. AutoML Tables • 構造化データの特定カラムを推測するAutoML。 • 無料枠がある!! ◦ 6時間のトレーニング ◦ と

    ◦ 6時間のバッチプレディクション ◦ ◦ 実行時間が制御できるので、コスト試算できる • モデルのexportは今の所できない。 • こっち試してみました。 16
  17. 確認したかったこと • お手軽に使えるものなのか • 精度 • モデル作成にかかる時間 • モデル作成にかかるお金 17

  18. AutoML Tablesの全体像 18 特徴量抽出、モデル選択、ハイパーパラメータ チューニングを自動でやってくれる。 やるのはデータの準備、選択と作られたモデルで OKかの判断ぐらい。

  19. Input 19 BigQueryかGCSから取り込み可。

  20. Define 20 スキーマの型とNullableを決める。 ターゲット(MLする対象)もここで決める。 Additionalからデータの分け方、重み付け、タイムスリーズの設定できる。

  21. Analyze 21 平均や標準偏差、データの種類、 NULLの割合に加え、指定したターゲットに対 する相関が表示される。 Trainすると時間とお金かかるのでここでクレンジング必要か判断できると良さそ う。

  22. Train 22 Budgetが決められる!! それ以外に使うフィーチャー、オプティマイ ゼーションの方法が選べる。

  23. Train 23 データ量の注意点。 推奨値として出てくるデータサイズは下記の通り。 無料の6時間だと500MB程度、72時間回すとしても100GB程度なので必要に応じてデータ量減らす必要があり そう。(72時間回すと$1,400ぐらい)

  24. Train完了後 24 結果。元データの情報考えると結構良い。 元データの情報

  25. Evaluate 25 重要と認識された特徴が分かる。 AutoML内で特徴量エンジニアリ ングされているので、認識と違い過ぎたらデータ処理する、ぐらいで 良いと思われる。

  26. バッチプレディクション 26 バッチ推測であればデプロイしなくても使える。 BigQueryかGCSからデータ読んで同じく BigQueryかGCSに結果吐き出す。

  27. オンラインレディクション 27 “DEPLOY MODEL”押せばオンライン用にデプロイされる。 (20分ぐらいかかった) 画面下にサンプルの実行方法が記載されている。

  28. 確認したかったこと • お手軽に使えるものなのか • 精度 • モデル作成にかかる時間 • モデル作成にかかるお金 28

    お手軽に使える! 特徴量抽出もAutoMLされるので、どこまでデータ処理 しておけばいいのかは要調査。 ほぼ未処理データなのに精度高い。 モデル構築: 1.1hr (指定は6hrなので途中で学習完了した模様。 ) \12,799 ???? 無料枠。。?
  29. お金 • 6時間無料のはず。 • 2時間弱でアーリーストップしてるみたいなので、問い合わせ中。 • 試しなら短めに流したほうが良いかもしれないです。 29

  30. Data Fusion 30

  31. Data Fusion • コーディングレスでデータパイプラインが構築できるフルマネージドサービ ス。スケジューリングやエラーハンドリング/通知も可能。 • 2018年に買収したCask DataのCDAPのクラウドネイティブ版。CDAPのパ イプラインがData Fusionにそのままインポートできる。

    • 現状ベータ (4/2019) 31
  32. コンポーネント • Data FusionのインスタンスはGKE、CloudSQL、GCS、PD、KMS、 Elasticsearch等が利用されている。 ◦ テナントプロジェクト内にデプロイされるので気にする必要はない。 ◦ システム系、UIはGKEが利用され、メタデータ管理に他サービスが利用されている。 ◦

    • 実際のパイプライン処理の実行にはdataprocが使われる。自分で指定する OR 実行時にスピンアップ/ダウンしてもらうことが可能。 ◦ dataflowになったらもっとスケール、コスト面で良さそう。 32
  33. こんな感じ 33

  34. Data Fusionのコスト • 2種類存在する。 • Basicは120時間/月無料。 • 一旦Basicで試すことをおすすめ。 34

  35. いろんな拡張ができる 35

  36. 使えるもの 36 namespaceでいろいろ分離できる ?作り方分からず。。 ダッシュボード的なもの。 デプロイ済みのパイプラインのリスト。 パイプラインの構築。デプロイしたら上に入る。 wrangler。dataprepに比べると微妙。。 メタデータの検索。

  37. namespace 37 createの文言はあるけど作り方分からず。これからかな?

  38. Control Center 38 存在するデータセットやパイプラインが見れる。

  39. Pipeline: List 39 実行回数や最終実行時のステータスが見れる。

  40. Pipeline: Studio 40 HUBから選んで利用できる。 設定は各ボックスのプロパティから変更可能。 全体像が確認できる。 色でいろいろ分かれている。

  41. Pipeline Studio: HUBにデフォルトであるもの 41

  42. Wrangler 42 CDAPのdata prepが使える。 がdataprepに比べると使い勝手が悪い。。 dataprepに置き換えられると嬉しい。

  43. Metadata 43 Data fusion内の検索ができる。

  44. 動かしてみました。 • インプット: BigQueryとGCS • Transformation: Join、Group By • アウトプット:

    BigQuery 44
  45. Input (BigQuery) • 45 BigQueryのス キーマは自動 検知できる。

  46. Input (GCS) • 46 GCSのスキーマ は自分で指定す る必要がる。

  47. Join 47 inner/outer joinする。 3つ以上のソースも可能。

  48. Group By 48 普通のGroup By

  49. Output 49 出力先と出力先のカラム決める。

  50. 実行例 50 ステータスや実行時 間が確認できる。 Logsでログ確認できる。 何件のデータがアウトプット、エラーとし て出力されたか分かる。 configureでワーカノード 数とか決められる。

  51. 感想 • GUIでそこそこのパイプラインは作れる。 • パイプライン作成中のエラーチェックは良くない。 ◦ GCSのスキーマ指定やパイプラインの I/Oのつなぎで、作成中はエラーでずにデプロイでき る->実行するとこけることが何度か。。 ◦

    今回作ったのぐらいなら手組みの方が楽そう。 • Wranglerの機能がいまいち、、dataprepつなげて欲しい。 ◦ 初め入れてみようかと思ったが、触ってみて断念。 • 今回拡張、スケジュールは試せてないです。 51
  52. 終わりに & 宣伝 52

  53. 色々新しいもの出てるので試して教えて下さい!:D JTUG (Japan Trifacta User Group)作りました。 よかったら登録お願いします:) https://jtug.connpass.com/ 53

  54. ありがとうございました!! 54