Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Google Cloud Next'19 Data Analytics Products

orfeon
April 17, 2019

Google Cloud Next'19 Data Analytics Products

orfeon

April 17, 2019
Tweet

More Decks by orfeon

Other Decks in Technology

Transcript

  1. 自己紹介 • 名前: Yoichi Nagai ◦ orfeon@github, orfeonjp@twitter • 所属:

    merpay solution team • 役割: Data Engineer@GCP • 趣味: サイクリング 早めに着いたので ゴールデンブリッジに サイクリングに行ったら あいにくの霧。。。
  2. ビッグデータ・分析系プロダクト • Cloud Dataflow • Cloud Data Fusion • Data

    Catalog • BigQuery • AutoML • ML API • Cloud Dataproc
  3. Cloud Dataflow 〜New Features • Streaming Engine & Streaming AutoScaling

    (GA) ◦ 状態管理をサービスとして分離し、性能とコスパと可用性向上 • Dataflow SQL (Alpha) ◦ BigQuery UIからSQLで記述した処理をDataflow実行できるように ◦ DataflowなのでStreamingで流れるデータに対して SQLで処理できるように • Dataflow FlexRS (Beta) ◦ Preemptible VMを併用できるように (Shuffle mode必須) ◦ 遅延スケジュールで急がないジョブを安く動かせるように (概ねPreemptible VM分だけ安く) • Python SDK ◦ Python 3 support (Alpha) ◦ Python Streaming (Beta) ◦ TensorFlow Extended, Kubeflow への統合強化 Advances in Stream Analytics (Cloud Next '19) Data Processing in Google Cloud: Hadoop, Spark, and Dataflow (Cloud Next '19) ※その他Flink Runner 強化なども
  4. Cloud Dataflow 〜Streaming Engine (GA) • WindowやShuffleの状態管理をマネージドなエンジンに移譲 • 処理中の状態をワーカーが持たなくて済むので ◦

    ワーカー数を減らせる ◦ ワーカーのスケールを素早くできる ◦ ドレインを素早くできる • シャッフルが速くなる ただし処理したデータ量に対して別料金が発生 $0.018 / 1GB
  5. Cloud Dataflow 〜Dataflow SQL (Alpha: 5月予定) • BigQueryUIからSQLでDataflowジョブを実行可能に ◦ BatchとStreamingをSQLで統一的に扱えるように

    (データアナリストがStreaming処理を扱える) • UDFをJava書けるように ◦ 複雑な処理の記述や集約 UDF関数も使えるように(今の所BigQuery UIからはできなさそう) PubSubから入る取引レコードと BigQueryのマスターレコードを Join して時間/地域ごとに集計 PubSubトピックからのレコードのス キーマはData Catalogに登録 TUMBLEは固定幅Window
  6. Cloud Data Fusion (New&Beta) • UIでデータパイプラインを作って動かせるサービス • 様々なデータソース/シンク対応 ◦ AWS/Azureにも対応

    • 各サービスと連携 ◦ ML API, DLP API, KMS • Batch / Streaming両対応 • Dataproc上で実行 ◦ MapReduce/Spark選択 ◦ Dataflowも対応中 • OSSのCDAPがベース Cloud Data Fusion: Data Integration at Google Cloud (Cloud Next '19)
  7. Cloud Data Fusion 〜Pipeline作成 UI上でコンポーネントを繋げていく Transform: データ変換 Analytics: JOIN, GroupBy,

    Distinctなど Conditions: 切り替え条件 Actions: ファイル削除,移動,作成など Error: 失敗データの検出と処理指定
  8. Cloud Data Fusion 〜Hub • サードパーティ?のPipeline, Pluginが利用可能 • 自分で登録することも可能 ◦

    CDAPのドキュメントに実装方法が公開 ◦ 基本的に各処理ベースクラスを extends ◦ (Javaです) ◦ Organization内での共有方法は要調査 https://docs.cdap.io/cdap/current/en/developer-manual/pipelines/developing-plugins/creating-a-plugin.html#H2455
  9. Cloud Data Fusion 〜お値段 • Basic: $1.8 / Hour ◦

    Pipeline同時実行数上限2 ◦ 月の最初の120時間分は無料 ◦ 月ずっと動かしてた場合 $1,100 • Enterprise: $4.2 / Hour ◦ 同時実行無制限 ◦ Streaming対応 ◦ High Availability ◦ REST API ◦ Triggers / Schedules ◦ 月ずっと動かしてた場合 $3,000 個人で使う分には120時間無料枠 のあるBasicが良さそうだが使い終 わったら落とすように要注意!
  10. Data Catalog (New&Private Beta) • GCP組織内でのGCP上のデータ共有・活用を促進するためのサービス • GCP組織内データのスキーマやラベル、権限を一括管理できる Data Discovery

    in Google Cloud (Cloud Next '19) • GCP組織内の人がデータを簡単に検索できる • メタデータを操作するUIやAPI提供 • GCP各種データのメタデータを自動推論 • メタデータとIAMによるACL制御 • DLP連携による個人情報自動Tag付け
  11. Data Catalog 〜メタデータとは • Technical Metadata (自動的に付与される) ◦ Name: table,

    column ◦ Description: table, column ◦ Date: created, modified • Business Metadata (ユーザが付与する) ◦ Tableの個人情報の有無 ◦ データのオーナー ◦ データの有効期限(delete by, retain till) ◦ カラム計算ロジック ◦ データ品質スコア Metadataの入力項目をTemplateとして用意 することも可能. 入力型も指定できる (string, double, bool, enum, datetime) タグの値ごとにIAMと権限を指定可能
  12. AutoML 〜New Features • AutoML Vision ◦ Object detection (Beta)

    ◦ AutoML Vision Edge (Beta) • AutoML Natural Language ◦ Entity extraction (Beta) ◦ Sentiment analysis (Beta) • AutoML Video Intelligence (New Beta) • AutoML Tables (New Beta) ◦ 構造化データのカスタム学習ができるように
  13. AutoML Tables 〜気になる精度は? • Kaggle Mercari Price Suggestion Challenge での実施例

    • 時間を掛けると精度も向上 • 1日回して300位を超えるくらい ◦ 銅メダルには届かない
  14. AutoML Tables 〜仕組み • NNだけじゃないらしい? ◦ 小さいデータ -> LogisticReg ◦

    大きいデータ -> NN ◦ Tree based architecture? 詳細については近くペーパーを出すとのこと
  15. AutoML Tables 〜入力データ型 AutoML data types CSV (on GCS) BigQuery

    data types Numeric ◯ INT64,FLOAT64,STRING,NUMERIC Categorical ◯ INT64,FLOAT64,STRING,NUMERIC,BOOL, DATE,DATETIME,TIME,TIMESTAMP Text ◯ STRING Timestamp ◯ DATE,DATETIME,TIMESTAMP Array × ARRAY Struct × STRUCT 高い予測モデルを実現するには複雑なデータ構造を埋め込む BigQueryの方が良さそう?
  16. AutoML Tables 〜お値段 • Training: ◦ $19.32 / Hour(実行時間) ▪

    n1-standard-4 インスタンス 92台分の価格とのこと • Prediction ◦ Deployment ▪ $0.005 / GB(モデルサイズ) / Hour(稼働時間) / Machine(Default: 9台) ◦ Prediction ▪ Batch: 1.16 / Hour (最初の6時間は無料) ▪ Online: 0.21 / Hour
  17. AutoML Tables 〜その他 • レコード数は10万未満だと、現時点ではAutoMLは活かしきれない ◦ 公式ドキュメントの推奨レコード数 ▪ 分類: 50

    x 特徴量数 ▪ 回帰: 200 x 特徴量数 • より複雑なデータだと効果的(数値 + テキストなど) • 画像は現時点では現状非対応だが対応を検討している • 学習した予測モデルは現状ダウンロード不可だが対応を検討している
  18. BigQuery 〜New Features • BigQuery ML ◦ Core (GA) ◦

    K-means clustering (Beta) ◦ Matrix-Factorization (Alpha) ◦ DNN (分類/回帰) (Alpha) ◦ TensorFlow Model import (Alpha) • BigQuery BI Engine (Beta) • BigQuery Data Transfer Service (Beta) • Connected sheets (Beta) • BigQuery Storage API (Beta) • BigQuery GIS (GA)
  19. ML API 〜New Features • Vision API ◦ Vision Product

    Search (GA) ◦ Batch prediction, PDF online annotation. • Natural Language API ◦ 日本語、ロシア語サポート • Translation API V3 ◦ ユーザ辞書対応 • Video Intelligence API ◦ OCR対応 (GA) ◦ Object tracking (GA) ◦ Streaming video annotation (Beta)
  20. Cloud Dataproc 〜New Features • Version 1.4 (GA) (Spark2.4, Python3,

    Flink1.6 support) • Autoscaling (Beta) • Enhanced Flexibility Mode (Alpha) ◦ Preemptible VM でも効率的に動くよう、 ShuffleデータをPrimary NodeのHDFSに保存 • SparkR Jobs (Beta) • New Connectors ◦ BigQuery Read Connector (New) ◦ Cloud Spanner Connector for Spark (New) ◦ CGS Connector (性能向上) Random access for columnar files (4x), Multithreaded access • Optional components on Console (ANACONDA, ZooKeeper, Presto, Jupyter, Zeppelin) • Customer Managed EncryptKey (GA), Dataproc Kerberos (Beta) • Component Gateway (Alpha): Apache KNOX Cloud Dataproc’s Newest Features (Cloud Next '19)
  21. 所感 • DataAnalytics関連ではプログラミングレスに使えるプロダクト が多かった • DataflowSQL / Data Fusion +

    AutoML / BigQueryML など プログラムを書かずにMLパイプラインをある程度まで 作れるように。 GCPで機械学習の民主化が着実に進んでいる