Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BigQueryを用いた データ分析基盤作成入門

curry-like
November 23, 2019

BigQueryを用いた データ分析基盤作成入門

JJUG CCC 2019 fall 発表資料です。
JJUG CCC 2019 fall: https://ccc2019fall.java-users.jp/
タイムテーブル: https://ccc2019fall.java-users.jp/timetable.html

curry-like

November 23, 2019
Tweet

More Decks by curry-like

Other Decks in Programming

Transcript

  1. BigQuery を使用するメリット - フルマネージド - スケールしやすい - 保存するデータの管理が必要ない - 安定してそこそこ速い

    - データをもともとロードしている - 従量課金なので使い方に気をつけていればコストを抑えられ る - Scripting, ML などの機能
  2. BigQueryにデータを投入する方法 1. 読み込みジョブを使用して batch 単位でインポート • GCS や S3 からのファイル読み込み

    2. ストリーミングを使用してレコードごとにインポート • Fluetndからの取り込み • Dataflowからの取り込み • 他
  3. Cloud Dataflow - ストリーミング / バッチ 処理のサービス - マネージド /

    オートスケーリング - Apache Beam SDK を使用 - Java / Scala / Python / Go
  4. - Spark, Hadoop クラスタ - マネージド - AWS の EMR

    のようなもの (参考) Cloud Dataproc
  5. Apache Beam - Google 発のOSS - Dataflow, Spark 等、様々な場所で動く -

    Java, Python, Go - Batch 処理と streaming 処理両方に対応
  6. Scio - Apache Beam と Google Cloud Dataflow の Scala

    API - GCP の様々なサービスと連携可能 - Type Safe BigQuery