Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RedshiftとGlueで簡単データウェアハウス / Data Warehousing with Redshift and Glue

RedshiftとGlueで簡単データウェアハウス / Data Warehousing with Redshift and Glue

クラシルの行動分析基盤の裏側の話
- 第4世代分析基盤
- 2つのダッシュボード
- RedshiftとGlue
- 時系列テーブル

Fukao Moto

July 12, 2018
Tweet

More Decks by Fukao Moto

Other Decks in Programming

Transcript

  1. fluentd Google Analytics 分析基盤のレイヤー BigQuery 可 視 化 分 析

    ロ グ 収 集 Kinesis Redshift Google Analytics Google Analytics OSS 自社開発 Athena S3 BIツール SaaS Hadoop
  2. 第1世代 Google Analytics 開発コストが低い 無料の制限 P r o s C

    o n s SQL使えない (Exportは高め) 基本無料
  3. 第3世代 Firebase Analytics ログ基盤が管理不要 仕様変更 P r o s C

    o n s BQのクエリ料金 BigQueryが使える 機能が未完成
  4. 2 つ の 新 ダ ッ シ ュ ボ ー

    ド 自 社 開 発 M e t a b a s e
  5. 2 つ の 新 ダ ッ シ ュ ボ ー

    ド 自 社 開 発 M e t a b a s e 誰でも SQLで分析 日次集計 ダッシュボードの カスタマイズ アドホックな分析 非定常業務
  6. R e d s h i f t / G

    l u e 何 そ れ 美 味 い の ?
  7. カ ラ ム 定 義 も デ ー タ の

    ロ ー ド も 不 要 !
  8. CTAS (Create Table As Select) create table <内部スキーマ>.<テーブル名> as select

    * from <外部スキーマ>.<テーブル名>; Glueでクローリングしたテーブル 例:S3上のJSONファイル 任意のテーブル データマート、 テンポラリテーブル
  9. 時系列テーブルとビュー 201807 201806 201805 201804 201711 201710 201709 201708 201803

    201802 201801 201712 201807 201806 201805 201804 201707 view_hot view_warm view_cold