Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RedshiftとGlueで簡単データウェアハウス / Data Warehousing wi...
Search
Fukao Moto
July 12, 2018
Programming
0
600
RedshiftとGlueで簡単データウェアハウス / Data Warehousing with Redshift and Glue
クラシルの行動分析基盤の裏側の話
- 第4世代分析基盤
- 2つのダッシュボード
- RedshiftとGlue
- 時系列テーブル
Fukao Moto
July 12, 2018
Tweet
Share
More Decks by Fukao Moto
See All by Fukao Moto
現場で使えるSRE / How to Survive as The First SRE
motobrew
0
2.4k
Other Decks in Programming
See All in Programming
CQRS+ES の力を使って効果を感じる / Feel the effects of using the power of CQRS+ES
seike460
PRO
0
150
各クラウドサービスにおける.NETの対応と見解
ymd65536
0
160
PHPで学ぶプログラミングの教訓 / Lessons in Programming Learned through PHP
nrslib
4
370
責務を分離するための例外設計 - PHPカンファレンス 2024
kajitack
8
1.8k
快速入門可觀測性
blueswen
0
400
テストコード文化を0から作り、変化し続けた組織
kazatohiei
2
1.5k
103 Early Hints
sugi_0000
1
250
Security_for_introducing_eBPF
kentatada
0
110
ある日突然あなたが管理しているサーバーにDDoSが来たらどうなるでしょう?知ってるようで何も知らなかったDDoS攻撃と対策 #phpcon.2024
akase244
2
340
fs2-io を試してたらバグを見つけて直した話
chencmd
0
240
良いユニットテストを書こう
mototakatsu
8
3k
tidymodelsによるtidyな生存時間解析 / Japan.R2024
dropout009
1
810
Featured
See All Featured
Fireside Chat
paigeccino
34
3.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Testing 201, or: Great Expectations
jmmastey
41
7.1k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
A Philosophy of Restraint
colly
203
16k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
Producing Creativity
orderedlist
PRO
342
39k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Code Review Best Practice
trishagee
65
17k
Transcript
Redshift と Glue で 簡単データウェアハウス © 2018 Fukao Moto
プロの料理人(8年) タコライス研究家 宇宙兄弟好き SRE and データ可視化推進室 Fukao Moto 深尾もとのぶ
RedshiftとGlue 第4世代分析基盤 Redshiftと Glueで 簡単DWH 2つのダッシュボード 時系列テーブル
fluentd Google Analytics 分析基盤のレイヤー BigQuery 可 視 化 分 析
ロ グ 収 集 Kinesis Redshift Google Analytics Google Analytics OSS 自社開発 Athena S3 BIツール SaaS Hadoop
None
第1世代 Google Analytics 開発コストが低い 無料の制限 P r o s C
o n s SQL使えない (Exportは高め) 基本無料
第2世代 Logpose スケーラビリティ確保 ログ基盤の管理 P r o s C o
n s SQLが大変 SQLが使える スキーマ変更
第3世代 Firebase Analytics ログ基盤が管理不要 仕様変更 P r o s C
o n s BQのクエリ料金 BigQueryが使える 機能が未完成
第4世代 Sunny Metabase Eternalpose
2 つ の 新 ダ ッ シ ュ ボ ー
ド 自 社 開 発 M e t a b a s e
2 つ の 新 ダ ッ シ ュ ボ ー
ド 自 社 開 発 M e t a b a s e 誰でも SQLで分析 日次集計 ダッシュボードの カスタマイズ アドホックな分析 非定常業務
Glue Redshift OAuth2 /auth 行動ログ Metabase Kinesis ETL クロール クロール
クロール JSON Parquet
R e d s h i f t / G
l u e 何 そ れ 美 味 い の ?
Athena & Redshift 定額料金 シンプル設計 Postgres互換 CTAS SELECT INSERT 早い
フルマネージド 低い学習コスト
カ ラ ム 定 義 も デ ー タ の
ロ ー ド も 不 要 !
ワークフロー S3にJSON形式のログを配置 自動でテーブル定義が作られる 必要に応じてParquetへ変換 Glueでクローリング Redshift Spectrum でCTAS Select文の結果から Redshiftの中に
テーブルが作られる Redshift でクエリ実行 CSVやParquetも
CTAS (Create Table As Select) create table <内部スキーマ>.<テーブル名> as select
* from <外部スキーマ>.<テーブル名>; Glueでクローリングしたテーブル 例:S3上のJSONファイル 任意のテーブル データマート、 テンポラリテーブル
リラン設計 (再実行と冪等性) データウェアハウスでは データの更新や再集計を 考慮する必要がある。 しかし、RedshiftはINSERTや UPDATE、DELETEには不向き
時系列テーブルとビュー 201807 201806 201805 201804 201711 201710 201709 201708 201803
201802 201801 201712 201807 201806 201805 201804 201707 view_hot view_warm view_cold
Glue Redshift OAuth2 /auth 行動ログ Metabase Kinesis ETL クロール クロール
クロール JSON Parquet
仲間を探しています! 「70億人に1日3回の幸せを届ける」 © 2018 Fukao Moto