Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RedshiftとGlueで簡単データウェアハウス / Data Warehousing wi...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Fukao Moto
July 12, 2018
Programming
0
630
RedshiftとGlueで簡単データウェアハウス / Data Warehousing with Redshift and Glue
クラシルの行動分析基盤の裏側の話
- 第4世代分析基盤
- 2つのダッシュボード
- RedshiftとGlue
- 時系列テーブル
Fukao Moto
July 12, 2018
Tweet
Share
More Decks by Fukao Moto
See All by Fukao Moto
現場で使えるSRE / How to Survive as The First SRE
motobrew
0
2.6k
Other Decks in Programming
See All in Programming
Data-Centric Kaggle
isax1015
2
740
IFSによる形状設計/デモシーンの魅力 @ 慶應大学SFC
gam0022
1
280
AI時代の認知負荷との向き合い方
optfit
0
130
副作用をどこに置くか問題:オブジェクト指向で整理する設計判断ツリー
koxya
1
570
AI 駆動開発ライフサイクル(AI-DLC):ソフトウェアエンジニアリングの再構築 / AI-DLC Introduction
kanamasa
11
6.2k
【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法
momok47
0
180
CSC307 Lecture 05
javiergs
PRO
0
490
AtCoder Conference 2025
shindannin
0
1k
GISエンジニアから見たLINKSデータ
nokonoko1203
0
200
SourceGeneratorのススメ
htkym
0
170
Pythonではじめるオープンデータ分析〜書籍の紹介と書籍で紹介しきれなかった事例の紹介〜
welliving
3
860
Denoのセキュリティに関する仕組みの紹介 (toranoana.deno #23)
uki00a
0
280
Featured
See All Featured
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
52
How STYLIGHT went responsive
nonsquared
100
6k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
0
260
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
280
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Darren the Foodie - Storyboard
khoart
PRO
2
2.3k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Test your architecture with Archunit
thirion
1
2.1k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
How GitHub (no longer) Works
holman
316
140k
Transcript
Redshift と Glue で 簡単データウェアハウス © 2018 Fukao Moto
プロの料理人(8年) タコライス研究家 宇宙兄弟好き SRE and データ可視化推進室 Fukao Moto 深尾もとのぶ
RedshiftとGlue 第4世代分析基盤 Redshiftと Glueで 簡単DWH 2つのダッシュボード 時系列テーブル
fluentd Google Analytics 分析基盤のレイヤー BigQuery 可 視 化 分 析
ロ グ 収 集 Kinesis Redshift Google Analytics Google Analytics OSS 自社開発 Athena S3 BIツール SaaS Hadoop
None
第1世代 Google Analytics 開発コストが低い 無料の制限 P r o s C
o n s SQL使えない (Exportは高め) 基本無料
第2世代 Logpose スケーラビリティ確保 ログ基盤の管理 P r o s C o
n s SQLが大変 SQLが使える スキーマ変更
第3世代 Firebase Analytics ログ基盤が管理不要 仕様変更 P r o s C
o n s BQのクエリ料金 BigQueryが使える 機能が未完成
第4世代 Sunny Metabase Eternalpose
2 つ の 新 ダ ッ シ ュ ボ ー
ド 自 社 開 発 M e t a b a s e
2 つ の 新 ダ ッ シ ュ ボ ー
ド 自 社 開 発 M e t a b a s e 誰でも SQLで分析 日次集計 ダッシュボードの カスタマイズ アドホックな分析 非定常業務
Glue Redshift OAuth2 /auth 行動ログ Metabase Kinesis ETL クロール クロール
クロール JSON Parquet
R e d s h i f t / G
l u e 何 そ れ 美 味 い の ?
Athena & Redshift 定額料金 シンプル設計 Postgres互換 CTAS SELECT INSERT 早い
フルマネージド 低い学習コスト
カ ラ ム 定 義 も デ ー タ の
ロ ー ド も 不 要 !
ワークフロー S3にJSON形式のログを配置 自動でテーブル定義が作られる 必要に応じてParquetへ変換 Glueでクローリング Redshift Spectrum でCTAS Select文の結果から Redshiftの中に
テーブルが作られる Redshift でクエリ実行 CSVやParquetも
CTAS (Create Table As Select) create table <内部スキーマ>.<テーブル名> as select
* from <外部スキーマ>.<テーブル名>; Glueでクローリングしたテーブル 例:S3上のJSONファイル 任意のテーブル データマート、 テンポラリテーブル
リラン設計 (再実行と冪等性) データウェアハウスでは データの更新や再集計を 考慮する必要がある。 しかし、RedshiftはINSERTや UPDATE、DELETEには不向き
時系列テーブルとビュー 201807 201806 201805 201804 201711 201710 201709 201708 201803
201802 201801 201712 201807 201806 201805 201804 201707 view_hot view_warm view_cold
Glue Redshift OAuth2 /auth 行動ログ Metabase Kinesis ETL クロール クロール
クロール JSON Parquet
仲間を探しています! 「70億人に1日3回の幸せを届ける」 © 2018 Fukao Moto