Serverless Data Warehousing & Data Analysis on AWS

clda.co/jeﬀconf-hamburg Serverless Data Warehousing & Data Analysis on AWS 2/16/2018

About Me twi$er://@alex_casalboni Computer Science Background Master in Sound &
Music Engineering Sr. SoMware Engineer & Web Developer clda.co/jeﬀconf-hamburg

Agenda Why do you need a DWH? Warehouses Vs. Lakes
Serverless Architecture Q & A clda.co/jeﬀconf-hamburg

Why do you need a DWH? #bigdata clda.co/jeﬀconf-hamburg

Data Warehousing goals clda.co/jeﬀconf-hamburg Historical data repository ReporUng & DDDM
Data Analysis & ML Data integraUon

clda.co/jeﬀconf-hamburg How “Big” is your Data?

clda.co/jeﬀconf-hamburg How “Correct” is your Data?

clda.co/jeﬀconf-hamburg Data-Driven Decision Making

Warehouses Vs. Lakes #buzzwordschallenge clda.co/jeﬀconf-hamburg

Warehouses Vs. Lakes clda.co/jeﬀconf-hamburg Only structured Data Rigid & Expensive
Business-Analyst-friendly Literally any kind of Data Agile & Cheap Data-ScienUsts-friendly

Hybrid approaches clda.co/jeﬀconf-hamburg DWH Data Lake Amazon Redshi. Amazon Athena
Redshi. Spectrum Amazon S3 +

SeparaUon of compute and storage clda.co/jeﬀconf-hamburg Independent scaling Storage stays
cheap and highly available Compute scales out only if/when needed Data sources can be reused

clda.co/jeﬀconf-hamburg

Serverless Data IngesUon & Data AnalyUcs Architecture #JeﬀFTW clda.co/jeﬀconf-hamburg

Architecture black box clda.co/jeﬀconf-hamburg 1. Submit event/data 2. Submit query/analysis
3. Fetch analysis results

Architecture goals clda.co/jeﬀconf-hamburg No hourly/monthly costs No servers to manage
No scale limitaUons or resize Possibly anonymous producers Storage as cheap as possible Data validaUon / manipulaUon IntuiUve data exploraUon & reporUng Real-Ume metrics & alerts

clda.co/jeﬀconf-hamburg 1. Get CredenUals 3. Put Records 2. HTTP POST
4. Filter / Manipulate 5. Compress & Encrypt 6. Query 7. SPICE Import 8. Analyse 9. Sliding SQL 10. Process aggregates 11. Update RealUme Metrics

Gotchas clda.co/jeﬀconf-hamburg Kinesis Data AnalyUcs & Streams are not 100%
serverless API Gateway isn’t cheap (directly using PutRecords might help) Don’t forget Athena ParUUons to reduce cost and latency AWS Glue is your friend for ETL and schema discovery

Deploy it with AWS SAM! clda.co/jeﬀconf-hamburg github.com/alexcasalboni/serverless-data-pipeline-sam

clda.co/jeﬀconf-hamburg

Danke schön :) Q & A clda.co/jeﬀconf-hamburg 2/16/2018

Serverless Data Warehousing & Data Analysis on AWS

Serverless Data Warehousing & Data Analysis on AWS

Alex Casalboni

More Decks by Alex Casalboni

Other Decks in Technology

Featured

Transcript

clda.co/jeﬀconf-hamburg Serverless Data Warehousing & Data Analysis on AWS 2/16/2018

About Me twi$er://@alex_casalboni Computer Science Background Master in Sound &

Agenda Why do you need a DWH? Warehouses Vs. Lakes

Why do you need a DWH? #bigdata clda.co/jeﬀconf-hamburg

Data Warehousing goals clda.co/jeﬀconf-hamburg Historical data repository ReporUng & DDDM

clda.co/jeﬀconf-hamburg How “Big” is your Data?

clda.co/jeﬀconf-hamburg How “Correct” is your Data?

clda.co/jeﬀconf-hamburg Data-Driven Decision Making

Warehouses Vs. Lakes #buzzwordschallenge clda.co/jeﬀconf-hamburg

Warehouses Vs. Lakes clda.co/jeﬀconf-hamburg Only structured Data Rigid & Expensive

Hybrid approaches clda.co/jeﬀconf-hamburg DWH Data Lake Amazon Redshi. Amazon Athena

SeparaUon of compute and storage clda.co/jeﬀconf-hamburg Independent scaling Storage stays

clda.co/jeﬀconf-hamburg

Serverless Data IngesUon & Data AnalyUcs Architecture #JeﬀFTW clda.co/jeﬀconf-hamburg

Architecture black box clda.co/jeﬀconf-hamburg 1. Submit event/data 2. Submit query/analysis

Architecture goals clda.co/jeﬀconf-hamburg No hourly/monthly costs No servers to manage

clda.co/jeﬀconf-hamburg 1. Get CredenUals 3. Put Records 2. HTTP POST

Gotchas clda.co/jeﬀconf-hamburg Kinesis Data AnalyUcs & Streams are not 100%

Deploy it with AWS SAM! clda.co/jeﬀconf-hamburg github.com/alexcasalboni/serverless-data-pipeline-sam

clda.co/jeﬀconf-hamburg

Danke schön :) Q & A clda.co/jeﬀconf-hamburg 2/16/2018