Slide 1

Slide 1 text

Arquiteturas de Dados Serverless na AWS Leonardo Fiedler

Slide 2

Slide 2 text

Quem sou ● Noivo da Suellen, torcedor do Flamengo, estudante de alemão (A2) e praticante de Crossfit e Pilates; ● Data Team Lead @ Senior Sistemas; ● +10 anos de experiência profissional; ● Ciências da Computação (2019 - FURB); ● Data Science (2021 - FURB); ● Criador do Podcast Taverna da Programação.

Slide 3

Slide 3 text

Sumário 1. Vale a pena serverless para dados? 2. Quais as vantagem de quem escolheu a cloud? 3. Principais serviços de dados da AWS 4. Use Cases 5. Próximos Passos 6. Conclusão

Slide 4

Slide 4 text

Vale a pena serverless para dados?

Slide 5

Slide 5 text

Serverless x On-Prem

Slide 6

Slide 6 text

Vale a pena serverless para dados? ● Possibilidade de uso de serviços auto gerenciados; ● Escalonamento da aplicação de acordo com o uso dos recursos; ● Pagamento apenas pelo que se usa; ● Possibilidade de facilmente subir novas versões de código e criar novos ambientes; ● Serviços que atendem demandas específicas (Batch Process/Stream Process/ML/Analytics). ● Controle de custos; ● Gasto em dólar; ● Teste e debug são mais desafiadores; ● Vendor Lock-in. Prós Contras

Slide 7

Slide 7 text

Arquitetura baseada em eventos ● Permite segregar um problema em partes que se comunicam; ● Permite comunicar múltiplos sistemas/atores; ● Permite controlar e escalar cada parte do sistema de forma independente e desacoplada. Fonte: https://aws.amazon.com/blogs/big-data/building-event-driven-batch-analytics-on-aws/

Slide 8

Slide 8 text

Por que escolher AWS? ● Segundo a Statista, AWS é a líder no ranking das Clouds com 31% de mercado (Q4 2023); ● Ótimo Free Tier para quem planeja validar uma hipótese ou desenvolver uma POC; ● Infra global com servidores inclusive no Brasil (São Paulo); ● Possui serviços para todas as áreas de dados: data lake, ferramentas analíticas, governança de dados, segurança, integrações, implementação de modelos de ML/DL.

Slide 9

Slide 9 text

Quais as vantagem de quem escolheu a cloud?

Slide 10

Slide 10 text

$60 Custo por milhão de transações gasto pela Liberty Mutual Insurance Fonte: https://aws.amazon.com/solutions/case-studies/liberty-mutual-case-study/

Slide 11

Slide 11 text

20 Milhões Número de novas predições feitas por ano pela IA desenvolvida pela IIC (Instituto de Ingeniería del Conocimiento) da Espanha em uma arquitetura baseada em eventos. Além disso, foi observado uma melhora de 30% de acurácia nesta mesma arquitetura Fonte: https://aws.amazon.com/solutions/case-studies/iic-serverless-case-study/?did=cr_card&trk=cr_card

Slide 12

Slide 12 text

45% Percentual de redução de custo da Foursquare nos data pipelines após migrá-los para EMR Serverless Fonte: https://aws.amazon.com/solutions/case-studies/foursquare-case-study/?did=cr_card&trk=cr_card

Slide 13

Slide 13 text

Principais serviços de dados da AWS

Slide 14

Slide 14 text

Principais Serviços de Batch Processing Fonte: https://d1.awsstatic.com/whitepapers/cost-modeling-data-lakes.pdf?anda_dl2

Slide 15

Slide 15 text

Exemplo de Arquitetura - Batch Processing Fonte: https://d1.awsstatic.com/whitepapers/cost-modeling-data-lakes.pdf?anda_dl2

Slide 16

Slide 16 text

Principais Serviços de Real Time Processing Fonte: https://d1.awsstatic.com/whitepapers/cost-modeling-data-lakes.pdf?anda_dl2

Slide 17

Slide 17 text

Exemplo de Arquitetura - Real Time Processing Fonte: https://d1.awsstatic.com/whitepapers/cost-modeling-data-lakes.pdf?anda_dl2

Slide 18

Slide 18 text

Construindo um Lake House na AWS Fonte: https://aws.amazon.com/blogs/big-data/build-a-lake-house-architecture-on-aws/

Slide 19

Slide 19 text

Próximos Passos ● Engenharia de dados ○ Fundamentals Of Data Engineering (Livro) ○ Data Engineering Zoomcamp (Curso Gratuito - YouTube) ○ Data With Marc ● AWS ○ Stephane Maarek (Udemy) ○ AWS Samples (GitHub) ● Comunidades & Podcast ○ Data Hackers ○ DataTalks.Club

Slide 20

Slide 20 text

Conclusão ● Há várias formas de se montar arquiteturas de dados na AWS e o que irá determinar o sucesso ou o fracasso da solução será correta definição dos requisitos; ● A AWS oferece um catálogo com diversas opções para os mais variados tipos de problema; ● Escalabilidade importa, mas deve estar sempre alinhada com o crescimento orgânico do produto; ● Projetos de dados podem começar com grandes volumes, necessitando de uma boa infra estrutura; ● Custo é uma variável importante e necessária de ser observada a todo momento.

Slide 21

Slide 21 text

Obrigado!