Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Arquiteturas de Dados Serverless na AWS

Arquiteturas de Dados Serverless na AWS

Exploraremos as vantagens e desafios de adotar arquiteturas serverless para o desenvolvimento de data pipelines na AWS. Apresentaremos estudos de caso e modelos arquiteturais demonstrando como diferentes serviços podem ser integrados para criar projetos altamente escaláveis e eficientes.

Leonardo Fiedler

April 28, 2024
Tweet

More Decks by Leonardo Fiedler

Other Decks in Technology

Transcript

  1. Quem sou • Noivo da Suellen, torcedor do Flamengo, estudante

    de alemão (A2) e praticante de Crossfit e Pilates; • Data Team Lead @ Senior Sistemas; • +10 anos de experiência profissional; • Ciências da Computação (2019 - FURB); • Data Science (2021 - FURB); • Criador do Podcast Taverna da Programação.
  2. Sumário 1. Vale a pena serverless para dados? 2. Quais

    as vantagem de quem escolheu a cloud? 3. Principais serviços de dados da AWS 4. Use Cases 5. Próximos Passos 6. Conclusão
  3. Vale a pena serverless para dados? • Possibilidade de uso

    de serviços auto gerenciados; • Escalonamento da aplicação de acordo com o uso dos recursos; • Pagamento apenas pelo que se usa; • Possibilidade de facilmente subir novas versões de código e criar novos ambientes; • Serviços que atendem demandas específicas (Batch Process/Stream Process/ML/Analytics). • Controle de custos; • Gasto em dólar; • Teste e debug são mais desafiadores; • Vendor Lock-in. Prós Contras
  4. Arquitetura baseada em eventos • Permite segregar um problema em

    partes que se comunicam; • Permite comunicar múltiplos sistemas/atores; • Permite controlar e escalar cada parte do sistema de forma independente e desacoplada. Fonte: https://aws.amazon.com/blogs/big-data/building-event-driven-batch-analytics-on-aws/
  5. Por que escolher AWS? • Segundo a Statista, AWS é

    a líder no ranking das Clouds com 31% de mercado (Q4 2023); • Ótimo Free Tier para quem planeja validar uma hipótese ou desenvolver uma POC; • Infra global com servidores inclusive no Brasil (São Paulo); • Possui serviços para todas as áreas de dados: data lake, ferramentas analíticas, governança de dados, segurança, integrações, implementação de modelos de ML/DL.
  6. $60 Custo por milhão de transações gasto pela Liberty Mutual

    Insurance Fonte: https://aws.amazon.com/solutions/case-studies/liberty-mutual-case-study/
  7. 20 Milhões Número de novas predições feitas por ano pela

    IA desenvolvida pela IIC (Instituto de Ingeniería del Conocimiento) da Espanha em uma arquitetura baseada em eventos. Além disso, foi observado uma melhora de 30% de acurácia nesta mesma arquitetura Fonte: https://aws.amazon.com/solutions/case-studies/iic-serverless-case-study/?did=cr_card&trk=cr_card
  8. 45% Percentual de redução de custo da Foursquare nos data

    pipelines após migrá-los para EMR Serverless Fonte: https://aws.amazon.com/solutions/case-studies/foursquare-case-study/?did=cr_card&trk=cr_card
  9. Próximos Passos • Engenharia de dados ◦ Fundamentals Of Data

    Engineering (Livro) ◦ Data Engineering Zoomcamp (Curso Gratuito - YouTube) ◦ Data With Marc • AWS ◦ Stephane Maarek (Udemy) ◦ AWS Samples (GitHub) • Comunidades & Podcast ◦ Data Hackers ◦ DataTalks.Club
  10. Conclusão • Há várias formas de se montar arquiteturas de

    dados na AWS e o que irá determinar o sucesso ou o fracasso da solução será correta definição dos requisitos; • A AWS oferece um catálogo com diversas opções para os mais variados tipos de problema; • Escalabilidade importa, mas deve estar sempre alinhada com o crescimento orgânico do produto; • Projetos de dados podem começar com grandes volumes, necessitando de uma boa infra estrutura; • Custo é uma variável importante e necessária de ser observada a todo momento.