Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Os data lakes têm salvação? Uma perspectiva his...

Os data lakes têm salvação? Uma perspectiva histórica e evolutiva

Apresentação realizada por Ricardo Sugawara no Big Data Week São Paulo 2019 [http://sao-paulo.bigdataweek.com].

O universo de soluções e práticas de big data está em franca transformação. Ao longo dos anos as corporações aprenderam — a duras penas — como construir data lakes, e hoje extraem cada vez mais valor dessas plataformas apesar da complexidade e dos desafios práticos, que permanecem não triviais. A maturidade e a extensibilidade do Hadoop permeiam agora um largo espectro de aplicações e casos de uso, permitindo a consolidação das plataformas de dados, ao mesmo tempo que não se podem mais ignorar as ofertas na modalidade saas dos provedores de nuvem pública. Finalmente, proliferam-se novos silos de dados nas práticas de microsserviços, que adotam abordagens de persistência poliglota, com ainda maior diversidade em modelagem de dados e tecnologias.

Claramente são momentos incomuns para quem trabalha com dados, e os desafios são tão grandes quanto as oportunidades. Nesta sessão abordaremos alguns desses desafios em uma perspectiva histórica e evolutiva, com exemplos práticos e sugestões para consolidar e evoluir sua plataforma de dados.

Big Data Week São Paulo

November 02, 2019
Tweet

More Decks by Big Data Week São Paulo

Other Decks in Technology

Transcript

  1. BIG DATA WEEK SÃO PAULO 2019 OS DATA LAKES TÊM

    SALVAÇÃO? – Uma perspectiva histórica e evolutiva Ricardo Sugawara São Paulo, 2 de novembro de 2019
  2. BIG DATA WEEK SÃO PAULO 2019 Ricardo Sugawara Arquiteto de

    Big Data na Dell Technologies Consulting Nesta sessão serão apresentados alguns desafios relevantes e recentes da prática de Big Data, e sugestões para evolução das práticas e do uso de suas plataformas. O conhecimento aqui compilado é uma construção coletiva, pela qual o autor agradece aos seus colegas de trabalho e à comunidade, e pede desculpas por eventuais omissões. Opiniões e recomendações são de responsabilidade exclusiva do autor.
  3. BIG DATA WEEK SÃO PAULO 2019 ANALYTICS: 10 TENDÊNCIAS (2019)

    Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere
  4. BIG DATA WEEK SÃO PAULO 2019 ANALYTICS: 10 TENDÊNCIAS (2019)

    Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere
  5. BIG DATA WEEK SÃO PAULO 2019 ANALYTICS: 10 TENDÊNCIAS (2019)

    “...a realidade é que colocar esta receita em produção é muito mais difícil do que parece...” “...colocar tal sistema em produção com escala e de modo seguro e confiável requer um conjunto totalmente diferente de competências.” (livre tradução) Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere
  6. BIG DATA WEEK SÃO PAULO 2019 Fonte: Datanami 1. Data

    Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere ANALYTICS: 10 TENDÊNCIAS (2019) "Ficamos encantados com a ideia de que poderíamos consolidar todos os nossos dados em uma única plataforma...” “... os silos de dados continuarão a proliferar. Acostume-se a isso.” (livre tradução)
  7. BIG DATA WEEK SÃO PAULO 2019 Fonte: Datanami 1. Data

    Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere ANALYTICS: 10 TENDÊNCIAS (2019) "A maioria das organizações percebeu que os dias do velho oeste do big data estão chegando ao fim... está claro que esse comportamento não é mais tolerado". (livre tradução)
  8. BIG DATA WEEK SÃO PAULO 2019 Fonte: Datanami 1. Data

    Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere ANALYTICS: 10 TENDÊNCIAS (2019) “Em 2019, pequenas empresas e startups gravitarão para os principais provedores de nuvem pública...” “As empresas maiores também acharão difícil resistir à nuvem em 2019, mesmo que os custos não sejam tão atraentes...” (livre tradução)
  9. BIG DATA WEEK SÃO PAULO 2019 TEMAS • O desafio

    dos silos de dados • Cloud & a evolução das plataformas de Big Data • Sandboxes, Data Lake Lógico & Tópicos de Governança BIG DATA WEEK SÃO PAULO 2019
  10. BIG DATA WEEK SÃO PAULO 2019 UMA PERSPECTIVA HISTÓRICA –

    DATA ANALYTICS Transacional Lógica BI / Analytics 1990s DB DW
  11. BIG DATA WEEK SÃO PAULO 2019 UMA PERSPECTIVA HISTÓRICA –

    DATA ANALYTICS Transacional Lógica BI / Analytics 1990s DB DW App Web Logs Fontes Auxiliares Frontend 2000s
  12. BIG DATA WEEK SÃO PAULO 2019 UMA PERSPECTIVA HISTÓRICA –

    DATA ANALYTICS Transacional Lógica BI / Analytics 1990s 2010s DB DW App Web Logs Fontes Auxiliares Frontend 2000s Data Lake Cluster Computacional Ferramentas Data Science
  13. BIG DATA WEEK SÃO PAULO 2019 MOMENTO ATUAL – DATA

    ANALYTICS Transacional Lógica BI / Analytics 1990s 2010s/2020+ DB DW App Web Logs Fontes Auxiliares Frontend 2000s Data Lake Cluster Computacional Ferramentas Data Science DB / NoSQL Micro Services API Gateway Kafka Frontend
  14. BIG DATA WEEK SÃO PAULO 2019 MOMENTO ATUAL – DATA

    ANALYTICS Transacional Lógica BI / Analytics 1990s 2010s/2020+ DB DW App Web Logs Fontes Auxiliares Frontend 2000s Data Lake Cluster Computacional Ferramentas Data Science DB / NoSQL Micro Services API Gateway Kafka Frontend IoT
  15. BIG DATA WEEK SÃO PAULO 2019 UM PROBLEMA QUE JÁ

    DEVERIA TER SIDO RESOLVIDO... NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM BI / Analytics Tools ? Novas Fontes Fontes Tradicionais SQL NoSQL ? ? NoSQL NoSQL SQL Data Lake “Big Data”
  16. BIG DATA WEEK SÃO PAULO 2019 UM MODELO RELACIONAL SIMPLES...

    CLIENTE AÇÕES CAMPANHA N N N 1 1 1 ... Já atualizá-lo em um ambiente complexo e distribuído, nem tanto.
  17. BIG DATA WEEK SÃO PAULO 2019 UM MODELO RELACIONAL SIMPLES...

    CLIENTE AÇÕES CAMPANHA Decomposição em domínios e serviços independentes Domínio: Base de clientes Domínio: Gerenciamento de Campanhas Subdomínio: Campanhas Subdomínio: Ações de Campanha
  18. BIG DATA WEEK SÃO PAULO 2019 COMPOSIÇÃO / ORQUESTRAÇÃO ORQUESTRAÇÃO

    VS. COREOGRAFIA ESTADO 1 2 3 CLIENTE CAMPANHA AÇÕES Transições
  19. BIG DATA WEEK SÃO PAULO 2019 MICROSSERVIÇOS EM LARGA ESCALA

    FONTE: Bruce Wong, Netflix FONTE: Amazon.com
  20. BIG DATA WEEK SÃO PAULO 2019 DO PONTO DE VISTA

    DE DATA & ANALYTICS... FONTE: Império Galáctico
  21. BIG DATA WEEK SÃO PAULO 2019 ONDE CAPTURAR A INFORMAÇÃO

    DE ANALYTICS? CLIENTE CAMPANHA AÇÕES Camada de serviço? Camada de persistência? • Eventos de negócio (interpretação semântica / de alto nível) • Representação simplificada (JSON / schema on read) • Eventos descrevem transição de estados (ciclo de vida completo vs. estado final) • ... se a captura de dados aqui for priorizada! ... • Dados técnicos complexos (“o que é esta coluna?”) • Estado disperso em domínios isolados (“que chave usar para o join?”) • Persistência poliglota (“não tenho conector para esta base de dados”) • Mutabilidade do modelo de dados (“alguém mudou a estrutura da tabela!”)
  22. BIG DATA WEEK SÃO PAULO 2019 ELEMENTOS DO EVENT SOURCING

    LEAD IDENTIFICADO Origem: Big Data IMPACTO / EXIBIDO Origem: Canal OFERTA ACEITA Origem: Canal CONTRATAÇÃO FEITA Origem: Sistema do Produto UUID d29af-4ad... Estado: Lead UUID d29af-4ad... Estado: Exibido UUID d29af-4ad... Estado: Aceito UUID d29af-4ad... Estado: Contratado transição transição transição evento evento evento evento EVENTOS GERADOS NOS CANAIS / MICROSERVIÇOS GERENCIAMENTO DO CICLO DE VIDA NO CRM Linha do tempo Eventos Mudanças de estado Sugestão de referência: https://ookami86.github.io/event-sourcing-in-practice/
  23. BIG DATA WEEK SÃO PAULO 2019 CQRS+ES & STREAMING ANALYTICS

    Storage de Eventos (Kafka) API/Streaming Escritas API de Leitura API API Escritas API API Storage de Leitura Consultas Streaming Escritas API API Micros- serviço Comandos Leituras Micro- serviço Cria múltiplas visões desnormalizadas / agregadas para consultas rápidas. Consumo Fonte Sistemas Origem PaaS Projetor / Loader / Pipeline
  24. BIG DATA WEEK SÃO PAULO 2019 CQRS+ES & STREAMING ANALYTICS

    Fontes Fontes Fontes NoSQL Data Lake Plataforma de Streaming / Data Flow API API Projetores BASEADO NA APRESENTAÇÃO DE NEHA NARKHEDE – “ETL IS DEAD, LONG LIVE STREAMS” 1. Coleta de eventos de negócio 2.A. ETL – Descarte de informações sensíveis (PII) 2.B. ETL – Agregação de chaves em janela 3.A. ETL – Carga de agregações em NoSQL 3.B. ETL – Carga de dados brutos no Lake
  25. BIG DATA WEEK SÃO PAULO 2019 UMA POSSÍVEL ABORDAGEM PARA

    SANITIZAÇÃO NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM Novas Fontes Fontes Tradicionais SQL NoSQL SQL Data Lake “Big Data” CQRS+ES: • Capturar eventos de negócio • Streaming Analytics (Flink, Spark, KSQL), e Data Flow (NiFi, Apache Beam) • Kafka como event store DATA LAKE: • Evitar cargas desnecessárias • Armazenamento colunar: ORC/Parquet/Delta Lake • Sandbox SQL Batch Data Flow
  26. BIG DATA WEEK SÃO PAULO 2019 UMA POSSÍVEL ABORDAGEM PARA

    SANITIZAÇÃO Data Flow NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM Novas Fontes Fontes Tradicionais SQL NoSQL SQL Data Lake “Big Data” ou “Data Swamp 2.0”? CQRS+ES: • Capturar eventos de negócio • Streaming Analytics (Flink, Spark, KSQL), e Data Flow (NiFi, Apache Beam) • Kafka como event store DATA LAKE: • Evitar cargas desnecessárias • Armazenamento colunar: ORC/Parquet/Delta Lake • Sandbox SQL Batch
  27. BIG DATA WEEK SÃO PAULO 2019 UMA ARQUITETURA TRADICIONAL DE

    BIG DATA (2006) WORKERS (DATANODE) Rede Ethernet MASTERS (NAMENODE) CLIENTES
  28. BIG DATA WEEK SÃO PAULO 2019 UMA ARQUITETURA TRADICIONAL DE

    BIG DATA (2006) WORKERS (DATANODE) Rede Ethernet MASTERS (NAMENODE) CLIENTES COMPUTAÇÃO ARMAZENAMENTO
  29. BIG DATA WEEK SÃO PAULO 2019 ARQUITETURAS MODERNAS DE BIG

    DATA Possuem storage externo e compartilhado Computação virtualizada ou em contêineres “Workers” são efêmeros (elasticidade) Requisito: Desacoplamento Disco - CPU
  30. BIG DATA WEEK SÃO PAULO 2019 CENÁRIOS DE DEPLOY Bare-Metal

    Recursos dedicados Cloud Virtualizado com Hiperconvergência Virtualizado / PaaS + Storage Desacoplado Hospedado em Nuvem-IaaS Uso de Plataforma como Serviço Cenários Decisão On Premises Nuvem Fatores para Consideração (não exaustivo) “Centro de Gravidade” dos Dados Custo de Manutenção vs. Recursos Humanos Flexibilidade de Aprovisionamento Facilidades de Gerenciamento On- Premises Cloud
  31. BIG DATA WEEK SÃO PAULO 2019 PERFIL DOS WORKLOADS DE

    BIG DATA Tempo Recursos Tempo Inativo Workloads em rajadas – servidores IaaS ligados 24x7 não possuem custo efetivo. Não recomendado: • Contratar VMs (IaaS) de um provedor de cloud e instalar Hadoop • Adotar HDFS como storage na Nuvem • Misturar workloads em um único cluster • Manter cluster online para picos de carga Considerar: • PaaS (EMR, DataProc, HDInsight) • Dados em Object Store • Ingestão em Data Flow / Streaming • Ambientes analíticos e SQL como serviço • Chargeback, custo de egress e lock in!
  32. BIG DATA WEEK SÃO PAULO 2019 VIRTUALIZAÇÃO DAS CARGAS DE

    TRABALHO Hosts de Virtualização CPU 2 NUMA Zone 1 NUMA Zone 2 Área Temporária ou SDS SSD Local (JBOD/NVME) CPU 1 10/25 GbE NM Hadoop NM Hadoop NM Hadoop NM Hadoop 10/25 GbE Node K8s Node K8s
  33. BIG DATA WEEK SÃO PAULO 2019 Isilon Module 1 to

    4 Rack 5 S6010 S4048 S4048 S3048 Node 1 Node 2 Node 32 Compute Node Bandwidth Oversubscription: Max 1.125 ... 10 GbE S4048 S4048 Node 1 Node 2 Node 16 ... 10 GbE 2x40 GbE VLT - DAC S3048 2x40 GbE VLT - DAC Core Node 1 Node 4 Node 3 Node 2 POD 2 R3/R4 Isilon Virtual Rack 2 Isilon Virtual Rack 1 S6010 2x40 GbE VLT - DAC POD 1 R1/R2 1 GbE Mgmt. 1 GbE Mgmt. TOPOLOGIA DE REDE
  34. BIG DATA WEEK SÃO PAULO 2019 2006 SEPARAÇÃO DE COMPUTE

    & STORAGE: ALGUNS MARCOS Separação Compute-Storage 2014-15 • Facebook Presto • Hadoop • AWS S3 2013 2012 • Isilon OneFS com HDFS Referências: https://www.cs.cornell.edu/projects/ladis2009/papers/porter -ladis2009.pdf https://www.idc.com/getdoc.jsp?containerId=US43575418 2009-10 • SuperDataNodes • 40 / 100 GbE • Amazon EMR • Data Lake pioneiro com separação de storage- compute no Brasil (hoje com 3.3+ PB úteis). • Data Lake com 800 TB útil – 100% virtualizado no Brasil.
  35. BIG DATA WEEK SÃO PAULO 2019 2006 SEPARAÇÃO DE COMPUTE

    & STORAGE: ALGUNS MARCOS Separação Compute-Storage 2014-15 • Facebook Presto • Hadoop • AWS S3 2013 2012 • Isilon OneFS com HDFS Referências: https://www.cs.cornell.edu/projects/ladis2009/papers/porter -ladis2009.pdf https://www.idc.com/getdoc.jsp?containerId=US43575418 2009-10 • SuperDataNodes • 40 / 100 GbE • Amazon EMR • Data Lake pioneiro com separação de storage- compute no Brasil (hoje com 3.3+ PB úteis). • Data Lake com 800 TB útil – 100% virtualizado no Brasil.
  36. BIG DATA WEEK SÃO PAULO 2019 2006 • Data Lake

    pioneiro com separação de storage- compute no Brasil (hoje com 3.3+ PB úteis). • Data Lake com 800 TB útil – 100% virtualizado no Brasil. SEPARAÇÃO DE COMPUTE & STORAGE: ALGUNS MARCOS Separação Compute-Storage 2014-15 • Facebook Presto 2017-18 • HDFS 3.0 + Erasure Code Fase 1 • Hadoop Ozone (Object Store) • IDC – “Five Benefits of Decoupling Compute and Storage for Big Data Deployments” • “Compute and storage colocation is no longer state of the art.” 2009-10 • SuperDataNodes • 40 / 100 GbE • Amazon EMR 2019 • Coudera Keynote Strata-CA • “To achieve storage and Compute separation” • New Cloudera Data Platform • Alluxio 2.0 • Hadoop • AWS S3 2013 2012 • Isilon OneFS com HDFS Referências: https://www.cs.cornell.edu/projects/ladis2009/papers/porter -ladis2009.pdf https://www.idc.com/getdoc.jsp?containerId=US43575418
  37. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Cluster 25 servidores ~ 2.7 PB de espaço útil R ~3 PB/mês ~0.9 PB/mês W 720 cores 2.8 TB RAM ~2.000 jobs/dia ~400 aplic + adhocs Ingestão > 10 TB/dia
  38. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Java 1.7 Pivotal HD 2 Dependência funcional de dados Alguns desafios... ~ 2.7 PB de espaço útil ~2.000 jobs/dia Cluster 25 servidores 720 cores 2.8 TB RAM
  39. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Pivotal HD 2 Dependência funcional de dados Alguns desafios... Fábrica de software. Todas as aplicações já estavam em pipelines CI/CD automatizados. Java 1.7 ~ 2.7 PB de espaço útil ~2.000 jobs/dia Cluster 25 servidores 720 cores 2.8 TB RAM
  40. BIG DATA WEEK SÃO PAULO 2019 REFACTOR / REDEPLOY CASE:

    MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Data Lake (HDFS) NOVOS SERVIDORES INGESTÃO DUPLA + distcp (histórico) $$$ > 1 mi USD
  41. BIG DATA WEEK SÃO PAULO 2019 REFACTOR / REDEPLOY CASE:

    MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Data Lake (HDFS) NOVOS SERVIDORES INGESTÃO DUPLA + distcp (histórico) Longa janela offline…
  42. BIG DATA WEEK SÃO PAULO 2019 REFACTOR / REDEPLOY CASE:

    MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Data Lake (HDFS) NOVOS SERVIDORES INGESTÃO DUPLA + distcp (histórico) Longa janela offline…
  43. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) R W Ingestão > 10 TB/dia Pivotal HD 2 RHEL 6 Java 1.7 ~400 aplic + adhocs ~2.000 jobs/dia Cluster 25 servidores 720 cores 2.8 TB RAM ~ 2.7 PB de espaço útil
  44. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Ingestão > 10 TB/dia Pivotal HD 2 RHEL 6 Java 1.7 ~ 2.7 PB de espaço útil Cluster 25 servidores
  45. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Novo Cluster 8 servidores ~ 2.7 PB de espaço útil Cluster 17 servidores
  46. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Novo Cluster 8 servidores ~ 2.7 PB de espaço útil Cluster 17 servidores
  47. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD ~ 2.7 PB de espaço útil Cluster 17 servidores
  48. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações ~ 2.7 PB de espaço útil Cluster 17 servidores
  49. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Várias aplicações Duas plataformas Um único namespace... Cluster 17 servidores ~ 2.7 PB de espaço útil
  50. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  51. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  52. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  53. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  54. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  55. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  56. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil
  57. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações R W Cluster 17 servidores ~ 2.7 PB de espaço útil
  58. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 13 servidores R W ~300 aplic + adhocs Ingestão > 10 TB/dia Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações R W ~300 aplic + adhocs Java 1.8 Horton 2.6 / RHEL7 3.3 PB de espaço útil Cluster 12 servidores
  59. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 34 servidores R W ~600 aplic + adhocs Ingestão > 14 TB/dia Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações R W descomis- sionado Java 1.8 Horton 2.6 / RHEL7 3.3 PB de espaço útil Cluster 12 servidores
  60. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 34 servidores Ingestão > 14 TB/dia Aplicações existentes Novas aplicações R W Java 1.8 ~600 aplic + adhocs 728 cores 7 TB RAM 8.300 jobs/dia Horton 2.6 / RHEL7 3.3 PB de espaço útil ~4 PB/mês ~1 PB/mês
  61. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Data Lake (HDFS) Novo Cluster 34 servidores 3.3 PB de espaço útil ~600 aplic + adhocs Ingestão > 14 TB/dia Horton 2.6 / RHEL7 Aplicações existentes Novas aplicações R W Java 1.8 728 cores 7 TB RAM 8.300 jobs/dia 0 Bytes migrados ☺ 0 de “downtime” ☺ ~4 PB/mês ~1 PB/mês
  62. BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA

    BIG DATA Expectativa vs. Realidade • “Formulários de Change” • Tempo de aprovisionamento de infra • Repriorizações Não se pode subestimar... • Validações • Migração de metadados • Novas funcionalidades • Bugs da plataforma
  63. BIG DATA WEEK SÃO PAULO 2019 HABILITANDO NOVAS APLICAÇÕES E

    PLATAFORMAS Hosts de Virtualização CPU 2 NUMA Zone 1 NUMA Zone 2 Área Temporária ou SDS SSD Local (JBOD/NVME) CPU 1 NM Hadoop NM Hadoop NM Hadoop NM Hadoop Node K8s Node K8s Data Lake / Object Store Rede CLOS / Spine and Leaf Namespaces / buckets dedicados ou compartilhados
  64. BIG DATA WEEK SÃO PAULO 2019 UMA POSSÍVEL ABORDAGEM PARA

    SANITIZAÇÃO Data Flow NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM Novas Fontes Fontes Tradicionais SQL NoSQL SQL Data Lake “Big Data” ou “Data Swamp 2.0”? CQRS+ES: • Capturar eventos de negócio • Streaming Analytics (Flink, Spark, KSQL), e Data Flow (NiFi, Apache Beam) • Kafka como event store DATA LAKE: • Evitar cargas desnecessárias • Armazenamento colunar: ORC/Parquet/Delta Lake • Sandbox SQL Batch
  65. BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” PoC

    com Docker-Compose disponível em: https://github.com/uucico/poc-presto
  66. BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” Arquivos

    de Logs Dados Estruturados Streaming de Eventos Cluster Big Data Exploratório Cluster Big Data Produção Replicação Bases Relacionais (“Active Dataguard”) Camada Exploratória / Self Service: “SQL on Anything” / “Logical DW” Oozie, Enterprise Scheduler, Airflow Cliente SQL, BI, etc.
  67. BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” Arquivos

    de Logs Dados Estruturados Streaming de Eventos Cluster Big Data Exploratório Cluster Big Data Produção Replicação Bases Relacionais (“Active Dataguard”) Camada Exploratória / Self Service: “SQL on Anything” / “Logical DW” Oozie, Enterprise Scheduler, Airflow Cliente SQL, BI, etc. Parser SQL
  68. BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS

    (SQL) Processos sob Gestão de TI Self Service T1 PII ▪ Metadados (Rótulos) ▪ Ingestão sob gestão de TI ▪ Tabela de referência corporativa ▪ Ex: Tabelas analíticas base (ABT) T2 Q1 Usuário 1 T4 Q3 T3 Q2 Usuário 2 Usuário 3 Metadado + Análise Grafo: • Derivada de PII • Usada por outros usuários • Recorrente (métricas) Tier 1 Tier 2
  69. BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS

    (SQL) Processos sob Gestão de TI Self Service Tier 1 Tier 2 T1 PII T2 Q1 Usuário 1 T4 Q3 T3 Q2 Usuário 2 Usuário 3 Metadado + Análise Grafo: • Derivada de PII • Usada por outros usuários • Recorrente (métricas) Promover ▪ Metadados (Rótulos) ▪ Ingestão sob gestão de TI ▪ Tabela de referência corporativa ▪ Ex: Tabelas analíticas base (ABT)
  70. BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS

    (SQL) Sugestão de referência: https://eng.uber.com/queryparser/
  71. MODELO CONCEITUAL – ARQUITETURA LÓGICA “ D A T A

    L A K E L Ó G I C O ” F A S T D A T A I N G E S T Ã O ETL T R A N S A C I O N A L DWH BILLING C A M A D A D E A C E S S O APIs Frio Quente Morno “Temperatura dos Dados” Volume Streaming • Estruturados • Não-Estruturados Usuários de Negócio e Cientistas de Dados Integração de Sistemas Cálculo Janela ORACLE ORACLE In Memory Streaming Filas I N F O R M A C I O N A L Data Lake CRM MSSQL WEB NOSQL Relatórios Modelos ML / AI Sandboxes / Self-Service Dashboards Tempo Real Ferramentas de BI e Analytics Virtualização de Dados