Slide 1

Slide 1 text

BIG DATA WEEK SÃO PAULO 2019 OS DATA LAKES TÊM SALVAÇÃO? – Uma perspectiva histórica e evolutiva Ricardo Sugawara São Paulo, 2 de novembro de 2019

Slide 2

Slide 2 text

BIG DATA WEEK SÃO PAULO 2019 Ricardo Sugawara Arquiteto de Big Data na Dell Technologies Consulting Nesta sessão serão apresentados alguns desafios relevantes e recentes da prática de Big Data, e sugestões para evolução das práticas e do uso de suas plataformas. O conhecimento aqui compilado é uma construção coletiva, pela qual o autor agradece aos seus colegas de trabalho e à comunidade, e pede desculpas por eventuais omissões. Opiniões e recomendações são de responsabilidade exclusiva do autor.

Slide 3

Slide 3 text

BIG DATA WEEK SÃO PAULO 2019 MOMENTO ATUAL

Slide 4

Slide 4 text

BIG DATA WEEK SÃO PAULO 2019 ANALYTICS: 10 TENDÊNCIAS (2019) Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere

Slide 5

Slide 5 text

BIG DATA WEEK SÃO PAULO 2019 ANALYTICS: 10 TENDÊNCIAS (2019) Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere

Slide 6

Slide 6 text

BIG DATA WEEK SÃO PAULO 2019 ANALYTICS: 10 TENDÊNCIAS (2019) “...a realidade é que colocar esta receita em produção é muito mais difícil do que parece...” “...colocar tal sistema em produção com escala e de modo seguro e confiável requer um conjunto totalmente diferente de competências.” (livre tradução) Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere

Slide 7

Slide 7 text

BIG DATA WEEK SÃO PAULO 2019 Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere ANALYTICS: 10 TENDÊNCIAS (2019) "Ficamos encantados com a ideia de que poderíamos consolidar todos os nossos dados em uma única plataforma...” “... os silos de dados continuarão a proliferar. Acostume-se a isso.” (livre tradução)

Slide 8

Slide 8 text

BIG DATA WEEK SÃO PAULO 2019 Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere ANALYTICS: 10 TENDÊNCIAS (2019) "A maioria das organizações percebeu que os dias do velho oeste do big data estão chegando ao fim... está claro que esse comportamento não é mais tolerado". (livre tradução)

Slide 9

Slide 9 text

BIG DATA WEEK SÃO PAULO 2019 Fonte: Datanami 1. Data Management Is Still Hard 2. Data Silos Continue Proliferating 3. Streaming Analytics Has Breakout Year 4. Data Governance Builds Steam 5. Skills Shift as Tech Evolves 6. Deep Learning Gets Deeper 7. ‘Special K’ Expands Footprint 8. New Tech Will Emerge 9. Clouds Hard to Ignore 10. Smart Things Everywhere ANALYTICS: 10 TENDÊNCIAS (2019) “Em 2019, pequenas empresas e startups gravitarão para os principais provedores de nuvem pública...” “As empresas maiores também acharão difícil resistir à nuvem em 2019, mesmo que os custos não sejam tão atraentes...” (livre tradução)

Slide 10

Slide 10 text

BIG DATA WEEK SÃO PAULO 2019 TEMAS • O desafio dos silos de dados • Cloud & a evolução das plataformas de Big Data • Sandboxes, Data Lake Lógico & Tópicos de Governança BIG DATA WEEK SÃO PAULO 2019

Slide 11

Slide 11 text

BIG DATA WEEK SÃO PAULO 2019 COMO CHEGAMOS AQUI?

Slide 12

Slide 12 text

BIG DATA WEEK SÃO PAULO 2019 UMA PERSPECTIVA HISTÓRICA – DATA ANALYTICS Transacional Lógica BI / Analytics 1990s DB DW

Slide 13

Slide 13 text

BIG DATA WEEK SÃO PAULO 2019 UMA PERSPECTIVA HISTÓRICA – DATA ANALYTICS Transacional Lógica BI / Analytics 1990s DB DW App Web Logs Fontes Auxiliares Frontend 2000s

Slide 14

Slide 14 text

BIG DATA WEEK SÃO PAULO 2019 UMA PERSPECTIVA HISTÓRICA – DATA ANALYTICS Transacional Lógica BI / Analytics 1990s 2010s DB DW App Web Logs Fontes Auxiliares Frontend 2000s Data Lake Cluster Computacional Ferramentas Data Science

Slide 15

Slide 15 text

BIG DATA WEEK SÃO PAULO 2019 2010s – A POPULARIZAÇÃO DO BIG DATA

Slide 16

Slide 16 text

BIG DATA WEEK SÃO PAULO 2019 MOMENTO ATUAL – DATA ANALYTICS Transacional Lógica BI / Analytics 1990s 2010s/2020+ DB DW App Web Logs Fontes Auxiliares Frontend 2000s Data Lake Cluster Computacional Ferramentas Data Science DB / NoSQL Micro Services API Gateway Kafka Frontend

Slide 17

Slide 17 text

BIG DATA WEEK SÃO PAULO 2019 MOMENTO ATUAL – DATA ANALYTICS Transacional Lógica BI / Analytics 1990s 2010s/2020+ DB DW App Web Logs Fontes Auxiliares Frontend 2000s Data Lake Cluster Computacional Ferramentas Data Science DB / NoSQL Micro Services API Gateway Kafka Frontend IoT

Slide 18

Slide 18 text

BIG DATA WEEK SÃO PAULO 2019 O DESAFIO DOS SILOS

Slide 19

Slide 19 text

BIG DATA WEEK SÃO PAULO 2019 UM PROBLEMA QUE JÁ DEVERIA TER SIDO RESOLVIDO... NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM BI / Analytics Tools ? Novas Fontes Fontes Tradicionais SQL NoSQL ? ? NoSQL NoSQL SQL Data Lake “Big Data”

Slide 20

Slide 20 text

BIG DATA WEEK SÃO PAULO 2019 UM MODELO RELACIONAL SIMPLES... CLIENTE AÇÕES CAMPANHA N N N 1 1 1 ... Já atualizá-lo em um ambiente complexo e distribuído, nem tanto.

Slide 21

Slide 21 text

BIG DATA WEEK SÃO PAULO 2019 UM MODELO RELACIONAL SIMPLES... CLIENTE AÇÕES CAMPANHA Decomposição em domínios e serviços independentes Domínio: Base de clientes Domínio: Gerenciamento de Campanhas Subdomínio: Campanhas Subdomínio: Ações de Campanha

Slide 22

Slide 22 text

BIG DATA WEEK SÃO PAULO 2019 ORQUESTRAÇÃO VS. COREOGRAFIA CLIENTE CAMPANHA AÇÕES

Slide 23

Slide 23 text

BIG DATA WEEK SÃO PAULO 2019 COMPOSIÇÃO / ORQUESTRAÇÃO ORQUESTRAÇÃO VS. COREOGRAFIA ESTADO 1 2 3 CLIENTE CAMPANHA AÇÕES Transições

Slide 24

Slide 24 text

BIG DATA WEEK SÃO PAULO 2019 ORQUESTRAÇÃO VS. COREOGRAFIA CLIENTE CAMPANHA AÇÕES 2 3 1

Slide 25

Slide 25 text

BIG DATA WEEK SÃO PAULO 2019 MICROSSERVIÇOS EM LARGA ESCALA FONTE: Bruce Wong, Netflix FONTE: Amazon.com

Slide 26

Slide 26 text

BIG DATA WEEK SÃO PAULO 2019 DO PONTO DE VISTA DE DATA & ANALYTICS... FONTE: Império Galáctico

Slide 27

Slide 27 text

BIG DATA WEEK SÃO PAULO 2019 ONDE CAPTURAR A INFORMAÇÃO DE ANALYTICS? CLIENTE CAMPANHA AÇÕES Camada de serviço? Camada de persistência? • Eventos de negócio (interpretação semântica / de alto nível) • Representação simplificada (JSON / schema on read) • Eventos descrevem transição de estados (ciclo de vida completo vs. estado final) • ... se a captura de dados aqui for priorizada! ... • Dados técnicos complexos (“o que é esta coluna?”) • Estado disperso em domínios isolados (“que chave usar para o join?”) • Persistência poliglota (“não tenho conector para esta base de dados”) • Mutabilidade do modelo de dados (“alguém mudou a estrutura da tabela!”)

Slide 28

Slide 28 text

BIG DATA WEEK SÃO PAULO 2019 ELEMENTOS DO EVENT SOURCING LEAD IDENTIFICADO Origem: Big Data IMPACTO / EXIBIDO Origem: Canal OFERTA ACEITA Origem: Canal CONTRATAÇÃO FEITA Origem: Sistema do Produto UUID d29af-4ad... Estado: Lead UUID d29af-4ad... Estado: Exibido UUID d29af-4ad... Estado: Aceito UUID d29af-4ad... Estado: Contratado transição transição transição evento evento evento evento EVENTOS GERADOS NOS CANAIS / MICROSERVIÇOS GERENCIAMENTO DO CICLO DE VIDA NO CRM Linha do tempo Eventos Mudanças de estado Sugestão de referência: https://ookami86.github.io/event-sourcing-in-practice/

Slide 29

Slide 29 text

BIG DATA WEEK SÃO PAULO 2019 CQRS+ES & STREAMING ANALYTICS Storage de Eventos (Kafka) API/Streaming Escritas API de Leitura API API Escritas API API Storage de Leitura Consultas Streaming Escritas API API Micros- serviço Comandos Leituras Micro- serviço Cria múltiplas visões desnormalizadas / agregadas para consultas rápidas. Consumo Fonte Sistemas Origem PaaS Projetor / Loader / Pipeline

Slide 30

Slide 30 text

BIG DATA WEEK SÃO PAULO 2019 CQRS+ES & STREAMING ANALYTICS Fontes Fontes Fontes NoSQL Data Lake Plataforma de Streaming / Data Flow API API Projetores BASEADO NA APRESENTAÇÃO DE NEHA NARKHEDE – “ETL IS DEAD, LONG LIVE STREAMS” 1. Coleta de eventos de negócio 2.A. ETL – Descarte de informações sensíveis (PII) 2.B. ETL – Agregação de chaves em janela 3.A. ETL – Carga de agregações em NoSQL 3.B. ETL – Carga de dados brutos no Lake

Slide 31

Slide 31 text

BIG DATA WEEK SÃO PAULO 2019 UMA POSSÍVEL ABORDAGEM PARA SANITIZAÇÃO NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM Novas Fontes Fontes Tradicionais SQL NoSQL SQL Data Lake “Big Data” CQRS+ES: • Capturar eventos de negócio • Streaming Analytics (Flink, Spark, KSQL), e Data Flow (NiFi, Apache Beam) • Kafka como event store DATA LAKE: • Evitar cargas desnecessárias • Armazenamento colunar: ORC/Parquet/Delta Lake • Sandbox SQL Batch Data Flow

Slide 32

Slide 32 text

BIG DATA WEEK SÃO PAULO 2019 UMA POSSÍVEL ABORDAGEM PARA SANITIZAÇÃO Data Flow NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM Novas Fontes Fontes Tradicionais SQL NoSQL SQL Data Lake “Big Data” ou “Data Swamp 2.0”? CQRS+ES: • Capturar eventos de negócio • Streaming Analytics (Flink, Spark, KSQL), e Data Flow (NiFi, Apache Beam) • Kafka como event store DATA LAKE: • Evitar cargas desnecessárias • Armazenamento colunar: ORC/Parquet/Delta Lake • Sandbox SQL Batch

Slide 33

Slide 33 text

BIG DATA WEEK SÃO PAULO 2019 EVOLUÇÃO DAS PLATAFORMAS

Slide 34

Slide 34 text

BIG DATA WEEK SÃO PAULO 2019 UMA ARQUITETURA TRADICIONAL DE BIG DATA (2006) WORKERS (DATANODE) Rede Ethernet MASTERS (NAMENODE) CLIENTES

Slide 35

Slide 35 text

BIG DATA WEEK SÃO PAULO 2019 UMA ARQUITETURA TRADICIONAL DE BIG DATA (2006) WORKERS (DATANODE) Rede Ethernet MASTERS (NAMENODE) CLIENTES COMPUTAÇÃO ARMAZENAMENTO

Slide 36

Slide 36 text

BIG DATA WEEK SÃO PAULO 2019 ARQUITETURAS MODERNAS DE BIG DATA Possuem storage externo e compartilhado Computação virtualizada ou em contêineres “Workers” são efêmeros (elasticidade) Requisito: Desacoplamento Disco - CPU

Slide 37

Slide 37 text

BIG DATA WEEK SÃO PAULO 2019 CENÁRIOS DE DEPLOY Bare-Metal Recursos dedicados Cloud Virtualizado com Hiperconvergência Virtualizado / PaaS + Storage Desacoplado Hospedado em Nuvem-IaaS Uso de Plataforma como Serviço Cenários Decisão On Premises Nuvem Fatores para Consideração (não exaustivo) “Centro de Gravidade” dos Dados Custo de Manutenção vs. Recursos Humanos Flexibilidade de Aprovisionamento Facilidades de Gerenciamento On- Premises Cloud

Slide 38

Slide 38 text

BIG DATA WEEK SÃO PAULO 2019 PERFIL DOS WORKLOADS DE BIG DATA Tempo Recursos Tempo Inativo Workloads em rajadas – servidores IaaS ligados 24x7 não possuem custo efetivo. Não recomendado: • Contratar VMs (IaaS) de um provedor de cloud e instalar Hadoop • Adotar HDFS como storage na Nuvem • Misturar workloads em um único cluster • Manter cluster online para picos de carga Considerar: • PaaS (EMR, DataProc, HDInsight) • Dados em Object Store • Ingestão em Data Flow / Streaming • Ambientes analíticos e SQL como serviço • Chargeback, custo de egress e lock in!

Slide 39

Slide 39 text

BIG DATA WEEK SÃO PAULO 2019 VIRTUALIZAÇÃO DAS CARGAS DE TRABALHO Hosts de Virtualização CPU 2 NUMA Zone 1 NUMA Zone 2 Área Temporária ou SDS SSD Local (JBOD/NVME) CPU 1 10/25 GbE NM Hadoop NM Hadoop NM Hadoop NM Hadoop 10/25 GbE Node K8s Node K8s

Slide 40

Slide 40 text

BIG DATA WEEK SÃO PAULO 2019 Isilon Module 1 to 4 Rack 5 S6010 S4048 S4048 S3048 Node 1 Node 2 Node 32 Compute Node Bandwidth Oversubscription: Max 1.125 ... 10 GbE S4048 S4048 Node 1 Node 2 Node 16 ... 10 GbE 2x40 GbE VLT - DAC S3048 2x40 GbE VLT - DAC Core Node 1 Node 4 Node 3 Node 2 POD 2 R3/R4 Isilon Virtual Rack 2 Isilon Virtual Rack 1 S6010 2x40 GbE VLT - DAC POD 1 R1/R2 1 GbE Mgmt. 1 GbE Mgmt. TOPOLOGIA DE REDE

Slide 41

Slide 41 text

BIG DATA WEEK SÃO PAULO 2019 2006 SEPARAÇÃO DE COMPUTE & STORAGE: ALGUNS MARCOS Separação Compute-Storage 2014-15 • Facebook Presto • Hadoop • AWS S3 2013 2012 • Isilon OneFS com HDFS Referências: https://www.cs.cornell.edu/projects/ladis2009/papers/porter -ladis2009.pdf https://www.idc.com/getdoc.jsp?containerId=US43575418 2009-10 • SuperDataNodes • 40 / 100 GbE • Amazon EMR • Data Lake pioneiro com separação de storage- compute no Brasil (hoje com 3.3+ PB úteis). • Data Lake com 800 TB útil – 100% virtualizado no Brasil.

Slide 42

Slide 42 text

BIG DATA WEEK SÃO PAULO 2019 2006 SEPARAÇÃO DE COMPUTE & STORAGE: ALGUNS MARCOS Separação Compute-Storage 2014-15 • Facebook Presto • Hadoop • AWS S3 2013 2012 • Isilon OneFS com HDFS Referências: https://www.cs.cornell.edu/projects/ladis2009/papers/porter -ladis2009.pdf https://www.idc.com/getdoc.jsp?containerId=US43575418 2009-10 • SuperDataNodes • 40 / 100 GbE • Amazon EMR • Data Lake pioneiro com separação de storage- compute no Brasil (hoje com 3.3+ PB úteis). • Data Lake com 800 TB útil – 100% virtualizado no Brasil.

Slide 43

Slide 43 text

BIG DATA WEEK SÃO PAULO 2019 2006 • Data Lake pioneiro com separação de storage- compute no Brasil (hoje com 3.3+ PB úteis). • Data Lake com 800 TB útil – 100% virtualizado no Brasil. SEPARAÇÃO DE COMPUTE & STORAGE: ALGUNS MARCOS Separação Compute-Storage 2014-15 • Facebook Presto 2017-18 • HDFS 3.0 + Erasure Code Fase 1 • Hadoop Ozone (Object Store) • IDC – “Five Benefits of Decoupling Compute and Storage for Big Data Deployments” • “Compute and storage colocation is no longer state of the art.” 2009-10 • SuperDataNodes • 40 / 100 GbE • Amazon EMR 2019 • Coudera Keynote Strata-CA • “To achieve storage and Compute separation” • New Cloudera Data Platform • Alluxio 2.0 • Hadoop • AWS S3 2013 2012 • Isilon OneFS com HDFS Referências: https://www.cs.cornell.edu/projects/ladis2009/papers/porter -ladis2009.pdf https://www.idc.com/getdoc.jsp?containerId=US43575418

Slide 44

Slide 44 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Cluster 25 servidores ~ 2.7 PB de espaço útil R ~3 PB/mês ~0.9 PB/mês W 720 cores 2.8 TB RAM ~2.000 jobs/dia ~400 aplic + adhocs Ingestão > 10 TB/dia

Slide 45

Slide 45 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Java 1.7 Pivotal HD 2 Dependência funcional de dados Alguns desafios... ~ 2.7 PB de espaço útil ~2.000 jobs/dia Cluster 25 servidores 720 cores 2.8 TB RAM

Slide 46

Slide 46 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Pivotal HD 2 Dependência funcional de dados Alguns desafios... Fábrica de software. Todas as aplicações já estavam em pipelines CI/CD automatizados. Java 1.7 ~ 2.7 PB de espaço útil ~2.000 jobs/dia Cluster 25 servidores 720 cores 2.8 TB RAM

Slide 47

Slide 47 text

BIG DATA WEEK SÃO PAULO 2019 REFACTOR / REDEPLOY CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Data Lake (HDFS) NOVOS SERVIDORES INGESTÃO DUPLA + distcp (histórico) $$$ > 1 mi USD

Slide 48

Slide 48 text

BIG DATA WEEK SÃO PAULO 2019 REFACTOR / REDEPLOY CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Data Lake (HDFS) NOVOS SERVIDORES INGESTÃO DUPLA + distcp (histórico) Longa janela offline…

Slide 49

Slide 49 text

BIG DATA WEEK SÃO PAULO 2019 REFACTOR / REDEPLOY CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Data Lake (HDFS) NOVOS SERVIDORES INGESTÃO DUPLA + distcp (histórico) Longa janela offline…

Slide 50

Slide 50 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA

Slide 51

Slide 51 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W Ingestão > 10 TB/dia Pivotal HD 2 RHEL 6 Java 1.7 ~400 aplic + adhocs ~2.000 jobs/dia Cluster 25 servidores 720 cores 2.8 TB RAM ~ 2.7 PB de espaço útil

Slide 52

Slide 52 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Ingestão > 10 TB/dia Pivotal HD 2 RHEL 6 Java 1.7 ~ 2.7 PB de espaço útil Cluster 25 servidores

Slide 53

Slide 53 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Novo Cluster 8 servidores ~ 2.7 PB de espaço útil Cluster 17 servidores

Slide 54

Slide 54 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Novo Cluster 8 servidores ~ 2.7 PB de espaço útil Cluster 17 servidores

Slide 55

Slide 55 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD ~ 2.7 PB de espaço útil Cluster 17 servidores

Slide 56

Slide 56 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações ~ 2.7 PB de espaço útil Cluster 17 servidores

Slide 57

Slide 57 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Várias aplicações Duas plataformas Um único namespace... Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 58

Slide 58 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 59

Slide 59 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 60

Slide 60 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 61

Slide 61 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 62

Slide 62 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 63

Slide 63 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 64

Slide 64 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 65

Slide 65 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 8 servidores R W ~400 aplic + adhocs Ingestão > 10 TB/dia Horton 2.6 RHEL 7 Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações R W Cluster 17 servidores ~ 2.7 PB de espaço útil

Slide 66

Slide 66 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 13 servidores R W ~300 aplic + adhocs Ingestão > 10 TB/dia Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações R W ~300 aplic + adhocs Java 1.8 Horton 2.6 / RHEL7 3.3 PB de espaço útil Cluster 12 servidores

Slide 67

Slide 67 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 34 servidores R W ~600 aplic + adhocs Ingestão > 14 TB/dia Java 1.7 Pivotal HD 2 RHEL 6 Fábrica Refatoração + CI/CD Aplicações existentes Novas aplicações R W descomis- sionado Java 1.8 Horton 2.6 / RHEL7 3.3 PB de espaço útil Cluster 12 servidores

Slide 68

Slide 68 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 34 servidores Ingestão > 14 TB/dia Aplicações existentes Novas aplicações R W Java 1.8 ~600 aplic + adhocs 728 cores 7 TB RAM 8.300 jobs/dia Horton 2.6 / RHEL7 3.3 PB de espaço útil ~4 PB/mês ~1 PB/mês

Slide 69

Slide 69 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Data Lake (HDFS) Novo Cluster 34 servidores 3.3 PB de espaço útil ~600 aplic + adhocs Ingestão > 14 TB/dia Horton 2.6 / RHEL7 Aplicações existentes Novas aplicações R W Java 1.8 728 cores 7 TB RAM 8.300 jobs/dia 0 Bytes migrados ☺ 0 de “downtime” ☺ ~4 PB/mês ~1 PB/mês

Slide 70

Slide 70 text

BIG DATA WEEK SÃO PAULO 2019 CASE: MIGRAÇÃO DE PLATAFORMA BIG DATA Expectativa vs. Realidade • “Formulários de Change” • Tempo de aprovisionamento de infra • Repriorizações Não se pode subestimar... • Validações • Migração de metadados • Novas funcionalidades • Bugs da plataforma

Slide 71

Slide 71 text

BIG DATA WEEK SÃO PAULO 2019 HABILITANDO NOVAS APLICAÇÕES E PLATAFORMAS Hosts de Virtualização CPU 2 NUMA Zone 1 NUMA Zone 2 Área Temporária ou SDS SSD Local (JBOD/NVME) CPU 1 NM Hadoop NM Hadoop NM Hadoop NM Hadoop Node K8s Node K8s Data Lake / Object Store Rede CLOS / Spine and Leaf Namespaces / buckets dedicados ou compartilhados

Slide 72

Slide 72 text

BIG DATA WEEK SÃO PAULO 2019 DE VOLTA AOS SILOS...

Slide 73

Slide 73 text

BIG DATA WEEK SÃO PAULO 2019 UMA POSSÍVEL ABORDAGEM PARA SANITIZAÇÃO Data Flow NoSQL NoSQL NoSQL NoSQL Kafka DW ODS DM Novas Fontes Fontes Tradicionais SQL NoSQL SQL Data Lake “Big Data” ou “Data Swamp 2.0”? CQRS+ES: • Capturar eventos de negócio • Streaming Analytics (Flink, Spark, KSQL), e Data Flow (NiFi, Apache Beam) • Kafka como event store DATA LAKE: • Evitar cargas desnecessárias • Armazenamento colunar: ORC/Parquet/Delta Lake • Sandbox SQL Batch

Slide 74

Slide 74 text

BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” PoC com Docker-Compose disponível em: https://github.com/uucico/poc-presto

Slide 75

Slide 75 text

BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” Arquivos de Logs Dados Estruturados Streaming de Eventos Cluster Big Data Exploratório Cluster Big Data Produção Replicação Bases Relacionais (“Active Dataguard”) Camada Exploratória / Self Service: “SQL on Anything” / “Logical DW” Oozie, Enterprise Scheduler, Airflow Cliente SQL, BI, etc.

Slide 76

Slide 76 text

BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” FONTE: AirBNB

Slide 77

Slide 77 text

BIG DATA WEEK SÃO PAULO 2019 “DATA LAKE LÓGICO” Arquivos de Logs Dados Estruturados Streaming de Eventos Cluster Big Data Exploratório Cluster Big Data Produção Replicação Bases Relacionais (“Active Dataguard”) Camada Exploratória / Self Service: “SQL on Anything” / “Logical DW” Oozie, Enterprise Scheduler, Airflow Cliente SQL, BI, etc. Parser SQL

Slide 78

Slide 78 text

BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS (SQL) Processos sob Gestão de TI Self Service T1 PII ▪ Metadados (Rótulos) ▪ Ingestão sob gestão de TI ▪ Tabela de referência corporativa ▪ Ex: Tabelas analíticas base (ABT) T2 Q1 Usuário 1 T4 Q3 T3 Q2 Usuário 2 Usuário 3 Metadado + Análise Grafo: • Derivada de PII • Usada por outros usuários • Recorrente (métricas) Tier 1 Tier 2

Slide 79

Slide 79 text

BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS (SQL) Processos sob Gestão de TI Self Service Tier 1 Tier 2 T1 PII T2 Q1 Usuário 1 T4 Q3 T3 Q2 Usuário 2 Usuário 3 Metadado + Análise Grafo: • Derivada de PII • Usada por outros usuários • Recorrente (métricas) Promover ▪ Metadados (Rótulos) ▪ Ingestão sob gestão de TI ▪ Tabela de referência corporativa ▪ Ex: Tabelas analíticas base (ABT)

Slide 80

Slide 80 text

BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS (SQL) Sugestão de referência: https://eng.uber.com/queryparser/

Slide 81

Slide 81 text

BIG DATA WEEK SÃO PAULO 2019 OBSERVABILIDADE NO SELF-SERVICE ANALYTICS (SQL) FONTE: Dremio

Slide 82

Slide 82 text

MODELO CONCEITUAL – ARQUITETURA LÓGICA “ D A T A L A K E L Ó G I C O ” F A S T D A T A I N G E S T Ã O ETL T R A N S A C I O N A L DWH BILLING C A M A D A D E A C E S S O APIs Frio Quente Morno “Temperatura dos Dados” Volume Streaming ● Estruturados ● Não-Estruturados Usuários de Negócio e Cientistas de Dados Integração de Sistemas Cálculo Janela ORACLE ORACLE In Memory Streaming Filas I N F O R M A C I O N A L Data Lake CRM MSSQL WEB NOSQL Relatórios Modelos ML / AI Sandboxes / Self-Service Dashboards Tempo Real Ferramentas de BI e Analytics Virtualização de Dados

Slide 83

Slide 83 text

BIG DATA WEEK SÃO PAULO 2019 OBRIGADO!