Upgrade to Pro — share decks privately, control downloads, hide ads and more …

02-09_-_BDW_Wermans_Barros.pdf

 02-09_-_BDW_Wermans_Barros.pdf

Apresentação realizada por Wermans de Oliveira Barros no Big Data Week São Paulo 2019 [http://sao-paulo.bigdataweek.com].

Pensando em implantar e manter um pipeline de streaming de dados? Nesta sessão iremos compartilhar experiências obtidas em projetos de engenharia de dados, abordando temas de arquitetura, issues até implantação.

Big Data Week São Paulo

November 02, 2019
Tweet

More Decks by Big Data Week São Paulo

Other Decks in Technology

Transcript

  1. AGENDA • Por que Fast Data? • Características Técnicas do

    Fast Data • Lições aprendidas BIG DATA WEEK SÃO PAULO 2019
  2. Applied Intelligence Manager WERMANS BARROS Atuando no desenvolvimento de projetos

    batch/fast data e cloud computing, experiência nas indústrias de Varejo, Serviços, Banking, Governo e Forças Armadas. /wermans @wermansbarros BIG DATA WEEK SÃO PAULO 2019
  3. O MERCADO E AS INDÚSTRIAS EM UMA GRANDE CORRIDA Impulsionado

    pela inteligência artificial e aderência de produtos e serviços conectados, as empresas líderes em seus segmentos e as startups não poupam esforços para otimizar a experiência do cliente. BIG DATA WEEK SÃO PAULO 2019
  4. O MERCADO E AS INDÚSTRIAS EM UMA GRANDE CORRIDA E

    o que estas empresas tem em comum e diferente? BIG DATA WEEK SÃO PAULO 2019 Canais de Atendimento e regulamentação. Processos, Pessoas, Produto, tecnologia...E budget? • Mercados regulados • Canais de atendimento • Direitos do consumidor
  5. O MERCADO E AS INDÚSTRIAS EM UMA GRANDE CORRIDA E

    o que estas empresas tem em comum e diferente? BIG DATA WEEK SÃO PAULO 2019 Canais de Atendimento e regulamentação. Processos, Pessoas, Produto, tecnologia...E budget? • Produtos • Ofertas (campanhas orientadas ao perfil do cliente?) • Atendimento (pré, pós venda? Feedback da experiência?) • Tecnologias • Pessoas/colaboradores/times • Processos • Budget?(Marketshare X budget? Veja as cervejas =) )
  6. O MERCADO E AS INDÚSTRIAS EM UMA GRANDE CORRIDA Adoção

    de fast data pode ser o catalizador da experiência do usuário. Processos que necessitam de tomada de decisão rápida necessitam de sistemas que geram dados em tempo real. BIG DATA WEEK SÃO PAULO 2019
  7. CARACTERISTICAS TÉCNICAS DO FAST DATA FASES: – Aquisição – Processamento

    e/ou análise – Armazenamento e/ou análise – Apresentação e visualização BIG DATA WEEK SÃO PAULO 2019 PROPÓSITOS: - Synchronously - Asynchronously
  8. CARACTERISTICAS TÉCNICAS DO FAST DATA FASES: – Aquisição – Processamento

    e/ou análise – Armazenamento e/ou análise – Apresentação e visualização BIG DATA WEEK SÃO PAULO 2019
  9. CARACTERISTICAS TÉCNICAS DO FAST DATA FASES: – Aquisição – Processamento

    e/ou análise – Armazenamento e/ou análise – Apresentação e visualização BIG DATA WEEK SÃO PAULO 2019
  10. CARACTERISTICAS TÉCNICAS DO FAST DATA FASES: – Aquisição – Processamento

    e/ou análise – Armazenamento e/ou análise – Apresentação e visualização BIG DATA WEEK SÃO PAULO 2019
  11. CARACTERISTICAS TÉCNICAS DO FAST DATA FASES: – Aquisição – Processamento

    e/ou análise – Armazenamento e/ou análise – Apresentação e visualização BIG DATA WEEK SÃO PAULO 2019 Análise dos eventos operacionais ainda depende de análise
  12. CARACTERISTICAS TÉCNICAS DO FAST DATA FASES: – Aquisição – Processamento

    e/ou análise – Armazenamento e/ou análise – Apresentação, visualização e cognitivo (estado da arte) BIG DATA WEEK SÃO PAULO 2019 Análise dos eventos operacionais por modelos retroalimentados
  13. CARACTERISTICAS TÉCNICAS DO FAST DATA BIG DATA WEEK SÃO PAULO

    2019 PROPÓSITOS: - Synchronously (Síncrono) - Asynchronously? “Ocorre ao mesmo tempo” “Sender e Receiver estão sincronizados através do relógio/clock/timming signal”
  14. CARACTERISTICAS TÉCNICAS DO FAST DATA BIG DATA WEEK SÃO PAULO

    2019 PROPÓSITOS: - Synchronously (Síncrono) - Asynchronously? “Ocorre ao mesmo tempo” “Sender e Receiver estão sincronizados através do relógio/clock/timming signal”
  15. CARACTERISTICAS TÉCNICAS DO FAST DATA BIG DATA WEEK SÃO PAULO

    2019 PROPÓSITOS: - Synchronously (Síncrono) - Asynchronously?(Assíncrono) “a transmissão pode ser feita em blocos, controlados por um bit de start e stop, sendo a mensagem remontada após envio dos blocos” “Sender e Receiver estão sincronizados apenas durante a transmissão de dados”
  16. CARACTERISTICAS TÉCNICAS DO FAST DATA BIG DATA WEEK SÃO PAULO

    2019 PROPÓSITOS: - Synchronously (Síncrono) - Asynchronously?(Assíncrono) “a transmissão pode ser feita em blocos, controlados por um bit de start e stop, sendo a mensagem remontada após envio dos blocos” “Sender e Receiver estão sincronizados apenas durante a transmissão de dados” Streams
  17. CARACTERISTICAS TÉCNICAS DO FAST DATA BIG DATA WEEK SÃO PAULO

    2019 PROPÓSITOS: - Synchronously (Síncrono) - Asynchronously?(Assíncrono) “a transmissão pode ser feita em blocos, controlados por um bit de start e stop, sendo a mensagem remontada após envio dos blocos” “Sender e Receiver estão sincronizados apenas durante a transmissão de dados” Streams Comparativo
  18. INICIE COM UM MVP Uma abordagem de MVP (Minimum Viable

    Platform) razoável seria pensar em como resolver o problema antes de pensar em hardware ou software: BIG DATA WEEK SÃO PAULO 2019 Cloud First e Cloud-Only On-premisses e virtualização
  19. INICIE COM UM MVP Uma abordagem de MVP (Minimum Viable

    Platform) razoável seria pensar em como resolver o problema antes de pensar em hardware ou software: BIG DATA WEEK SÃO PAULO 2019 Cloud First e Cloud-Only quando • Startups • Já ouve o Migração para Cloud Not Like This... Like This! ... ...
  20. INICIE COM UM MVP Uma abordagem de MVP (Minimum Viable

    Platform) razoável seria pensar em como resolver o problema antes de pensar em hardware ou software: BIG DATA WEEK SÃO PAULO 2019 On-premisses e virtualização • Não ouve moving ou realizando moving para cloud Not Like This... Like This!
  21. ESCALABILIDADE DESDE O INÍCIO Solução social listening, disponibilizando camada cognitiva

    de monitoração e acompanhamento dos agentes formadores de opinião em tempo real BIG DATA WEEK SÃO PAULO 2019 - Escopo inicial, suportar ~10Milhões de mensagens mês - Agregações, algorítimos de processamento de linguagem natural e buzzgraph - Monitoramento de mais de 1000 termos e hastags
  22. ESCALABILIDADE DESDE O INÍCIO 6 meses depois..... Adição de novas

    hashtags e canais para monitoramento..... BIG DATA WEEK SÃO PAULO 2019
  23. ESCALABILIDADE DESDE O INÍCIO Então, fez-se necessário atualizar as camadas

    de persistência e motor analítico (uso de MPP em spark) BIG DATA WEEK SÃO PAULO 2019 ANTES DEPOIS
  24. ONPREMISSES Conheça bem: • Redes,subredes e Vlans dos sistemas origem,

    destino e do cluster, isto inclui: Roteadores e switches envolvidos. (Hadoop por exemplo trabalha bem com arquivos grandes). Sua rede tem capacidade para Jumbo frames MTU 9000 bytes (Maximum Transmission Unit)? BIG DATA WEEK SÃO PAULO 2019
  25. ONPREMISSES Confira requerimentos de hardware e software: • Quantidade de

    hosts, disco e memória, isto inclui: Ter o business case/MVP bem mapeado (quais as origens de dados, qual o resultado esperado, quais as métricas/volumes de dados origem. BIG DATA WEEK SÃO PAULO 2019 https://docs.cloudera.com/documentation/enterprise/release- notes/topics/hardware_requirements_guide.html “Envolva o vendor desde o início, o retrabalho pode sair mais caro” “Envolva o time de segurança” “Monte checkpoints de evolução do provisionamento da infra” “Tenha um processo de devops mínimo”
  26. ONPREMISSES Infra as a code: • Houston! Esquecemos de apontar

    os discos do Kafka!!! Ansible é uma boa abordagem para mitigar falhas, passa pelas esteiras de QA e PROD (DEV, terra de ninguém). BIG DATA WEEK SÃO PAULO 2019 https://github.com/cloudera/cloudera-playbook https://blog.cloudera.com/automated-provisioning-of-cdh-in-the-cloud-with-cloudera- director-and-ansible/
  27. SOLUÇÕES IGUAIS PARA PROBLEMAS DIFERENTES Ingestão de dados de pagamentos

    (transações): - Um registro novo a cada cupom gerado - Cliente atuante em mais da metade dos estados do Brasil - Desenvolvimento segue processo de ingestão dos dados de cupons BIG DATA WEEK SÃO PAULO 2019
  28. SOLUÇÕES IGUAIS PARA PROBLEMAS DIFERENTES Durante o percurso.... Alguns problemas

    com o Apache Phoenix, que implementa o OLTP sobre o HBASE. BIG DATA WEEK SÃO PAULO 2019 ResultSet de queries nulas ou duplicadas (update, atualmente resolvido https://issues.apache.org/jira/browse/PHOENIX-4007 A primary key de uma tabela no Phoenix é a rowkey no hbase. Caso queira aplicar mais filtros em uma query, será necessário criar índices secundários, ou sua query fara full scan no hbase =). Alguns problemas com índices: - Índices dropados - Índices desabilitados
  29. SOLUÇÕES IGUAIS PARA PROBLEMAS DIFERENTES Então fizemos um movimento.... Remover

    da solução Phoenix, Spark e utilização de Storage Handler. - Dados visíveis no hbase e hive ao mesmo tempo - Necessário retroalimentar periodicamente tabela Hive particionada (não é possível particionar tabelas Hive com propriedade StorageHandler) BIG DATA WEEK SÃO PAULO 2019
  30. SOLUÇÕES IGUAIS PARA PROBLEMAS DIFERENTES Por fim: - Não foi

    necessário utilizar spark - Processo não totalmente preparado para near real time (não tínhamos recursos de Kafka para retenção) BIG DATA WEEK SÃO PAULO 2019 ANTES DEPOIS
  31. Referências • Business and Fast Data: ◦ https://www.accenture.com/_acnmedia/accenture/conversion-assets/dotcom/documents/global/pdf/technology_5/accenture-data-acceleration-architecture-modern-data-supply-chain.pdf ◦ https://tools.marketimpacttools.com/go/ibm/eventstore/

    • Transformação digital e indústria X.0: ◦ https://www.accenture.com/br-pt/insights/industry-x-0-index?c=br_br_industryxo_10398992&n=psgs_generic_1018&gclid=CjwKCAjw0vTtBRBREiwA3URt7uCtpWrQh- OuVBA6_jHN1Cs1SG0ISs0z6CaZtjApulcvUbX4-mCRlxoCbb4QAvD_BwE • Fast Data Concepts: ◦ https://www.oreilly.com/ideas/fast-data-enterprise-data-architecture/page/4/ch03 ◦ https://www.tibco.com/blog/2015/02/17/the-backbone-of-wall-street-technology-fast-data/ ◦ https://docs.confluent.io/current/tutorials/examples/microservices-orders/docs/index.html ◦ https://redislabs.com/blog/what-to-choose-for-your-synchronous-and-asynchronous-communication-needs-redis-streams-redis-pub-sub-kafka-etc-best-approaches-synchronous- asynchronous-communication/ ◦ https://www.geeksforgeeks.org/difference-between-synchronous-and-asynchronous-transmission/ ◦ http://datascienceacademy.com.br/blog/fast-data-a-evolucao-do-big-data/