Reviewr Data Consolidation Case

Reviewr Data Consolidation Case

Reviewr: Data consolidation architecture case

9797bddafe284a0d23b4e92dd1ce0043?s=128

Leonardo Rifeli

January 31, 2020
Tweet

Transcript

  1. www.reviewr.me Como processamos e analisamos milhões de dados diariamente Processamento

    Distribuído
  2. Co-Founder, Head of Engineering & Developer rifeli.me Leonardo Rifeli

  3. Nossa Crença

  4. None
  5. Tópicos ▷ Reviewr ▷ Consolidação de dados ▷ Processamento Distribuído

    ▷ Hadoop, Spark, EMR e Scala ▷ Lições Aprendidas ▷ Resultados/Case Ponte Hercílio Luz
  6. Reviewr

  7. O processo de compra mudou. Agora o consumidor toma suas

    decisões de compra baseado nas avaliações de outros consumidores.
  8. dos consumidores afirmam que reviews influenciam suas decisões de compra.

    Fonte: Local Customer Review Survey 2017 by Bright Local 93%
  9. dos usuários de smartphones no BR utilizam um mecanismo de

    busca para encontrar empresas locais, próximas de onde estão. Google 82% dos consumidores afirmam que reviews influenciam suas decisões de compra. Fonte: Local Customer Review Survey 2017 by Bright Local 93%
  10. dos usuários de smartphones no BR utilizam um mecanismo de

    busca para encontrar empresas locais, próximas de onde estão. Google 82% dos consumidores acreditam em reviews tanto quanto em recomendações pessoais. 85% dos consumidores afirmam que reviews influenciam suas decisões de compra. Fonte: Local Customer Review Survey 2017 by Bright Local 93% Fonte: Local Customer Review Survey 2017 by Bright Local
  11. Como os consumidores estão procurando por negócios locais?

  12. Clínica ortopédica, supermercado, posto de gasolina, restaurante buffet, loja de

    cosmético perto de mim...
  13. AS OPÇÕES APARECEM NO MAPA

  14. E qual vai ser a escolha mais óbvia do consumidor?

  15. None
  16. Os consumidores escrevem reviews por toda a internet, em diversos

    canais.
  17. Fazer a gestão dos perfis e dos reviews manualmente é

    ineficaz e improdutivo.
  18. None
  19. None
  20. None
  21. None
  22. None
  23. A solução completa para gestão da reputação online de forma

    simples, centralizada e inteligente. reviewr
  24. FOCO: Aumento das estrelas.

  25. 1 estrela a mais, em um ranking de 5 estrelas,

    impacta entre 5% e 9% o faturamento. Fonte: Harvard
  26. Estrela é grana!

  27. Métricas Reviewr

  28. 6.8k Estabelecimentos Monitorados

  29. 11k Integrações

  30. 4kk Reviews Coletados ~

  31. Quem confia na reviewr

  32. Review Rating Index (RRI)

  33. reviewr.me/rri-indicador-chave-reputacao-onine

  34. None
  35. Data Texto Quantidade % resposta Review Rating Index (RRI) Nota

  36. A real motivação

  37. RRI O fator data

  38. Filtros de períodos pré-definidos

  39. Consolidação de dados para

  40. RRI Evolução diária

  41. Atingir mais performance na aplicação

  42. Extrair mais insights

  43. E muito mais ...

  44. Processamento Distribuído

  45. None
  46. Sobre Hadoop

  47. Um framework para aplicações distribuídas

  48. Tudo começou com o HDFS

  49. Surgiu para armazenar arquivos grandes

  50. Rodar em hardware padrão e de baixo custo

  51. Tem alta escalabilidade e confiabilidade

  52. Possui tolerância a falhas

  53. Principais projetos Hadoop Commons, HDFS e MapReduce

  54. Sobre Spark

  55. Framework para processamento big-data

  56. Construído com foco em velocidade, fácil uso e análises sofisticadas

  57. Roda em diversas Arquiteturas

  58. Pode carregar os dados de muitas fontes: Couchbase, MySQL, S3,

    HDFS...
  59. APIs em alto nível Java, Scala e Python

  60. Funciona totalmente na memória, sendo até 100x mais rápido

  61. Uma boa analogia

  62. Se o Hadoop é um livro em Russo, o Spark

    é um dicionário
  63. Sobre EMR

  64. Fornece uma estrutura Hadoop gerenciada

  65. Torna fácil, rápido e econômico processar grandes quantidades de dados

  66. Utiliza instâncias EC2 escaláveis dinamicamente

  67. Sobre Scala

  68. Acrônimo para "Scalable Language"

  69. Surgiu publicamente em 2004

  70. Incorpora recursos de linguagens Orientada a Objetos e funcionais

  71. Roda na JVM

  72. Consolidação de dados Arquitetura

  73. None
  74. None
  75. Custos AWS

  76. EMR + EC2 - Custos

  77. $ 0,30/h

  78. Com cluster de 60GB ram & 16 vCores

  79. None
  80. Lições Aprendidas

  81. EC2 Spot Instances

  82. Performance dos Jobs

  83. None
  84. 5 nodes 16 vCores 60 gB reviewr.me/rri-indicador-chave-reputacao-onine

  85. Spark Stages & Tasks

  86. None
  87. None
  88. Previsibilidade de Custos

  89. Integração Contínua

  90. Faça mais Com menos

  91. Resultados

  92. Exemplo de resultado processado

  93. None
  94. None
  95. None
  96. Case Ponte Hercílio Luz

  97. Dez/2k19 Jan/2k20

  98. None
  99. None
  100. None
  101. None
  102. None
  103. ▷ MapReduce: Simplified Data Processing on Large Clusters ▷ Bigtable:

    A Distributed Storage System for Structured Data ▷ The Google File System ▷ The history of Hadoop ▷ Untangling Apache Hadoop YARN, Part 1: Cluster and YARN Basics ▷ How to calculate node and executors memory in Apache Spark Links
  104. Tks! Data is the new oil? rifeli.me reviewr.me leonardo.rifeli@reviewr.me