Monitorando sistemas distribuidos

Monitorando sistemas distribuidos

Junto com o @nbluis apresentei essa palestra no RSJUG.

Nela falamos sobre praticas de SRE para monitoramento de sistemas distribuidos e discutimos algumas formas de passar a monitorar as applicações em diversas arquiteturas.

6f3efd5477238ca18957c723854ec795?s=128

Sebastian Webber

June 25, 2019
Tweet

Transcript

  1. Monitorando sistemas distribuÍdos @nbluis - Eduardo Bohrer @sebawebber - Sebastian

    Webber
  2. Sobre nós Eduardo Bohrer @nbluis Sebastian Webber @sebawebber

  3. A história dA arq. de sistemas

  4. Como era a arquitetura antigamente ? Aplicação Banco de Dados

  5. Como monitoramos isso ? Aplicação Banco de Dados CPU MemÓria

    Disco REDE CPU MemÓria Disco REDE
  6. E EVOLUÍMOS Aplicação Banco de Dados

  7. Como monitoramos isso ? Aplicação Banco de Dados CPU MemÓria

    Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE
  8. Nasce um uma nova forma de fazer as coisas -

    Micro-serviços - Nano-Serviços - Distribuídos - Pequenos - Independentes - Tecnologia heterogênea CONTAINERS
  9. “NanoServiços” Funções ou realmente pequenos microserviços ficam pra outro dia,

    ok?
  10. Como é uma arquitetura atualmente ? APP 1 APP 3

    APP 6 APP 2 APP 2 APP 6 APP 2 APP 1 APP 7 APP 5 APP 2 APP 1 APP 5 APP 4 APP 4 APP 4 APP 3 APP 1 APP 1 APP 1 APP 2 APP 2 APP 5 APP 6 APP 4 APP 4 APP 1 APP 4 APP 1 APP 2
  11. E como monitoramos isso? APP 1 APP 3 APP 6

    APP 2 APP 2 APP 6 APP 2 APP 1 APP 7 APP 5 APP 2 APP 1 APP 5 APP 4 APP 4 APP 4 APP 3 APP 1 APP 1 APP 1 APP 2 APP 2 APP 5 APP 6 APP 4 APP 4 APP 1 APP 4 APP 1 APP 2 CPU MemÓria Disco REDE
  12. E como monitoramos isso? APP 1 APP 3 APP 6

    APP 2 APP 2 APP 6 APP 2 APP 1 APP 7 APP 5 APP 2 APP 1 APP 5 APP 4 APP 4 APP 4 APP 3 APP 1 APP 1 APP 1 APP 2 APP 2 APP 5 APP 6 APP 4 APP 4 APP 1 APP 4 APP 1 APP 2 CPU MemÓria Disco REDE
  13. E como monitoramos isso? APP 1 CPU - 100% APP

    1 CPU - 100% APP 1 CPU - 10% APP 1 CPU - 12% APP 1 CPU - 100% APP 1 CPU - 2% AVG CPU - 54%
  14. E como monitoramos isso? APP 1 CPU - 95% APP

    1 CPU - 90% APP 1 CPU - 10% APP 1 CPU - 12% APP 1 CPU - 90% APP 1 CPU - 2% AVG CPU - 49%
  15. Vamos analisar - 50% dos usuários está presenciando lentidão neste

    momento APP 1 CPU - 100% APP 1 CPU - 100% APP 1 CPU - 10% APP 1 CPU - 12% APP 1 CPU - 100% APP 1 CPU - 2%
  16. Vamos mudar a pergunta Para seu usuário: Qual o valor

    ideal para uso de CPU ? Qual o valor ideal para uso de Memória ? Qual o valor ideal para uso de Disco ? Qual o valor ideal para uso de Rede ?
  17. Vamos mudar a pergunta Para seu usuário: Qual o valor

    ideal para uso de CPU ? Qual o valor ideal para uso de Memória ? Qual o valor ideal para uso de Disco ? Qual o valor ideal para uso de Rede ?
  18. O sistema tem que estar disponível O sistema tem que

    ser rápido O sistema não pode ter erros O que seu usuário quer...
  19. MAS ENTÃO QUAL A SOLUÇÃO ?

  20. SINTOMAS vs CAUSAS • Dor de garganta • Febre •

    Dor no corpo • Faringite • Laringite • E Ite, e ite, e ite
  21. SLI < SLO < SLA

  22. SLI SLO SLA

  23. SLI Real system problems 1. Quantos ms leva pra adicionar

    um item no carrinho? 2. Quandos ms leva para aprovar a compra? 3. Média de erros ao aprovar uma compra
  24. SLO vs SLA O que queremos entregar (METAS) vs o

    que mínimo que temos de entregar (CONTRATO)
  25. Quando indicadores que representam a perspectivas do usuário estão ok

    O que significa um sistema funcionando ?
  26. O que eu faço com CPU/MEM/REDE?

  27. Golden signals O quick start framework Latency / Errors /

    Traffic / Saturation
  28. None
  29. Leia, leia leia

  30. Perguntas?

  31. Monitorando sistemas distribuÍdos @nbluis - Eduardo Bohrer @sebawebber - Sebastian

    Webber