$30 off During Our Annual Pro Sale. View Details »

Monitorando sistemas distribuidos

Monitorando sistemas distribuidos

Junto com o @nbluis apresentei essa palestra no RSJUG.

Nela falamos sobre praticas de SRE para monitoramento de sistemas distribuidos e discutimos algumas formas de passar a monitorar as applicações em diversas arquiteturas.

Sebastian Webber

June 25, 2019
Tweet

More Decks by Sebastian Webber

Other Decks in Programming

Transcript

  1. Monitorando sistemas
    distribuÍdos
    @nbluis - Eduardo Bohrer
    @sebawebber - Sebastian Webber

    View Slide

  2. Sobre nós
    Eduardo Bohrer
    @nbluis
    Sebastian Webber
    @sebawebber

    View Slide

  3. A história dA arq. de sistemas

    View Slide

  4. Como era a arquitetura antigamente ?
    Aplicação Banco de Dados

    View Slide

  5. Como monitoramos isso ?
    Aplicação Banco de Dados
    CPU
    MemÓria
    Disco
    REDE
    CPU
    MemÓria
    Disco
    REDE

    View Slide

  6. E EVOLUÍMOS
    Aplicação Banco de Dados

    View Slide

  7. Como monitoramos isso ?
    Aplicação Banco de Dados
    CPU
    MemÓria
    Disco
    REDE
    CPU
    MemÓria
    Disco
    REDE
    CPU
    MemÓria
    Disco
    REDE
    CPU
    MemÓria
    Disco
    REDE
    CPU
    MemÓria
    Disco
    REDE
    CPU
    MemÓria
    Disco
    REDE

    View Slide

  8. Nasce um uma nova forma de
    fazer as coisas
    - Micro-serviços
    - Nano-Serviços
    - Distribuídos
    - Pequenos
    - Independentes
    - Tecnologia heterogênea
    CONTAINERS

    View Slide

  9. “NanoServiços”
    Funções ou realmente pequenos microserviços ficam pra outro
    dia, ok?

    View Slide

  10. Como é uma arquitetura atualmente ?
    APP 1
    APP 3
    APP 6
    APP 2
    APP 2
    APP 6
    APP 2
    APP 1
    APP 7
    APP 5
    APP 2
    APP 1
    APP 5
    APP 4
    APP 4
    APP 4
    APP 3
    APP 1
    APP 1
    APP 1
    APP 2
    APP 2
    APP 5
    APP 6
    APP 4
    APP 4
    APP 1
    APP 4
    APP 1
    APP 2

    View Slide

  11. E como monitoramos isso?
    APP 1
    APP 3
    APP 6
    APP 2
    APP 2
    APP 6
    APP 2
    APP 1
    APP 7
    APP 5
    APP 2
    APP 1
    APP 5
    APP 4
    APP 4
    APP 4
    APP 3
    APP 1
    APP 1
    APP 1
    APP 2
    APP 2
    APP 5
    APP 6
    APP 4
    APP 4
    APP 1
    APP 4
    APP 1
    APP 2
    CPU
    MemÓria
    Disco
    REDE

    View Slide

  12. E como monitoramos isso?
    APP 1
    APP 3
    APP 6
    APP 2
    APP 2
    APP 6
    APP 2
    APP 1
    APP 7
    APP 5
    APP 2
    APP 1
    APP 5
    APP 4
    APP 4
    APP 4
    APP 3
    APP 1
    APP 1
    APP 1
    APP 2
    APP 2
    APP 5
    APP 6
    APP 4
    APP 4
    APP 1
    APP 4
    APP 1
    APP 2
    CPU
    MemÓria
    Disco
    REDE

    View Slide

  13. E como monitoramos isso?
    APP 1 CPU - 100%
    APP 1 CPU - 100%
    APP 1 CPU - 10%
    APP 1 CPU - 12%
    APP 1 CPU - 100%
    APP 1 CPU - 2%
    AVG CPU - 54%

    View Slide

  14. E como monitoramos isso?
    APP 1 CPU - 95%
    APP 1 CPU - 90%
    APP 1 CPU - 10%
    APP 1 CPU - 12%
    APP 1 CPU - 90%
    APP 1 CPU - 2%
    AVG CPU - 49%

    View Slide

  15. Vamos analisar
    - 50% dos usuários está
    presenciando lentidão neste
    momento
    APP 1 CPU - 100%
    APP 1 CPU - 100%
    APP 1 CPU - 10%
    APP 1 CPU - 12%
    APP 1 CPU - 100%
    APP 1 CPU - 2%

    View Slide

  16. Vamos mudar a pergunta
    Para seu usuário:
    Qual o valor ideal para uso de CPU ?
    Qual o valor ideal para uso de Memória ?
    Qual o valor ideal para uso de Disco ?
    Qual o valor ideal para uso de Rede ?

    View Slide

  17. Vamos mudar a pergunta
    Para seu usuário:
    Qual o valor ideal para uso de CPU ?
    Qual o valor ideal para uso de Memória ?
    Qual o valor ideal para uso de Disco ?
    Qual o valor ideal para uso de Rede ?

    View Slide

  18. O sistema tem que estar disponível
    O sistema tem que ser rápido
    O sistema não pode ter erros
    O que seu usuário quer...

    View Slide

  19. MAS ENTÃO QUAL A SOLUÇÃO ?

    View Slide

  20. SINTOMAS vs CAUSAS
    ● Dor de garganta
    ● Febre
    ● Dor no corpo
    ● Faringite
    ● Laringite
    ● E Ite, e ite, e ite

    View Slide

  21. SLI <
    SLO <
    SLA

    View Slide

  22. SLI
    SLO
    SLA

    View Slide

  23. SLI
    Real system problems
    1. Quantos ms leva pra adicionar um item no carrinho?
    2. Quandos ms leva para aprovar a compra?
    3. Média de erros ao aprovar uma compra

    View Slide

  24. SLO
    vs
    SLA
    O que queremos entregar (METAS)
    vs
    o que mínimo que temos de entregar (CONTRATO)

    View Slide

  25. Quando indicadores que representam a
    perspectivas do usuário estão ok
    O que significa um sistema funcionando ?

    View Slide

  26. O que eu faço
    com
    CPU/MEM/REDE?

    View Slide

  27. Golden signals
    O quick start framework
    Latency / Errors / Traffic / Saturation

    View Slide

  28. View Slide

  29. Leia, leia leia

    View Slide

  30. Perguntas?

    View Slide

  31. Monitorando sistemas
    distribuÍdos
    @nbluis - Eduardo Bohrer
    @sebawebber - Sebastian Webber

    View Slide