Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Monitorando sistemas distribuidos

Monitorando sistemas distribuidos

Junto com o @nbluis apresentei essa palestra no RSJUG.

Nela falamos sobre praticas de SRE para monitoramento de sistemas distribuidos e discutimos algumas formas de passar a monitorar as applicações em diversas arquiteturas.

Sebastian Webber

June 25, 2019
Tweet

More Decks by Sebastian Webber

Other Decks in Programming

Transcript

  1. Como monitoramos isso ? Aplicação Banco de Dados CPU MemÓria

    Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE CPU MemÓria Disco REDE
  2. Nasce um uma nova forma de fazer as coisas -

    Micro-serviços - Nano-Serviços - Distribuídos - Pequenos - Independentes - Tecnologia heterogênea CONTAINERS
  3. Como é uma arquitetura atualmente ? APP 1 APP 3

    APP 6 APP 2 APP 2 APP 6 APP 2 APP 1 APP 7 APP 5 APP 2 APP 1 APP 5 APP 4 APP 4 APP 4 APP 3 APP 1 APP 1 APP 1 APP 2 APP 2 APP 5 APP 6 APP 4 APP 4 APP 1 APP 4 APP 1 APP 2
  4. E como monitoramos isso? APP 1 APP 3 APP 6

    APP 2 APP 2 APP 6 APP 2 APP 1 APP 7 APP 5 APP 2 APP 1 APP 5 APP 4 APP 4 APP 4 APP 3 APP 1 APP 1 APP 1 APP 2 APP 2 APP 5 APP 6 APP 4 APP 4 APP 1 APP 4 APP 1 APP 2 CPU MemÓria Disco REDE
  5. E como monitoramos isso? APP 1 APP 3 APP 6

    APP 2 APP 2 APP 6 APP 2 APP 1 APP 7 APP 5 APP 2 APP 1 APP 5 APP 4 APP 4 APP 4 APP 3 APP 1 APP 1 APP 1 APP 2 APP 2 APP 5 APP 6 APP 4 APP 4 APP 1 APP 4 APP 1 APP 2 CPU MemÓria Disco REDE
  6. E como monitoramos isso? APP 1 CPU - 100% APP

    1 CPU - 100% APP 1 CPU - 10% APP 1 CPU - 12% APP 1 CPU - 100% APP 1 CPU - 2% AVG CPU - 54%
  7. E como monitoramos isso? APP 1 CPU - 95% APP

    1 CPU - 90% APP 1 CPU - 10% APP 1 CPU - 12% APP 1 CPU - 90% APP 1 CPU - 2% AVG CPU - 49%
  8. Vamos analisar - 50% dos usuários está presenciando lentidão neste

    momento APP 1 CPU - 100% APP 1 CPU - 100% APP 1 CPU - 10% APP 1 CPU - 12% APP 1 CPU - 100% APP 1 CPU - 2%
  9. Vamos mudar a pergunta Para seu usuário: Qual o valor

    ideal para uso de CPU ? Qual o valor ideal para uso de Memória ? Qual o valor ideal para uso de Disco ? Qual o valor ideal para uso de Rede ?
  10. Vamos mudar a pergunta Para seu usuário: Qual o valor

    ideal para uso de CPU ? Qual o valor ideal para uso de Memória ? Qual o valor ideal para uso de Disco ? Qual o valor ideal para uso de Rede ?
  11. O sistema tem que estar disponível O sistema tem que

    ser rápido O sistema não pode ter erros O que seu usuário quer...
  12. SINTOMAS vs CAUSAS • Dor de garganta • Febre •

    Dor no corpo • Faringite • Laringite • E Ite, e ite, e ite
  13. SLI Real system problems 1. Quantos ms leva pra adicionar

    um item no carrinho? 2. Quandos ms leva para aprovar a compra? 3. Média de erros ao aprovar uma compra
  14. SLO vs SLA O que queremos entregar (METAS) vs o

    que mínimo que temos de entregar (CONTRATO)