Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Site Reliability Engineering - Descubra a nova ...

Avatar for Pery Lemke Pery Lemke
November 20, 2017

Site Reliability Engineering - Descubra a nova era para (Infraestrutura|Operações) de TI

SRE (Site Reliability Engineer) é um mindset mais antigo que DevOps, porém somente agora vem se tornando popular, mas você sabe o que é?

Criada originalmente pelo Google e aplicado em diversas empresas no mundo, SRE é uma função e uma cultura que está tornando ainda mais dinâmica a área de (Infraestrutura|Operações) de TI.

Esta talk visa mostrar o impacto do SRE na geração de valor das empresas em que o mesmo está sendo aplicado.

Avatar for Pery Lemke

Pery Lemke

November 20, 2017
Tweet

More Decks by Pery Lemke

Other Decks in Technology

Transcript

  1. $whoami • Pery Lemke aka Peronium • SRE na Ahgora

    Sistemas • Sudocaster :) • Membro da organização do meetup DevOps Floripa • Entusiasta DevOps • Garimpeiro de bandas obscuras de Stoner e Doom.
  2. Em linhas gerais o que é SRE? SRE acrônimo de

    Site Reliability Engineer é o que acontece quando você pede para um engenheiro de software para projetar uma equipe de operações. Ou seja, SRE é a implementação da cultura DevOps com aditivos.
  3. Em 2003, Ben Treynor recebeu o desafio de gerenciar a

    “Equipe de Produção” que era composta por 7 engenheiros. Porém ele era um Engenheiro de Software. Desafio proposto
  4. DevOps e SRE • DevOps é uma generalização de vários

    princípios fundamentais para uma ampla e vasta gama de organizações, estruturas de gestão e pessoal. • Já o SRE é uma implementação do DevOps com algumas extensões peculiares.
  5. O que o SRE faz no dia a dia? Um

    time SRE é responsável pela disponibilidade, latência, desempenho, eficiência, gerenciamento de mudança, monitoramento, resposta a emergência e plano de capacidade (capacity planning) dos serviços que eles são responsáveis
  6. • Arrumar periféricos em geral; • Verificar o porquê do

    Word não estar funcionando; • Saber o porque do travamento do Windows; • Desinstalar o Baidu. O que o SRE não faz no dia a dia?
  7. Times de SRE Geralmente são compostos por: • 100% do

    time são Desenvolvedores; • 50% do time com skills de Redes e SO; Com essa mescla de skills Dev e Ops o time terá competência e condições para rapidamente construir sistemas auxiliares para substituir trabalhos manuais.
  8. Foco • 50% do tempo resolvendo Tickets e atuando em

    atividades operacionais • 50% restante desenvolvendo ferramentas para automatizar as atividades
  9. Os 7 Principios fundamentais • Embracing Risk; • Service Level

    Objectives (SLO); • Eliminating Toil; • Monitoring Distributed Systems; • Automation; • Release Engineering; • Simplicity.
  10. Embracing Risk A principal função do SRE é gerenciar a

    confiabilidade do serviço através da gestão de riscos. Risco é uma constante na operação de um serviço e o dia-a-dia do time de SRE é manter a confiabilidade do serviço dentro de um range aceitável, equilibrando as demandas de alta inovação e gestão de riscos operacionais.
  11. Service Level Objectives (SLO) Muitos conhecem o termo SLA (Service

    Level Agreement), porém o Google entende isso como SLO (Service Level Objectives), onde são definidos uma série métricas para medir o serviço prestado. Porém, os indicadores devem ser exutos, muitos indicadores tornam sua operação complexa para monitorar.
  12. Eliminating Toil Não significa propriamente, trabalho que não gosto de

    fazer e nem trabalho sujo. E sim uma série de esforços: • Manual; • Repetitivo; • Automatizável; • Tático; • Sem valor a longo prazo; • Com o crescimento da operação.
  13. Monitoring Distributed Systems No Google existem os seguintes tipos de

    monitoramento: • Monitoring; • White-box monitoring; • Black-box monitoring; • Dashboard; • Alert; • Root cause; • Node and machine; • Push.
  14. Automation O valor da automação tem como base: • Consistência;

    • Plataforma; • Reparos rápidos; • Ações rápidas; • Time Saving.
  15. Release Engineering Os 4 princípios básicos de Release Engineering são:

    • Self-Service Model; • Alta velocidade; • Builds herméticos; • Execução de Políticas e Procedimentos.
  16. Simplicity O preço de confiabilidade é a busca da maior

    simplicidade. No Google, os Engenheiros buscam construir sistemas estáveis com um desenvolvimento simples para ter uma manutenção fácil no futuro.
  17. Debate O que vocês estão fazendo para melhorar o seu

    dia a dia de trabalho? Está gerando valor seja para você e para sua organização?
  18. Agradecimentos Agradecimento especial ao Fernando Ike pela mentoria para esta

    talk. Agradecer a Ahgora Sistemas pelo apoio. E as vocês por participarem e ouvirem este pobre speaker. :)