Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DevOps no iFood - Como é o nosso dia a dia

Eduardo
April 03, 2019
250

DevOps no iFood - Como é o nosso dia a dia

Eduardo

April 03, 2019
Tweet

Transcript

  1. DevOps no iFood
    Como é o nosso dia a dia

    View full-size slide

  2. Eduardo Ximenes Soares
    Gerente de TI/SRE

    View full-size slide

  3. Quem conhece o iFood?

    View full-size slide

  4. Alguns números...

    View full-size slide

  5. +17M
    pedidos/mês
    +150K
    pedidos/hora

    View full-size slide

  6. +17M
    pedidos/mês
    +150K
    pedidos/hora
    ± 40
    pedidos/sec
    +80
    pedidos/sec

    View full-size slide

  7. +17M
    pedidos/mês
    +150K
    pedidos/hora
    +80
    pedidos/sec
    ± 40
    pedidos/sec
    +700K
    pedidos/dia

    View full-size slide

  8. +60K
    restaurantes
    +500
    cidades/BR

    View full-size slide

  9. +3M
    pedidos/logística
    +200K
    motoboys/ano

    View full-size slide

  10. +12M
    usuários
    +300K
    usuários/hora

    View full-size slide

  11. Desafios do crescimento...

    View full-size slide

  12. Tecnologias...

    View full-size slide

  13. ~ 300 aplicações escaláveis
    + 1K instâncias em pico
    + 300 Deploys Zero Downtime / por semana
    Multi Region / Multi Account
    Serverless
    Kubernetes / Chef / Terraform
    Resumo

    View full-size slide

  14. Mas nem tudo
    são flores...

    View full-size slide

  15. PR - Terraform
    PR - Chef

    View full-size slide

  16. SRE - De onde veio?

    View full-size slide

  17. A grande necessidade de aproximação
    do time técnico com o negócio e o
    descontentamento dos times de desenvolvimento

    View full-size slide

  18. SRE - Por onde começamos

    View full-size slide

  19. Split do time em SRE de Projetos e
    SRE dentro dos times de desenvolvimento

    View full-size slide

  20. SRE - Onde falhamos

    View full-size slide

  21. Os SRE’s dentro dos time de desenvolvimento
    estavam afastados dos projetos e com demandas
    sem muito desafio técnico

    View full-size slide

  22. SRE - Como reagimos

    View full-size slide

  23. TOIL: começamos a verificar e analisar os trabalhos
    repetitivos e manuais que consomem grande parte do
    tempo dos SRE’s

    View full-size slide

  24. Como: através de nossas Dailys e classificando
    os eventos em Low, Medium e High

    View full-size slide

  25. Low: evento que não afeta, mas é um incômodo
    Medium: tarefas que perdemos parte do tempo
    High: evento que poderia afetar ou afetou plataforma
    ou o dia a dia dos desenvolvedores

    View full-size slide

  26. Exemplo Medium
    Toil: perdemos grande parte do tempo
    arrumando código de PR do Terraform
    Plano de ação: criar pipeline para PR do Terraform

    View full-size slide

  27. Atualmente os SRE’s atuam praticamente 50% apoiando
    os times de desenvolvimento
    e 50% em projetos para resolver
    Toil e evoluir os processos de automação

    View full-size slide

  28. SRE - Não paramos por ai

    View full-size slide

  29. Todo Toil High é tratado como Error Budget
    e fazemos Postmortem

    View full-size slide

  30. SRE - Próximos passos

    View full-size slide

  31. SLO
    SLA
    Error Budget

    View full-size slide

  32. Obrigado!
    Eduardo Ximenes Soares
    [email protected]

    View full-size slide