Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DevOps no iFood - Como é o nosso dia a dia

Eduardo
April 03, 2019
220

DevOps no iFood - Como é o nosso dia a dia

Eduardo

April 03, 2019
Tweet

Transcript

  1. DevOps no iFood
    Como é o nosso dia a dia

    View Slide

  2. Eduardo Ximenes Soares
    Gerente de TI/SRE

    View Slide

  3. Quem conhece o iFood?

    View Slide

  4. Alguns números...

    View Slide

  5. +17M
    pedidos/mês
    +150K
    pedidos/hora

    View Slide

  6. +17M
    pedidos/mês
    +150K
    pedidos/hora
    ± 40
    pedidos/sec
    +80
    pedidos/sec

    View Slide

  7. +17M
    pedidos/mês
    +150K
    pedidos/hora
    +80
    pedidos/sec
    ± 40
    pedidos/sec
    +700K
    pedidos/dia

    View Slide

  8. +60K
    restaurantes
    +500
    cidades/BR

    View Slide

  9. +3M
    pedidos/logística
    +200K
    motoboys/ano

    View Slide

  10. +12M
    usuários
    +300K
    usuários/hora

    View Slide

  11. +50k
    req/s

    View Slide

  12. Desafios do crescimento...

    View Slide

  13. View Slide

  14. View Slide

  15. Tecnologias...

    View Slide

  16. View Slide

  17. View Slide

  18. View Slide

  19. View Slide

  20. CI / CD

    View Slide

  21. ~ 300 aplicações escaláveis
    + 1K instâncias em pico
    + 300 Deploys Zero Downtime / por semana
    Multi Region / Multi Account
    Serverless
    Kubernetes / Chef / Terraform
    Resumo

    View Slide

  22. Mas nem tudo
    são flores...

    View Slide

  23. INFRA

    View Slide

  24. View Slide

  25. PR - Terraform
    PR - Chef

    View Slide

  26. Slow

    View Slide

  27. Toil

    View Slide

  28. SRE - De onde veio?

    View Slide

  29. A grande necessidade de aproximação
    do time técnico com o negócio e o
    descontentamento dos times de desenvolvimento

    View Slide

  30. SRE - Por onde começamos

    View Slide

  31. Split do time em SRE de Projetos e
    SRE dentro dos times de desenvolvimento

    View Slide

  32. SRE - Onde falhamos

    View Slide

  33. Os SRE’s dentro dos time de desenvolvimento
    estavam afastados dos projetos e com demandas
    sem muito desafio técnico

    View Slide

  34. SRE - Como reagimos

    View Slide

  35. TOIL: começamos a verificar e analisar os trabalhos
    repetitivos e manuais que consomem grande parte do
    tempo dos SRE’s

    View Slide

  36. Como: através de nossas Dailys e classificando
    os eventos em Low, Medium e High

    View Slide

  37. Low: evento que não afeta, mas é um incômodo
    Medium: tarefas que perdemos parte do tempo
    High: evento que poderia afetar ou afetou plataforma
    ou o dia a dia dos desenvolvedores

    View Slide

  38. Exemplo Medium
    Toil: perdemos grande parte do tempo
    arrumando código de PR do Terraform
    Plano de ação: criar pipeline para PR do Terraform

    View Slide

  39. Atualmente os SRE’s atuam praticamente 50% apoiando
    os times de desenvolvimento
    e 50% em projetos para resolver
    Toil e evoluir os processos de automação

    View Slide

  40. SRE - Não paramos por ai

    View Slide

  41. Todo Toil High é tratado como Error Budget
    e fazemos Postmortem

    View Slide

  42. SRE - Próximos passos

    View Slide

  43. SLO
    SLA
    Error Budget

    View Slide

  44. Obrigado!
    Eduardo Ximenes Soares
    [email protected]

    View Slide