Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DevOps no iFood - Como é o nosso dia a dia

1b11e044d1008a64d67717c08c41a396?s=47 Eduardo
April 03, 2019
160

DevOps no iFood - Como é o nosso dia a dia

1b11e044d1008a64d67717c08c41a396?s=128

Eduardo

April 03, 2019
Tweet

Transcript

  1. DevOps no iFood Como é o nosso dia a dia

  2. Eduardo Ximenes Soares Gerente de TI/SRE

  3. Quem conhece o iFood?

  4. Alguns números...

  5. +17M pedidos/mês +150K pedidos/hora

  6. +17M pedidos/mês +150K pedidos/hora ± 40 pedidos/sec +80 pedidos/sec

  7. +17M pedidos/mês +150K pedidos/hora +80 pedidos/sec ± 40 pedidos/sec +700K

    pedidos/dia
  8. +60K restaurantes +500 cidades/BR

  9. +3M pedidos/logística +200K motoboys/ano

  10. +12M usuários +300K usuários/hora

  11. +50k req/s

  12. Desafios do crescimento...

  13. None
  14. None
  15. Tecnologias...

  16. None
  17. None
  18. None
  19. None
  20. CI / CD

  21. ~ 300 aplicações escaláveis + 1K instâncias em pico +

    300 Deploys Zero Downtime / por semana Multi Region / Multi Account Serverless Kubernetes / Chef / Terraform Resumo
  22. Mas nem tudo são flores...

  23. INFRA

  24. None
  25. PR - Terraform PR - Chef

  26. Slow

  27. Toil

  28. SRE - De onde veio?

  29. A grande necessidade de aproximação do time técnico com o

    negócio e o descontentamento dos times de desenvolvimento
  30. SRE - Por onde começamos

  31. Split do time em SRE de Projetos e SRE dentro

    dos times de desenvolvimento
  32. SRE - Onde falhamos

  33. Os SRE’s dentro dos time de desenvolvimento estavam afastados dos

    projetos e com demandas sem muito desafio técnico
  34. SRE - Como reagimos

  35. TOIL: começamos a verificar e analisar os trabalhos repetitivos e

    manuais que consomem grande parte do tempo dos SRE’s
  36. Como: através de nossas Dailys e classificando os eventos em

    Low, Medium e High
  37. Low: evento que não afeta, mas é um incômodo Medium:

    tarefas que perdemos parte do tempo High: evento que poderia afetar ou afetou plataforma ou o dia a dia dos desenvolvedores
  38. Exemplo Medium Toil: perdemos grande parte do tempo arrumando código

    de PR do Terraform Plano de ação: criar pipeline para PR do Terraform
  39. Atualmente os SRE’s atuam praticamente 50% apoiando os times de

    desenvolvimento e 50% em projetos para resolver Toil e evoluir os processos de automação
  40. SRE - Não paramos por ai

  41. Todo Toil High é tratado como Error Budget e fazemos

    Postmortem
  42. SRE - Próximos passos

  43. SLO SLA Error Budget

  44. Obrigado! Eduardo Ximenes Soares duximenes@gmail.com