Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
DevOps no iFood - Como é o nosso dia a dia
Eduardo
April 03, 2019
1
160
DevOps no iFood - Como é o nosso dia a dia
Eduardo
April 03, 2019
Tweet
Share
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
261
25k
Web Components: a chance to create the future
zenorocha
303
40k
Building Better People: How to give real-time feedback that sticks.
wjessup
343
17k
How GitHub Uses GitHub to Build GitHub
holman
465
280k
Building an army of robots
kneath
299
40k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
226
15k
What’s in a name? Adding method to the madness
productmarketing
11
1.5k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
181
15k
Optimizing for Happiness
mojombo
365
63k
The Invisible Side of Design
smashingmag
289
48k
Why You Should Never Use an ORM
jnunemaker
PRO
47
5.5k
Designing for Performance
lara
596
63k
Transcript
DevOps no iFood Como é o nosso dia a dia
Eduardo Ximenes Soares Gerente de TI/SRE
Quem conhece o iFood?
Alguns números...
+17M pedidos/mês +150K pedidos/hora
+17M pedidos/mês +150K pedidos/hora ± 40 pedidos/sec +80 pedidos/sec
+17M pedidos/mês +150K pedidos/hora +80 pedidos/sec ± 40 pedidos/sec +700K
pedidos/dia
+60K restaurantes +500 cidades/BR
+3M pedidos/logística +200K motoboys/ano
+12M usuários +300K usuários/hora
+50k req/s
Desafios do crescimento...
None
None
Tecnologias...
None
None
None
None
CI / CD
~ 300 aplicações escaláveis + 1K instâncias em pico +
300 Deploys Zero Downtime / por semana Multi Region / Multi Account Serverless Kubernetes / Chef / Terraform Resumo
Mas nem tudo são flores...
INFRA
None
PR - Terraform PR - Chef
Slow
Toil
SRE - De onde veio?
A grande necessidade de aproximação do time técnico com o
negócio e o descontentamento dos times de desenvolvimento
SRE - Por onde começamos
Split do time em SRE de Projetos e SRE dentro
dos times de desenvolvimento
SRE - Onde falhamos
Os SRE’s dentro dos time de desenvolvimento estavam afastados dos
projetos e com demandas sem muito desafio técnico
SRE - Como reagimos
TOIL: começamos a verificar e analisar os trabalhos repetitivos e
manuais que consomem grande parte do tempo dos SRE’s
Como: através de nossas Dailys e classificando os eventos em
Low, Medium e High
Low: evento que não afeta, mas é um incômodo Medium:
tarefas que perdemos parte do tempo High: evento que poderia afetar ou afetou plataforma ou o dia a dia dos desenvolvedores
Exemplo Medium Toil: perdemos grande parte do tempo arrumando código
de PR do Terraform Plano de ação: criar pipeline para PR do Terraform
Atualmente os SRE’s atuam praticamente 50% apoiando os times de
desenvolvimento e 50% em projetos para resolver Toil e evoluir os processos de automação
SRE - Não paramos por ai
Todo Toil High é tratado como Error Budget e fazemos
Postmortem
SRE - Próximos passos
SLO SLA Error Budget
Obrigado! Eduardo Ximenes Soares duximenes@gmail.com