Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DevOps no iFood - Como é o nosso dia a dia
Search
Eduardo
April 03, 2019
1
360
DevOps no iFood - Como é o nosso dia a dia
Eduardo
April 03, 2019
Tweet
Share
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
20
1.1k
Done Done
chrislema
181
16k
Being A Developer After 40
akosma
87
590k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
Become a Pro
speakerdeck
PRO
25
5k
We Have a Design System, Now What?
morganepeng
50
7.2k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Designing for Performance
lara
604
68k
Why Our Code Smells
bkeepers
PRO
334
57k
Transcript
DevOps no iFood Como é o nosso dia a dia
Eduardo Ximenes Soares Gerente de TI/SRE
Quem conhece o iFood?
Alguns números...
+17M pedidos/mês +150K pedidos/hora
+17M pedidos/mês +150K pedidos/hora ± 40 pedidos/sec +80 pedidos/sec
+17M pedidos/mês +150K pedidos/hora +80 pedidos/sec ± 40 pedidos/sec +700K
pedidos/dia
+60K restaurantes +500 cidades/BR
+3M pedidos/logística +200K motoboys/ano
+12M usuários +300K usuários/hora
+50k req/s
Desafios do crescimento...
None
None
Tecnologias...
None
None
None
None
CI / CD
~ 300 aplicações escaláveis + 1K instâncias em pico +
300 Deploys Zero Downtime / por semana Multi Region / Multi Account Serverless Kubernetes / Chef / Terraform Resumo
Mas nem tudo são flores...
INFRA
None
PR - Terraform PR - Chef
Slow
Toil
SRE - De onde veio?
A grande necessidade de aproximação do time técnico com o
negócio e o descontentamento dos times de desenvolvimento
SRE - Por onde começamos
Split do time em SRE de Projetos e SRE dentro
dos times de desenvolvimento
SRE - Onde falhamos
Os SRE’s dentro dos time de desenvolvimento estavam afastados dos
projetos e com demandas sem muito desafio técnico
SRE - Como reagimos
TOIL: começamos a verificar e analisar os trabalhos repetitivos e
manuais que consomem grande parte do tempo dos SRE’s
Como: através de nossas Dailys e classificando os eventos em
Low, Medium e High
Low: evento que não afeta, mas é um incômodo Medium:
tarefas que perdemos parte do tempo High: evento que poderia afetar ou afetou plataforma ou o dia a dia dos desenvolvedores
Exemplo Medium Toil: perdemos grande parte do tempo arrumando código
de PR do Terraform Plano de ação: criar pipeline para PR do Terraform
Atualmente os SRE’s atuam praticamente 50% apoiando os times de
desenvolvimento e 50% em projetos para resolver Toil e evoluir os processos de automação
SRE - Não paramos por ai
Todo Toil High é tratado como Error Budget e fazemos
Postmortem
SRE - Próximos passos
SLO SLA Error Budget
Obrigado! Eduardo Ximenes Soares
[email protected]