CodeFest 2019. Алексей Кирпичников (Контур) — Аварии помогают учиться

Аварии помогают учиться Алексей Кирпичников Контур

Что такое факап?

Что такое факап? У вашей блог-платформы миллион пользователей. Вы потеряли
все записи одного из них.

Что такое факап? Ваш сервис используют офисные работники. Он упал
на два часа ночью с субботы на воскресенье. Никто не заметил.

Что такое факап? Вы смотрите метрики с продакшена в Grafana.
Grafana упала на 15 минут. В продакшене ничего не сломалось, но графики посмотреть вы не могли.

Что такое факап? Инцидент — это любой незапланированный перерыв в
обслуживании или деградация сервиса, которая отразилась на доступности сервиса для пользователей. — PagerDuty Incident Response

Что такое факап? Инцидент — это любой незапланированный перерыв в
обслуживании или деградация сервиса, которая отразилась на доступности сервиса для пользователей. Серьезный инцидент — любой инцидент, который требует координированной реакции от нескольких команд. — PagerDuty Incident Response

Что такое факап? — заметная пользователям деградация сервиса; — Google
SRE Book

Что такое факап? — заметная пользователям деградация сервиса; — любая
потеря данных; — Google SRE Book

потеря данных; — вмешательство дежурного инженера; — Google SRE Book

потеря данных; — вмешательство дежурного инженера; — решение проблемы заняло слишком много времени; — Google SRE Book

потеря данных; — вмешательство дежурного инженера; — решение проблемы заняло слишком много времени; — мониторинг не сработал. — Google SRE Book

Что такое факап? — заметная пользователям (внешним или внутренним) деградация
сервиса; — Контур

сервиса; — в этот раз повезло, а в следующий может не повезти; — Контур

сервиса; — в этот раз повезло, а в следующий может не повезти; — произошедшее касается нескольких команд; — Контур

сервиса; — в этот раз повезло, а в следующий может не повезти; — произошедшее касается нескольких команд; — хотя бы один инженер считает, что нужен постмортем. — Контур

В чем польза факапа?

В чем польза факапа? Мы можем найти виноватых инженеров и:
— попросить их в следующий раз быть повнимательнее;

— попросить их в следующий раз быть повнимательнее; — отправить на курсы переподготовки;

— попросить их в следующий раз быть повнимательнее; — отправить на курсы переподготовки; — запретить им трогать важные участки системы;

— попросить их в следующий раз быть повнимательнее; — отправить на курсы переподготовки; — запретить им трогать важные участки системы; — уволить плохих и нанять нормальных.

— попросить их в следующий раз быть повнимательнее; — отправить на курсы переподготовки; — запретить им трогать важные участки системы; — уволить плохих и нанять нормальных. — традиционный подход

В чем польза факапа? Мы должны спросить у инженеров: —
когда и какие действия они предпринимали; — John Allspaw, Etsy

когда и какие действия они предпринимали; — какие события они наблюдали; — John Allspaw, Etsy

когда и какие действия они предпринимали; — какие события они наблюдали; — какого результата своих действий они ожидали; — John Allspaw, Etsy

когда и какие действия они предпринимали; — какие события они наблюдали; — какого результата своих действий они ожидали; — из каких предположений они исходили; — John Allspaw, Etsy

когда и какие действия они предпринимали; — какие события они наблюдали; — какого результата своих действий они ожидали; — из каких предположений они исходили; — как они понимают последовательность событий. — John Allspaw, Etsy

когда и какие действия они предпринимали; — какие события они наблюдали; — какого результата своих действий они ожидали; — из каких предположений они исходили; — как они понимают последовательность событий. …и все это нужно спрашивать без угрозы наказания. — John Allspaw, Etsy

В чем польза факапа? разработал выкатил ?

В чем польза факапа? разработал выкатил постмортем

№1. Некогда писать, война нынче

Хронология событий 15.01.18 17:25 YEKT   По логам подтверждается гипотеза,
что запросы отваливаются по троттлингу. Замечаем в логах много PrefixSearch с 50к документами в ответе.

Скриншоты

№2. Лень

Шаблон —…почитайте гуру…

Шаблон —…почитайте гуру… —добавьте памятку с примерами; — Контур

Шаблон — памятка Ущерб Качественная оценка  Какая функциональность не работала,
насколько долго, у кого. Была ли потеря или порча данных. Выбери поле справа.

Шаблон — памятка Ущерб Качественная оценка  Какая функциональность не работала,
насколько долго, у кого. Была ли потеря или порча данных. Выбери поле справа. Количественная оценка  По метрикам приложения и приложений-клиентов (сколько запросов отпало, насколько выросла latency)  По обращениям пользователей (сколько звонков потеряно, размер очереди по проблеме)

Шаблон —…почитайте гуру… —добавьте памятку с примерами; —добавьте глоссарий; —
Контур

Шаблон — глоссарий Релей — сервис carbon-c-relay, который принимает агрегированные
метрики от приложений и перенаправляет их в стораджи Графита и в Мойру.

Шаблон —…почитайте гуру… —добавьте памятку с примерами; —добавьте глоссарий; —делайте
копии всего: —снапшоты Grafana; —истории чатов. — Контур

№3. А кто его будет читать?

№3. А кто его будет читать? разработал выкатил постмортем

№3. А кто его будет читать? —результат постмортема — задачи
(actions); — Atlassian Incident Handbook

(actions); —создайте задачу в багтрекере команды; — Atlassian Incident Handbook

(actions); —создайте задачу в багтрекере команды; —поставьте ссылку из постмортема. — Atlassian Incident Handbook

Диванная аналитика

Диванная аналитика —длительность; — Контур

Диванная аналитика — длительность

Диванная аналитика —длительность; —качественные виды ущерба; — Контур

Диванная аналитика — ущерб

Диванная аналитика —длительность; —качественные виды ущерба; —триггеры; — Контур

Диванная аналитика — триггер

Диванная аналитика —длительность; —качественные виды ущерба; —триггеры; —«таблетки»; — Контур

Диванная аналитика — «таблетки» —10% — алерты на количество HTTP-ошибок
со стороны клиента (500-ки, таймауты);

со стороны клиента (500-ки, таймауты); —8% — алерты на появление новых типов ошибок в логах;

со стороны клиента (500-ки, таймауты); —8% — алерты на появление новых типов ошибок в логах; —6% — алерты на системные метрики (CPU, memory, net, disk, threads, GC).

Диванная аналитика —длительность; —качественные виды ущерба; —триггеры; —«таблетки»; —рекомендации. —
Контур

Диванная аналитика — рекомендации —5% — схожесть тестовой и боевой
площадки;

площадки; —4% — обратная совместимость в релизах;

площадки; —4% — обратная совместимость в релизах; —4% — ночные релизы.

Диванная аналитика — как писать? — собирайте все в одном
багтрекере; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — начало и конец расследования; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — начало и конец расследования; — триггер; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — начало и конец расследования; — триггер; — как заметили; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — начало и конец расследования; — триггер; — как заметили; — качественный и количественный ущерб; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — начало и конец расследования; — триггер; — как заметили; — качественный и количественный ущерб; — затронутые команды и сервисы; — Контур

багтрекере; — заведите специальные поля: — начало и конец факапа; — начало и конец расследования; — триггер; — как заметили; — качественный и количественный ущерб; — затронутые команды и сервисы; — соберите команду инженеров, которых волнует качество. — Контур

Почитайте гуру — kitchensoap.com/2013/09/30/learning-from-failure-at-etsy/ — atlassian.com/software/jira/ops/handbook/incident-postmortems — response.pagerduty.com/after/post_mortem_process/ — landing.google.com/sre/sre-book/chapters/postmortem-culture/

Начните делать сами —заведите проект в багтрекере;

Начните делать сами —заведите проект в багтрекере; —украдите у кого-нибудь
шаблон;

Начните делать сами —заведите проект в багтрекере; —украдите у кого-нибудь
шаблон; —когда в следующий раз что-нибудь взорвется, просто пишите.

Алексей Кирпичников Контур Вопросы? tech.kontur.ru [email protected]

CodeFest 2019. Алексей Кирпичников (Контур) — А...

CodeFest 2019. Алексей Кирпичников (Контур) — Аварии помогают учиться

More Decks by CodeFest

Other Decks in Technology

Featured

Transcript