Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Когда реально нужна команда мониторинга

Когда реально нужна команда мониторинга

Митап на тему "Мониторинг", 16-05-2018

Илья Аблеев, Badoo

Не все компании выделяют ресурсы на отдел мониторинга, предпочитая вместо этого передать функции инженерам эксплуатации или самим разработчикам. И все же иногда отдельная команда действительно необходима. В каком случае это целесообразно и как этой команде взаимодействовать с другими подразделениями? Мы в Badoo отвечаем за реализацию мониторинга, диагностику проблем, правильную эскалацию и много чего другого. В своём докладе я расскажу, как мы к этому пришли и какую пользу приносим.

DevOps Moscow

May 16, 2018
Tweet

More Decks by DevOps Moscow

Other Decks in Education

Transcript

  1. Что такое мониторинг? • Графики • Алерты • Служба (или

    внешний сервис) • Что-то дежурное? • Что-то ещё? :)
  2. Как было • 5-6 человек удаленно • видели проблему ->

    звонили • звонили кому придётся • без связи с другими командами • без доступа к проду
  3. Что сделали • команда в офисе • доступ к проду,

    документации, статистике и тд • схемы эскалаций • взаимодействие с админами (доклад Турецкого)
  4. Результаты • решение проблем стало быстрее • накопили опыт •

    бесполезных звонков стало меньше • появилось время заниматься проектами
  5. Как выглядит команда • дежурный круглосуточно в офисе • дневные

    + ночные смены • 6 человек (было 5) • старший дневной дежурный по будням • лид/менеджер
  6. Чем мониторим? Zabbix • алерты • “админские” графики • сетевой

    мониторинг • прочее (например, фермы Mac OS и Windows для тестов) Cassandra, ClickHouse • сбор метрик • рисуем самописным фреймворком
  7. Почему Zabbix? Без холивара :) • он уже был •

    умеем готовить и допиливать • не прыгаем с продукта на продукт каждые полгода • тестируем новые инструменты, иногда используем НЕВАЖНО, КАКОЙ ИНСТРУМЕНТ ИСПОЛЬЗУЕТСЯ У ВАС
  8. Что мониторим? Hardware диски (RAID), память (ошибки), CPU (частота), …

    OS Linux настройки, стандартные штуки (SSH, iptables) Software Docker, Nginx, PHP-FPM, MySQL, Tarantool, … Application level PHP код и ошибки, сервисы C/Go, консистентность данных User level Активность пользователей, поведение на сайте (сообщения, регистрации)
  9. Как добавляем в мониторинг? В идеальном мире: “Катим новую фичу

    в прод? Замониторить!” Чаще: “Поймали проблему, не покрытую мониторингом? Замониторить!”
  10. Что делаем при проблемах? • поиск причин и связей •

    быстрая диагностика (5-10 минут на важные проблемы) • поиск “правильных” ответственных • если проблема простая – попытка починить самим • детальное уведомление
  11. Что ещё делаем? • “первая линия поддержки разработчиков” коллеги всегда

    знают, что кто-то бдит • контроль активных инцидентов • периодический контроль долгоиграющих проблем • оповещения о глобальных проблемах • участвуем в создании постмортемов