Upgrade to Pro — share decks privately, control downloads, hide ads and more …

10 лет on-call. Чему мы научились?

flant
October 29, 2019

10 лет on-call. Чему мы научились?

Доклад технического директора компании «Флант» (https://flant.ru/) Дмитрия Столярова на конференции DevOops 2019 в Санкт-Петербурге.

* Текстовый обзор доклада: https://habr.com/company/flant/blog/484808/
* Видео с выступления: https://youtu.be/7ZWGFnqhSLU

flant

October 29, 2019
Tweet

More Decks by flant

Other Decks in Technology

Transcript

  1. Дмитрий Столяров
    CTO & Co-founder
    10 лет on-call
    Чему мы научились?

    View Slide

  2. Скрипт в Cron
    Источники сообщений

    View Slide

  3. Скрипт в Cron
    Источники сообщений

    View Slide

  4. Дежурный инженер
    Скрипт в Cron
    Источники сообщений

    View Slide

  5. View Slide

  6. Центральное
    хранилище

    View Slide

  7. Центральное
    хранилище
    Переключатель

    View Slide

  8. Центральное
    хранилище
    Переключатель Транспорт

    View Slide

  9. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст
    !=

    View Slide

  10. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт
    != !=

    View Slide

  11. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    != !=

    View Slide

  12. Какие бывают алерты?

    View Slide

  13. Мгновенные
    Какие бывают алерты?
    Просто информация
    о произошедшем событии

    View Slide

  14. Какие бывают алерты?
    Мгновенные
    Просто информация
    о произошедшем событии
    Длящиеся
    ● Сообщение каждые N секунд
    ● Сообщение о начале и конце
    ● И то и другое

    View Slide

  15. Какие бывают алерты?
    Мгновенные
    Просто информация
    о произошедшем событии
    Состояние:
    Отсутствует,
    есть просто время
    срабатывания
    Длящиеся
    ● Сообщение каждые N секунд
    ● Сообщение о начале и конце
    ● И то и другое

    View Slide

  16. Мгновенные
    Просто информация
    о произошедшем событии
    Состояние:
    Отсутствует,
    есть просто время
    срабатывания
    Длящиеся
    ● Сообщение каждые N секунд
    ● Сообщение о начале и конце
    ● И то и другое
    Состояние:
    ● Firing ● Not firing ● Unknown
    или
    ● Firing ● Not firing
    Какие бывают алерты?

    View Slide

  17. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    != !=

    View Slide

  18. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    !=

    View Slide

  19. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация
    !=

    View Slide

  20. ****

    View Slide

  21. ****

    View Slide

  22. ****

    View Slide

  23. ****

    View Slide

  24. ****

    View Slide

  25. ****

    View Slide

  26. ********

    View Slide

  27. ********

    View Slide

  28. View Slide

  29. View Slide

  30. View Slide

  31. View Slide

  32. firing
    unknown ok (not firing)

    View Slide

  33. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация
    !=

    View Slide

  34. View Slide

  35. View Slide

  36. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация
    !=

    View Slide

  37. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    !=

    View Slide

  38. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки
    !=

    View Slide

  39. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка
    !=

    View Slide

  40. View Slide

  41. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка
    !=

    View Slide

  42. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    !=

    View Slide

  43. View Slide

  44. View Slide

  45. View Slide

  46. View Slide

  47. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    !=

    View Slide

  48. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    !=

    View Slide

  49. Примеры MQL (для поиска):
    trigger = "IngressResponses5xx"

    View Slide

  50. Примеры MQL (для поиска):
    trigger = "IngressResponses5xx"
    trigger = "IngressResponses5xx" AND project = "horns-and-hooves"

    View Slide

  51. Примеры MQL (для поиска):
    trigger = "IngressResponses5xx"
    trigger = "IngressResponses5xx" AND project = "horns-and-hooves"
    project = "horns-and-hooves" AND trigger = "IngressResponses5xx"
    AND ~kubernetes = "msm-prod" and ~vhost =~ "static.example.com"

    View Slide

  52. Примеры MQL (для поиска):
    trigger = "IngressResponses5xx"
    trigger = "IngressResponses5xx" AND project = "horns-and-hooves"
    project = "horns-and-hooves" AND trigger = "IngressResponses5xx"
    AND ~kubernetes = "msm-prod" and ~vhost =~ "static.example.com"
    Примеры MQL (для маршрутизации):
    project = "horns-and-hooves" AND ~server = "gitlab" -> @vasiliy.vasiliyev

    View Slide

  53. Примеры MQL (для поиска):
    trigger = "IngressResponses5xx"
    trigger = "IngressResponses5xx" AND project = "horns-and-hooves"
    project = "horns-and-hooves" AND trigger = "IngressResponses5xx"
    AND ~kubernetes = "msm-prod" and ~vhost =~ "static.example.com"
    Примеры MQL (для маршрутизации):
    project = "horns-and-hooves" AND ~server = "gitlab"
    project = "horns-and-hooves" AND ~kubernetes = "dev"
    -> @vasiliy.vasiliyev
    -> @petr.petrov

    View Slide

  54. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    !=
    Язык запросов Маршрутизация

    View Slide

  55. View Slide

  56. View Slide

  57. View Slide

  58. View Slide

  59. View Slide

  60. View Slide

  61. View Slide

  62. View Slide

  63. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация
    !=
    Горячая аналитика

    View Slide

  64. View Slide

  65. View Slide

  66. View Slide

  67. View Slide

  68. L1
    24/7 & смены по 12 часов

    View Slide

  69. L1
    24/7 & смены по 12 часов

    View Slide

  70. L1
    24/7 & смены по 8 часов

    View Slide

  71. DevOps Team B
    DevOps Team A
    L1
    24/7 & смены по 8 часов

    View Slide

  72. L2
    только будние дни
    DevOps Team B
    DevOps Team A
    L1
    24/7 & смены по 8 часов

    View Slide

  73. L2
    24/7 & смены по 8 часов
    DevOps Team B
    DevOps Team A
    L1
    24/7 & смены по 8 часов

    View Slide

  74. L2
    24/7 & смены по 8 часов
    DevOps Team B
    DevOps Team A
    L1
    24/7 & смены по 8 часов

    View Slide

  75. Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    L2
    24/7 & смены по 8 часов
    DevOps Team B
    DevOps Team A
    L1
    24/7 & смены по 8 часов

    View Slide

  76. DevOps Team A DevOps Team B DevOps Team C
    Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    L2
    24/7 & смены по 8 часов
    L1
    24/7 & смены по 8 часов

    View Slide

  77. Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team A DevOps Team B DevOps Team C
    L2
    24/7 & смены по 8 часов
    L1
    24/7 & смены по 8 часов

    View Slide

  78. Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team A DevOps Team B DevOps Team C
    L2
    24/7 & смены по 8 часов
    L1
    24/7 & смены по 8 часов

    View Slide

  79. Teamlead Teamlead
    deputy
    Project
    manager
    Duty L1-1
    Support Team
    and DevOps accelerator
    DevOps Team A
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team B
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team C
    Duty L1-2

    View Slide

  80. Teamlead Teamlead
    deputy
    Project
    manager
    Duty L1-1
    DevOps Team A
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team B
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team C
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team E
    Duty L1-2
    Support Team
    and DevOps accelerator

    View Slide

  81. Teamlead Teamlead
    deputy
    Project
    manager
    L1M
    Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    Teamlead Teamlead
    deputy
    Project
    manager
    DevOps Team A DevOps Team B DevOps Team C DevOps Team E

    View Slide

  82. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика
    !=

    View Slide

  83. View Slide

  84. View Slide

  85. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика
    !=
    Документация

    View Slide

  86. Что “мониторить”?

    View Slide

  87. Внутренние показатели?
    df, loadavg, free, ...
    Что “мониторить”?

    View Slide

  88. Внутренние показатели?
    df, loadavg, free, ...
    Показатели доступности?
    коды ответов, время ответов, проходит curl, smoke-тесты, ...
    Что “мониторить”?

    View Slide

  89. Внутренние показатели?
    df, loadavg, free, ...
    Показатели доступности?
    коды ответов, время ответов, проходит curl, smoke-тесты, ...
    Бизнес метрики?
    добавления в корзину, сделанные заказы, успешные транзакции, …
    Что “мониторить”?

    View Slide

  90. Внутренние показатели?
    df, loadavg, free, ...
    Показатели доступности?
    коды ответов, время ответов, проходит curl, smoke-тесты, ...
    Бизнес метрики?
    добавления в корзину, сделанные заказы, успешные транзакции, …
    Что “мониторить”? Дилемма
    «поздно»/«лишнее»

    View Slide

  91. Priority?
    Minor
    Moderate
    Major
    Critical
    Severity?
    DEBUG
    INFO
    WARNING
    ERROR
    CRITICAL

    View Slide

  92. View Slide

  93. А так же:
    Отделение окружения

    View Slide

  94. А так же:
    Отделение окружения
    Параметризация
    пороговых значений

    View Slide

  95. А так же:
    Отделение окружения
    Параметризация
    пороговых значений
    Параметризация
    уровня северити

    View Slide

  96. А так же:
    Отделение окружения
    Параметризация
    пороговых значений
    Параметризация
    уровня северити
    Написание алертов
    с учетом архитектуры

    View Slide

  97. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum
    Gold
    Silver
    None

    View Slide

  98. response time = f(Severity, Service Level)
    S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum
    Gold
    Silver
    None

    View Slide

  99. response time = f(Severity, Service Level)
    S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum
    Gold
    Silver
    None

    View Slide

  100. response time = f(Severity, Service Level)
    S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 24h 24h 24h
    Gold 24h 24h 24h
    Silver 24h 24h 24h
    None 24h 24h 24h 24h

    View Slide

  101. response time = f(Severity, Service Level)
    S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h

    View Slide

  102. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация
    !=

    View Slide

  103. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация
    !=
    Дилемма
    «поздно»/«лишнее»
    Severity Автоматический разбор

    View Slide

  104. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация
    !=
    Дилемма
    «поздно»/«лишнее»
    Severity Автоматический разбор Перенос Pending
    в центральную систему

    View Slide

  105. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h

    View Slide

  106. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h

    View Slide

  107. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h
    Не обрабатываем.
    Ретроспектива!

    View Slide

  108. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h
    Не обрабатываем.
    Ретроспектива!

    View Slide

  109. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h
    Не обрабатываем.
    Ретроспектива!
    Обрабатываем
    асинхронно,
    большими пачками!

    View Slide

  110. S1 S2 S3 S4 S5 S6 S7 S8 S9
    Platinum 1m 5m 10m 30m 24h 24h 24h
    Gold 5m 10m 30m 24h 24h 24h
    Silver 10m 30m 24h 24h 24h
    None 24h 24h 24h 24h
    Не обрабатываем.
    Ретроспектива!
    Обрабатываем
    асинхронно,
    большими пачками!
    Обрабатываем!

    View Slide

  111. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация Дилемма
    «поздно»/«лишнее»
    Severity Автоматический разбор Перенос Pending
    в центральную систему
    !=

    View Slide

  112. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация Дилемма
    «поздно»/«лишнее»
    Severity Автоматический разбор Перенос Pending
    в центральную систему
    !=
    Kubernetes
    нюансы

    View Slide

  113. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация Дилемма
    «поздно»/«лишнее»
    Severity Автоматический разбор Перенос Pending
    в центральную систему
    Kubernetes
    нюансы
    !=
    SLA, роботы

    View Slide

  114. Центральное
    хранилище
    Переключатель Транспорт Алерт != Текст Инцидент != Алерт Лейблы, лейблы, лейблы!
    !=
    Состояние
    и правильный протокол
    Дедупликация Рабочий процесс
    у инцидентов
    Гарантии доставки Эстафетная палочка Умный игнор
    Мониторинг
    мониторинга
    Язык запросов Маршрутизация Горячая аналитика Документация Дилемма
    «поздно»/«лишнее»
    Severity Автоматический разбор Перенос Pending
    в центральную систему
    Kubernetes
    нюансы
    SLA, роботы
    ...
    !=

    View Slide

  115. v1
    v2

    View Slide

  116. Инциденты

    View Slide

  117. Инциденты
    Алерты

    View Slide

  118. Инциденты
    Алерты
    События

    View Slide

  119. Инциденты
    Алерты
    События
    Сообщения

    View Slide

  120. Мы любим Open Source…
    werf, grafana-statusmap, shell-operator, loghouse… — у наших проектов
    уже более 3000 звёзд, см. github.com/flant
    Хотите Open Source?
    … но ресурсы ограничены
    Было бы классно делать все продукты как Open Source.
    К сожалению, это затратно и большая ответственность
    Предлагаем флешмоб: расскажите, что вам это нужно
    Поделитесь ссылкой на этот доклад в Facebook или Twitter с хэштегом #Флант

    View Slide

  121. Хотите к себе в компанию?
    Мы готовы внедрять
    Если вы работаете в крупной компании
    и вас заинтересовало решение — давайте обсудим его внедрение
    … и дорабатывать
    Адаптация — необходимая составляющая подобных решений
    Напишите на sales@flant.ru
    Тема: «Система управления инцидентами»

    View Slide

  122. Знакомые проблемы?
    Мы ищем бизнес-партнёра!
    Помочь сделать лучшее решение по управлению инцидентами
    в роли product-менеджера и продвинуть его на рынок
    Успех продукта — ваш успех
    Обменяем долю с проекта на готовность посвятить ему своё время
    Напишите на hr@flant.ru
    Тема: «Система управления инцидентами»

    View Slide

  123. Спасибо Сергею Гнускову, Геннадию Калашникову
    и Антону Климову, которые все это сделали!

    View Slide

  124. Дежурный инженер
    Скрипт в Cron
    Источники сообщений

    View Slide

  125. Спасибо!
    Наш блог на Хабре
    habr.com/company/flant
    Наш YouTube-канал
    youtube.com/c/Флант
    Дмитрий Столяров
    dmitry.stolyarov@flant.com
    CTO & Co-founder
    Приходите к нам работать
    job.flant.ru

    View Slide