Что мониторим?

Что мониторим? Денис Аникин https://xfenix.ru

Технический лидер в >4 командах Обо мне 2 Стек: python
+ typescript, devops CL python community Выступаю на конференциях Работаю в ПК http://xfenix.ru

О чем будет доклад? О том как надежно мониторить сервисы
О микросервисах на python О проблемах reliability & resilience О техническом мониторинге (не о бизнес)

Поговорим о RED/USE и золотых сигналах 01 4

А может? 7

RED — Rate (например: RPS) — Errors (например: 500, 501,
502) — Duration (например: latency) 8

USE — Utilization (например: загрузка CPU 90%) — Errors (например:
50 ошибок за час) — Saturation (это сложная штука, здесь количество отложенной работы; например: topic lag) 9

4 golden signals — latency — traffic — errors —
saturation 10

Что с ними не так? 11

Много чего — Saturation многие читают по-разному — Их недостаточно
— Непонятно как внедрить — Прочтение этих «методологий» сложное, статьи объемные, определения обтекаемые 12

Мониторим базовые вещи 02 13

— Для виртуалок/реального железа/кубера подходы схожи — Каждый сервер или
ноду необходимо мониторить — Одна из лучших связок для вас — это Grafana + Prometheus Начнём с ключевых вещей Стартуем 14

Что мониторить на серверах? — CPU каждого сервера — RAM
каждого сервера — Загрузку сети — I/O вашего диска — Сколько места на дисках занято — Для этого всего вам поможет https://github.com/prometheus/node_exporter 15

Что это было? 18

Это была база 19

Достаточно ли мне базы? 20

Без вопросов, нет — Экспортер поставить было просто, но дальше
что делать? — Давайте начнём с RPS — Если у вас HTTP приложение («ручки», «эндпоинты», rest, http api, rpc via http, json-rpc), вы можете начать собирать запросы «со входа» Но дальше сложно 21

Что на входе? 22

Тут разное бывает 23

Какие бывают ингресы? 24

Мониторинг RPS — Обычно приготовить несложно — Но: если у
нас микросервисы, то графиков получается много, на какие же опираться? И какие важнее? — Но: не всегда просто отличить трафик одного сервиса от другого, если у вас нет четкого гайда именования На ингрессе 25

Если нужно собирать из nginx https://github.com/vozlt/nginx-module-vts вам поможет nginx vts
модуль 26

Ingress контролеры — https://www.getambassador.io/docs/emissary/latest/howtos/prometheus у emissary — у свежего apisix
https://apisix.apache.org/docs/apisix/plugins/prometheus/ тоже — https://docs.nginx.com/nginx-ingress-controller/logging-and-monitoring/prometheus/ ingres nginx Почти всегда оснащены экспортерами by default 27

Идем с RPS дальше — Возможно, вам понадобится мониторить RPS
«изнутри» приложения — Для этого подойдет https://github.com/claws/aioprometheus — Так же вам понадобится использовать https://github.com/prometheus/pushgateway — Не забудьте, что в счетчиках учитывать разные воркеры и хосты 29

Latency — Разбиваем на 3 группы: медиана, 95 перцентиль и
99 перцентиль — Можно снимать с ingress/proxy — Желательно в мс — Ориентир адекватного бекенда: ответ меньше, чем за 150мс 30

3 бакета существуют не просто так 32

Есть нюанс — https://bravenewgeek.com/everything-you-know-about-latency-is-wrong/ вот по этой ссылке можно почитать
почему разбиение на бакеты может давать не очень корректные результаты — вероятно, hdrhistogram будет давать вам более точные и аккуратные результаты, если мы говорим о действительно высоком SLA в девятках — «простой» способ — это бакеты median/p95/p99 и т.п. 33

Инфраструктура+ 03 35

Реляционные БД — Количество запросов в секунду — Нагрузка на
диск — Количество соединений (обязательно) — Топ самых медленных запросов (10, 20): сам запрос + время + количество таких запросов Что мониторить обязательно 36

S3 — Количество бакетов — Количество объектов — Трафик —
Использование места Что мониторить обязательно 37

Redis — Для редиса есть потрясающий https://github.com/oliver006/redis_exporter — Обычно оттуда
очень много ценной информации (количество ключей, занятая память, нагрузка, все по red/use заветам) И его NoSQL аналоги 39

Сертификаты 41

Интеграции — Вы должны мониторить ваши интеграции — Иногда имеет
смысл мониторить даже доступность чужих серверов — Приведу пример: у нас есть интеграция, которая помогает получать по каждому клиенту дополнительную информацию. Без неё мы не можем работать. Мы мониторим доступность этого сервера. Его проблемы «валят» нам latency — Приведу пример 2: мы получаем сообщения из телеграма. Мы мониторим статус вебхука из апи телеграма 42

Любые другие составляющие — Почти для всего есть в том
или ином виде prometheus exporter — Во многие штуки prometheus метрики вообще встроены — Для чего-то вам пригодится https://github.com/prometheus/blackbox_exporter Вашего сервиса 44

Более сложные вещи 04 45

Event driven architecture 46

Главное для мониторинга EDA — Сколько сообщений необработано (например: topic
lag) — Сколько подключено потребителей 47

Если этого не сделать 50

Websocket 51

Websocket — Вам необходимо мониторить все промежуточные сервера — Вам
нужно мониторить количество открытых сокетов на всех серверах — Вам нужно помнить о том, что ограничение на 1 IP — 65k — Вам нужно мониторить количество открытых файловых дескрипторов — Вам нужно мониторить ulimit soft — Вам необходимо мониторить circuit breaker’ы на всех прокси и ингрессах Постоянные соединения — проблема 53

Circuit breaker — это не шутки, не забывайте! 54

Серьезно — Ваши потенциальные «враги»: envoy, emissary — По-умолчанию оба
несут ограничение в 1024 — Если вы забудите, то постоянным соединениям конец! Circuit breaker’ы 55

56 У вебсокетов есть лицо. Позвольте показать его вам

Мониторим бизнес 05 57

Наше приложение — Вам нужно понять ключевые показатели, которые влияют
на доступность — Например, в одной из команд у нас это количество операторов на линии и количество чатов, разбитых по специальным категориям — Есть еще масса других показателей, но для нас это ключевые. Небольшие отклонения показывают нам очень многое — Ваша задача определить минимум. Вам не нужно делать в техническом мониторинге полноценный бизнес-мониторинг 58

Как же выглядит всё это в сборе? 06 59

И так более 70 экранов мониторинга 61

Алертинг 07 62

Опять всё непросто — Алертинг необходим — Определить показатели для
него — очень сложно — Сделать его без этой работы — не только невозможно, но и вредно… 63

Ошибки 08 65

Вам нужно отслеживать ошибки — Просто логов недостаточно — Вам
нужна группировка и контекст ошибки — На помощь спешит «тяжеловес» — 66

Sentry прекрасен(на?) — Стал платным — Перегружен функциональностью — Очень
тяжел — Free версию проблематично затаскивать в кубер Но, есть нюансы… 70

Альтернатива? 71

Обслуживание 09 72

Коротко — В моменты большой нагрузки графана генерирует большой трафик
— Прометеус имеет тендецию падать… — Подумайте о thanos 73

Некоторые итоги — Строить мониторинг дорого — Хороший мониторинг почти
недостижим и всегда будут «но» — Не всем сервисам нужен мониторинг — Но если вам нужен и вы ещё не начинали его делать — теперь вам будет проще это делать 75

Спасибо 76 https://xfenix.ru

Что мониторим?

Что мониторим?

More Decks by Denis Anikin

Other Decks in Programming

Featured

Transcript