Moscow Python Meetup №88. Иван Елфимов (Ostrovok.ru, тимлид). Переход от Statsd к Prometheus в большом Django-проекте

Prometheus в нагруженном Django-проекте Иван Елфимов Тимлид партнёрки, Ostrovok.ru Как
мы знакомились с Prometheus и дружили его с Django

2 Компания в цифрах 350+ технических сотрудников 30000+ бронирований в
день Сотрудничаем с Aviasales, Tutu, Аэрофлотом, Победой +50% новых технических сотрудников в 2023 Компания основана в 2010 году

3 План 1. Предпосылки 2. Prometheus 3. Кодирование 4. Подводные
камни

4 Предпосылки живем со StatsD + InfluxDB + Kapacitor уже
300+ сервисов StatsD перестал справляться и начал терять до 40% метрик (отчасти UDP, отчасти аггрегатор) DevOps завезли Prometheus для инфры решили перейти с push на pull модель

5 Подходы к сбору метрик

6 Prometheus 1. Теория 2. Инфраструктура 3. Практика 4. Библиотеки

1 1 0 1 0 1 0 0 1 0
1 1 0 0 1 1 0 0 0 0 1 1 1 0 1 0 1 1 7 Теория есть несколько типов метрик гистограммы + summary (request time) счетчики датчики/gauge (free memory, temperature) бакеты для гистограмм есть дефолтные (слишком большая разбивка до секунды) 0.1, 0.25, 0.5, 1, 1.5, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, INF нас не интересуют слишком быстрые API самое мясо с 0.1с до 5с, нужно чтобы было поточнее больше 10с - надо оптимизировать (или забить)

8 Инфраструктура используем VictoriaMetrics Consul знает о всех сервисах vmagent
скрейпит подмешиваем лейблы на стороне скрейпера (датацентр, название контейнера и др.)

9 Практика строим графики в Grafana источник один на всех
- VictoriaMetrics думали как глобально организовать метрики большая часть экспортеров уже с норм префиксами ... go_gc_forced_count go_gc_gomemlimit_bytes ... pg_database_size_bytes ...

10 Практика объединять метрики библиотек или нет? например rq-exporter или
django-exporter могут быть в нескольких сервисах специфичные метрики сервисов точно со своими префиксами 1 rq_workers_success_total{container_name="app1"} 0.5 2 3 partner_foo_errors{error="test"} 5 4 partner_custom_metric{bar="buz"} 1.5 5

11 Библиотеки prometheus/client_python базовый пакет, альтернатив, как таковых, нет умеет
всё, но и настраивать всё самому korfuri/django-prometheus много всего из коробки (под капотом тот же client_python ) привязан к внутрянке Django (мидлвари, кэш, запросы в бд) mdawar/rq-exporter для rq другого живого нет есть дашборд для Grafana осторожней с кардинальностью (cardinality)

12 Кодирование 1. Как организуем модули 2. Инициализация 3. Определения
метрик 4. Определения метрик 5. Методы для отправки 6. Использование 7. Как было и как стало 8. Зачем написали обёртку для клиента 9. Переходный период 10. Ещё раз про бакеты

13 Как организуем модули 1 app 2 └──clients 3 ├──
intranet 4 │ └── __init__.py 5 ├── statsd 6 │ └── __init__.py 7 ├── prometheus 8 │ └── __init__.py 9 └── ... 10

14 Инициализация 1 from prometheus_client import CONTENT_TYPE_LATEST, CollectorRegistry, generate_latest, multiprocess
2 3 4 class PrometheusClient: 5 HTTP_RESPONSE_TIME_BUCKETS = ( 6 0.1, 0.25, 0.5, 1, 1.5, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, INF 7 ) 8 # определения метрик 9 # ... 10 11 def __init__(self, path: str) -> None: 12 self.content_type = CONTENT_TYPE_LATEST 13 self.registry = CollectorRegistry() 14 multiprocess.MultiProcessCollector( 15 registry=self.registry, 16 path=path, 17 ) 18 19 def expose(self) -> bytes: 20 return generate_latest(self.registry) 21 22 # где-то в самом конце __init__.py 23 prometheus = PrometheusClient(path=settings.PROMETHEUS_MULTIPROC_DIR) 24

15 Определения метрик # HELP partner_reports_count Counter the amount of
reports by manager # TYPE partner_reports_count counter partner_reports_count_total{status="ok",...} 25.0 1 # пример Counter 2 reports_count = Counter( 3 name='partner_reports_count', 4 documentation='Counter the amount of reports by manager', 5 labelnames=['tool', 'status', 'error', 'manager'], 6 ) 7

16 Определения метрик # HELP partner_api_view API View Timing #
TYPE partner_api_view histogram partner_api_view_sum{result="ok",...,view="my_view"} 1.794705 partner_api_view_bucket{result="ok",...,view="my_view",le="0.1"} 47.0 partner_api_view_bucket{result="ok",...,view="my_view",le="0.25"} 49.0 partner_api_view_count{result="ok",...,view="my_view"} 49.0 1 # пример Histogram 2 api_view_timing = Histogram( 3 name='partner_api_view', 4 documentation='API View Timing', 5 labelnames=['step', 'view', 'consumer', 'result'], 6 buckets=HTTP_RESPONSE_TIME_BUCKETS, 7 ) 8

17 Методы для отправки 1 def send_api_view_timing(self, value: float, **labels)
-> None: 2 self.api_view_timing.labels(**labels).observe(value) 3 4 def incr_reports_count(self, **labels) -> None: 5 self.special_reports_count.labels(**labels).inc() 6 7 def send_api_client_timing(self, value: float, **labels) -> None: 8 self.api_client_timing.labels(**labels).observe(value) 9

18 Использование 1 from app.client.prometheus import prometheus 2 3 #
где-то в глубинах нашего самописного фреймворка 4 5 # конечно же фича-флаги 6 if settings.IS_PROMETHEUS_ENABLED: 7 prometheus.send_api_view_timing( 8 value=rate.total_seconds(), 9 step='method', 10 view=_view_name, 11 result=status, 12 consumer=None, 13 ) 14

19 Использование 1 # где-то в глубинах BaseClient 2 def
_send_metrics( 3 self, 4 request_start_time: float, 5 tags: dict | None = None, 6 ): 7 if self.prometheus_client and settings.IS_PROMETHEUS_ENABLED: 8 labels = { 9 # **tags, self.cls_name, etc. 10 } 11 value = time.time() - request_start_time 12 self.prometheus_client.send_api_client_timing(value=value, **labels) 13 14 if not self.statsd_client: 15 return 16 17 # и дальше отправка метрики в statsd 18

20 Как было и как стало 2 f'validation_error,' 1 statsd_client.incr(
3 f'field={field},' 4 f'endpoint={request.path},' 5 ) 6 1 prometheus.incr_validation_error( 2 field=field, 3 endpoint=request.path, 4 ) 5

21 Зачем написали обёртку для клиента привычный для нас подход
можно быстро заменить клиент прометея все методы отправки на одной странице

22 Переходный период начали отправлять и туда и туда строили
графики долго привыкали к новому синтаксису

23 Ещё раз про бакеты StatsD Prometheus

24 Подводные камни 1. Размер файлов метрик 2. Особенности rq-exporter
3. Особенности gunicorn

1 1 0 1 0 1 0 0 1 0
1 1 0 0 1 1 0 0 0 0 1 1 1 0 1 0 1 1 25 Размер файлов метрик проблема большой файл > /metrics отвечает дольше > таймауты > нет метрик решения в экспортерах часто есть настройка автоочистки по интервалу изобретательность с logrotate, но провалы на графиках индивидуальный подход к каждой метрике

26 Особенности rq-exporter пробовали хаки с названием воркеров ( partner-worker-1-b123123-12
, и чем тогда uuid хуже?) спрашивали у автора и решением было дропать лейблы на экспортере rq_workers_success_total{name="b3d20124e37a4efb9ea0d71d8e2e7382",queues="sync"} 5.0 | дропнуть

27 Особенности gunicorn есть настройка max_requests , после достижения которой
процесс перезапускается (чтобы не ловить OOM) перезапуск процесса - это новый pid multiprocess collector раскладывает метрики в файлики с суффиксом _<pid>.db файлов становится много, сжигает место на диске (1) в uwsgi такого нет ( process_identifier ) root@1a292fd2d229:/var/metrics# ls -S gauge_all_694.db summary_1275.db summary_1533.db summary_178.db ... summary_1012.db summary_1294.db summary_1551.db summary_1792.db ... summary_1031.db summary_1312.db summary_1569.db summary_1811.db ... ... summary_1256.db summary_1515.db summary_1771.db summary_2020.db ...

28 Особенности gunicorn нужно мониторить кол-во файлов, потому что чтение
/metrics может тормозить (1, 2) в multiprocess режиме были мысли попробовать logrotate cron-job которая чистит файлики с несуществующими pid набрасывали подчистку файликов в child_exit и worker_exit

29 Особенности gunicorn отличная статья на хабре от Домклик используем
filelock теперь кол-во файлов метрик == кол-ву воркеров гуника по-сравнению с Домкликом добавили имя воркера root@e4c2354b0c92:/var/partner/filelock# ls external_api_1.lock external_api_2.lock ... internal_api_1.lock internal_api_2.lock ... 1 ValueClass = prometheus_client.values.MultiProcessValue( 2 process_identifier=lambda: f'{proc_name}_{worker_id}', 3 ) 4 prometheus_client.values.ValueClass = ValueClass 5

30 Выводы теперь (скорее всего) не теряем метрики пока что
привыкаем к новым концепциям прометея отправка метрик в одном месте открытые возможности к более гибкому алертингу (VMAlert)

Q&A 💼 Карьера в Ostrovok.ru 🎬 Tech.Ostrovok на YouTube 🎙️
Подкаст "Два Ивана" 📝 t.me/biozz_dev 31

Moscow Python Meetup №88. Иван Елфимов (Ostrovo...

Moscow Python Meetup №88. Иван Елфимов (Ostrovok.ru, тимлид). Переход от Statsd к Prometheus в большом Django-проекте

Moscow Python Meetup PRO

More Decks by Moscow Python Meetup

Other Decks in Programming

Featured

Transcript

Prometheus в нагруженном Django-проекте Иван Елфимов Тимлид партнёрки, Ostrovok.ru Как

2 Компания в цифрах 350+ технических сотрудников 30000+ бронирований в

3 План 1. Предпосылки 2. Prometheus 3. Кодирование 4. Подводные

4 Предпосылки живем со StatsD + InfluxDB + Kapacitor уже

5 Подходы к сбору метрик

6 Prometheus 1. Теория 2. Инфраструктура 3. Практика 4. Библиотеки

1 1 0 1 0 1 0 0 1 0

8 Инфраструктура используем VictoriaMetrics Consul знает о всех сервисах vmagent

9 Практика строим графики в Grafana источник один на всех

10 Практика объединять метрики библиотек или нет? например rq-exporter или

11 Библиотеки prometheus/client_python базовый пакет, альтернатив, как таковых, нет умеет

12 Кодирование 1. Как организуем модули 2. Инициализация 3. Определения

13 Как организуем модули 1 app 2 └──clients 3 ├──

14 Инициализация 1 from prometheus_client import CONTENT_TYPE_LATEST, CollectorRegistry, generate_latest, multiprocess

15 Определения метрик # HELP partner_reports_count Counter the amount of

16 Определения метрик # HELP partner_api_view API View Timing #

17 Методы для отправки 1 def send_api_view_timing(self, value: float, **labels)

18 Использование 1 from app.client.prometheus import prometheus 2 3 #

19 Использование 1 # где-то в глубинах BaseClient 2 def

20 Как было и как стало 2 f'validation_error,' 1 statsd_client.incr(

21 Зачем написали обёртку для клиента привычный для нас подход

22 Переходный период начали отправлять и туда и туда строили

23 Ещё раз про бакеты StatsD Prometheus

24 Подводные камни 1. Размер файлов метрик 2. Особенности rq-exporter

1 1 0 1 0 1 0 0 1 0

26 Особенности rq-exporter пробовали хаки с названием воркеров ( partner-worker-1-b123123-12

27 Особенности gunicorn есть настройка max_requests , после достижения которой

28 Особенности gunicorn нужно мониторить кол-во файлов, потому что чтение

29 Особенности gunicorn отличная статья на хабре от Домклик используем

30 Выводы теперь (скорее всего) не теряем метрики пока что

Q&A 💼 Карьера в Ostrovok.ru 🎬 Tech.Ostrovok на YouTube 🎙️