Лимитируй это

/ Денис Аникин https://xfenix.ru Лимитируй это

Денис Аникин 2 Что я делаю — работаю в Райфе
— teamlead в 3 командах — community lead в Python Community — fullstack: typescript, python, devops — шучу шутки со средней оценкой 4 балла https://xfenix.ru

Денис Аникин 3 Что я делаю — работаю в Райфе
— teamlead в 3 командах — community lead в Python Community — fullstack: typescript, python, devops — шучу шутки со средней оценкой 4 балла ИЗ 100 https://xfenix.ru

Пару слов о нашей системе

Что у нас за система? 6 — Распределенная — Чат
— Две основных базы данных: KeyDB (redis) & PostgreSQL — Наш MQ это Kafka — Пишем на FastAPI, Starlette — НЕ ХАЙЛОАД (!!!11) — Ну конечно же любимые и ненавистные всем микросервисы (настоящие)

Пару слов о «НЕ ХАЙЛОАД» 7 — Порядок: сотни RPS
от пользователей — Система постоянной доступности (непрерывный режим работы) — «Последняя» линия, к нам приходят когда уже что-то сломалось

И вот однажды мы упали 8

Моя история — о том как это вышло 10

Ещё пару слов обо мне 12 — У меня не
очень много опыта с распределенными и особенно event driven системами — Я не идеально разбираюсь в мониторинге

4 золотых сигнала Latency, traffic, saturation, errors

Ещё пару слов обо мне 14 — У меня не
очень много опыта с распределенными и особенно event driven системами — Я не идеально разбираюсь в мониторинге — Kubernetes на момент разработки системы был для меня новой технологией

Все совпадения с реальными людьми — выдуманы 15

Если вы беспокоетесь, что чего-то не знаете, посмотрите на меня
и вам станет легче 16

Какой бывает event driven

По полям, по полям архитектор едет к нам! Так как
в докладе будет много хороших решений и классных практик…

Итак, июнь 2022, пятница 19

14 часов mob-debug в zoom

Наша система не упала, а просто перестала работать 22

Если вы работаете с монолитом, то знакомо:

Микросервисы (вы ждали этой картинки):

Но на самом деле:

НАКОНЕЦ о наших делах 27

KeyDB (redis) мёртв 28

Хвала failover! (заметили не сразу) 30

Стоп. А что происходит? 32

Мы бъемся головой в лимит соединений! 33

Открытие: когда KeyDB упирается в соединения, ну… он падает! 34

Давайте вынесем на ретро 35

Ошибка номер 1 — мы не мониторим соединения с KeyDB
36

KeyDB 37 И мониторинг — Обычно все мониторят память —
Количество операций — CPU

Сколько соединений по-умолчанию у KeyDB? 38 Давайте проголосуем — 1
000 — 10 000 — 30 000 — не ограничено ✅

Но зачем столько соединений-то? 39 Ну правда! — Корутины! —
Распределенная система — Куча реплик — Несколько зон доступности — И секретный ингредиент!

Ошибка номер 2 — мы не мониторим topic lag 40

Что такое topic lag и как он выглядит

Это был (почти) «добрый» topic lag 43

44 Злой выглядел бы вот как-то так:

Страшная ситуация: «перезагрузка не помогает» 45

Ошибка номер 3 — плохо настроенный pooling & шутки от
aioredis 47

48 4 вида сетапов redis/keydb

Немного о пулинге 49 Пулинг — прекрасно, но если вы
его конфигурируете правильно — В документации Sentinel клиента ни слова о пулинге — Но самый сок нас ожидает под капотом…

50 Цитата из redis-py (aioredis туда вмержен) def __init__( …
max_connections: Optional[int] = None, … ): max_connections = max_connections or 2 ** 31 # ß Добрый вечер! С sentinel сработает вот так

51 Вот вам и Redis Cluster class redis.asyncio.cluster.RedisCluster(host=None, port=6379, startup_nodes=None,
require_full_coverage=True, read_from_replicas=False, reinitialize_steps=5, cluster_error_retry_attempts=3, connection_error_retry_attempts=3, max_connections=2147483648, # ß Привет! Как дела? Спишь? Наберу? db=0, path=None, credential_provider=None, username=None, password=None, client_name=None, encoding='utf-8', encoding_errors='strict', decode_responses=False, health_check_interval=0, socket_connect_timeout=None, socket_keepalive=False, socket_keepalive_options=None, socket_timeout=None, retry=None, retry_on_error=None, ssl=False, ssl_ca_certs=None, ssl_ca_data=None, ssl_cert_reqs='required', ssl_certfile=None, ssl_check_hostname=False, ssl_keyfile=None, address_remap=None)

Для high availability (HA), cluster в документации примеры указаны без
max_connections! А умолчание вы видели… 52

Я пытаюсь сделать устойчивый кластер redis Документация к redis-py 2
** 31

Ошибка номер 4 — мы очень полюбили concurrency с помощью
create_task 54

Тут всё довольно скромно 55 — Наш consumer потребляет сообщение
— Создает обработчик с помощью create_task — Идёт дальше

56 Если вспомнить topic lag…

Пулинг Очень много корутин Один знаменитый программист сказал: it’s get
crashing, when I pull (pull из pool’а соединений имеется ввиду)

Ошибка номер 5 — requests & limits 59

Давайте глянем как оно там без них 61 — По
началу неплохо — Но когда что-то пойдет не так… — Пожалуйста, проставляйте реквесты и лимиты!!1111

Ошибка номер 6 — мы очень очень любили resilience, а
особенно реконнекты 63

Прежде чем говорить, предыдущие пункты 64 — Что-то замедляет обработку
топика (возможно, краш) — Мы не видим топик лаг, ребутаемся — Корутины плодятся без всяких на то ограничений — Коннекшены «хватаются» из пула огромными пачками — Мы и об этом не знаем — KeyDB умирает, уничтоженный в щепки — В кластере плохеет нодам, ложатся соседние сервисы (не все!)

Цитируя известного художника: «вечеринка движется к каннибализму» 65

И добиваем лоу-киком 67 Чтобы KeyDB не имел шанса подняться
и всем было веселее, мы сверху полируем реконнектами… …в каждой корутине

Ты обронил, держи продакшн!

Мои архитектурные навыки Моё умение программировать

Крепкого здоровья погибшим, остальным либа backoff 70

Ошибка номер 7 — 71

Я — терминатор от мира архитектуры

Ошибка номер 7 — великолепные healtcheck’и 73

Как не стоить делать хелсчеки консьюмеров 74 — Берем асинхронный
консьюмер — Рядом в треде запускаем асинхронный фреймворк с одной ручкой — Вешаем пробу на эту ручку

75 Что же может пойти не так?

76 Что же может пойти не так? Мой продакшн

77 Что же может пойти не так? Я, пытающийся понять
почему topiclag 10055000, консьюмеры мертвее моей архитектурной карьеры, а хелсчеки говорят Мой продакшн

Ошибка номер 8 — dead letter queue 78

Есть такая классическая проблема в EDA 80 Довольно классическая —
К нам приходит сообщение в консьюмер — Мы обрабатываем это сообщение, но у нас не выходит — Что же делать?

81 Делаем DLQ (dead letter queue) УПС Попыток 10 на
сообщение

Как вы догадались: мы поддавали жару ещё и здесь 82

Подведем итог: у нашей системы не было и шанса! 83

Это явно я Ф — надежность

Как же мы всё это вылечили?

/ Денис Аникин https://xfenix.ru https://github.com/xfenix/ Спасибо!

Проставили requests & limits 89

А как это делать когда ничего непонятно? 90 Есть пару
простых идей — Проставьте минимальное значение для requests, ниже которого сервис не будет работать совсем — Проставьте limits в 2-3 раза выше (в зависимости от ваших возможностей) — Дальше двигайтесь итерационно, либо с помощью нагрузочного тестирования, либо докидывая limits в процессе жизни (что более нервно) — Не забывайте мониторить throttling!

Что будет, если неправильно сконфигурить 92 Ну кроме очевидного «пока,
мой любимый кластер, мне так нравилось спать в 3 ночи» — Наш добрый дружок ООМ — CPU-«голодание» — «Выселение» подов — Трата лишних ресурсов

Сделали мониторинг topic lag и количества консьюмеров 93

Что можно было бы мониторить ещё 95 Но что мы
пока не мониторим — Количество sent запросов — Количество received запросов — Время/продолжительность отправки — Время/продолжительность потребления — RPS

Сделали мониторинг количества соединений KeyDB 96

Проставили max_connections для пулинга! (у Sentinel тоже можно) 97

Самое интересное было с concurrency! 98

КО Порождаем 100_000 корутин Берем здесь соединение из пулинга УПС
В чём сложность

Когда мы поняли, что дело в нём 100 А понять
было ОЧЕНЬ непросто на самом деле (ведь корутины мы не мониторим) — Долго обсуждал — И в конце я вспомнил, что в asyncio есть Semaphore!

… Какой-то шаренный ресурс (типа коннекта к базе/базы) Корутины Семафор
со значением 3 Корутины

Пару мыслей по корутинам 102 — Concurrency — штука коварная,
имеет смысл ограничивать количество create_task — Semaphore и другие примитивы синхронизации вам бро! — Возможно, вам может быть полезен aiomonitor!

Enterprise архитектор Solution архитектор Я, делающий вот это всё

Моя любимая панацея! 104 — Можно просто раз в сутки
ребутать все контейнеры — Сделать очень просто: берёте gitlab scheduled ci и делаете с помощью kubectl rollout и/или helm — Не убегайте из зала с воплями ужаса, это правда экономит кучу нервных клеток — Не будем забывать о chaos engineering

Сделал ребуты и делаю вид, что это chaos engineering

Эксперты, слушающие доклад

Пару слов о том, что не полечили 107 — retry.
Тут стоило бы затащить circuit breaker! — healtcheck. В интернете ноль адекватных советов на эту тему, кстати — Не продумали стратегию backpressure когда retry не справляется (eviction/drop? delay? buffer?) — Пока не троттлили DLQ

Самое главное, что я хочу сказать: «лимитируй это»… 108

…пожалуйста! 109

…не будь как я 110

Как тебя архитектурить? Не надо меня архитектурить Откуда ты это
сказал?

Веселый был бы доклад на хайлоад…

Веселый был бы доклад на хайлоад… если бы хайлоад писали
на питоне

Некоторые ссылки 115 Redis py коммиты (но это не все)
— https://github.com/redis/redis- py/blob/2732a8553e58d9e77f16566b9132fc7205614a53/redis/asyncio/connection.py#L976 — https://github.com/redis/redis- py/blob/2732a8553e58d9e77f16566b9132fc7205614a53/redis/asyncio/cluster.py#L232 — https://github.com/redis/redis- py/blob/2732a8553e58d9e77f16566b9132fc7205614a53/redis/connection.py#L952

Денис Аникин https://xfenix.ru https://github.com/xfenix/ Спасибо!

Лимитируй это

Лимитируй это

More Decks by Denis Anikin

Other Decks in Programming

Featured

Transcript