Slide 1

Slide 1 text

«Prometheus. Python. NMAP» Как перестать обновлять хосты в мониторинге раз в полгода

Slide 2

Slide 2 text

Что есть сейчас: • 20 «железных» серверов • ~70 виртуалок • ~20 сетевых железок • Десяток вланов и подсетей

Slide 3

Slide 3 text

• Zabbix • Хосты добавляются вручную • Да, агенты тоже • Несколько человек в отделе и все постоянно что-то делают Боль

Slide 4

Slide 4 text

Хочется • Избавиться от ручного добавления хостов в систему мониторинга • Накатывать агентов автоматически • Знать что происходит в сети без необходимости ходить по кабинетам • Monitoring As Code

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

Сервисы, которые мы мониторим • SNMP ifMib (трафик, pps, errors, discards, utilization) • Asterisk (состояние транков, статус сервиса asterisk, кастомные проверки: записались ли данные о звонках в БД CRM) • «Железные» показатели. (CPU, RAM, место на разделах) • Состояние RAID-контроллеров • ICMP доступность • Доступность доменов по HTTP(проверка возвращения кода 200) • Состояние задач бэкапов

Slide 7

Slide 7 text

Как это выглядит:

Slide 8

Slide 8 text

Алерты

Slide 9

Slide 9 text

Несколько слов о Prometheus • Создан хранить оперативные данные • Удобен для автоматического управления • Действительно быстро работает • PromQL универсален • Не предусмотрена авторизация • Простая и понятная логика экспортеров

Slide 10

Slide 10 text

Несколько слов об alerta • Множество готовых интеграций (Zabbix, Nagios, Prometheus etc.) • Возможность добавлять собственные плагины (роутинг, оповещения) • Грабли: virtualenv

Slide 11

Slide 11 text

Что ещё можно сделать • Эскалация оповещений • Autofix • You tell me =)