• Регулярно ловите похожие проблемы в логах? Elastalert это способ зафиксировать знания об этих проблемах и автоматизировать оповещения об их появлении
Не так-то просто (установка/обновление): # helm upgrade --install -f values.yaml stable/ elastalert написав values.yaml с осмысленным правилами алертинга :-\
helm inspect values stable/elastalert > values.yaml • Стандартные секции для чарта: image (фиксируем версию), resources (requests.memory: 1Gi, limits.memory:2Gi) • Общая конфигурация ES (секция elasticsearch): host/port/ useSsl/username/password/verifyCerts • Правила и алерты (секция rules): правила в YAML, по файлу на правило. Можно указывать свой ES (см документацию). • Далее до/переписываем правила в values.yaml и устанавливаем/обновляем той же командой helm-а
из индекса index ES (используя filter), с последней точки • Если надо, сохранить промежуточный результат в ES (индекс elastalert_status) • Сохранить точку, до которой дочитали, в ES (elastalert_status) • Если произошло срабатывание правила (rule), отправить алерт (alert) • Повторить сначала
запроса Lucene filter: - query: query_string: query: "NOT kubernetes.namespace:kube-system" Т.е. всё то же самое, что вы пишете в Kibana Остальное в документации
events occurred around 2018-08-31 00:54 UTC. Between 2018-08-31 00:49 UTC and 2018- 08-31 00:54 UTC, there were less than 1 events. Strange_logs_spikes@myapp on k8s.slurm.io Logs spike detected for container stage/myapp at time: 2018-09- 28T16:53:46.433Z (index:filebeat-stage- 2018.09.28) An abnormal number (120) of events occurred around 2018-09-28 16:53 UTC. Preceding that time, there were only 497 events within 1:00:00
состояние алертов • Оповещение на каждое правило, много copy/paste • Бывает неочевидна логика срабатывания • Неочевидная документация (десятки параметров)