Трассировка микросервисов или когда метрик и логов недостаточно

Содержание

Руслан Гайнанов, Главный инженер DevOps Трассировка микросервисов или когда метрик
и логов недостаточно 02.08.2024

Логи и метрики дашбоарды

Логи и метрики - не панацея дашбоарды

ситуация

11 Source: Reddit

16 Трассировка распределенных микросервисов

представление

18 Обо мне Гайнанов Руслан: • тимлид команды DevOps в
дивизионе продуктовой разработки компании Т1-Иннотех • выпускник Пермского Политеха, каф.ИТАС Занимаюсь разработкой сервисов для автоматизации разработки и внедрения продуктов компании

19 Холдинг Т1 сегодня

о чем пойдет речь

Содержание 1. мониторинг систем 2. трейсы и спаны 3. технологии
4. zero-code (auto) трассировки 5. сбор и работа с трейсами

23 Зачем нужен мониторинг?

24 Зачем нужен мониторинг? • определять состояние системы

25 Зачем нужен мониторинг? • определять состояние системы • выявлять
ошибки системы и их причины

ошибки системы и их причины • оперативно сообщать при наступлении каких-либо событий

ошибки системы и их причины • оперативно сообщать при наступлении каких-либо событий • помогать в поиске узких мест и оптимизации

28 На основе чего строить мониторинг?

29 На основе чего строить мониторинг? • метрики

30 На основе чего строить мониторинг? • метрики • логи

• трейсы

33 Three pillars: metrics, traces, logs

34 Из чего состоит трассировка? Спан (span) - единица какой-либо
работы/операции Трейс (trace) - объединение спанов по одному запросу

трейсы и спаны

36 Трассировка в микросервисах

37 Трассировка в микросервисах

38 Что дает распределенная трассировка? • определение источника проблемы

39 Что дает распределенная трассировка? • определение источника проблемы •
определение схемы взаимодействий сервисов и пути запроса

40 Что дает распределенная трассировка? • определение источника проблемы •
определение схемы взаимодействий сервисов и пути запроса • расчет задержек на всех уровнях

технологии

42 Технологии

43 В 2019 появляется новый стандарт

44 В 2019 появляется новый стандарт

45 История OpenTelemetry OpenCensus • старт в 2018 • проект
Google • API и SDK • метрики и трейсы • Google, Splunk, Microsoft OpenTracing • старт в 2016 • проект CNCF • только API • трейсы • Uber, Datadog, RedHat, Jaeger OpenTelemetry • старт в 2019 • проект CNCF • Spec, API и SDK • трейсы и метрики • объединил всех

46 OpenTelemetry в 2024 - no vendor-lock: - > 40
компаний - > 1000 контрибьюторов - GA & Stable - 5k на GitHub - интеграции с популярными системами мониторинга: Grafana, Kibana, Jaeger, etc.

47 OpenTelemetry SDK - текущий статус Traces Metrics Logs C++
Stable Stable Stable C#/.NET Stable Stable Stable Java Stable Stable Stable PHP Stable Stable Stable Go Stable Stable Beta JavaScript Stable Stable Development Python Stable Stable Development Ruby Stable Development Development Swift Stable Development Development https://opentelemetry.io/docs/languages/#status-and-releases

Как появляются и обрабатываются трейсы и спаны?

50 Инструментация

51 Отправка трейсов в БД

52 Отправка трейсов в БД, например Jaeger

53 Collector - сбор, обработка и отправка

примеры

примеры генерация трейсов

примеры автогенерация трейсов

57 Файл app.py: Простой веб-сервер на Flask (python) from flask
import Flask app = Flask(__name__) @app.route("/") def index(): return "hello-world" if __name__ == "__main__": app.run(host="0.0.0.0", port=8001)

58 Запуск веб-сервера $ python app.py

59 Авто-инструментация (zero-code)

60 Авто-инструментация (zero-code) $ opentelemetry-instrument python app.py

61 Авто-инструментация (zero-code) $ opentelemetry-instrument python app.py

62 демо

взаимодействие сервисов

64 Как связать одним трейсом 2 сервиса?

65 Trace Context - передача контекста в HTTP заголовках Как
связать одним трейсом 2 сервиса?

68 демо

поиск ошибок через трассировки

70 Два случая: ошибка в обработке запроса

71 Два случая: большое время обработки

72 демо

заключение

74 Посмотреть и попробовать - Tempo for Traces - Prometheus
for Metrics - Loki for Logs - OpenTelemetry Collector for Processing - Grafana & Jaeger for UI - Logs-to-Trace & Trace-to-Logs - Flask & FastAPI applications - Auto- & Manual-Instrumentation - Useful Links @GRomR1/docker-tracing-demo

75 Выводы Траблшутинг

76 Выводы Траблшутинг Три сигнала

77 Выводы Траблшутинг Три сигнала Инструментация

78 … но почему тогда их не включают повсеместно? Распределенные
трассировки - это прекрасно!

Спасибо за внимание Руслан Гайнанов

Скажим нет трасировкам! - не заменят метрики и логи -
100+ rps, 10+ микросервисов == дорого и сложно - но если очень хочется, то можно. см. доклад статью - буфер не бесконечен - теряем трейсы - 99% трейсов - бесполезны 80

Трассировка микросервисов или когда метрик и ло...

Трассировка микросервисов или когда метрик и логов недостаточно

More Decks by Ruslan Gainanov

Featured

Transcript