Slide 1

Slide 1 text

Дмитрий Столяров CTO & Co-founder v6.uncut Мониторинг и Kubernetes

Slide 2

Slide 2 text

Bosun

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

История #1 Спидометр показывает скорость!

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

20 + 20 + 40 + 80 + 50 + 40 + 0 + 10 + 40 + 10 + 20 = 30 км/ч 11 Средняя скорость:

Slide 9

Slide 9 text

20 + 20 + 40 + 80 + 50 + 40 + 0 + 10 + 40 + 10 + 20 = 30 км/ч 11 Средняя скорость: 30 км/ч × 11 минут = 5.5 км 60 Расстояние:

Slide 10

Slide 10 text

20 + 20 + 40 + 80 + 50 + 40 + 0 + 10 + 40 + 10 + 20 = 30 км/ч 11 Средняя скорость: 30 км/ч × 11 минут = 5.5 км 60 Расстояние: Но как? По одометру же 7.2 км...

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

История #2 Больше, больше измерений!

Slide 13

Slide 13 text

Как диагностировать заболевание?

Slide 14

Slide 14 text

Как диагностировать заболевание?

Slide 15

Slide 15 text

Как диагностировать заболевание?

Slide 16

Slide 16 text

Как диагностировать заболевание?

Slide 17

Slide 17 text

История #3 Алерты, алерты, алерты!

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

Ложные срабатывания Слишком поздно

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

No content

Slide 25

Slide 25 text

Что такое мониторинг?

Slide 26

Slide 26 text

Что такое мониторинг? ||

Slide 27

Slide 27 text

Что такое мониторинг? ||

Slide 28

Slide 28 text

Что такое мониторинг? Графики Алерты &

Slide 29

Slide 29 text

Что такое мониторинг? Графики Алерты &

Slide 30

Slide 30 text

Что такое мониторинг? Упреждение аварий

Slide 31

Slide 31 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии

Slide 32

Slide 32 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии Быстрая диагностика

Slide 33

Slide 33 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии Быстрая диагностика Точные данные

Slide 34

Slide 34 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии Быстрая диагностика Точные данные Полезные графики

Slide 35

Slide 35 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии Быстрая диагностика Точные данные Полезные графики Актуальные алерты

Slide 36

Slide 36 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии Быстрая диагностика Система мониторинга Точные данные Полезные графики Актуальные алерты

Slide 37

Slide 37 text

А как там в Kubernetes?

Slide 38

Slide 38 text

#1 Больше, быстрей!

Slide 39

Slide 39 text

дни / недели часы / дни Железо

Slide 40

Slide 40 text

дни / недели часы / дни секунды минуты / часы Железо Виртуалки x5

Slide 41

Slide 41 text

дни / недели часы / дни секунды минуты / часы 0 0 Железо Виртуалки Kubernetes x5 x50

Slide 42

Slide 42 text

0 0

Slide 43

Slide 43 text

Нужно группировать 0 0

Slide 44

Slide 44 text

Нужно группировать Service Discovery стал обязательным 0 0

Slide 45

Slide 45 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос 0 0

Slide 46

Slide 46 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных 0 0

Slide 47

Slide 47 text

#2 Параллельная реальность существует!

Slide 48

Slide 48 text

Kubernetes Nodes

Slide 49

Slide 49 text

Kubernetes Nodes ns/production

Slide 50

Slide 50 text

Kubernetes Nodes ns/staging ns/production ns/testing ...

Slide 51

Slide 51 text

Kubernetes Nodes ns/staging ns/production ns/testing ... deploy/backend

Slide 52

Slide 52 text

Kubernetes Nodes ns/staging ns/production ns/testing ... deploy/backend

Slide 53

Slide 53 text

Kubernetes Nodes ns/staging ns/production ns/testing ... deploy/backend

Slide 54

Slide 54 text

Kubernetes Nodes ns/staging ns/production ns/testing ... deploy/backend

Slide 55

Slide 55 text

Kubernetes Nodes ns/staging ns/production ns/testing ... deploy/backend deploy/frontend

Slide 56

Slide 56 text

Kubernetes Nodes ns/staging ns/production ns/testing ... deploy/backend deploy/frontend deploy/redis

Slide 57

Slide 57 text

ns/staging ns/production Kubernetes Nodes ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 58

Slide 58 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 59

Slide 59 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 60

Slide 60 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 61

Slide 61 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 62

Slide 62 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 63

Slide 63 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 64

Slide 64 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 65

Slide 65 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds.

Slide 66

Slide 66 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds. Redis 10.14.26.82: master link down for more than 60 seconds.

Slide 67

Slide 67 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds. Redis 10.14.26.82: master link down for more than 60 seconds. Redis k8s_POD_redis-redis-1453984535-9xz kj_production_e58492f3-02b9-11e8-8dd2-90 1b0ebb25f4_1 (on node node-3): master link down for more than 60 seconds.

Slide 68

Slide 68 text

55.7558, 37.6173 + 24 Пасмурно 7 м/c 53.1356, 32.5412 + 30 Солнечно 2 м/c 59.0531, 33.9861 + 22 Пасмурно 5 м/c 53.1234, 35.9074 + 15 Гроза 23 м/c 50.8461, 37.3451 + 20 Пасмурно 15 м/c

Slide 69

Slide 69 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds. Redis 10.14.26.82: master link down for more than 60 seconds. Redis k8s_POD_redis-redis-1453984535-9xz kj_production_e58492f3-02b9-11e8-8dd2-90 1b0ebb25f4_1 (on node node-3): master link down for more than 60 seconds.

Slide 70

Slide 70 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds. Redis 10.14.26.82: master link down for more than 60 seconds. Redis production/redis (pod redis-145398 4535-9xzkj on node-3): master link down for more than 60 seconds. Redis k8s_POD_redis-redis-1453984535-9xz kj_production_e58492f3-02b9-11e8-8dd2-90 1b0ebb25f4_1 (on node node-3): master link down for more than 60 seconds.

Slide 71

Slide 71 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds. Redis 10.14.26.82: master link down for more than 60 seconds. Redis k8s_POD_redis-redis-1453984535-9xz kj_production_e58492f3-02b9-11e8-8dd2-90 1b0ebb25f4_1 (on node node-3): master link down for more than 60 seconds. Redis production/redis (pod redis-145398 4535-9xzkj on node-3): master link down for more than 60 seconds.

Slide 72

Slide 72 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing Redis node-3: master link down for more than 60 seconds. Redis 10.14.26.82: master link down for more than 60 seconds. Redis k8s_POD_redis-redis-1453984535-9xz kj_production_e58492f3-02b9-11e8-8dd2-90 1b0ebb25f4_1 (on node node-3): master link down for more than 60 seconds. Redis production/redis (pod redis-145398 4535-9xzkj on node-3): master link down for more than 60 seconds.

Slide 73

Slide 73 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных

Slide 74

Slide 74 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных Использовать встроенные примитивы

Slide 75

Slide 75 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных Использовать встроенные примитивы Помнить, что “реальности” больше одной

Slide 76

Slide 76 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных Использовать встроенные примитивы Помнить, что “реальности” больше одной В одном кластере много окружений

Slide 77

Slide 77 text

Почему именно ?

Slide 78

Slide 78 text

Почему ? Самые популярные утилиты/сервисы для мониторинга кластеров Kubernetes Процентное соотношение опрошенных (включая тех, кто использует несколько утилит) Источник: результаты опроса «The New Stack 2017 Kubernetes User Experience» Заданный вопрос: «Какие инструменты, продукты и сервисы вы используете для мониторинга кластеров Kubernetes?». Количество ответивших: 208.

Slide 79

Slide 79 text

Почему ? Самые популярные утилиты/сервисы для мониторинга кластеров Kubernetes Процентное соотношение опрошенных (включая тех, кто использует несколько утилит) Источник: результаты опроса «The New Stack 2017 Kubernetes User Experience» Заданный вопрос: «Какие инструменты, продукты и сервисы вы используете для мониторинга кластеров Kubernetes?». Количество ответивших: 208.

Slide 80

Slide 80 text

Почему ? Источник: результаты опроса «The New Stack 2017 Kubernetes User Experience» Заданный вопрос: «Какие инструменты, продукты и сервисы вы используете для мониторинга кластеров Kubernetes?». Количество ответивших: 208. Процентное соотношение опрошенных (включая тех, кто использует несколько утилит) Самые популярные утилиты/сервисы для мониторинга кластеров Kubernetes

Slide 81

Slide 81 text

Почему ? Источник: результаты опроса «The New Stack 2017 Kubernetes User Experience» Заданный вопрос: «Какие инструменты, продукты и сервисы вы используете для мониторинга кластеров Kubernetes?». Количество ответивших: 208. Процентное соотношение опрошенных (включая тех, кто использует несколько утилит) Самые популярные утилиты/сервисы для мониторинга кластеров Kubernetes

Slide 82

Slide 82 text

Почему ? Самые популярные утилиты/сервисы для мониторинга кластеров Kubernetes Процентное соотношение опрошенных (включая тех, кто использует несколько утилит) Источник: результаты опроса «The New Stack 2017 Kubernetes User Experience» Заданный вопрос: «Какие инструменты, продукты и сервисы вы используете для мониторинга кластеров Kubernetes?». Количество ответивших: 208.

Slide 83

Slide 83 text

Как устроен и как мы его готовим?

Slide 84

Slide 84 text

No content

Slide 85

Slide 85 text

No content

Slide 86

Slide 86 text

No content

Slide 87

Slide 87 text

No content

Slide 88

Slide 88 text

Collector

Slide 89

Slide 89 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 90

Slide 90 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 91

Slide 91 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 92

Slide 92 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 93

Slide 93 text

Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Collector my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ...

Slide 94

Slide 94 text

Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 Collector Название метрики Лейблы Значение

Slide 95

Slide 95 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 96

Slide 96 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 97

Slide 97 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 98

Slide 98 text

Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Collector TSDB

Slide 99

Slide 99 text

Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... Collector TSDB

Slide 100

Slide 100 text

Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... … T1 my_metric{label=”a”, foo=”a”} 1 my_metric{label=”b”, foo=”a”} 6 my_metric{label=”c”, foo=”a”} 42 … Collector TSDB

Slide 101

Slide 101 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Target #1 60 sec foo=a my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... … T1 my_metric{label=”a”, foo=”a”} 1 my_metric{label=”b”, foo=”a”} 6 my_metric{label=”c”, foo=”a”} 42 … Collector TSDB

Slide 102

Slide 102 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... … T1 my_metric{label=”a”, foo=”a”} 1 my_metric{label=”b”, foo=”a”} 6 my_metric{label=”c”, foo=”a”} 42 … Collector Target #1 60 sec foo=a TSDB

Slide 103

Slide 103 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... Collector Target #1 60 sec foo=a … T1 my_metric{label=”a”, foo=”a”} 1 my_metric{label=”b”, foo=”a”} 6 my_metric{label=”c”, foo=”a”} 42 … TSDB

Slide 104

Slide 104 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... Collector Target #1 60 sec foo=a … T1 my_metric{label=”a”, foo=”a”} 1 my_metric{label=”b”, foo=”a”} 6 my_metric{label=”c”, foo=”a”} 42 … TSDB my_metric{label=”a”} 4 my_metric{label=”b”} 8 my_metric{label=”c”} 13 ...

Slide 105

Slide 105 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... … T1 T2 my_metric{label=”a”, foo=”a”} 1 4 my_metric{label=”b”, foo=”a”} 6 8 my_metric{label=”c”, foo=”a”} 42 13 … Collector Target #1 60 sec foo=a TSDB my_metric{label=”a”} 4 my_metric{label=”b”} 8 my_metric{label=”c”} 13 ...

Slide 106

Slide 106 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... Collector … T1 T2 T3 my_metric{label=”a”, foo=”a”} 1 4 7 my_metric{label=”b”, foo=”a”} 6 8 2 my_metric{label=”c”, foo=”a”} 42 13 24 … Target #1 60 sec foo=a TSDB my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ...

Slide 107

Slide 107 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 108

Slide 108 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 109

Slide 109 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 110

Slide 110 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 111

Slide 111 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 112

Slide 112 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 113

Slide 113 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 114

Slide 114 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Collector Target #1 60 sec foo=a TSDB

Slide 115

Slide 115 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Collector Target #1 60 sec foo=a ... ... ... TSDB Time based retention

Slide 116

Slide 116 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Collector Target #1 60 sec foo=a ... ... ... TSDB Time based retention 1-2 bytes per sample

Slide 117

Slide 117 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Collector Target #1 60 sec foo=a ... ... ... TSDB Time based retention 1-2 bytes per sample Хорошо переносит “Series Churn”

Slide 118

Slide 118 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Collector Target #1 60 sec foo=a ... ... ... TSDB Time based retention 1-2 bytes per sample Хорошо переносит “Series Churn” Только локально, никакой кластеризации и репликации!

Slide 119

Slide 119 text

Target #2 Target #3 Targets 60 sec 60 sec foo=b foo=c Collector Target #1 60 sec foo=a ... ... ... TSDB Time based retention 1-2 bytes per sample Хорошо переносит “Series Churn” Только локально, никакой кластеризации и репликации! Ultra IOPS-effective

Slide 120

Slide 120 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c TSDB

Slide 121

Slide 121 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Service Discovery TSDB

Slide 122

Slide 122 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Service Discovery API TSDB

Slide 123

Slide 123 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Service Discovery API TSDB

Slide 124

Slide 124 text

WE NEED TO GO DEEPER

Slide 125

Slide 125 text

Targets Target #1 Target #2 Target #3 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 126

Slide 126 text

Targets http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 127

Slide 127 text

Targets http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics 60 sec 60 sec 60 sec foo=a foo=b foo=c

Slide 128

Slide 128 text

Targets http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics 30 sec 30 sec 30 sec foo=a foo=b foo=c

Slide 129

Slide 129 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec foo=a foo=b foo=c

Slide 130

Slide 130 text

Kubernetes Nodes ns/staging ns/production ... deploy/frontend deploy/backend deploy/redis ns/testing

Slide 131

Slide 131 text

Kubernetes Nodes ns/staging ... ns/testing ns/production deploy/frontend deploy/backend deploy/redis

Slide 132

Slide 132 text

Kubernetes Nodes ns/staging ... ns/testing ns/production deploy/frontend deploy/backend deploy/redis

Slide 133

Slide 133 text

Kubernetes Nodes ns/staging ... ns/testing deploy/frontend deploy/backend deploy/redis ns/production 1

Slide 134

Slide 134 text

Kubernetes Nodes ns/staging ... ns/testing deploy/frontend deploy/backend ns/production 1 deploy/redis 2

Slide 135

Slide 135 text

Kubernetes Nodes ns/staging ... ns/testing deploy/frontend deploy/backend ns/production 1 deploy/redis 2 3

Slide 136

Slide 136 text

Kubernetes Nodes ns/staging ... ns/testing deploy/frontend deploy/backend ns/production 1 deploy/redis 2 3

Slide 137

Slide 137 text

Kubernetes Nodes ns/staging ... ns/testing redis app==redis ns/production 1 3 deploy/redis 2

Slide 138

Slide 138 text

Kubernetes Nodes ns/staging ... ns/testing redis app==redis ns/production 1 3 deploy/redis 2

Slide 139

Slide 139 text

Kubernetes Nodes ns/staging ... ns/testing redis app==redis ns/production 1 3 2 deploy/redis

Slide 140

Slide 140 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec foo=c foo=b foo=a

Slide 141

Slide 141 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production

Slide 142

Slide 142 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis service=redis service=redis

Slide 143

Slide 143 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj

Slide 144

Slide 144 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj

Slide 145

Slide 145 text

Targets Targets http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis-cache pod=redis-7cd9d8dd49-2rgp8 http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj

Slide 146

Slide 146 text

Targets Targets http://192.168.13.11:9121/metrics 30 sec http://192.168.12.44:9121/metrics 30 sec namespace=production service=redis-cache pod=redis-7cd9d8dd49-2rgp8 namespace=staging pod=redis-79996bb447-jnqc6 service=redis http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj

Slide 147

Slide 147 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec YAML Конфиг namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 148

Slide 148 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: ... Конфиг namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 149

Slide 149 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: - job_name: redis ... Конфиг namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 150

Slide 150 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 151

Slide 151 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 152

Slide 152 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 153

Slide 153 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 154

Slide 154 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 155

Slide 155 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production spec: selector: app: redis ports: - protocol: TCP port: 6379 Kubernetes

Slide 156

Slide 156 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production spec: selector: app: redis ports: - protocol: TCP port: 6379 Kubernetes

Slide 157

Slide 157 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production spec: selector: app: redis ports: - protocol: TCP port: 6379 Kubernetes

Slide 158

Slide 158 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production spec: selector: app: redis ports: - protocol: TCP port: 6379 Kubernetes

Slide 159

Slide 159 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production labels: prometheus-target: redis spec: selector: app: redis ports: - protocol: TCP port: 6379 Kubernetes

Slide 160

Slide 160 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production labels: prometheus-target: redis spec: selector: app: redis ports: - protocol: TCP port: 6379 - protocol: TCP port: 9121 name: http-metrics Kubernetes

Slide 161

Slide 161 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”? kind: Service apiVersion: v1 metadata: name: redis namespace: production labels: prometheus-target: redis spec: selector: app: redis ports: - protocol: TCP port: 6379 - protocol: TCP port: 9121 name: http-metrics Kubernetes

Slide 162

Slide 162 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6 1. Как подключиться к Kubernetes? 2. Какие объекты получать? 3. Как их отфильтровывать? 4. Какие лейблы “вытаскивать”?

Slide 163

Slide 163 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 164

Slide 164 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 165

Slide 165 text

scrape_configs: - job_name: redis ..................... ..................... ..................... ..................... ..................... ..................... ..................... Конфиг http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec redis namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 166

Slide 166 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec redis namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj scrape_configs: - job_name: redis ... - job_name: php-fpm ... - job_name: mysql ... Конфиг http://192.168.13.11:9121/metrics 30 sec namespace=production service=redis pod=redis-7cd9d8dd49-2rgp8 http://192.168.13.12:9121/metrics 30 sec namespace=production service=redis pod=redis-79996bb447-jnqc6

Slide 167

Slide 167 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec redis namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj scrape_configs: - job_name: redis ... - job_name: php-fpm ... - job_name: mysql ... Конфиг

Slide 168

Slide 168 text

http://192.168.12.83:9121/metrics http://192.168.18.19:9121/metrics http://192.168.13.27:9121/metrics Targets 30 sec 30 sec 30 sec redis namespace=production namespace=production namespace=production service=redis pod=redis-84f78f6b56-qmm66 service=redis pod=redis-84f78f6b56-zqh2q service=redis pod=redis-84f78f6b56-s44hj scrape_configs: - job_name: redis ... - job_name: php-fpm ... - job_name: mysql ... Конфиг http://pod-ip:http-metrics/metrics 30 sec php-fpm namespace=production service=backend pod=backend-6b56d45859-gqnh9hj http://pod-ip:http-metrics/metrics 30 sec mysql namespace=staging service=mysql pod=mysql-5cf7d9cc67-h6r8d http://pod-ip:http-metrics/metrics 30 sec namespace=testing service=mysql pod=mysql-5566877785-fpszg

Slide 169

Slide 169 text

Разобрались!

Slide 170

Slide 170 text

Какие данные собирать в Kubernetes?

Slide 171

Slide 171 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom

Slide 172

Slide 172 text

Компоненты Kubernetes redis http://pod-ip 30 sec kube-apiserver node= redis http://pod-ip 30 sec kube-controller-manager node= redis http://pod-ip 30 sec kube-scheduler node= redis http://pod-ip 30 sec kube-etcd3 node= Kubernetes Master Kubernetes Софт Custom redis http://pod-ip 30 sec kube-etcd2 node=

Slide 173

Slide 173 text

Kubernetes Master Kubernetes Софт Custom Компоненты Kubernetes

Slide 174

Slide 174 text

http://pod-ip 30 sec kubelet node= Kubernetes Master Kubernetes Софт Custom Компоненты Kubernetes

Slide 175

Slide 175 text

http://pod-ip 30 sec kubelet node= redis http://pod-ip 30 sec kube-state-metrics Kubernetes Master Kubernetes Софт Custom Компоненты Kubernetes

Slide 176

Slide 176 text

http://pod-ip 30 sec kubelet node= redis http://pod-ip 30 sec kube-state-metrics redis http://pod-ip 30 sec node-exporter node= Kubernetes Master Kubernetes Софт Custom Компоненты Kubernetes

Slide 177

Slide 177 text

Kubernetes Master Kubernetes Компоненты Kubernetes Софт Custom

Slide 178

Slide 178 text

http://pod-ip 30 sec kube-prometheus-operator http://pod-ip 30 sec kube-prometheus pod= redis http://pod-ip 30 sec ingress-nginx-controller node= controller= Kubernetes Master Kubernetes Компоненты Kubernetes Софт Custom http://pod-ip 30 sec kube-dns pod=

Slide 179

Slide 179 text

Kubernetes Master Kubernetes Компоненты Kubernetes Софт Custom

Slide 180

Slide 180 text

Kubernetes Master Kubernetes Компоненты Kubernetes Софт Custom redis http://pod-ip 30 sec elasticsearch http://pod-ip 30 sec mongodb http://pod-ip 30 sec nginx http://pod-ip 30 sec php-fpm http://pod-ip 30 sec rabbitmq http://pod-ip 30 sec redis redis http://pod-ip 30 sec uwsgi ns= svc= pod= ns= svc= pod= ns= svc= pod= ns= svc= pod= ns= svc= pod= ns= svc= pod= ns= svc= pod=

Slide 181

Slide 181 text

Kubernetes Master Kubernetes Компоненты Kubernetes Софт Custom

Slide 182

Slide 182 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom kind: Service apiVersion: v1 metadata: name: backend namespace: production spec: selector: app: backend ports: - protocol: TCP port: 80 Kubernetes

Slide 183

Slide 183 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom kind: Service apiVersion: v1 metadata: name: backend namespace: production spec: selector: app: backend ports: - protocol: TCP port: 80 Kubernetes

Slide 184

Slide 184 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom kind: Service apiVersion: v1 metadata: name: backend namespace: production spec: selector: app: backend ports: - protocol: TCP port: 80 Kubernetes

Slide 185

Slide 185 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom kind: Service apiVersion: v1 metadata: name: backend namespace: production label: prometheus-custom-target: backend spec: selector: app: backend ports: - protocol: TCP port: 80 name: http-metrics Kubernetes

Slide 186

Slide 186 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom kind: Service apiVersion: v1 metadata: name: backend namespace: production label: prometheus-custom-target: backend spec: selector: app: backend ports: - protocol: TCP port: 80 name: http-metrics Kubernetes

Slide 187

Slide 187 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom kind: Service apiVersion: v1 metadata: name: backend namespace: production label: prometheus-custom-target: backend spec: selector: app: backend ports: - protocol: TCP port: 80 name: http-metrics Kubernetes

Slide 188

Slide 188 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom redis http://pod-ip 30 sec custom-backend ns= svc= pod=

Slide 189

Slide 189 text

Компоненты Kubernetes Kubernetes Master Kubernetes Софт Custom redis http://pod-ip 30 sec custom-backend http://pod-ip 30 sec custom-foo http://pod-ip 30 sec custom-bar ns= svc= pod= ns= svc= pod= ns= svc= pod=

Slide 190

Slide 190 text

No content

Slide 191

Slide 191 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Service Discovery API TSDB

Slide 192

Slide 192 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Service Discovery API TSDB Графики

Slide 193

Slide 193 text

Collector Target #1 Target #2 Target #3 Targets 60 sec 60 sec 60 sec foo=a foo=b foo=c Service Discovery API TSDB Графики PromQL

Slide 194

Slide 194 text

WE NEED TO GO DEEPER

Slide 195

Slide 195 text

PromQL Execute

Slide 196

Slide 196 text

PromQL Execute my_metric

Slide 197

Slide 197 text

PromQL Execute my_metric T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 my_metric{label=”c”} 42 18 33 19 my_metric{label=”d”} 19 2 14 6

Slide 198

Slide 198 text

PromQL Execute my_metric 60 sec T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 my_metric{label=”c”} 42 18 33 19 my_metric{label=”d”} 19 2 14 6 60 sec 60 sec 60 sec

Slide 199

Slide 199 text

PromQL Execute my_metric{label=”a”} T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 my_metric{label=”c”} 42 18 33 19 my_metric{label=”d”} 19 2 14 6

Slide 200

Slide 200 text

PromQL Execute my_metric{label=”a”} T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11

Slide 201

Slide 201 text

PromQL Execute my_metric{label=~”a|b”} T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11

Slide 202

Slide 202 text

PromQL Execute my_metric{label=~”a|b”} T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5

Slide 203

Slide 203 text

PromQL Execute my_metric{label=~”a|b”} × 8 T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5

Slide 204

Slide 204 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 PromQL Execute my_metric{label=~”a|b”} × 8

Slide 205

Slide 205 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 ×8 PromQL Execute my_metric{label=~”a|b”} × 8

Slide 206

Slide 206 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 ×8 PromQL Execute my_metric{label=~”a|b”} × 8 T1 T2 T3 T4 my_metric{label=”a”} 1x8 3x8 12x8 11x8 my_metric{label=”b”} 6x8 4x8 7x8 5x8

Slide 207

Slide 207 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 ×8 PromQL Execute my_metric{label=~”a|b”} × 8 T1 T2 T3 T4 my_metric{label=”a”} 1x8 3x8 12x8 11x8 my_metric{label=”b”} 6x8 4x8 7x8 5x8 T1 T2 T3 T4 my_metric{label=”a”} 8 24 96 88 my_metric{label=”b”} 48 32 56 40

Slide 208

Slide 208 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 PromQL Execute my_metric{label=~”a|b”} > 4 >4 T1 T2 T3 T4 my_metric{label=”a”} 1>4 3>4 12>4 11>4 my_metric{label=”b”} 6>4 4>4 7>4 5>4

Slide 209

Slide 209 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 PromQL Execute my_metric{label=~”a|b”} > 4 >4 T1 T2 T3 T4 my_metric{label=”a”} 1>4 3>4 12>4 11>4 my_metric{label=”b”} 6>4 4>4 7>4 5>4 T1 T2 T3 T4 my_metric{label=”a”} nil nil 12 11 my_metric{label=”b”} 6 nil 7 5

Slide 210

Slide 210 text

T1 T2 T3 T4 my_metric{label=”a”} 1 3 12 11 my_metric{label=”b”} 6 4 7 5 PromQL Execute my_metric{label=~”a|b”} > 4 >4 T1 T2 T3 T4 my_metric{label=”a”} 1>4 3>4 12>4 11>4 my_metric{label=”b”} 6>4 4>4 7>4 5>4 T1 T2 T3 T4 my_metric{label=”a”} nil nil 12 11 my_metric{label=”b”} 6 nil 7 5

Slide 211

Slide 211 text

PromQL Execute

Slide 212

Slide 212 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}

Slide 213

Slide 213 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”} T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61

Slide 214

Slide 214 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”} T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 60 sec 60 sec 60 sec 60 sec

Slide 215

Slide 215 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 60 sec 60 sec 60 sec 60 sec

Slide 216

Slide 216 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 2 min 60 sec 60 sec 60 sec 60 sec

Slide 217

Slide 217 text

2 min PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [42,61] 60 sec 60 sec 60 sec 60 sec

Slide 218

Slide 218 text

2 min PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [29,42] [42,61] 60 sec 60 sec 60 sec 60 sec

Slide 219

Slide 219 text

2 min PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [6,29] [29,42] [42,61] 60 sec 60 sec 60 sec 60 sec

Slide 220

Slide 220 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [nil,6] [6,29] [29,42] [42,61] 60 sec 60 sec 60 sec 60 sec 2 min

Slide 221

Slide 221 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [nil,6] [6,29] [29,42] [42,61] 60 sec 60 sec 60 sec 60 sec

Slide 222

Slide 222 text

PromQL Execute http_requests_total{host=”bar.io”, status=”2xx”}[2m] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [nil,6] [6,29] [29,42] [42,61] Range vector

Slide 223

Slide 223 text

PromQL Execute increase(http_requests_total{host=”bar.io”, status=”2xx”}[2m]) T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [nil,6] [6,29] [29,42] [42,61] Range vector

Slide 224

Slide 224 text

PromQL Execute increase(http_requests_total{host=”bar.io”, status=”2xx”}[2m]) T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} 6 29 42 61 T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} [nil,6] [6,29] [29,42] [42,61] T1 T2 T3 T4 {host=”bar.io”, status=”2xx”} nil 23 13 19 Range vector

Slide 225

Slide 225 text

PromQL Execute http_requests_total

Slide 226

Slide 226 text

PromQL Execute http_requests_total T1 T2 T3 T4 {host=”foo.io”, status=”2xx”} 0 1 3 12 {host=”foo.io”, status=”4xx”} 0 0 1 1 {host=”bar.io”, status=”2xx”} 6 29 42 61 {host=”bar.io”, status=”3xx”} 1 2 4 7 {host=”baz.io”, status=”1xx”} 1 1 2 3 {host=”baz.io”, status=”2xx”} 0 3 7 9 {host=”baz.io”, status=”5xx”} 0 0 0 1

Slide 227

Slide 227 text

PromQL Execute increase(http_requests_total[2m]) T1 T2 T3 T4 {host=”foo.io”, status=”2xx”} nil 1 2 9 {host=”foo.io”, status=”4xx”} nil 0 1 0 {host=”bar.io”, status=”2xx”} nil 23 13 19 {host=”bar.io”, status=”3xx”} nil 1 2 3 {host=”baz.io”, status=”1xx”} nil 0 1 1 {host=”baz.io”, status=”2xx”} nil 3 4 2 {host=”baz.io”, status=”5xx”} nil 0 0 1

Slide 228

Slide 228 text

PromQL Execute sum(increase(http_requests_total[2m])) T1 T2 T3 T4 {host=”foo.io”, status=”2xx”} nil 1 2 9 {host=”foo.io”, status=”4xx”} nil 0 1 0 {host=”bar.io”, status=”2xx”} nil 23 13 19 {host=”bar.io”, status=”3xx”} nil 1 2 3 {host=”baz.io”, status=”1xx”} nil 0 1 1 {host=”baz.io”, status=”2xx”} nil 3 4 2 {host=”baz.io”, status=”5xx”} nil 0 0 1

Slide 229

Slide 229 text

T1 T2 T3 T4 {host=”foo.io”, status=”2xx”} nil 1 2 9 {host=”foo.io”, status=”4xx”} nil 0 1 0 {host=”bar.io”, status=”2xx”} nil 23 13 19 {host=”bar.io”, status=”3xx”} nil 1 2 3 {host=”baz.io”, status=”1xx”} nil 0 1 1 {host=”baz.io”, status=”2xx”} nil 3 4 2 {host=”baz.io”, status=”5xx”} nil 0 0 1 PromQL Execute sum(increase(http_requests_total[2m]))

Slide 230

Slide 230 text

T1 T2 T3 T4 {host=”foo.io”, status=”2xx”} nil 1 2 9 {host=”foo.io”, status=”4xx”} nil 0 1 0 {host=”bar.io”, status=”2xx”} nil 23 13 19 {host=”bar.io”, status=”3xx”} nil 1 2 3 {host=”baz.io”, status=”1xx”} nil 0 1 1 {host=”baz.io”, status=”2xx”} nil 3 4 2 {host=”baz.io”, status=”5xx”} nil 0 0 1 PromQL Execute sum(increase(http_requests_total[2m])) T1 T2 T3 T4 {} nil 28 23 35

Slide 231

Slide 231 text

T1 T2 T3 T4 {host=”foo.io”, status=”2xx”} nil 1 2 9 {host=”foo.io”, status=”4xx”} nil 0 1 0 {host=”bar.io”, status=”2xx”} nil 23 13 19 {host=”bar.io”, status=”3xx”} nil 1 2 3 {host=”baz.io”, status=”1xx”} nil 0 1 1 {host=”baz.io”, status=”2xx”} nil 3 4 2 {host=”baz.io”, status=”5xx”} nil 0 0 1 PromQL Execute sum(increase(http_requests_total[2m])) T1 T2 T3 T4 {} nil 28 23 35

Slide 232

Slide 232 text

PromQL Execute sum(increase(http_requests_total[2m])) by (host)

Slide 233

Slide 233 text

PromQL Execute sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4

Slide 234

Slide 234 text

PromQL Execute sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4

Slide 235

Slide 235 text

PromQL Execute sum(increase(http_requests_total[2m])) by (status) T1 T2 T3 T4 {status=”1xx”} nil 0 1 1 {status=”2xx”} nil 27 19 30 {status=”3xx”} nil 1 2 3 {status=”4xx”} nil 0 1 0 {status=”5xx”} nil 0 0 1

Slide 236

Slide 236 text

PromQL Execute sum(increase(http_requests_total[2m])) by (status) T1 T2 T3 T4 {status=”1xx”} nil 0 1 1 {status=”2xx”} nil 27 19 30 {status=”3xx”} nil 1 2 3 {status=”4xx”} nil 0 1 0 {status=”5xx”} nil 0 0 1

Slide 237

Slide 237 text

PromQL Execute http_bytes_sent_total

Slide 238

Slide 238 text

PromQL Execute http_bytes_sent_total T1 T2 T3 T4 {host=”foo.io”} 0 540 1928 5980 {host=”bar.io”} 3451 16368 24334 27608 {host=”baz.io”} 505 2308 4752 6552

Slide 239

Slide 239 text

PromQL Execute increase(http_bytes_sent_total[2m]) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800

Slide 240

Slide 240 text

PromQL Execute increase(http_bytes_sent_total[2m]) / sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800

Slide 241

Slide 241 text

PromQL Execute increase(http_bytes_sent_total[2m]) / sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800 T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4

Slide 242

Slide 242 text

PromQL Execute increase(http_bytes_sent_total[2m]) / sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800 T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4 ÷

Slide 243

Slide 243 text

PromQL Execute increase(http_bytes_sent_total[2m]) / sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800 T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4 T1 T2 T3 T4 {host=”foo.io”} nil 540/1 {host=”bar.io”} nil {host=”baz.io”} nil =

Slide 244

Slide 244 text

PromQL Execute increase(http_bytes_sent_total[2m]) / sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800 T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4 T1 T2 T3 T4 {host=”foo.io”} nil 540/1 {host=”bar.io”} nil 12917/24 {host=”baz.io”} nil

Slide 245

Slide 245 text

PromQL Execute increase(http_bytes_sent_total[2m]) / sum(increase(http_requests_total[2m])) by (host) T1 T2 T3 T4 {host=”foo.io”} nil 540 1388 4052 {host=”bar.io”} nil 12917 7966 3274 {host=”baz.io”} nil 1803 2444 1800 T1 T2 T3 T4 {host=”foo.io”} nil 1 3 9 {host=”bar.io”} nil 24 15 22 {host=”baz.io”} nil 3 5 4 T1 T2 T3 T4 {host=”foo.io”} nil 540/1 1388/3 4052/9 {host=”bar.io”} nil 12917/24 7966/15 3274/22 {host=”baz.io”} nil 1803/3 2444/5 1800/4

Slide 246

Slide 246 text

PromQL Execute metric_x + metric_y metric_x{host=”foo.io”} metric_x{host=”bar.io”} metric_x{host=”example.io”} metric_y{host=”foo.io”} metric_y{host=”bar.io”} metric_y{host=”unknown.io”} {host=”foo.io”} {host=”bar.io”}

Slide 247

Slide 247 text

No content

Slide 248

Slide 248 text

Collector Target #1 Target #2 Target #3 Targets 30 sec 30 sec 30 sec foo=a foo=b foo=c Service Discovery API TSDB Графики

Slide 249

Slide 249 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API TSDB Графики Evaluator 30 sec 30 sec 30 sec

Slide 250

Slide 250 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API TSDB Графики Evaluator 30 sec 30 sec 30 sec

Slide 251

Slide 251 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API TSDB Графики Evaluator PromQL 30 sec 30 sec 30 sec

Slide 252

Slide 252 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API TSDB Графики Evaluator PromQL 30 sec 30 sec 30 sec 30 sec

Slide 253

Slide 253 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API TSDB Алерты Графики Alertmanager Evaluator PromQL 30 sec 30 sec 30 sec 30 sec

Slide 254

Slide 254 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b 30 sec 30 sec 30 sec foo=c Service Discovery API Графики TSDB Алерты Alertmanager Evaluator PromQL 30 sec

Slide 255

Slide 255 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API Графики 30 sec 30 sec 30 sec TSDB Алерты Alertmanager Evaluator PromQL alert: Http5xx expr: increase(http_requests_total{status=”5xx”}[2m]) for: 5m labels: severity: warning annotations: summary: host {{$labels.host}} has 5xx 30 sec

Slide 256

Slide 256 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API Графики 30 sec 30 sec 30 sec TSDB Алерты Alertmanager Evaluator PromQL alert: Http5xx expr: increase(http_requests_total{status=”5xx”}[2m]) for: 5m labels: severity: warning annotations: summary: host {{$labels.host}} has 5xx 30 sec

Slide 257

Slide 257 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API Графики 30 sec 30 sec 30 sec TSDB Алерты Alertmanager Evaluator PromQL alert: Http5xx expr: increase(http_requests_total{status=”5xx”}[2m]) for: 5m labels: severity: warning annotations: summary: host {{$labels.host}} has 5xx 30 sec

Slide 258

Slide 258 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API Графики 30 sec 30 sec 30 sec TSDB Алерты Alertmanager Evaluator PromQL alert: Http5xx expr: increase(http_requests_total{status=”5xx”}[2m]) for: 5m labels: severity: warning annotations: summary: host {{$labels.host}} has 5xx 30 sec

Slide 259

Slide 259 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API Графики 30 sec 30 sec 30 sec TSDB Алерты Alertmanager Evaluator PromQL alert: Http5xx expr: increase(http_requests_total{status=”5xx”}[2m]) for: 5m labels: severity: warning annotations: summary: host {{$labels.host}} has 5xx 30 sec

Slide 260

Slide 260 text

Collector Target #1 Target #2 Target #3 Targets foo=a foo=b foo=c Service Discovery API TSDB Алерты Графики Alertmanager Evaluator 30 sec 30 sec 30 sec

Slide 261

Slide 261 text

Картина в целом?

Slide 262

Slide 262 text

ns/kube-prometheus

Slide 263

Slide 263 text

ns/kube-prometheus

Slide 264

Slide 264 text

ns/kube-prometheus

Slide 265

Slide 265 text

ns/kube-prometheus 30 sec

Slide 266

Slide 266 text

ns/kube-prometheus 30 sec Alertmanager

Slide 267

Slide 267 text

ns/kube-prometheus 30 sec Alertmanager

Slide 268

Slide 268 text

ns/kube-prometheus 30 sec Alertmanager

Slide 269

Slide 269 text

ns/kube-prometheus 30 sec Alertmanager

Slide 270

Slide 270 text

ns/kube-prometheus 30 sec Alertmanager

Slide 271

Slide 271 text

ns/kube-prometheus 30 sec 30 sec Alertmanager

Slide 272

Slide 272 text

ns/kube-prometheus 30 sec 30 sec 30 sec Alertmanager

Slide 273

Slide 273 text

ns/kube-prometheus 30 sec N Alertmanager

Slide 274

Slide 274 text

ns/kube-prometheus Alermanager 30 sec N Alertmanager Alertmanager

Slide 275

Slide 275 text

ns/kube-prometheus 30 sec N Alertmanager N

Slide 276

Slide 276 text

И чего же нам не хватает?

Slide 277

Slide 277 text

No content

Slide 278

Slide 278 text

No content

Slide 279

Slide 279 text

No content

Slide 280

Slide 280 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ...

Slide 281

Slide 281 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … aT1 1 6 42

Slide 282

Slide 282 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 1 6 42

Slide 283

Slide 283 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 1 6 42 bT1 22 17 8

Slide 284

Slide 284 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 1 6 42 bT1 22 17 8 cT1 12 3 7 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ...

Slide 285

Slide 285 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 1 7 6 2 42 24 bT1 22 17 8 cT1 12 3 7 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ...

Slide 286

Slide 286 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 1 7 6 2 42 24 bT1 bT2 22 34 17 5 8 19 cT1 12 3 7 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... other_metric{x=”a”} 34 other_metric{x=”b”} 5 other_metric{x=”c”} 19 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ...

Slide 287

Slide 287 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 1 7 6 2 42 24 bT1 bT2 22 34 17 5 8 19 cT1 cT2 12 18 3 19 7 49 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... my_metric{label=”b”} 18 my_metric{label=”c”} 19 my_metric{label=”d”} 49 ... other_metric{x=”a”} 34 other_metric{x=”b”} 5 other_metric{x=”c”} 19 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ...

Slide 288

Slide 288 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 aT3 1 7 4 6 2 8 42 24 13 bT1 bT2 22 34 17 5 8 19 cT1 cT2 12 18 3 19 7 49 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... my_metric{label=”b”} 18 my_metric{label=”c”} 19 my_metric{label=”d”} 49 ... other_metric{x=”a”} 34 other_metric{x=”b”} 5 other_metric{x=”c”} 19 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ... my_metric{label=”a”} 4 my_metric{label=”b”} 8 my_metric{label=”c”} 13 ...

Slide 289

Slide 289 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 aT3 1 7 4 6 2 8 42 24 13 bT1 bT2 22 34 17 5 8 19 cT1 cT2 12 18 3 19 7 49 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... my_metric{label=”b”} 18 my_metric{label=”c”} 19 my_metric{label=”d”} 49 ... other_metric{x=”a”} 34 other_metric{x=”b”} 5 other_metric{x=”c”} 19 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ... my_metric{label=”a”} 4 my_metric{label=”b”} 8 my_metric{label=”c”} 13 ...

Slide 290

Slide 290 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 aT3 1 7 4 6 2 8 42 24 13 bT1 bT2 22 34 17 5 8 19 cT1 cT2 12 18 3 19 7 49 my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... my_metric{label=”b”} 18 my_metric{label=”c”} 19 my_metric{label=”d”} 49 ... other_metric{x=”a”} 34 other_metric{x=”b”} 5 other_metric{x=”c”} 19 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ... my_metric{label=”a”} 4 my_metric{label=”b”} 8 my_metric{label=”c”} 13 ... my_metric{label=”a”, foo=”a”} 4 my_metric{label=”b”, foo=”a”} 8 my_metric{label=”c”, foo=”a”} 13 … other_metric{label=”a”, foo=”b”} 34 other_metric{label=”b”, foo=”b”} 5 other_metric{label=”c”, foo=”b”} 19 … my_metric{label=”b”, foo=”c”} 18 my_metric{label=”c”, foo=”c”} 19 my_metric{label=”d”, foo=”c”} 49 …

Slide 291

Slide 291 text

my_metric{label=”a”} 1 my_metric{label=”b”} 6 my_metric{label=”c”} 42 ... my_metric{label=”a”, foo=”a”} my_metric{label=”b”, foo=”a”} my_metric{label=”c”, foo=”a”} … other_metric{label=”a”, foo=”b”} other_metric{label=”b”, foo=”b”} other_metric{label=”c”, foo=”b”} … my_metric{label=”b”, foo=”c”} my_metric{label=”c”, foo=”c”} my_metric{label=”d”, foo=”c”} … other_metric{x=”a”} 22 other_metric{x=”b”} 17 other_metric{x=”c”} 8 ... aT1 aT2 aT3 1 7 4 6 2 8 42 24 13 bT1 bT2 22 34 17 5 8 19 cT1 cT2 12 18 3 19 7 49 my_metric{label=”a”, foo=”a”} 4 my_metric{label=”b”, foo=”a”} 8 my_metric{label=”c”, foo=”a”} 13 … other_metric{label=”a”, foo=”b”} 34 other_metric{label=”b”, foo=”b”} 5 other_metric{label=”c”, foo=”b”} 19 … my_metric{label=”b”, foo=”c”} 18 my_metric{label=”c”, foo=”c”} 19 my_metric{label=”d”, foo=”c”} 49 … my_metric{label=”b”} 12 my_metric{label=”c”} 3 my_metric{label=”d”} 7 ... API GET /federate HTTP/1.0 my_metric{label=”b”} 18 my_metric{label=”c”} 19 my_metric{label=”d”} 49 ... other_metric{x=”a”} 34 other_metric{x=”b”} 5 other_metric{x=”c”} 19 ... my_metric{label=”a”} 7 my_metric{label=”b”} 2 my_metric{label=”c”} 24 ... my_metric{label=”a”} 4 my_metric{label=”b”} 8 my_metric{label=”c”} 13 ...

Slide 292

Slide 292 text

Collector Targets Service Discovery API TSDB

Slide 293

Slide 293 text

Collector Targets Service Discovery API TSDB Collector Targets Service Discovery TSDB

Slide 294

Slide 294 text

Collector Targets Service Discovery API TSDB Collector Targets Service Discovery TSDB

Slide 295

Slide 295 text

Collector Targets Service Discovery API TSDB Collector TSDB

Slide 296

Slide 296 text

ns/kube-prometheus 30 sec N Alertmanager N

Slide 297

Slide 297 text

ns/kube-prometheus 30 sec N Alertmanager N

Slide 298

Slide 298 text

ns/kube-prometheus 30 sec N Alertmanager N

Slide 299

Slide 299 text

ns/kube-prometheus 30 sec N Alertmanager N 5 m in

Slide 300

Slide 300 text

ns/kube-prometheus 30 sec N Alertmanager N Longterm 5 m in

Slide 301

Slide 301 text

ns/kube-prometheus 30 sec N Alertmanager N Longterm 5 m in

Slide 302

Slide 302 text

ns/kube-prometheus 30 sec N Alertmanager N 5 m in Longterm

Slide 303

Slide 303 text

ns/kube-prometheus 30 sec N Alertmanager N 5 m in Longterm

Slide 304

Slide 304 text

ns/kube-prometheus 30 sec N Alertmanager N Longterm 5 m in

Slide 305

Slide 305 text

Поговорим про графики!

Slide 306

Slide 306 text

ns/project-b ns/project-a ns/project-c

Slide 307

Slide 307 text

ns/project-b ns/project-a ns/project-c

Slide 308

Slide 308 text

ns/project-b ns/project-a ns/project-c

Slide 309

Slide 309 text

ns/project-b ns/project-a ns/project-c

Slide 310

Slide 310 text

ns/project-b ns/project-a ns/project-c

Slide 311

Slide 311 text

ns/project-b ns/project-a ns/project-c

Slide 312

Slide 312 text

ns/project-b ns/project-c ns/project-a

Slide 313

Slide 313 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 314

Slide 314 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 315

Slide 315 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 316

Slide 316 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 317

Slide 317 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 318

Slide 318 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 319

Slide 319 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 320

Slide 320 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 321

Slide 321 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 322

Slide 322 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 323

Slide 323 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 324

Slide 324 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 325

Slide 325 text

ns/project-a deploy/frontend deploy/backend deploy/redis

Slide 326

Slide 326 text

namespace pod group pod container Drill down →

Slide 327

Slide 327 text

Над чем мы работаем сейчас

Slide 328

Slide 328 text

Над чем мы работаем сейчас PodPreset

Slide 329

Slide 329 text

Над чем мы работаем сейчас PodPreset Еще одно измерение

Slide 330

Slide 330 text

Над чем мы работаем сейчас Автоматический триаж PodPreset Еще одно измерение

Slide 331

Slide 331 text

Над чем мы работаем сейчас Автоматический триаж Автоматизация root cause analysis PodPreset Еще одно измерение

Slide 332

Slide 332 text

Итог?

Slide 333

Slide 333 text

Что такое мониторинг? Упреждение аварий Уведомление об аварии Быстрая диагностика Система мониторинга Точные данные Полезные графики Актуальные алерты

Slide 334

Slide 334 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных Использовать встроенные примитивы Помнить, что “реальности” больше одной В одном кластере много окружений

Slide 335

Slide 335 text

Нужно группировать Service Discovery стал обязательным Объем данных вырос Текучка метаданных Использовать встроенные примитивы Помнить, что “реальности” больше одной В одном кластере много окружений

Slide 336

Slide 336 text

Наш рецепт мониторинга Kubernetes!

Slide 337

Slide 337 text

Наш рецепт мониторинга Kubernetes! 1. Возьмите Prometheus

Slide 338

Slide 338 text

Наш рецепт мониторинга Kubernetes! 1. Возьмите Prometheus 2. Приготовьте 2000 часов

Slide 339

Slide 339 text

Наш рецепт мониторинга Kubernetes! 1. Возьмите Prometheus 2. Приготовьте 2000 часов 3. Помните, что содержимое важнее системы!

Slide 340

Slide 340 text

Наш рецепт мониторинга Kubernetes! 1. Возьмите Prometheus 2. Приготовьте 2000 часов 3. Помните, что содержимое важнее системы! 4. Сделайте мониторинг!

Slide 341

Slide 341 text

24×7×365 L1/L2/L3/+ DevOps SLA 30+

Slide 342

Slide 342 text

24×7×365 L1/L2/L3/+ DevOps SLA 30+ … и по доступной цене

Slide 343

Slide 343 text

Лучшие практики Continuous Delivery с Docker RootConf 2016 Собираем Docker- образы быстро и удобно Highload 2016 Наш опыт с Kubernetes в небольших проектах RootConf 2017 Лучшие практики CI/CD с Kubernetes и GitLab Highload 2017 youtube.com/c/flant

Slide 344

Slide 344 text

Наши Docker-проекты github.com/flant/dapp github.com/flant/loghouse Дмитрий Столяров [email protected] linkedin.com/in/distol github.com/distol Всем спасибо! Наш блог на Хабрахабре habr.com/company/flant/ Наш youtube-канал youtube.com/c/flant