Slide 1

Slide 1 text

“Серебряная пуля” для мониторинга многокомпонентных приложений, построенных на JVM и других платформах Владимир Красильщик, Dino Systems SECR 2018, Москва

Slide 2

Slide 2 text

Обо мне !2

Slide 3

Slide 3 text

Обо мне !3

Slide 4

Slide 4 text

О чем этот доклад !4

Slide 5

Slide 5 text

О чем этот доклад !4 • ~104 гетерогенных микросервисов (компонентов)

Slide 6

Slide 6 text

О чем этот доклад !4 • ~104 гетерогенных микросервисов (компонентов) • Штатные нефункциональные и бизнес показатели

Slide 7

Slide 7 text

О чем этот доклад !4 • ~104 гетерогенных микросервисов (компонентов) • Штатные нефункциональные и бизнес показатели • Деградации, поломки, (не)приятные неожиданности

Slide 8

Slide 8 text

Для кого этот доклад !5

Slide 9

Slide 9 text

Для кого этот доклад !5 • Ответственные за компоненты

Slide 10

Slide 10 text

Для кого этот доклад !5 • Ответственные за компоненты • Разработчики и инженеры по качеству

Slide 11

Slide 11 text

Для кого этот доклад !5 • Ответственные за компоненты • Разработчики и инженеры по качеству • Дежурные, поддержка

Slide 12

Slide 12 text

Для кого этот доклад !5 • Ответственные за компоненты • Разработчики и инженеры по качеству • Дежурные, поддержка • Product owners, менеджеры

Slide 13

Slide 13 text

Для кого этот доклад !5 • Ответственные за компоненты • Разработчики и инженеры по качеству • Дежурные, поддержка • Product owners, менеджеры • Аналитики

Slide 14

Slide 14 text

План доклада !6

Slide 15

Slide 15 text

План доклада !6 • Быстро разбираемся что же такое APM и BTM

Slide 16

Slide 16 text

План доклада !6 • Быстро разбираемся что же такое APM и BTM • Поиски “серебряной пули”

Slide 17

Slide 17 text

План доклада !6 • Быстро разбираемся что же такое APM и BTM • Поиски “серебряной пули” • Рекомендации

Slide 18

Slide 18 text

Объекты мониторинга !7

Slide 19

Slide 19 text

Объекты мониторинга !7 железо и сеть

Slide 20

Slide 20 text

Объекты мониторинга !7 железо и сеть микросервисы

Slide 21

Slide 21 text

Объекты мониторинга !7 железо и сеть микросервисы транзакции

Slide 22

Slide 22 text

Объекты мониторинга !7 железо и сеть микросервисы транзакции APM

Slide 23

Slide 23 text

Объекты мониторинга !7 железо и сеть микросервисы транзакции BTM APM

Slide 24

Slide 24 text

Объекты мониторинга !8

Slide 25

Slide 25 text

Объекты мониторинга !8

Slide 26

Slide 26 text

Объекты мониторинга !8

Slide 27

Slide 27 text

Объекты мониторинга !8

Slide 28

Slide 28 text

Объекты мониторинга !8

Slide 29

Slide 29 text

Объекты мониторинга !8

Slide 30

Slide 30 text

Объекты мониторинга !8

Slide 31

Slide 31 text

Объекты мониторинга !8

Slide 32

Slide 32 text

Объекты мониторинга !8

Slide 33

Slide 33 text

Объекты мониторинга !8

Slide 34

Slide 34 text

Объекты мониторинга !8

Slide 35

Slide 35 text

Объекты мониторинга !8

Slide 36

Slide 36 text

Объекты мониторинга !8

Slide 37

Slide 37 text

Объекты мониторинга !8 APM

Slide 38

Slide 38 text

Объекты мониторинга !8 APM

Slide 39

Slide 39 text

Объекты мониторинга !8 APM t

Slide 40

Slide 40 text

Объекты мониторинга !8 APM t BTM

Slide 41

Slide 41 text

Объекты мониторинга !9 APM t BTM

Slide 42

Slide 42 text

!10 Объекты мониторинга

Slide 43

Slide 43 text

!11 Объекты мониторинга

Slide 44

Slide 44 text

!12

Slide 45

Slide 45 text

Первая кровь !13

Slide 46

Slide 46 text

Первая кровь !13 • 2010 г., инвестиционный банкинг

Slide 47

Slide 47 text

Первая кровь !13 • 2010 г., инвестиционный банкинг • 40+ микросервисов, java

Slide 48

Slide 48 text

Первая кровь !13 • 2010 г., инвестиционный банкинг • 40+ микросервисов, java • Не знаем как дела в проде

Slide 49

Slide 49 text

Первая кровь !13 • 2010 г., инвестиционный банкинг • 40+ микросервисов, java • Не знаем как дела в проде • Не знаем как дела в тестинге

Slide 50

Slide 50 text

ITRS Geneos !14

Slide 51

Slide 51 text

ITRS Geneos !14

Slide 52

Slide 52 text

ITRS Geneos !14 app

Slide 53

Slide 53 text

ITRS Geneos !14 app

Slide 54

Slide 54 text

ITRS Geneos !14 app

Slide 55

Slide 55 text

ITRS Geneos !14 app

Slide 56

Slide 56 text

ITRS Geneos !14 app

Slide 57

Slide 57 text

ITRS Geneos !14 app

Slide 58

Slide 58 text

ITRS Geneos !14 app

Slide 59

Slide 59 text

ITRS Geneos !14 app

Slide 60

Slide 60 text

ITRS Geneos !14 app

Slide 61

Slide 61 text

ITRS Geneos !14 app

Slide 62

Slide 62 text

ITRS Geneos !14 app

Slide 63

Slide 63 text

ITRS Geneos !14 app

Slide 64

Slide 64 text

ITRS Geneos !14 app

Slide 65

Slide 65 text

ITRS Geneos !14 app

Slide 66

Slide 66 text

ITRS Geneos !14 app

Slide 67

Slide 67 text

ITRS Geneos !15

Slide 68

Slide 68 text

ITRS Geneos !15 парсинг логов и поиск паттернов

Slide 69

Slide 69 text

ITRS Geneos !15 • log.warn(Alert.AMBER + “Be ready to fail soon, dude”, e) log.error(Alert.RED + “Something very bad happened”, e) парсинг логов и поиск паттернов

Slide 70

Slide 70 text

ITRS Geneos !15 • log.warn(Alert.AMBER + “Be ready to fail soon, dude”, e) log.error(Alert.RED + “Something very bad happened”, e) • Runtime.getRuntime().freeMemory()/(1024*1024), Runtime.getRuntime().totalMemory()/(1024*1024) парсинг логов и поиск паттернов

Slide 71

Slide 71 text

ITRS Geneos !15 • log.warn(Alert.AMBER + “Be ready to fail soon, dude”, e) log.error(Alert.RED + “Something very bad happened”, e) • Runtime.getRuntime().freeMemory()/(1024*1024), Runtime.getRuntime().totalMemory()/(1024*1024) • Размеры очередей в Executor-ах парсинг логов и поиск паттернов

Slide 72

Slide 72 text

ITRS Geneos !15 • log.warn(Alert.AMBER + “Be ready to fail soon, dude”, e) log.error(Alert.RED + “Something very bad happened”, e) • Runtime.getRuntime().freeMemory()/(1024*1024), Runtime.getRuntime().totalMemory()/(1024*1024) • Размеры очередей в Executor-ах • Счётчики открытых файловых дескрипторов парсинг логов и поиск паттернов

Slide 73

Slide 73 text

!16

Slide 74

Slide 74 text

!17

Slide 75

Slide 75 text

Основные критерии “серебряной пули” !18

Slide 76

Slide 76 text

Основные критерии “серебряной пули” !18 • Цена

Slide 77

Slide 77 text

Основные критерии “серебряной пули” !18 • Цена • SaaS vs On-premise

Slide 78

Slide 78 text

Основные критерии “серебряной пули” !18 • Цена • SaaS vs On-premise • Степень инвазии

Slide 79

Slide 79 text

Степени инвазии !19

Slide 80

Slide 80 text

Степени инвазии !19 0 - ничего не требуется

Slide 81

Slide 81 text

Степени инвазии !19 0 - ничего не требуется 1 - установить сервер

Slide 82

Slide 82 text

Степени инвазии !19 0 - ничего не требуется 1 - установить сервер 2 - установить сервер + агент на каждый комп

Slide 83

Slide 83 text

Степени инвазии !19 0 - ничего не требуется 1 - установить сервер 2 - установить сервер + агент на каждый комп 3 - установить сервер + агент на каждый микросервис

Slide 84

Slide 84 text

Степени инвазии !19 0 - ничего не требуется 1 - установить сервер 2 - установить сервер + агент на каждый комп 3 - установить сервер + агент на каждый микросервис 4 - установить сервер + изменение кода микросервисов

Slide 85

Slide 85 text

!20

Slide 86

Slide 86 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21

Slide 87

Slide 87 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21

Slide 88

Slide 88 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 89

Slide 89 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 90

Slide 90 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 91

Slide 91 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 92

Slide 92 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 93

Slide 93 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 94

Slide 94 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 95

Slide 95 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 96

Slide 96 text

Гонка вооружения / Первый круг / Hyperic HQ, Nagios XI !21 app

Slide 97

Slide 97 text

Гонка вооружения / Второй круг / AppDynamics, New Relic !22 app app app

Slide 98

Slide 98 text

Гонка вооружения / Третий круг / MoSKito !23 app app app

Slide 99

Slide 99 text

!24

Slide 100

Slide 100 text

DIY = Do It Yourself !25

Slide 101

Slide 101 text

DIY = Do It Yourself !26

Slide 102

Slide 102 text

DIY = Do It Yourself !26 • Хотим единый экран с “лампочками”

Slide 103

Slide 103 text

DIY = Do It Yourself !26 • Хотим единый экран с “лампочками” • Веб, просто разрабатывать, просто поддерживать

Slide 104

Slide 104 text

DIY = Do It Yourself !26 • Хотим единый экран с “лампочками” • Веб, просто разрабатывать, просто поддерживать • Не хотим устанавливать агенты на компы

Slide 105

Slide 105 text

DIY = Do It Yourself !26 • Хотим единый экран с “лампочками” • Веб, просто разрабатывать, просто поддерживать • Не хотим устанавливать агенты на компы • Не хотим инструментировать микросервисы

Slide 106

Slide 106 text

DIY = Do It Yourself !26 • Хотим единый экран с “лампочками” • Веб, просто разрабатывать, просто поддерживать • Не хотим устанавливать агенты на компы • Не хотим инструментировать микросервисы • Не хотим менять код микросервисов

Slide 107

Slide 107 text

Status Screen !27

Slide 108

Slide 108 text

Status Screen !28

Slide 109

Slide 109 text

Status Screen !29

Slide 110

Slide 110 text

Status Screen !30

Slide 111

Slide 111 text

!31

Slide 112

Slide 112 text

!32

Slide 113

Slide 113 text

Drozd !33

Slide 114

Slide 114 text

Drozd !33 • Intellij IDEA plugin

Slide 115

Slide 115 text

Drozd !33 • Intellij IDEA plugin • ssh, jdk 1.6+

Slide 116

Slide 116 text

Drozd !33 • Intellij IDEA plugin • ssh, jdk 1.6+ • gridkit (nanocloud)

Slide 117

Slide 117 text

Drozd !33 • Intellij IDEA plugin • ssh, jdk 1.6+ • gridkit (nanocloud) • com.sun.tools.attach.*

Slide 118

Slide 118 text

!34

Slide 119

Slide 119 text

!35

Slide 120

Slide 120 text

!36

Slide 121

Slide 121 text

!37

Slide 122

Slide 122 text

Нефункциональные показатели http компонентов !38

Slide 123

Slide 123 text

Нефункциональные показатели http компонентов !38 • RPS

Slide 124

Slide 124 text

Нефункциональные показатели http компонентов !38 • RPS • Timings

Slide 125

Slide 125 text

Нефункциональные показатели http компонентов !38 • RPS • Timings • Errors

Slide 126

Slide 126 text

Нефункциональные показатели http компонентов !38 • RPS • Timings • Errors • 500-ки

Slide 127

Slide 127 text

!39 Нефункциональные показатели http компонентов

Slide 128

Slide 128 text

!39 app Нефункциональные показатели http компонентов

Slide 129

Slide 129 text

!39 app client Нефункциональные показатели http компонентов

Slide 130

Slide 130 text

!39 app nginx client Нефункциональные показатели http компонентов

Slide 131

Slide 131 text

!39 app nginx client Нефункциональные показатели http компонентов

Slide 132

Slide 132 text

!39 app nginx client Нефункциональные показатели http компонентов

Slide 133

Slide 133 text

!39 app nginx client Нефункциональные показатели http компонентов

Slide 134

Slide 134 text

!39 app nginx client access.log Нефункциональные показатели http компонентов

Slide 135

Slide 135 text

!39 app nginx client access.log push Нефункциональные показатели http компонентов

Slide 136

Slide 136 text

!39 app nginx client access.log push Нефункциональные показатели http компонентов

Slide 137

Slide 137 text

!39 app nginx client access.log push Нефункциональные показатели http компонентов

Slide 138

Slide 138 text

!39 app nginx client access.log push Kafka Нефункциональные показатели http компонентов

Slide 139

Slide 139 text

!39 app nginx client access.log push Kafka Нефункциональные показатели http компонентов

Slide 140

Slide 140 text

!39 app nginx client access.log push Kafka store Нефункциональные показатели http компонентов

Slide 141

Slide 141 text

!39 app nginx client access.log push Kafka store Нефункциональные показатели http компонентов

Slide 142

Slide 142 text

!39 ClickHouse app nginx client access.log push Kafka store Нефункциональные показатели http компонентов

Slide 143

Slide 143 text

!40 Нефункциональные показатели http компонентов

Slide 144

Slide 144 text

!40 • access.log - tskv формат:
 timestamp=2018-10-13T13:10:01.123 url=/someurl method=POST code=200 resp_time=123 host=a1.b1.c1.com Нефункциональные показатели http компонентов

Slide 145

Slide 145 text

!40 • access.log - tskv формат:
 timestamp=2018-10-13T13:10:01.123 url=/someurl method=POST code=200 resp_time=123 host=a1.b1.c1.com • Конфигурации store: DC, host, имя файла, как разложить tskv в таблицу в ClickHouse Нефункциональные показатели http компонентов

Slide 146

Slide 146 text

!41 Нефункциональные показатели http компонентов

Slide 147

Slide 147 text

!41 ClickHouse Нефункциональные показатели http компонентов

Slide 148

Slide 148 text

!41 ClickHouse Нефункциональные показатели http компонентов

Slide 149

Slide 149 text

!41 ClickHouse agg Нефункциональные показатели http компонентов

Slide 150

Slide 150 text

!41 ClickHouse agg Нефункциональные показатели http компонентов

Slide 151

Slide 151 text

!41 ClickHouse graphite agg Нефункциональные показатели http компонентов

Slide 152

Slide 152 text

!41 ClickHouse graphite agg graphana Нефункциональные показатели http компонентов

Slide 153

Slide 153 text

!41 ClickHouse graphite agg graphana Нефункциональные показатели http компонентов

Slide 154

Slide 154 text

!41 ClickHouse graphite agg graphana Нефункциональные показатели http компонентов

Slide 155

Slide 155 text

!41 ClickHouse graphite agg graphana alert Нефункциональные показатели http компонентов

Slide 156

Slide 156 text

!42 Нефункциональные показатели http компонентов

Slide 157

Slide 157 text

!42 • Конфигурации agg: как агрегировать данные из ClickHouse (DC, code, период) Нефункциональные показатели http компонентов

Slide 158

Slide 158 text

!42 • Конфигурации agg: как агрегировать данные из ClickHouse (DC, code, период) • Конфигурации agg: отсечки на значения, генерятся события и отправляются в alert Нефункциональные показатели http компонентов

Slide 159

Slide 159 text

!43 Нефункциональные показатели http компонентов

Slide 160

Slide 160 text

!43 alert Нефункциональные показатели http компонентов

Slide 161

Slide 161 text

!43 alert Нефункциональные показатели http компонентов

Slide 162

Slide 162 text

!43 tg alert Нефункциональные показатели http компонентов

Slide 163

Slide 163 text

!43 tg alert Нефункциональные показатели http компонентов

Slide 164

Slide 164 text

!43 mail tg alert Нефункциональные показатели http компонентов

Slide 165

Slide 165 text

!43 mail tg alert Нефункциональные показатели http компонентов

Slide 166

Slide 166 text

!43 mail tg alert phone Нефункциональные показатели http компонентов

Slide 167

Slide 167 text

!44 Функциональные показатели http компонентов

Slide 168

Slide 168 text

!44 • Продажи в моменте: количество и прибыль Функциональные показатели http компонентов

Slide 169

Slide 169 text

!44 • Продажи в моменте: количество и прибыль • Средняя стоимость услуги в моменте Функциональные показатели http компонентов

Slide 170

Slide 170 text

!45 CH app nginx client access.log push Kafka store gra phite agg gra phana alert Функциональные показатели http компонентов

Slide 171

Slide 171 text

Трассировка !46

Slide 172

Slide 172 text

Трассировка !47 t BTM

Slide 173

Slide 173 text

Трассировка !48

Slide 174

Slide 174 text

Трассировка !48 app

Slide 175

Slide 175 text

Трассировка !48 app

Slide 176

Slide 176 text

Трассировка !48 app trace.log

Slide 177

Slide 177 text

Трассировка !48 app trace.log push

Slide 178

Slide 178 text

Трассировка !48 app trace.log push

Slide 179

Slide 179 text

Трассировка !48 app trace.log push

Slide 180

Slide 180 text

Трассировка !48 app trace.log push Kafka

Slide 181

Slide 181 text

Трассировка !48 app trace.log push Kafka

Slide 182

Slide 182 text

Трассировка !48 app trace.log push Kafka store

Slide 183

Slide 183 text

Трассировка !48 app trace.log push Kafka store

Slide 184

Slide 184 text

Трассировка !48 ClickHouse app trace.log push Kafka store

Slide 185

Slide 185 text

Трассировка !49

Slide 186

Slide 186 text

Трассировка !49 • trace.log - tskv формат:
 timestamp=2018-10-13T13:10:01.123 url=/someurl method=POST code=200 resp_time=123 host=a1.b1.c1.com req_id=12345/1/2/3 source=app target=app2

Slide 187

Slide 187 text

Трассировка !49 • trace.log - tskv формат:
 timestamp=2018-10-13T13:10:01.123 url=/someurl method=POST code=200 resp_time=123 host=a1.b1.c1.com req_id=12345/1/2/3 source=app target=app2 • В ClickHouse единая таблица для всех логов!

Slide 188

Slide 188 text

!50

Slide 189

Slide 189 text

!51

Slide 190

Slide 190 text

!52 Состояние данных в базе

Slide 191

Slide 191 text

!52 Состояние данных в базе DB

Slide 192

Slide 192 text

!52 Состояние данных в базе DB view

Slide 193

Slide 193 text

!52 Состояние данных в базе DB view view

Slide 194

Slide 194 text

!52 Состояние данных в базе DB view view view

Slide 195

Slide 195 text

!52 Состояние данных в базе DB view mon view view

Slide 196

Slide 196 text

!52 Состояние данных в базе DB view mon view view

Slide 197

Slide 197 text

!52 Состояние данных в базе DB view mon view view

Slide 198

Slide 198 text

!52 Состояние данных в базе DB view mon alert view view

Slide 199

Slide 199 text

!53 Состояние процессов

Slide 200

Slide 200 text

!53 Состояние процессов app

Slide 201

Slide 201 text

!53 Состояние процессов script app

Slide 202

Slide 202 text

!53 Состояние процессов script script app

Slide 203

Slide 203 text

!53 Состояние процессов script script script app

Slide 204

Slide 204 text

!53 Состояние процессов script mon script script app

Slide 205

Slide 205 text

!53 Состояние процессов script mon script script app

Slide 206

Slide 206 text

!53 Состояние процессов script mon script script app

Slide 207

Slide 207 text

!53 Состояние процессов script mon alert script script app

Slide 208

Slide 208 text

!54 Квоты S3 YT mon alert

Slide 209

Slide 209 text

!55 Встроенное здоровье mon alert app app app

Slide 210

Slide 210 text

!56

Slide 211

Slide 211 text

Примеры !57

Slide 212

Slide 212 text

Примеры !57 1. Рост ошибок == релиз соседней команды

Slide 213

Slide 213 text

Примеры !57 1. Рост ошибок == релиз соседней команды 2. Падение продаж == отказ датацентра

Slide 214

Slide 214 text

Примеры !57 1. Рост ошибок == релиз соседней команды 2. Падение продаж == отказ датацентра 3. Падение продаж == отказ push

Slide 215

Slide 215 text

Примеры !57 1. Рост ошибок == релиз соседней команды 2. Падение продаж == отказ датацентра 3. Падение продаж == отказ push 4. Резкий рост продаж == релиз соседней команды с фиксом

Slide 216

Slide 216 text

Примеры !57 1. Рост ошибок == релиз соседней команды 2. Падение продаж == отказ датацентра 3. Падение продаж == отказ push 4. Резкий рост продаж == релиз соседней команды с фиксом 5. Средняя цена клика перестала считаться == “пробой потолка”

Slide 217

Slide 217 text

Итоги !58

Slide 218

Slide 218 text

Итоги !58 • Есть готовые “коробки” для APM и BTM

Slide 219

Slide 219 text

Итоги !58 • Есть готовые “коробки” для APM и BTM • DIY == log - Kafka - ClickHouse - graphite

Slide 220

Slide 220 text

Итоги !58 • Есть готовые “коробки” для APM и BTM • DIY == log - Kafka - ClickHouse - graphite • Трассировка (общая и внутренняя): логи, сквозной req_id

Slide 221

Slide 221 text

Итоги !58 • Есть готовые “коробки” для APM и BTM • DIY == log - Kafka - ClickHouse - graphite • Трассировка (общая и внутренняя): логи, сквозной req_id • Формат tskv

Slide 222

Slide 222 text

Итоги !58 • Есть готовые “коробки” для APM и BTM • DIY == log - Kafka - ClickHouse - graphite • Трассировка (общая и внутренняя): логи, сквозной req_id • Формат tskv • Мощный мониторинг == инфраструктура || сильная инвазия

Slide 223

Slide 223 text

Итоги !58 • Есть готовые “коробки” для APM и BTM • DIY == log - Kafka - ClickHouse - graphite • Трассировка (общая и внутренняя): логи, сквозной req_id • Формат tskv • Мощный мониторинг == инфраструктура || сильная инвазия • “Серебряная пуля” == арсенал специализированных инструментов + единый канал для алертов

Slide 224

Slide 224 text

!59 [email protected] @dyer_the Владимир Красильщик, Dino Systems SECR 2018, Москва