CodeFest 2018. Павел Димитрюк (Beeline) — Обработка и хранение потоковых данных в Apache Ignite

Обработка и хранение потоковых данных в Apache Ignite Хочу поделиться
опытом применения технологии In-Memory Data Grid в потоковой обработке данных (500К/sec) Павел Димитрюк Программист Beeline

Это моё личное мнение • Я показываю только суть и
применяемые подходы • Реализация имеет право отличаться • Не согласны? Давайте спорить! 2

Кому интересно? • Разработчики ◦ JVM languages ◦ C++ ◦
.NET ◦ JDBC, ODBC ◦ ... 3

Кому интересно? • Разработчики ◦ JVM languages ◦ C++ ◦
.NET ◦ JDBC, ODBC ◦ ... • Архитекторы 4

Немного о нас Нам департамент занимается развитием технологий больших данных
в Билайн. 5

в Билайн. Данное подразделение образовано в 2012 году в Новосибирске. Уже как 6 лет мы занимается opensource технологиями связанными с BigData. 6

в Билайн. Данное подразделение образовано в 2012 году в Новосибирске. Уже как 6 лет мы занимается opensource технологиями связанными с BigData. Мы занимается развитием и сопровождением core-части Data Management Platform. Стараемся использовать только opensource 7

План доклада • Текущую архитектуру BigData платформы 8

План доклада • Текущую архитектуру BigData платформы • Почему начали
смотреть на IMDG? ◦ Распределенные системы ◦ Немного об Apache Ignite 9

смотреть на IMDG? ◦ Распределенные системы ◦ Немного об Apache Ignite • Задачи решаемые на Apache Ignite ◦ Как реализована обработка потоковых данных? ◦ Хранение данных в Apache Ignite ◦ Зачем хранить окна потоковых данных в памяти? 10

смотреть на IMDG? ◦ Распределенные системы ◦ Немного об Apache Ignite • Задачи решаемые на Apache Ignite ◦ Как реализована обработка потоковых данных? ◦ Хранение данных в Apache Ignite ◦ Зачем хранить окна потоковых данных в памяти? • Особенности эксплуатации Apache Ignite 11

Ну, поехали! • Текущую архитектуру BigData платформы • Почему начали

Что такое DMP? 13

Цель кластера • Запросы на данных больших объемов (источники по
2TB в день) 22

2TB в день) • Объединение данных из различных источников (> 50 источников) 23

2TB в день) • Объединение данных из различных источников (> 50 источников) • Анализ показателей мобильной сети 24

2TB в день) • Объединение данных из различных источников (> 50 источников) • Анализ показателей мобильной сети • Построение витрин данных 25

2TB в день) • Объединение данных из различных источников (> 50 источников) • Анализ показателей мобильной сети • Построение витрин данных • Аналитические запросы 26

2TB в день) • Объединение данных из различных источников (> 50 источников) • Анализ показателей мобильной сети • Построение витрин данных • Аналитические запросы • Машинное обучение 27

Какие данные собираем? Данные поступают более чем из 50 источников
Природа данных: • События с телекоммуникационного оборудования • Логи • Информация из различных информационных систем • Справочники 28

Немного цифр 29 Hadoop: Серверов: более 250 node CPU: более
6000 core HDD: более 10 PB RAM: более 25 TB Ежедневный прирост: 15 TB Kafka: Серверов: более 15 node Input: 1’700’000 rec/sec (240 MB/sec) Output: 530 MB/sec NoSQL: 350K req/sec NiFi: Серверов: более 20 node Output: 1’400’000 rec/sec Ignite: Серверов: около 10 node RAM: 900 GB Input: 500’000 rec/sec

Batch vs Stream processing • Пакетная обработка данных (batch processing)
◦ off-line ◦ большие пачки данных 33

Batch vs Stream processing • Пакетная обработка данных (batch processing)
◦ off-line ◦ большие пачки данных • Потоковая обработка данных (stream processing) ◦ on-line ◦ данные поступают непрерывно ◦ интересно каждое событие в отдельности 34

Где stream? 35

Где stream? 36

Где stream? 37

Ей, что дальше? • Текущую архитектуру BigData платформы • Почему
начали смотреть на IMDG? ◦ Распределенные системы ◦ Немного об Apache Ignite • Задачи решаемые на Apache Ignite ◦ Как реализована обработка потоковых данных? ◦ Хранение данных в Apache Ignite ◦ Зачем хранить окна потоковых данных в памяти? • Особенности эксплуатации Apache Ignite 38

Какие задачи? • Обработка потоковых данных с “какой-то” бизнес логикой
◦ Обогащение потока данных 39

◦ Обогащение потока данных ◦ Создание триггерной системы (реагирование на определенные события происходящие в рамках одного ключа) 40

◦ Обогащение потока данных ◦ Создание триггерной системы (реагирование на определенные события происходящие в рамках одного ключа) ◦ Актуализация профиля в realtime 41

◦ Обогащение потока данных ◦ Создание триггерной системы (реагирование на определенные события происходящие в рамках одного ключа) ◦ Актуализация профиля в realtime • Доступ по REST API 42

В чем сложность? • Поток данных в 500’000 в сек
43

• 90’000’000 пар ключ-значение 44

• 90’000’000 пар ключ-значение • Реагирование на изменение в атрибутах 45

• 90’000’000 пар ключ-значение • Реагирование на изменение в атрибутах • Расчет “оконных метрик” 46

Эти задачи сводятся к ... Некоему гибриду из: • Потоковой
обработки 47

обработки • Накопления стейта из потока данных 48

обработки • Накопления стейта из потока данных • Получение данных из стейта по ключу ◦ Данные можно привести в виду key -> value 49

обработки • Накопления стейта из потока данных • Получение данных из стейта по ключу ◦ Данные можно привести в виду key -> value • Job-ы на этом стейте 50

На кой черт тебе это надо? • Текущую архитектуру BigData
платформы • Почему начали смотреть на IMDG? ◦ Распределенные системы ◦ Немного об Apache Ignite • Задачи решаемые на Apache Ignite ◦ Как реализована обработка потоковых данных? ◦ Хранение данных в Apache Ignite ◦ Зачем хранить окна потоковых данных в памяти? • Особенности эксплуатации Apache Ignite 51

Зачем тут распределенные системы? • Как выдержать такой поток обновлений?
52

• Горизонтальное масштабирование 53

• Горизонтальное масштабирование • Сохранность данных 54

• Горизонтальное масштабирование • Сохранность данных • Логика обработки отправляется к данным 55

• Горизонтальное масштабирование • Сохранность данных • Логика обработки отправляется к данным • Ночью нужно спать! 56

Что такое распределенные системы? 57

Что такое распределенные системы? 61 • Шардирование данных

Что такое распределенные системы? 62 • Шардирование данных • Избыточность
в хранении ◦ Достижение консенсуса

Что такое распределенные системы? 63 • Шардирование данных • Избыточность
в хранении ◦ Достижение консенсуса • Распределенные вычисления

Distributed + Streaming = ? 64

Distributed + Streaming = ? 65

Неужели… дошли до Ignite! • Текущую архитектуру BigData платформы •
Почему начали смотреть на IMDG? ◦ Распределенные системы ◦ Немного об Apache Ignite • Задачи решаемые на Apache Ignite ◦ Как реализована обработка потоковых данных? ◦ Хранение данных в Apache Ignite ◦ Зачем хранить окна потоковых данных в памяти? • Особенности эксплуатации Apache Ignite 66

Внимание Мное что будет рассказано о возможностях Apache Ignite, актуально
и для других IMDG систем На время доклада это все одно и тоже: • Apache Ignite • IMDG (In-Memory Data Grid) • IMDF (In-Memory Data Fabric) 67

Что такое Apache Ignite? (Key, Value) -> 68 p/s Так
происходило мое осознание :)

Что такое Apache Ignite? (Key, Value) -> HashMap -> get(),
put() 69 p/s Так происходило мое осознание :)

put() ConcurrentHashMap -> JCache, transaction 70 p/s Так происходило мое осознание :)

put() ConcurrentHashMap -> JCache, transaction Distributed Cache -> peer-to-peer communication 71 p/s Так происходило мое осознание :)

put() ConcurrentHashMap -> JCache, transaction Distributed Cache -> peer-to-peer communication Distributed computing -> tasks, map-reduce 72 p/s Так происходило мое осознание :)

put() ConcurrentHashMap -> JCache, transaction Distributed Cache -> peer-to-peer communication Distributed computing -> tasks, map-reduce Distributed DataBase -> SQL, Table, Indexes 73 p/s Так происходило мое осознание :)

put() ConcurrentHashMap -> JCache, transaction Distributed Cache -> peer-to-peer communication Distributed computing -> tasks, map-reduce Distributed DataBase -> SQL, Table, Indexes Distributed services -> Service grid 74 p/s Так происходило мое осознание :)

Кеши, какие они? • LOCAL 75

Кеши, какие они? • LOCAL • REPLICATED 76

Кеши, какие они? • LOCAL • REPLICATED • PARTITIONED 77

Кеши, какие они? • LOCAL • REPLICATED • PARTITIONED •
NEAR 78

Еще что-то есть…? • Текущую архитектуру BigData платформы • Почему

А где же у Вас Ignite? 80

Просто огонь! 81

Можно подробней о stream processing? 82

А причем тут Ignite? 86

Какой следующий шаг эволюции? 87

Следующий шаг эволюции 88 • Affinity collocation ◦ Данные и
вычисления радом ◦ Связанные данные рядом

Следующий шаг эволюции 89 • Affinity collocation ◦ Данные и
вычисления радом ◦ Связанные данные рядом • P2P коммуникация узлов

Как готовим Ignite? • Ignite развернут в Kubernetes 90

Как готовим Ignite? • Ignite развернут в Kubernetes • Данные
из Kafka вычитываются каждой серверной Ignite нодой ◦ Часть данных через клиентские Ignite ноды 91

из Kafka вычитываются каждой серверной Ignite нодой ◦ Часть данных через клиентские Ignite ноды • Данные распределяются по узлам кластера согласно Affinity function 92

из Kafka вычитываются каждой серверной Ignite нодой ◦ Часть данных через клиентские Ignite ноды • Данные распределяются по узлам кластера согласно Affinity function • На нодах происходит обработка бизнес логикой ◦ Все данные по одному ключу находятся на одной ноде 93

из Kafka вычитываются каждой серверной Ignite нодой ◦ Часть данных через клиентские Ignite ноды • Данные распределяются по узлам кластера согласно Affinity function • На нодах происходит обработка бизнес логикой ◦ Все данные по одному ключу находятся на одной ноде • Персистентном для Ignite служит Cassandra 94

Какой API для загрузки данных? • DataStreamer ◦ StreamReceiver ▪
данные сохранять не обязательно 95

данные сохранять не обязательно • Загрузка данных их kafka реализована на reartive-kafka ◦ Мы отказались от KafkaStreamer и DataStreamer ▪ когда сдвигать offset в kafka? 96

данные сохранять не обязательно • Загрузка данных их kafka реализована на reartive-kafka ◦ Мы отказались от KafkaStreamer и DataStreamer ▪ когда сдвигать offset в kafka? ◦ Используем reactive-kafka и обычный putAll() ▪ offset сдвигаем после успешной записи 97

Обогащение потока данных 98

Подписываемся на поток изменений 101 • Использование continuous query ◦
LocalListener ◦ RemoteFilter ◦ initial QueryCursor

Подписываемся на поток изменений 102 • Использование continuous query ◦
LocalListener ◦ RemoteFilter ◦ initial QueryCursor • Использование services ◦ Логика на том же узле где происходят изменения

Подписываемся на поток изменений 103

Только нужные данные 108

Идем дальше... • Текущую архитектуру BigData платформы • Почему начали

In-memory… а где гарантии? 113 • Ignite Native Persistence ◦
почти все хорошо ;)

In-memory… а где гарантии? 114 • Ignite Native Persistence ◦
почти все хорошо ;) • 3rd party persistent storage ◦ дополнительные накладные расходы ◦ прогрев кешей

115 - Я так сильно потерялась, что потеряла то место,
где я потерялась...

- Я так сильно потерялась, что потеряла то место, где
я потерялась... 116 Возможна ли потеря данных при аварийном выключении нод? • Синхронная запись

я потерялась... 117 Возможна ли потеря данных при аварийном выключении нод? • Синхронная запись • Фоновая запись ◦ batch - операции

я потерялась... 118 Возможна ли потеря данных при аварийном выключении нод? • Синхронная запись • Фоновая запись ◦ batch - операции • Write-Ahead Log?

Прогрев caches в Ignite 119

Прогрев caches в Ignite 120 • Загрузка данных при старте
нод, без неё: ◦ Нельзя SQL, task и map-reduce ◦ Можно только get*(), put*()

нод, без неё: ◦ Нельзя SQL, task и map-reduce ◦ Можно только get*(), put*() • Предопределили LifeCycle ◦ Ожидание топологии в N нод

нод, без неё: ◦ Нельзя SQL, task и map-reduce ◦ Можно только get*(), put*() • Предопределили LifeCycle ◦ Ожидание топологии в N нод • Использование нового персистента Apache Ignite

Ignite Native Persistence 123 • Durable Memory ◦ SQL и
Map-Reduce без прогрева ◦ Часть в памяти, чать на диске

Map-Reduce без прогрева ◦ Часть в памяти, чать на диске • Write-Ahead Log ◦ медленная синхронная запись

Map-Reduce без прогрева ◦ Часть в памяти, чать на диске • Write-Ahead Log ◦ медленная синхронная запись • Index

Map-Reduce без прогрева ◦ Часть в памяти, чать на диске • Write-Ahead Log ◦ медленная синхронная запись • Index • Данные на том же узле кластера

Формат хранения данных 127 • Как Java Class ◦ Должен
быть в CLASSPATH на каждом узле ◦ Что будет если отличаются версии класса?

быть в CLASSPATH на каждом узле ◦ Что будет если отличаются версии класса? • BinaryObject ◦ Для cassandra конвертируем к виду Map[String, Object]

быть в CLASSPATH на каждом узле ◦ Что будет если отличаются версии класса? • BinaryObject ◦ Для cassandra конвертируем к виду Map[String, Object] • Есть ли проблема эволюции структуры данных?

Обновление только одного атрибута в значении 130 • lock ->
get() -> modify -> put() -> unlock

get() -> modify -> put() -> unlock • invoke() + EntryProcessor

get() -> modify -> put() -> unlock • invoke() + EntryProcessor • put() + CacheInterceptor

Оно точно надо? • Текущую архитектуру BigData платформы • Почему

Какие возможности дает “окно” данных? 134 • Запуск Tasks или
SQL слепке данных ◦ Нужно избавиться от сетевого взаимодействия при JOIN ◦ JDBC, ODBC ◦ Интеграция с Apache Zeppelin

SQL слепке данных ◦ Нужно избавиться от сетевого взаимодействия при JOIN ◦ JDBC, ODBC ◦ Интеграция с Apache Zeppelin • Расчет оконных метрик

SQL слепке данных ◦ Нужно избавиться от сетевого взаимодействия при JOIN ◦ JDBC, ODBC ◦ Интеграция с Apache Zeppelin • Расчет оконных метрик • Агрегация данных в удобном разрезе

Как организовать “окно” данных? 137 • Вытеснение по объему ◦
Page-based eviction ◦ Entry-based eviction

Как организовать “окно” данных? 138 • Вытеснение по объему ◦
Page-based eviction ◦ Entry-based eviction • Вытеснение по времени (TTL)

Ну почти… • Текущую архитектуру BigData платформы • Почему начали

Защита от split brain 140 Интересно? Давайте обсудим в дискуссионной
зоне :)

Особенности эксплуатации 141 • BinaryObject и его SerialVersionUID

Особенности эксплуатации 142 • BinaryObject и его SerialVersionUID • -Djava.net.preferIPv4Stack=true

• Корректный shutdown. SIGKILL + Docker

• Корректный shutdown. SIGKILL + Docker • Thread pools ◦ Простая логика в EntryProcessor или Deadlock

• Корректный shutdown. SIGKILL + Docker • Thread pools ◦ Простая логика в EntryProcessor или Deadlock • Ребалансировка

• Корректный shutdown. SIGKILL + Docker • Thread pools ◦ Простая логика в EntryProcessor или Deadlock • Ребалансировка • Деплой новой версии

Статус системы? • Сервисы в production ◦ ≈ 24/7 147

Статус системы? • Сервисы в production ◦ ≈ 24/7 •
Сервисы не business-critical 148

Основные плюсы для нас 149 • Ignite Native Persistence ◦
SQL и Map-Reduce без прогрева Cache

SQL и Map-Reduce без прогрева Cache • Данные и логика обработка живут в одной JVM ◦ Это и плюс и минус ◦ Именно нужные данные рядом!

SQL и Map-Reduce без прогрева Cache • Данные и логика обработка живут в одной JVM ◦ Это и плюс и минус ◦ Именно нужные данные рядом! • Хранение данных в offHeap

SQL и Map-Reduce без прогрева Cache • Данные и логика обработка живут в одной JVM ◦ Это и плюс и минус ◦ Именно нужные данные рядом! • Хранение данных в offHeap • Наличие вторичных индексов ◦ Key-value недостаточно, нужны вторичные индексы

Минусы • Медленный персистент в случае WAL + FSYNC mode
153

• Критичны “тормоза” в коммуникации узлов кластера ◦ Одна нода может влиять на весь кластер 154

• Критичны “тормоза” в коммуникации узлов кластера ◦ Одна нода может влиять на весь кластер • Деплоймент новой версии приложения 155

• Критичны “тормоза” в коммуникации узлов кластера ◦ Одна нода может влиять на весь кластер • Деплоймент новой версии приложения • Прогревание caches в случае “3rd party persistent storage” 156

• Критичны “тормоза” в коммуникации узлов кластера ◦ Одна нода может влиять на весь кластер • Деплоймент новой версии приложения • Прогревание caches в случае “3rd party persistent storage” • Нет возможности управления правами доступа 157

Не перестарайтесь! • Монолит 158

Не перестарайтесь! • Монолит • Микросервисная архитектура 159

Не перестарайтесь! • Монолит • Микросервисная архитектура • Распределенная система
160

Не перестарайтесь! • Монолит • Микросервисная архитектура • Распределенная система
• Распределенный монолит ;) 161

Вопросы? [email protected] Павел Димитрюк Программист Beeline

CodeFest 2018. Павел Димитрюк (Beeline) — Обраб...

CodeFest 2018. Павел Димитрюк (Beeline) — Обработка и хранение потоковых данных в Apache Ignite

More Decks by CodeFest

Other Decks in Programming

Featured

Transcript