[JPoint 2017] Распределяй и властвуй — 2: Потоки данных наносят ответный удар

@gamussa @hazelcast #jpoint Распределяй и Властвуй -2:  Потоки данных наносят
ответный удар 

Stream v. Batch

Кто?

Solutions Architect Кто?

Solutions Architect Developer Advocate Кто?

Solutions Architect Developer Advocate @gamussa везде в интернете Кто?

Solutions Architect Developer Advocate @gamussa везде в интернете А ты
зафоловил меня, $userName © Кто?

Part Deux?

@gamussa @hazelcast #jpoint * авторская орфография сохранена Disclaimer: Нам пишут

? Из названия не было понятно, что это пропоганда хазлкаста, что не правильно.

? Из названия не было понятно, что это пропоганда хазлкаста, что не правильно. ✓ Все так

? Из названия не было понятно, что это пропоганда хазлкаста, что не правильно. ✓ Все так ✓ Читайте абстракт ✓ Как и Вы, я здесь в коммандировке

@gamussa @hazelcast #jpoint Disclaimer: Ham пишут * авторская орфография сохранена

@gamussa @hazelcast #jpoint Disclaimer: Ham пишут ? Спикер … уделяет
время лишь одному банальному примеру подсчёта слов в файле с использованием фреймворка их компании. * авторская орфография сохранена

@gamussa @hazelcast #jpoint Пакетная Обработка Данные в состоянии покоя

@gamussa @hazelcast #jpoint Данные и запросы Происхождение и обработка

@gamussa @hazelcast #jpoint

@gamussa @hazelcast #jpoint Данньые…

@gamussa @hazelcast #jpoint ✓ … immutable по своей сути Данньые…
✓ … привязаны ко времени

@gamussa @hazelcast #jpoint CRUD -> CR Мариванна, в углу скр..©

@gamussa @hazelcast #jpoint Обработка – это запрос

@gamussa @hazelcast #jpoint Обработка – это запрос Функция по полному
набору данных

набору данных Проекции

набору данных Проекции Агрегации

набору данных Проекции Агрегации Joins

SELECT user_vote, count(*) FROM AccessLog WHERE event_date BETWEEN"04/07/2017" AND "04/07/2017"
GROUP BY user_vote;

SELECT user_vote, count(*) FROM AccessLog WHERE event_date BETWEEN "04/7/2017" AND
"04/08/2017" GROUP BY user_vote;

SELECT user_vote, count(*) FROM AccessLog WHERE event_date BETWEEN"04/07/2017" AND "04/08/2007"
GROUP BY user_vote;

private static void countVotes(IMap<String, Vote> userVotes) { // execute the
aggregation and print the result long countVotes = userVotes .aggregate(Aggregators.<String, Vote>count()); }

@gamussa @hazelcast #jpoint Lambda architecture origins http:/ /nathanmarz.com/blog/how-to-beat-the-cap-theorem.html

@gamussa @hazelcast #jpoint Lambda Architecture

@gamussa @hazelcast #jpoint Предподсчитанньый результат http:/ /nathanmarz.com/blog/how-to-beat-the-cap-theorem.html

@gamussa @hazelcast #jpoint Пакетньый процесс http:/ /nathanmarz.com/blog/how-to-beat-the-cap-theorem.html

@gamussa @hazelcast #jpoint Хранилище вьыдачи

@gamussa @hazelcast #jpoint Хранилище вьыдачи Очень легко читать

@gamussa @hazelcast #jpoint Хранилище вьыдачи Очень легко читать K,V –
в идеале

в идеале Очень быстро читать

в идеале Очень быстро читать хранить в памяти

в идеале Очень быстро читать хранить в памяти хранить предподсчитанный результат

Данные слишком важны, чтобы хранить их на одной машине

@gamussa @hazelcast #jpoint Oracle Coherence

@gamussa @hazelcast #jpoint Oracle Coherence In-memory data grid

@gamussa @hazelcast #jpoint Oracle Coherence In-memory data grid Распределенные кэши

@gamussa @hazelcast #jpoint Oracle Coherence In-memory data grid Распределенные кэши
Коммерческий продукт

@gamussa @hazelcast #jpoint Infinispan

@gamussa @hazelcast #jpoint Infinispan In-memory data grid

@gamussa @hazelcast #jpoint Infinispan In-memory data grid распределённые кэши

@gamussa @hazelcast #jpoint Infinispan In-memory data grid распределённые кэши Лицензия
Apache v2

@gamussa @hazelcast #jpoint Еще хотелки…

@gamussa @hazelcast #jpoint Еще хотелки… Простота

@gamussa @hazelcast #jpoint Еще хотелки… Простота знакомый API

@gamussa @hazelcast #jpoint Еще хотелки… Простота знакомый API встраиваемость

@gamussa @hazelcast #jpoint Еще хотелки… Простота знакомый API встраиваемость Cloud
Native

@gamussa @hazelcast #jpoint Псс, парень, Hazelcast IMDG, не хочешь? Ну
очень быстрый грид ©

@gamussa @hazelcast #jpoint Hazelcast IMDG, ьерем?

@gamussa @hazelcast #jpoint Hazelcast IMDG, ьерем? In-memory Data Grid

@gamussa @hazelcast #jpoint Hazelcast IMDG, ьерем? In-memory Data Grid Распределенные
Кэши (IMap, JCache) Проекции, Агрегации Java колекции (IList, ISet, IQueue) Система обмена сообщений (Topic, RingBuffer) Вычисления (ExecutorService, M-R)

@gamussa @hazelcast #oraclecode

@gamussa @hazelcast #jpoint Пример: ПАКЕТНАЯ ОБРАБОТКА НА HAZELCAST и SPARK

@gamussa @hazelcast #jpoint ДАННЫЕ НЕ ДОЛЖНЫ ОБНОВЛЯТЬСЯ ВО ВРЕМЯ ЧТЕНИЯ

@gamussa @hazelcast #jpoint ПОЧЕМУ?

@gamussa @hazelcast #jpoint ПРИ РАСШИРЕНИИ, MAP ПЕРЕРАСПРЕДЕЛЯЕТ ДАННЫЕ ВНУТРИ КОНТЕЙНЕРА

@gamussa @hazelcast #jpoint КУРСОР НЕ УКАЗЫВАЕТ НА КОРРЕКТНУЮ ЗАПИСЬ. МОГУТ
ВОЗНИКАТЬ ДУБЛИКАТЫ ИЛИ ДАННЫЕ ПРОПАДАТЬ

@gamussa @hazelcast #jpoint Потоковая обработка Данные в движении

@gamussa @hazelcast #jpoint Hazelcast Jet Считаем ваши слова. Быстро. В
памяти

@gamussa @hazelcast #jpoint Потоковая и пакетная обработка в памяти

@gamussa @hazelcast #jpoint Jet против мира Big Data

@gamussa @hazelcast #jpoint Jet против мира Big Data Простота

@gamussa @hazelcast #jpoint Jet против мира Big Data Простота в
разработке

разработке в развертывании (даже в облаках)

разработке в развертывании (даже в облаках) Скорость

разработке в развертывании (даже в облаках) Скорость data affinity

разработке в развертывании (даже в облаках) Скорость data affinity cooperative multitasking

разработке в развертывании (даже в облаках) Скорость data affinity cooperative multitasking Hazelcast IMDG

разработке в развертывании (даже в облаках) Скорость data affinity cooperative multitasking Hazelcast IMDG распределенные данные

разработке в развертывании (даже в облаках) Скорость data affinity cooperative multitasking Hazelcast IMDG распределенные данные discovery

@gamussa @hazelcast #jpoint Когда пьытаешься объяснить современньый мир Big Data

@gamussa @hazelcast #jpoint Локальность и привязка данньых

@gamussa @hazelcast #jpoint Локальность и привязка данньых Скорость и низкие
задержки

задержки данные и вычисления расположены на одной ноде

задержки данные и вычисления расположены на одной ноде Привязка к структуре партиций

@gamussa @hazelcast #jpoint Направленньый ациклический граф

@gamussa @hazelcast #jpoint Направленньый ациклический граф Модель описания выполнения

@gamussa @hazelcast #jpoint Направленньый ациклический граф Модель описания выполнения Вершина
– шаг выполнения

@gamussa @hazelcast #jpoint Направленньый ациклический граф Модель описания выполнения Вершина
– шаг выполнения Работает как для пакетной и потоковой

@gamussa @hazelcast #jpoint Исполнение графа

@gamussa @hazelcast #jpoint Исполнение графа Каждая нода кластера исполняет граф
целиком

целиком Каждая вершина графа исполняется набором tasklet-ов

целиком Каждая вершина графа исполняется набором tasklet-ов Ограниченное число «настоящих» потоков

целиком Каждая вершина графа исполняется набором tasklet-ов Ограниченное число «настоящих» потоков ~ кол-во процессоров

целиком Каждая вершина графа исполняется набором tasklet-ов Ограниченное число «настоящих» потоков ~ кол-во процессоров Work-stealing между потоками

целиком Каждая вершина графа исполняется набором tasklet-ов Ограниченное число «настоящих» потоков ~ кол-во процессоров Work-stealing между потоками Back pressure между вершинами

@gamussa @hazelcast #jpoint Cooperative Multithreading

@gamussa @hazelcast #jpoint Cooperative Multithreading Cooperative Processors выполняются в цикле,
который выполняется в native треде

который выполняется в native треде нет переключения контекста привязка к ядру процессора

который выполняется в native треде нет переключения контекста привязка к ядру процессора Каждый tasklet выполняет небольшой небольшую часть работы (<1ms)

@gamussa @hazelcast #jpoint Cooperative Multithreading

@gamussa @hazelcast #jpoint Cooperative Multithreading 1 поток может выполнять ~1000
tasklet

tasklet Если нечего делать, тред

tasklet Если нечего делать, тред Ребра графа имплементированы с помощью RingBuffer – single producer / single consumer

@gamussa @hazelcast #jpoint ТОпологии Что нам стоит кластер построить

@gamussa @hazelcast #jpoint Топологии

@gamussa @hazelcast #jpoint Топологии Jet!Cluster Sink Source / Enrichment

@gamussa @hazelcast #jpoint Топологии

@gamussa @hazelcast #jpoint Benchmarks

@gamussa @hazelcast #jpoint Демо

@gamussa @hazelcast #jpoint * авторская орфография сохранена Disclaimer: Ham пишут

@gamussa @hazelcast #jpoint * авторская орфография сохранена Disclaimer: Ham пишут
? Про фэйлы нод в хазелкасие хотелось бы услышать откровений и примеры из жизни.

@gamussa @hazelcast #jpoint проблемы Текущее состояние

@gamussa @hazelcast #jpoint Проблемьы

@gamussa @hazelcast #jpoint Проблемьы Устойчивость к сбоям

@gamussa @hazelcast #jpoint Проблемьы Устойчивость к сбоям Работа с «бесконечными»
данными

@gamussa @hazelcast #jpoint Проблемьы Устойчивость к сбоям Работа с «бесконечными»
данными Неупорядоченные и «опоздавшие» события

I FOUND YOUR LACK OF FAULT TOLERANCE disturbing

@gamussa @hazelcast #jpoint 10 +1 Бэкапьы Консистентный бэкап системы Обработка
«At-least once» vs «Exactly once» Снэпшот распределенной системы

@gamussa @hazelcast #jpoint 10 10 Бэкапьы Консистентный бэкап системы Обработка
«At-least once» vs «Exactly once» Снэпшот распределенной системы

@gamussa @hazelcast #jpoint 10 10 11 Бэкапьы Консистентный бэкап системы
Обработка «At-least once» vs «Exactly once» Снэпшот распределенной системы

@gamussa @hazelcast #jpoint 10 11 10 11 Бэкапьы Консистентный бэкап
системы Обработка «At-least once» vs «Exactly once» Снэпшот распределенной системы

@gamussa @hazelcast #jpoint Reader Writer Reader

@gamussa @hazelcast #jpoint Reader Writer Reader Snapshot

@gamussa @hazelcast #jpoint Reader Writer Reader Reader Snapshot

@gamussa @hazelcast #jpoint Reader Writer Reader Reader Reader Snapshot

@gamussa @hazelcast #jpoint Reader Writer Reader Reader Reader Writer Snapshot

@gamussa @hazelcast #jpoint Reader Writer Reader Reader Reader Writer Snapshot
Done!

@gamussa @hazelcast #jpoint Как считать «бесконечные» данные?

Конечное представление бесконечных данных

@gamussa @hazelcast #jpoint

@gamussa @hazelcast #jpoint https:/ /www.oreilly.com/ideas/the-world-beyond-batch-streaming-101

@gamussa @hazelcast #jpoint Time-based обработка

@gamussa @hazelcast #jpoint Time-based обработка Привязка записей к окнам на
основе Времени события Времени обработки

основе Времени события Времени обработки Сколько ждать «запоздалых» данных?

основе Времени события Времени обработки Сколько ждать «запоздалых» данных? Точность vs Память

@gamussa @hazelcast #jpoint Fatality

@gamussa @hazelcast #jpoint Потоковая обработка: итоги

@gamussa @hazelcast #jpoint Потоковая обработка: итоги • Получать результаты вычислений
реальном времени возможно!

реальном времени возможно! • Окна – конечное представление бесконечных данных • Окна основаны на временнЫх параметрах (время события + время обработки)

реальном времени возможно! • Окна – конечное представление бесконечных данных • Окна основаны на временнЫх параметрах (время события + время обработки) • Обработка «запоздалых» событий • Вам решать, сколько ждать

@gamussa @hazelcast #jpoint hazelcast/hazelcast-jet-code-samples

@gamussa @hazelcast #jpoint СПАСИБО! Вопросы? @gamussa [email protected]

[JPoint 2017] Распределяй и властвуй — 2: Поток...

[JPoint 2017] Распределяй и властвуй — 2: Потоки данных наносят ответный удар

More Decks by Viktor Gamov

Other Decks in Programming

Featured

Transcript