Ван Хачатрян —  Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на hadoop

Spark Structured Streaming на кластере Hadoop Ван Хачатрян Руководитель отдела
ML и матчинга

Почитайте нас на Хабр 2

Содержание Почему мы отказались от батч-подхода Введение в Spark Structured
Streaming Первое приложение стриминга на Hadoop Масштабируемость и интеграция с Kafka Алёртинг не из "коробки" Магия pandas_udf и демоны

Стэк в отделе ML 4 Разработка: Python, Golang, Scala Данные:
Hadoop/Hive, Kafka, Vertica, PostgreSQL, Clickhouse, S3 Мониторинг: Prometheus, Grafana затронем в докладе как-нибудь в другой раз

Как выглядел наш ETL 5

Кажется, есть что-то лишнее 6

Spark Structured Streaming

К чему пришли 8

Ликбез по kafka 9 Kafka — позволяет хранить и работать
потоками событий — Topic — способ группировки потоков сообщений в отдельную тему — Producer — издатель потоков сообщений — Consumer — подписчик на потоки сообщений — Partition — файл содержащий подмножества сообщений из topic — Offset — уникальный для тройки topic-consumer-partition номер сообщения

Что мы насчитываем 10

Зачем переходить на Streaming 11 — непрерывный стрим микробатчей —
обработка потока данных без расписания — возможность масштабирования — отказоустойчивость — low latency — оптимальная утилизация ресурсов

Особенности при использовании 12 — порядок обработки потока — сложный
подбор конфигураций Spark приложения — непрозрачный мониторинг в Spark UI — нет SOTA подхода для деплоя

Первое приложение

Запустить — НЕ полдела Результат — DataFrame Доступны: • Операции
Join • Применение функций на группах или окнах • Применение UDF (user defined functions)

Базовые конфигурации 15  maxOffsetPerTrigger — максимальное количество обработанных сообщений
за интервал  minPartitions — число Spark задач, на которое разбивается прочитанный батч из topic  startingOffsets — точка старта в kafka-topic при первом запросе → https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

Прослушали: что дальше

Интеграция с Kafka

Три партиции и три «мушкетёра» 18

Ускорит ли Д’Артаньян процесс? 19

minPartitions = 6 20

Мониторинг

Что имеем в Spark UI 22 Не имеем: — состояния
топика — номер текущего offset — возможности навесить алёрт

Как мы настроили алёртинг — коммитим обратно в kafka обработку
offset через Streaming Query Listener — метрики по topic и consumer группе в Prometheus — рисуем метрики в Grafana, используя PromQL-запросы — алёрты на основе метрик из Prometheus

Применение ML-моделей

Ангелов нет — только демоны! 25 — parent process запускается
при появлении каждого экзекутора — ограничения на fork позволяют использовать сopy-on-write — экономия памяти и избежание повторной инициализации модели

Бенчмарки 26 Расчет векторов: — BERT 1x768: 1 CPU, 50
эмб./с. — FastText 1x128: 1 CPU, 100 эмб./с. — *ResNet-50 1x128: 1CPU, 1.5-3 эмб./с. — **Prod2Vec 1x256: 1CPU, 1.5-3 эмб./с. * зависит от скорости скачивания картинки и от того, как они подаются на вход ** Prod2Vec (2xTinyBert + 1xResNet-34) — подробнее на Хабр переходите по QR-коду

Ван Хачатрян Спасибо за внимание! [email protected]

Ван Хачатрян —  Spark Streaming: в погоне за оп...

Ван Хачатрян —  Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на hadoop

Ozon Tech

More Decks by Ozon Tech

Other Decks in Technology

Featured

Transcript

Spark Structured Streaming на кластере Hadoop Ван Хачатрян Руководитель отдела

Почитайте нас на Хабр 2

Содержание Почему мы отказались от батч-подхода Введение в Spark Structured

Стэк в отделе ML 4 Разработка: Python, Golang, Scala Данные:

Как выглядел наш ETL 5

Кажется, есть что-то лишнее 6

Spark Structured Streaming

К чему пришли 8

Ликбез по kafka 9 Kafka — позволяет хранить и работать

Что мы насчитываем 10

Зачем переходить на Streaming 11 — непрерывный стрим микробатчей —

Особенности при использовании 12 — порядок обработки потока — сложный

Первое приложение

Запустить — НЕ полдела Результат — DataFrame Доступны: • Операции

Базовые конфигурации 15  maxOffsetPerTrigger — максимальное количество обработанных сообщений

Прослушали: что дальше

Интеграция с Kafka

Три партиции и три «мушкетёра» 18

Ускорит ли Д’Артаньян процесс? 19

minPartitions = 6 20

Мониторинг

Что имеем в Spark UI 22 Не имеем: — состояния

Как мы настроили алёртинг — коммитим обратно в kafka обработку

Применение ML-моделей

Ангелов нет — только демоны! 25 — parent process запускается

Бенчмарки 26 Расчет векторов: — BERT 1x768: 1 CPU, 50

Ван Хачатрян Спасибо за внимание! [email protected]

Ван Хачатрян — Spark Streaming: в погоне за оп...

Ван Хачатрян — Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на hadoop

More Decks by Ozon Tech

Other Decks in Technology

Featured

Transcript

Ван Хачатрян —  Spark Streaming: в погоне за оп...

Ван Хачатрян —  Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на hadoop