Data as a service

Data as a service Косарев Антон 1 Знать путь и
пройти его — не одно и тоже. Морфеус (х/ф «Матрица»)

Первоначальные задачи • Сохранение как можно большего количества данных во
всех активах группы. • Построение и внедрение моделей машинного обучения. Везде. • Замена «экспертных мнений» решениями, основанными на статистике. • Полная замена человека машиной в принятии большинства решений. 2

Виды проектов Предиктивные ремонты • Предсказания поломок • Рекомендации по
обслуживанию • Детектирование поломок оборудования (CV) Управление качеством стали • Предсказание дефектов на этапе сляба • Детектирование дефектов (CV) • Выявление причин дефектов Советчики по технологии • Производство окатышей • Добыча угля • Производство чугуна • Усваиваемость лома Безопасность и производительность • Травматизм • Текучесть кадров • Ликвидация узких мест • Оптимизация расходов энергоносителей 3

4 Вводные для проекта Бизнес-задача  Как избавиться от дросса
на автолисте?  Как нам катать больше рулонов на Стане-2000?  Как получить прочные окатыши и сжигать меньше мазута?  Чистовые клети перегреваются, как предотвратить перегрев?  Нужно добывать больше угля, как это сделать? Бизнес-задача Источники данных  Hive-таблицы по подключенным к Data Lake источникам  IBA-архивы с данными АСУТП  SQL-базы данных  Выгрузки из SAP  Данные с видеокамер  Excel-файлы Технологический процесс  Эксперты (мастера, операторы, технологи)  Технологический регламент, схемы производства, инструкции к АСУТП, паспорт цеха…  Визуальный интерфейс оператора  Выезд на производство

Потребности клиентов 5 Сервисы Использование Возможности Делать выборки по большому
массиву данных Осуществлять поставку данных и делать необходимые агрегации Обучение моделей Работоспособность моделей Offline Online Аналитика Расчеты «на лету»

Технологический стек 6 Kafka Schema Registry Kafka streams Kafka Connect
Redis Grafana InfluxDB Apps HDFS YARN Spark Hive ZooKeeper HUE Sentry Impala

Архитектура 7 Extractors Hadoop Transformations Models Training Real-Time Offline Producers
InfluxDB Kafka Models Execution Aggregations User Interfaces Grafana ElasticSearch Kibana Prometeus

Офлайн компоненты 8 • Продюсер данных из источника (Java) •
Транспорт данных (Kafka) • Инструмент поставки в HDFS (Kafka Connect) • Фреймворк доступа (Spark + Hive, Power BI + Impala) – потребители • Инструмент разграничения доступа (Kerberos, Sentry) • Управление ресурсами (YARN) YARN Spark HDFS Staging area Raw input files Presentation area Jupyter Hue JVM apps

Онлайн компоненты 9 Kubernetes HDFS Kafka Connect InfluxDB Producer Java/Scala
app Kafka Data aggregates Topic _agg Input data Topic _data Model predictions Topic _predict Aggregator Scala app Operator feedback Topic _action Model Python app Web GUI app • Продюсер данных из источника (Java) • Транспорт данных (Kafka) • Данные в горячем кэше (Redis) • Онлайн трансформация данных (Kafka Streams + Scala) • «Обертка» над моделью (Python + Docker) – потребители • GUI (React, Vue, etc.) • Управление ресурсами (Kubernetes)

Сервис накопления данных 10 Таблица в каталоге Запрос на данные
Confluence (Wiki) аналитик/эксперт Jira (Data backlog) Задача на новый источник Выбор/ создание продюсера Поток исходных данных ONLINE Kafka HDFS Каталог данных Hive Потребление данных из очереди Поиск/создание инфраструктуры Адрес и тип источника Тип источника Запись в реестре OFFLINE источников

Сервис поставки данных 11 Потребление данных из очереди Запрос на
данные Confluence (Wiki) аналитик/разработчик Jira (Data backlog) Задача на новый источник Выбор/ создание продюсера Поток исходных данных ONLINE Kafka Поиск/создание инфраструктуры Адрес и тип источника Тип источника Выбор/ создание агрегатора Трансформация Данных ONLINE Запись в реестре ONLINE источников

Пару слов о формате данных 12

Поставка данных из источника 13

Поставка данных из источника Задачи: • Непрерывный сбор • Мониторинг
работоспособности 14

Поставка данных из источника Разнообразие источников Пример: • Данные с
датчиков • Проприетарные бинарные архивы Решение: • Использовать решения вендора • Накапливать самим 15

«Обертка» над моделью 16

«Обертка» над моделью Задачи: • Непрерывная поставка данных в модель
• Отправка результатов работы модели • Логирование • Предобработка данных (привет, Pandas) 17

«Обертка» над моделью Обязательное присутствие Python Пример: • Использование в
модели Python-специфичных библиотек Решение: • Верить в лучшее • Использование транспорта (очередь, RPC) 18

«Обертка» над моделью Где хранить стейт приложения Пример: • В
модель на вход подаются данные за последние 5 часов Решение: • Вычитывать каждый раз заново из очереди • Выносить в отдельный кэш • Сохранять в файл 19

Онлайн трансформация данных 20

Онлайн трансформация данных Задачи: • Агрегация • Фильтрация 21

Онлайн трансформация данных Batch processing vs Stream processing Пример: •
Среднее арифметическое в окне за 1 минуту • Если за минуту было N элементов – учитываем, если N+1 – не учитываем Решение: • Уточнение алгоритма расчета • Использование фреймворков с поддержкой stateful агрегаций 22

GUI 23

GUI Задачи: • Отображение результатов работы модели • Получение обратной
связи 24

GUI Использование устаревших браузеров Пример: • «А у нас только
IE 7» Решение: • Вспомнить, что есть jQuery 25

P.S. 26 The truth is the log. The database is
a cache of a subset of the log. Pat Helland. Immutability Changes Everything

Полезные ссылки • https://kafka.apache.org/ • https://www.confluent.io/blog/ • https://kubernetes.io/ • https://medium.com/netflix-techblog
• https://towardsdatascience.com/ • https://typelevel.org/cats/ 27

Data as a service

Data as a service

DevOps Moscow

More Decks by DevOps Moscow

Other Decks in Technology

Featured

Transcript

Data as a service Косарев Антон 1 Знать путь и

Первоначальные задачи • Сохранение как можно большего количества данных во

Виды проектов Предиктивные ремонты • Предсказания поломок • Рекомендации по

4 Вводные для проекта Бизнес-задача  Как избавиться от дросса

Потребности клиентов 5 Сервисы Использование Возможности Делать выборки по большому

Технологический стек 6 Kafka Schema Registry Kafka streams Kafka Connect

Архитектура 7 Extractors Hadoop Transformations Models Training Real-Time Offline Producers

Офлайн компоненты 8 • Продюсер данных из источника (Java) •

Онлайн компоненты 9 Kubernetes HDFS Kafka Connect InfluxDB Producer Java/Scala

Сервис накопления данных 10 Таблица в каталоге Запрос на данные

Сервис поставки данных 11 Потребление данных из очереди Запрос на

Пару слов о формате данных 12

Поставка данных из источника 13

Поставка данных из источника Задачи: • Непрерывный сбор • Мониторинг

Поставка данных из источника Разнообразие источников Пример: • Данные с

«Обертка» над моделью 16

«Обертка» над моделью Задачи: • Непрерывная поставка данных в модель

«Обертка» над моделью Обязательное присутствие Python Пример: • Использование в

«Обертка» над моделью Где хранить стейт приложения Пример: • В

Онлайн трансформация данных 20

Онлайн трансформация данных Задачи: • Агрегация • Фильтрация 21

Онлайн трансформация данных Batch processing vs Stream processing Пример: •

GUI 23

GUI Задачи: • Отображение результатов работы модели • Получение обратной

GUI Использование устаревших браузеров Пример: • «А у нас только

P.S. 26 The truth is the log. The database is

Полезные ссылки • https://kafka.apache.org/ • https://www.confluent.io/blog/ • https://kubernetes.io/ • https://medium.com/netflix-techblog

28