Odnoklassniki DWH evolving (meetup version)

Развлекательная социальная сеть Одноклассники 2019 Эволюция DWH в Одноклассниках

2 Обо мне • Денис Габайдулин • Software Engineer, DWH
Tech team • [email protected] • sherman

3 Safe harbor Мнение докладчика может не совпадать с официальной
позицией его работодателя, начальника, коллег или других специалистов. Все представленные в докладе сведения, примеры, выводы и другую информацию вы можете использовать на свой страх и риск. За все ваши действия ответственность несёте только вы сами.

4 Что я делаю в OK? • Делаю инфраструктурные задачи
• Копаюсь в распределенных системах ◦ базы данных, Spark, Hadoop • Решаю проблемы производительности

5 Что такое DWH в Одноклассниках? Мы помогаем нашим заказчикам
получать ответы на вопросы и принимать решения на основе данных.

6 Кто наши заказчики? • Менеджеры (включая топ-менеджмент и CEO)
• Разработчики • Аналитики • Продуктовые менеджеры • Маркетинг и PR • Другие компании в Mail Ru Group

7 Краткая история DWH

2015 2016 2017 2018 • Windows / MS SQL 2019

2016 2017 2018 • Hadoop ◦ Миграция в Hadoop ◦
HIVE (MR/TEZ) 2019

2017 2018 • Новый проект KPI • Spark • HBase
+ Kylin (кубы) 2019

2018 • Kafka • Планировщик • Визуальный мониторинг • Убрали
Kylin (кубы) 2019

2019 • Structured Streaming • Убрали HBase • Пробуем ClickHouse

13 DWH сегодня • 5000+ ядер • 40+ TB памяти
• 11+ PB хранилище • 1000+ регулярных расчетов

14 О чем сегодня поговорим? Как проблемы были/есть в инфраструктуре
и как мы их решаем.

Развлекательная социальная сеть Одноклассники 1 Проблемы и решения

16 Проблемы • Медленно и неэффективно • Много инцидентов •
Дублирование пайплайнов и кода • Не было тестов • Мониторинг был недостаточно развит

Развлекательная социальная сеть Одноклассники 2 HIVE / MR

18 Медленно и неэффективно Использовался HIVE (MR + TEZ)

19 Медленно и неэффективно Взято с 0x0fff.com

20 Медленно и неэффективно • Автоматизировали создание графа вычислений •
Перешли на Spark для новых расчетов ◦ См. видео с DataFest 6 • Внедрили Kafka

21 Почему Spark быстрее* • Меньше обращений к диску •
DAG • Эффективные кеши • Локальность • Не надо каждый раз стартовать JVM * Может быть быстрее в 2-5 раз, но не на порядки

Развлекательная социальная сеть Одноклассники 3 Инциденты

23 Много инцидентов • Много разных инцидентов ◦ возникают из-за
нашего кода • Непонятно что происходит (root cause) • Не было картины в целом • Не было запаса по времени

24 Много инцидентов • Уменьшали количество разных подсистем • Внедрили
хороший визуальный мониторинг (Grafana + ClickHouse) • Старались не просто закрывать инцидент, а находить root cause и закрывать его ◦ Десятки major патчей и рефакторингов ◦ Иногда полностью переписывали компоненты • Стали считать быстрее, появился запас по времени

Развлекательная социальная сеть Одноклассники 4 Дублирование пайплайнов и кода

26 Дублирование пайплайнов и кода • HIVE и SQL в
регулярных расчетах провоцирует дублировать код? • Не было хороших практик из software development (automatic tests, code review, etc) • Много разных проектов, которые делались, как правило, одним человеком • Дублирование функций и кода

27 Дублирование пайплайнов и кода • Используем Spark ◦ Алгоритмы
◦ UDFs • Добавили automatic tests, code review, design review • CI

28 Дублирование пайплайнов и кода

29 Алгоритмы и UDFs

Развлекательная социальная сеть Одноклассники 5 Мониторинг

31 Мониторинг • Пишем метрики и анализируем их в realtime
(есть статистика за прошлый период) • Интерактивный мониторинг ◦ Grafana ◦ ClickHouse/MSSQL • Стандартные метрики железа/os ◦ Cacti

32 Что мониторим? • Hadoop (jmx metrics) ◦ Ядра, память,
место ◦ Операции, очереди, контейнеры ◦ GC • Текущие расчеты (top consumers) ◦ Ядра, память, место ◦ Время работы

33 Что мониторим? • Kafka ◦ Import/Compaction ◦ Ошибки

34 Что мониторим? • Hive (jmx metrics) ◦ Треды, память,
соединения ◦ Внутренние операции ◦ GC

35 Что мониторим? • Прогресс по системе в целом ◦
Количество расчетов готовых/неготовых поминутно ◦ Время “в ошибках”, кол-во ошибок ◦ Топы по времени, кол-ву ошибок ◦ Можно смотреть статистику по любому расчету отдельно • Картина по воркерам

36 Spark history server Помогает понять что было с расчетом
или джобой в прошлом

Развлекательная социальная сеть Одноклассники 6 Готовность команды

38 Готовность команды • Свежая кровь • Информирование и прозрачность
◦ Надо ставить четкую цель ◦ Декларировать средства ее достижения • Разделение команды на инженеров и аналитиков ◦ Не надо запрещать брать задачи из обоих пулов ◦ Но должен быть системный подход и единые требования • Могут быть конфликты, будут недовольные • Разработчикам нравится • Аналитикам тяжелее ◦ Если не хотят программировать, пусть работают с готовыми витринами

39 Выводы и приглашение к дискуссии • Нужен системный подход
• Чтобы правильно приготовить Hadoop нужны Software Engineers/Devops ◦ Нужна общая экспертиза в JVM • Data Engineering это код + инфраструктура • Команда должна быть готова • Изменения нужно делать постепенно, но последовательно

40 Вопросы?

Odnoklassniki DWH evolving (meetup version)

Odnoklassniki DWH evolving (meetup version)

More Decks by Denis M. Gabaydulin

Featured

Transcript