Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и ограничения

GIL
September 19, 2019

Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и ограничения

Когда стоит выбирать ClickHouse.
1. Когда у вас много фактов без обновлений:
- web-аналитика
- реклама
- e-commerce and finance
- мониторинг
- телеком, анализ логов
2. Витрины данных:
- нет JOIN со спилами
- очень хорошо переносит клиентскую нагрузку
- легко масштабируется
- быстрая агрегация витрин
- OBDC, JDBC, HTTP клиентские интерфейсы

GIL

September 19, 2019
Tweet

More Decks by GIL

Other Decks in Technology

Transcript

  1. Когда стоит выбирать CLickHouse | Case #1 Много фактов без

    обновлений: 1) Web-аналитика 2) Реклама (Ad-tech) 3) E-commerce and finance 4) Мониторинг 5) Телеком, анализ логов
  2. Когда стоит выбирать CLickHouse | Case #1 1) Таблица фактов

    шардирована на кластер. 2) Партиционирована по времени. 3) В таблицу фактов только дописываем новые события. 4) Словари должны помещаться в памяти одного сервера.
  3. Когда стоит выбирать CLickHouse | Case #1 Таблица фактов. Борьба

    с слабоструктурированными данными – массивы и вложенные структуры. - Событие – строка. - Все остальные параметры события укладываем в колонки. Колонок может быть много. - Если есть что-то очень специфичное для конкретного события и редко нужно при запросах – укладываем в массив или вложенную структуру.
  4. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба

    с слабоструктурированными данными – массивы и вложенные структуры.
  5. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба

    с слабоструктурированными данными – массивы и вложенные структуры.
  6. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба

    с слабоструктурированными данными – массивы и вложенные структуры.
  7. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба

    с слабоструктурированными данными – массивы и вложенные структуры.
  8. Когда стоит выбирать ClickHouse | Case #1 Таблица фактов. Борьба

    с слабоструктурированными данными – массивы и вложенные структуры.
  9. Когда стоит выбирать ClickHouse | Case #1 - Воронки Расчёт

    воронки: Нужно проанализировать переходы пользователя по страницам. Подсчёт суммы переходов для последовательности страниц 1 → 2 → 3 . Переходы должны производиться последовательно.
  10. Когда стоит выбирать ClickHouse | Case #1 - Воронки Функция

    высшего порядка. Позволяет описать лямбда-функцию для передачи в функцию высшего порядка.
  11. Когда стоит выбирать ClickHouse | Case #1 - Воронки Функция

    высшего порядка. Позволяет описать лямбда-функцию для передачи в функцию высшего порядка.
  12. Когда стоит выбирать ClickHouse | Case #2 Витрины данных: -

    Нет JOIN с спилами. - Очень хорошо переносит клиентскую нагрузку. - Легко масштабировать. - Быстрая агрегация витрин - ODBC, JDBC, HTTP клиентские интерфейсы.
  13. Когда стоит выбирать ClickHouse | Case #2 КХД MARTS BI

    / Ad-hoc 100s QPS WHERE / GROUP BY QUICK MART Batch Microbatch
  14. ADQM | Support 24x7 5x8 Первая линия • Приём заявок

    • Приоритезация • Решение простых кейсов • Наполнение базы знаний Входящий запрос Вторая линия • Сложные инциденты, добавление нового функционала. • Консалтинг Третья линия • Bugfix • Доработки продукта на уровне ядра. Наши доработки в ClickHouse • ORC input format • Доработка коннектора к HDFS • Аутентификация в Kerberos • для HDFS и Zookeeper (в разработке) Наши доработки вокруг ClickHouse • Мониторинг • Деплой • Прокси для запросов с ldap-аутентификацией • и разграничением доступа.