Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Построение системы realtime-аналитики на ClickH...
Search
Big Data & AI Conference 2020
September 17, 2020
Technology
0
180
Построение системы realtime-аналитики на ClickHouse
Егор Матешук, CDO, Qvant.ru
Big Data & AI Conference 2020
September 17, 2020
Tweet
Share
More Decks by Big Data & AI Conference 2020
See All by Big Data & AI Conference 2020
Как искусственный интеллект помогает снизить вредные выбросы в атмосферу на металлургическом производстве.
aiconforg
0
100
Как сломать рекламную индустрию: повышаем эффективность рекламы с помощью Emotion Recognition
aiconforg
0
66
Цифровой помощник для маневрового диспетчера
aiconforg
0
300
Прогресс ученика: Как анализ больших данных помогает быстрее и дешевле достичь образовательных целей
aiconforg
0
120
Рекомендательная система для увеличения кросс-продаж: опыт инвестиционной компании
aiconforg
0
40
Дополненная аналитика: практический подход к автоматизации внутренней аналитики
aiconforg
1
54
Что делать, если данных мало?
aiconforg
0
73
Как оценить эмоциональную реакцию на рекламу дистанционно, быстро и точно.
aiconforg
0
79
Учет новых слов в языковых моделях классификации
aiconforg
0
49
Other Decks in Technology
See All in Technology
広告の効果検証を題材にした因果推論の精度検証について
zozotech
PRO
0
210
【Ubie】AIを活用した広告アセット「爆速」生成事例 | AI_Ops_Community_Vol.2
yoshiki_0316
1
120
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
340
登壇駆動学習のすすめ — CfPのネタの見つけ方と書くときに意識していること
bicstone
3
130
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
480
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
170
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
Tebiki Engineering Team Deck
tebiki
0
24k
プロポーザルに込める段取り八分
shoheimitani
1
670
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.4k
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.2k
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
200
Featured
See All Featured
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
470
Measuring & Analyzing Core Web Vitals
bluesmoon
9
760
WENDY [Excerpt]
tessaabrams
9
36k
Paper Plane
katiecoart
PRO
0
46k
A Tale of Four Properties
chriscoyier
162
24k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
280
The Cult of Friendly URLs
andyhume
79
6.8k
Google's AI Overviews - The New Search
badams
0
910
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
320
The untapped power of vector embeddings
frankvandijk
1
1.6k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Transcript
Real-time аналитика для DSP Как мы выбирали архитектуру для real-time
аналитики Егор Матешук
О чем сегодня поговорим • Какие есть подходы к построению
real-time аналитики? • Какие у них плюсы и минусы? • Почему мы выбрали ClickHouse? 2
3 Для начала: какой аналитикой мы занимаемся?
Первая версия архитектуры Требования к первой версии аналитики для DSP
• Использовать адаптированные технологии • Поддерживать гео-распределенность • Поставлять данные с задержкой до 15 минут 4
5 Первая версия архитектуры DSP UI
С какими проблемами столкнулись? • Сложности мониторинга • Сложность сверки
• Проблемы с ускорением доставки 6
7 Новые требования На основе этого опыта были сформированы новые
требования: • Уменьшить “зоопарк” • Дать доступ разработчикам к данным • Ускорить доставку
Какие есть схемы для real-time аналитики? • Lambda • Kappa
8
9 Serving Backend Serving Layer Queries Lambda Batch Layer Streaming
Layer Data storage Raw data Results Batch Engine Real-time Engine
Lambda • Batch Layer - надежная пакетная обработка • Streaming
Layer - быстрая потоковая обработка • Serving Layer - абстракция для агрегатов из двух предыдущих слоев 10
11 Stream Storage Stream Processing Serving Layer Batch Processing Batch
Storage
12 Stream Storage Stream Processing Serving Layer Batch Processing Batch
Storage
13 Stream Storage Stream Processing Serving Layer Batch Processing Batch
Storage
14 Serving Backend Serving Layer Queries Lambda Batch Layer Streaming
Layer Data storage Raw data Results Batch Engine Real-time Engine
15 Lambda Data storage Raw data Results Queries
16 Lambda Плюсы + Скорость стрима + Надежность батча +
Простой репроцессинг Минусы - Дублирование логики - Дублирование сервисов
17 Kappa Serving Backend Serving Layer Queries Data storage Raw
data Results Streaming Layer Real-time Engine
Kappa • Streaming Layer - потоковая обработка • Serving Layer
- хранилище агрегатов 18
19 Kappa Serving Backend Serving Layer Queries Data storage Raw
data Results Streaming Layer Real-time Engine
20 Kappa Queries Data storage Raw data Results
21 Lambda Плюсы + Скорость стрима + Без дублирования кода
Минусы - Ограничения реализации - Сложный репроцессинг
И тут появляется ClickHouse • Интеграция с Kafka • Хранение
больших объемов данных • Materialized view • Быстрые агрегаты • Передача готовых данных “на фронт” 22
23 Роль Materialized View Raw data Aggregate Σ
Роль Materialized View • Быстрая доставка новых данных • Избавление
от периодических джоб 24
25 Serving Backend Serving Layer Queries Lambda Batch Layer Streaming
Layer Data storage Raw data Results Batch Engine Real-time Engine
26 Queries Lambda Data storage Raw data Results SQL Mat
View
27 Первая версия архитектуры DSP UI
28 Вторая версия архитектуры DSP UI
Что нужно учитывать • Mat View проигрывает по функционалу Flink
• Заливку из кафки удобнее делать отдельными инструментами • “Грабли” в поддержке базы 29
Результаты • Уменьшение “зоопарка” технологий • Сокращение времени доставки данных
• Упрощение разработки 30
Выводы ClickHouse позволяет • Решать задачу аналитики в реальном времени
• Упростить разработку аналитического решения 31
Буду рад вопросам и конструктивной критике :) Это всё Егор
Матешук
[email protected]
https://t.me/Egorios