リアルタイムデータ分析基盤をKafka(Strimzi) & Druidで構築し

リアルタイムデータ分析基盤を Kafka(Strimzi) & Druidで構築した @kentakozuka

@kentakozuka @CyberAgent - Backend - Go, Python - 今やっていること →

In-House Feature Flag & A/B Testing Platform 「Bucketeer」という名前です社内プロダクト用フィーチャーフラグ &
ABテストプラットフォーム複数のプロダクトで導入今回はGKE上に構築しているデータ分析パイプラインの話

コスト高データ量: 5TB/week BigQuery Druid & Kafka コスト削減 GKEのノード分のコスト

Druid 大規模データ分析 - 列指向 - 大量のインサート - リアルタイム分析 - 並列処理
- 統計量スケーラブルインテグレーション - 分散型DB - Self-healing - Self-balancing - Kafka - Kenesis - S3 - GCS - HDFS Airbnb, Alibaba, Expedia, Lyft, Netﬂix, Optimizely, Twitter, Yahoo などで導入実績 https://druid.apache.org/druid-powered - 公式Operatorあり - GitOps - ちょっと使いづらい On Kubernetes

But, Pub/Sub未対応… - PRあるけど進んでない

Strimzi Kafka Operator - Kafka is now Kubernetes-Native - GitOps
- シンプルで使いやすい - Zookeeper, Exporterも全部やってくれる - ヘルスチェック、ログ、メトリクス

所感 & まとめ導入はそれなりに大変だけど、メリットはある Druid - 分析基盤として性能・機能共にフィットするプロダクトは多そう - チューニングが難しい -
Pub/Sub対応してほしい - 開発が活発なGo SDKがほしい Strimzi - シンプルで使いやすい Kubernetes上に構築するときOperatorがあると安心する

Thank you!

リアルタイムデータ分析基盤をKafka(Strimzi) & Druidで構築し

リアルタイムデータ分析基盤をKafka(Strimzi) & Druidで構築し

Kenta Kozuka

More Decks by Kenta Kozuka

Other Decks in Programming

Featured

Transcript