リアルタイムデータ分析基盤をKafka(Strimzi) & Druidで構築し

Slide 1

Slide 1 text

リアルタイムデータ分析基盤を Kafka(Strimzi) & Druidで構築した @kentakozuka

Slide 2

Slide 2 text

@kentakozuka @CyberAgent - Backend - Go, Python - 今やっていること →

Slide 3

Slide 3 text

In-House Feature Flag & A/B Testing Platform 「Bucketeer」という名前です社内プロダクト用フィーチャーフラグ & ABテストプラットフォーム複数のプロダクトで導入今回はGKE上に構築しているデータ分析パイプラインの話

Slide 4

Slide 4 text

コスト高データ量: 5TB/week BigQuery Druid & Kafka コスト削減 GKEのノード分のコスト

Slide 5

Slide 5 text

Druid 大規模データ分析 - 列指向 - 大量のインサート - リアルタイム分析 - 並列処理 - 統計量スケーラブルインテグレーション - 分散型DB - Self-healing - Self-balancing - Kafka - Kenesis - S3 - GCS - HDFS Airbnb, Alibaba, Expedia, Lyft, Netﬂix, Optimizely, Twitter, Yahoo などで導入実績 https://druid.apache.org/druid-powered - 公式Operatorあり - GitOps - ちょっと使いづらい On Kubernetes

Slide 6

Slide 6 text

But, Pub/Sub未対応… - PRあるけど進んでない

Slide 7

Slide 7 text

Strimzi Kafka Operator - Kafka is now Kubernetes-Native - GitOps - シンプルで使いやすい - Zookeeper, Exporterも全部やってくれる - ヘルスチェック、ログ、メトリクス

Slide 8

Slide 8 text

After

Slide 9

Slide 9 text

所感 & まとめ導入はそれなりに大変だけど、メリットはある Druid - 分析基盤として性能・機能共にフィットするプロダクトは多そう - チューニングが難しい - Pub/Sub対応してほしい - 開発が活発なGo SDKがほしい Strimzi - シンプルで使いやすい Kubernetes上に構築するときOperatorがあると安心する

Slide 10

Slide 10 text

Thank you!