Upgrade to Pro — share decks privately, control downloads, hide ads and more …

リアルタイムデータ分析基盤をKafka(Strimzi) & Druidで構築し

リアルタイムデータ分析基盤をKafka(Strimzi) & Druidで構築し

Kenta Kozuka

June 30, 2021
Tweet

More Decks by Kenta Kozuka

Other Decks in Programming

Transcript

  1. In-House Feature Flag & A/B Testing Platform 「Bucketeer」という名前です 社内プロダクト用フィーチャーフラグ &

    ABテストプラットフォーム 複数のプロダクトで導入 今回はGKE上に構築しているデータ分 析パイプラインの話
  2. Druid 大規模データ分析 - 列指向 - 大量のインサート - リアルタイム分析 - 並列処理

    - 統計量 スケーラブル インテグレーション - 分散型DB - Self-healing - Self-balancing - Kafka - Kenesis - S3 - GCS - HDFS Airbnb, Alibaba, Expedia, Lyft, Netflix, Optimizely, Twitter, Yahoo などで導入実績 https://druid.apache.org/druid-powered - 公式Operatorあり - GitOps - ちょっと使いづらい On Kubernetes
  3. Strimzi Kafka Operator - Kafka is now Kubernetes-Native - GitOps

    - シンプルで使いやすい - Zookeeper, Exporterも全部やってくれる - ヘルスチェック、ログ、メトリクス
  4. 所感 & まとめ 導入はそれなりに大変だけど、メリットはある Druid - 分析基盤として性能・機能共にフィットするプロダクトは多そう - チューニングが難しい -

    Pub/Sub対応してほしい - 開発が活発なGo SDKがほしい Strimzi - シンプルで使いやすい Kubernetes上に構築するときOperatorがあると安心する