Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ClickHouse + Kafka 連携

Avatar for Miki Matsumoto Miki Matsumoto
April 15, 2025
1

ClickHouse + Kafka 連携

ClickHouse & Confluent の合同ミートアップ のスライド。
本スライドでは、ClickHouse と Kafka の統合による強力なデータ処理の紹介。本セッションでは、世界中の企業がこの組み合わせを導入している理由について解説し、大規模データを低レイテンシーで効率的にストリーミング・処理し、高性能なリアルタイム分析を実現する方法をご紹介します。

Avatar for Miki Matsumoto

Miki Matsumoto

April 15, 2025
Tweet

Transcript

  1. 松本 幹 Senior Support Engineer @ ClickHouse • ClickHouseの日本人社員第1号 •

    大規模データを扱うシステム導入支援や 技術サポート(ClickHouse, Elastic, Domo) • 現在は、サポート業務を中心に、 SAやトレーニングなど幅広い業務を担当 mikimatsumoto miki_matu_
  2. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 3 アジェンダ 01 02

    03 04 はじめに KafkaとClickHouseの連携 デモ Q&A
  3. 2023 6月 ClickHouse Cloudが GCP上で一般提供開始 2022 12月 ClickHouse Cloudが AWS上で一般提供開始

    2021 10月 シリーズB資金調達 ラウンドで、 250Mドルを 調達 2021 9月 シリーズA資金調達ラウンドで、 50Mドルを調達 正式にサービスを公開 2021 8月 ClickHouse, Inc. をアメリカで設立 2009 ClickHouseの プロトタイプを開発 2016 6月 ClickHouseを Apache 2.0ライセンスの 下で公開 100 リリース 2024 4月 ClickHouse Cloudが AWSの東京リージョンを サポート開始 2024 6月 ClickHouse Cloudが Azure上で一般提供開 始 ClickHouse の歴史
  4. ClickHouse のトレンド 8年経っても まだ始まったばかり ClickHouse Open Source ClickHouse Cloud ➔

    GitHubでのスター数:40,000以上 ➔ フォーク数:7,000件 ➔ 開発に関わったエンジニア:1,600人以上 ➔ 活発に活動している開発者:490人 ➔ Slackコミュニティのメンバー:10,000人以上 ➔ 2022年12月以降、クラウドのトライアルユーザと 有料ユーザの数は数千以上 ➔ 毎日、クラウドユーザーは55億のクエリを実行し、100PB のデータ上で3.5京のレコードをスキャン ➔ 2024年12月にAmazonと5年間の戦略的協業契約 (SCA)を締結
  5. ClickHouse とは? オープンソース 列指向 分散 OLAP デーベース レプリケーション シャーディング 結果整合性

    (Eventual Consistency) リアルタイム分析 オブザーバビリティ ビジネスインテリジェンス フィルターと集計に最適 追記メインのワークロードに最 適 2009年から開発 2016年にオープンソース化 Apache 2.0 ライセンス)
  6. benchmark.clickhouse.com データの読み込みが 最大37倍高速 クエリ処理が 最大20倍高速 圧倒的なクエリ速度 大規模なデータセットに対する分析クエリや 集計処理、計算が非常に高速に実行されます。 高いリソース効率 業界トップクラスのデータ圧縮率。

    一般的な代替製品と比べて、10〜100倍のストレー ジ効率を実現します。 使いやすさ S3、Delta Lake、Iceberg、Hudi など、 さまざまなデータソースからのセルフサービス でのデータ取り込みに対応。アナリストも 使いやすい標準SQL構文を採用しています。 1 2 3 ClickHouse の特徴
  7. ClickHouse の特徴 例:基本的なデータ探索、 レポートの作成 アドホックおよび 定期的なワークフロー 例:分析ワークフロー、 モニタリング、アプリケーション インテリジェンス 即時性と高い同時処理性能

    が必要な処理 遅い 速い データレイク 分散データ処理 フレームワーク データウェアハウス その他のデータベース およびデータストア リアルタイム 分析データベース
  8. リアルタイム分析 インタラクティブなアプリケーションやダッシュボード にリアルタイム分析機能を提供し、大量のデータを その場で集計・解析。複雑な内部分析も、分や時間 ではなくミリ秒で実行可能。 データウェアハウス データをインタラクティブに切り分けて分析やレ ポート作成、社内アプリケーションの構築に活用。 ユーザー行動、広告・メディアの効果、市場の動向 などを評価可能。

    オブザーバビリティ ユースケース * Top 20 paying customers, as of Q3 2023 ログ、メトリクス、トレースの監視に利用され、異常 検知、詐欺検出、ネットワークやインフラの問題の 特定などにも対応。 機械学習と生成 AI 高速かつ効率的なベクトル検索を実行可 能。あらゆるプロバイダーの生成 AIモデル と簡単に連携。超高速の集計処理でペタ バイト規模のモデル学習を支援。 ClickHouse が解決する問題
  9. Cloud セルフマネージド セルフマネージドにおけるアーキテクチャのサンプル ClickHouse Cloud architecture ✓ オープンソース ✓ 柔軟なアーキテクチャ

    ✓ 効率的で堅牢 ✓ サポート契約が利用可能 ✓ 使いやすい ✓ 機能が豊富 ✓ 高速 ✓ スケーラブル ✓ 信頼性が高い ✓ PAYG マネージド型サービス クラウドファースト機能とツールを提供 自動的にパフォーマンスと効率を最適化 シームレスなスケーリング 高い信頼性を保証 利用量と容量に応じた料金設定
  10. ClickPipes • 複数のソースから膨大なデータを、 数回のクリックで簡単に取り込むことができ る統合エンジン • Kafka、Kinesis、Postgres、Amazon S3、Google Cloud Storageなど、

    さまざまなソースからのデータ取り込みを簡 素化 • スケーラブルなアーキテクチャにより、 高スループットと低遅延を実現し、 要求の厳しいワークロードに最適
  11. Kafka Table Engine CREATE TABLE TABLE_NAME ( … ) ENGINE

     Kafka('localhost:9092', 'topic', 'group1', 'JSONEachRow') SETTINGS kafka_keeper_path = '/clickhouse/{database}/experimental_kafka', kafka_replica_name = 'r1' SETTINGS allow_experimental_kafka_offsets_storage_in_keeper=1; Kafkaからリアルタイムでデータを読み込み、そのストリームを処理する仕組みを提供します。オフ セットの追跡にはKafkaに依存せず、ClickHouse Keeperによって管理されます。 データの挿入が失敗した場合でも、ネットワークやサーバー障害に左右されることなく、 同じデータチャンクを正確に再取得して再挿入を試みます。 データの重複や欠損を防ぐ Exactly-Onceセマンティクスを実現している。 ClickHouse Cloudでは利用できない。
  12. • ClickHouseが公式に開発・保守するコネクタ • Kafka Connectフレームワーク上で動作し、 Kafka からClickHouseへプッシュ型で データ転送 • ClickHouse

    KeeperMapを活用し、 データの重複や欠損を防ぐ Exactly-Once セマンティクスを標準で提供 • リアルタイムモニタリングや IoT分析などの ユースケースを実現可能に ClickHouse Kafka Connect Sink
  13. ClickPipes 20 ClickPipes 外部データ ソースをClickHouse Cloud にシー ムレスに接続できる機能 • 直感的にすばやく設定できる

    • 継続的なインジェストの管理 • スピードとスケール • リアルタイム分析を最適化
  14. Q&A