Slide 1

Slide 1 text

SQLによるオブザーバビリティの進化と ClickHouse の実力 Sept 26, 2024 松本 幹 Senior Support Engineer

Slide 2

Slide 2 text

About me ● ClickHouseの日本人社員第1号 ● 大規模データシステムの導入支援や技術サポートを中心 に活動(ClickHouse, Elastic, Domo)

Slide 3

Slide 3 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 3 目次 01 02 03 04 歴史的背景 ClickHouseとは ユースケース 共通の考慮事項

Slide 4

Slide 4 text

歴史的背景

Slide 5

Slide 5 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 5 SQLは50年以上前に開発されが、依然として人気 https://survey.stackoverflow.co/2024/technology#most-popular-technologies-language-prof 2024年のStackOverflowの 開発者向け調査結果によると、 SQLが2番目に人気のあるプログ ラミング言語にランクイン。 調査対象となった67,000人 以上のプロの開発者のうち、 半数以上が使用していると回答

Slide 6

Slide 6 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 6 リアルタイム解析用データベースの進化

Slide 7

Slide 7 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 7 同時に、DevOps におけるオブザーバビリティも進化

Slide 8

Slide 8 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 8 SQLとオブザーバビリティの統合

Slide 9

Slide 9 text

“オブザーバビリティは、単なる 大量データの問題 であるˮ

Slide 10

Slide 10 text

ClickHouse とは

Slide 11

Slide 11 text

2023 6月 ClickHouse Cloudが GCP上で一般提供開始 2022 12月 ClickHouse Cloudが AWS上で一般提供開始 2021 10月 シリーズB資金調達 ラウンドで、 250Mドルを 調達 2021 9月 シリーズA資金調達ラウンドで、 50Mドルを調達 正式にサービスを公開 2021 8月 ClickHouse, Inc. をアメリカで設立 2009 ClickHouseの プロトタイプを開発 2016 6月 ClickHouseを Apache 2.0ライセンスの 下で公開 100 リリース 2024 4月 ClickHouse Cloudが AWSの東京リージョンを サポート開始 2024 6月 ClickHouse Cloudが Azure上で一般提供開 始 ClickHouse の歴史

Slide 12

Slide 12 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 12 ClickHouse とは? オープンソース 2009年から開発開始 2016年にオープンソース化 36K以上のGitHubスター 1,000人以上のコントリビューター 300回以上のリリース カラム指向 分散 OLAP データベース 集計に最適 カラムごとのファイル管理 ソートとインデックス化 バックグラウンドマージ レプリケーション シャーディング マルチマスター 分析ユースケース 集計処理 データの可視化 ほぼイミュータブルなデータ

Slide 13

Slide 13 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 13 ClickHouse の特徴 1 2 3 高速なOLAPクエリ 大量のデータに対する 集計などの分析クエリ リソース効率が高い 革新的なデータ圧縮 - 10倍から100倍のストレージ効率 使いやすい アナリストに優しいSQL構文、 簡単に始められる、大規模な統合エコシステム https://benchmark.clickhouse.com

Slide 14

Slide 14 text

ユースケース

Slide 15

Slide 15 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 15 ログ分析プラットフォーム アーキテクチャ  Log shippers → Kafka → ClickHouse → Kibana  LuceneクエリをSQLクエリに変換するQueryBridgeを  開発し、Kibanaを使用 メリット  高速なデータ取り込み  コスト管理 トレードオフ  スタックの管理、UIの開発 https://www.uber.com/blog/logging/ https://presentations.clickhouse.com/meetup40/uber.pdf

Slide 16

Slide 16 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 16 アーキテクチャの概要

Slide 17

Slide 17 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 17 オブザーバビリティの自社ユースケース アーキテクチャ  OpenTelemetry → ClickHouse → Grafana メリット  ログデータを詳細に、長期間にわたって保持可能  Datadog のコスト削減 トレードオフ  構築、保守に1.5人分の労力 https://clickhouse.com/blog/building-a-logging-platform-with-clickhouse-and-saving-millions-ov er-datadog

Slide 18

Slide 18 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 18 オブザーバビリティの自社ユースケース

Slide 19

Slide 19 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 19 約200倍の価格比 : ClickHouse vs Datadog

Slide 20

Slide 20 text

共通の考慮事項 オブザーバビリティを構築するに向けて

Slide 21

Slide 21 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 21 クエリ言語の考慮 “SQLは、ドメイン固有のクエリ言語に比べてコンパクトではない?ˮ

Slide 22

Slide 22 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 22 シンプルなクエリ ? source=events level=”warning” | STATS avg(duration) BY level | FIELDS level, avg(duration) AS avg_dur | sort - avg_dur | head 10

Slide 23

Slide 23 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 23 昔ながらの SQLでは...

Slide 24

Slide 24 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 24 スキーマの考慮 「メトリクス」「ログ」「トレース」を別々に考えるのではなく、それらを「ワイドイベント」と して一体的に捉えることが役立ちます。 https://isburmistrov.substack.com/p/all-you-need-is-wide-events-not-metrics https://news.ycombinator.com/item?id=39529775

Slide 25

Slide 25 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 25 スキーマの考慮事項 - Uberのケース map や object などの複雑なデータ構造に 対応し、特定のスキーマに依存しない プラットフォーム向けに、データ取り込み時に柔軟に データを解析する仕組み

Slide 26

Slide 26 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 26 可視化の考慮 Grafana Apache Superset Perses Metabase 独自で実装

Slide 27

Slide 27 text

©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 27 SQL OLAP データベースの考慮 - リアルタイム - 高速なデータ取り込み(必要に応じてデータの取り込み後に変換可能) - 大量のデータに対して、一般的なクエリが数秒以内に完了する - データ圧縮 - 一般的なオブザーバビリティデータセットに対して、 10〜100倍の圧縮率 - ストレージとコンピュータリソースの分離 - オブジェクトストレージに大規模データセットを保存し、コンピュータのリソースをスケール可能 - 相互運用性 - 一般的なオブザーバビリティデータ収集ツール( OTel)やUI(Grafana)をサポート - SQL準拠 - ANSI SQLにどの程度準拠しているか? - 総所有コスト(TCO) - スイッチングコストを考慮

Slide 28

Slide 28 text

Thanks