Upgrade to Pro — share decks privately, control downloads, hide ads and more …

リアルタイム分析データベースで実現する SQLベースのオブザーバビリティ

Miki Matsumoto
February 14, 2025

リアルタイム分析データベースで実現する SQLベースのオブザーバビリティ

エンジニアリングやコンピュータサイエンスにおける数々の革新は、異なるアプローチを組み合わせることで生まれてきました。本セッションでは、データベースとオブザーバビリティの歴史的な流れを振り返りつつ、超高速な列指向データベースであるClickHouseがリアルタイム分析を通じてオブザーバビリティにどのような変革をもたらしたのかを解説します。
また、実際に20PB規模のログデータを扱う大規模なリアルタイムなオブザーバビリティ環境をどのように安価に構築したかについて、アーキテクチャや技術的ポイントを紹介します。
また、ベータ機能としてリリースされておりJSONタイプについて、ご説明します。

Miki Matsumoto

February 14, 2025
Tweet

More Decks by Miki Matsumoto

Other Decks in Technology

Transcript

  1. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 5 SQLは50年以上前に開発されたが、依然として人気 https://survey.stackoverflow.co/2024/technology#most-popular-technologies-language-prof 2024年のStackOverflowの

    開発者向け調査結果によると、 SQLが2番目に人気のあるプログ ラミング言語にランクイン。 調査対象となった67,000人 以上のプロの開発者のうち、 半数以上が使用していると回答
  2. ClickHouse とは? オープンソース 列指向 分散 OLAPデータベース レプリケーション シャーディング マルチマスター クロスリージョン

    2009年から開発開始 2016年にオープンソース化 38,000 GitHubスター 1,300 コントリビューター 500 リリース 集計に最適 カラムごとのファイル管理 ソートとインデックス バックグラウンドマージ 分析ユースケース 集計処理 データの可視化 ほぼイミュータブルなデータ
  3. 2023 6月 ClickHouse Cloudが GCP上で一般提供開始 2022 12月 ClickHouse Cloudが AWS上で一般提供開始

    2021 10月 シリーズB資金調達 ラウンドで、 250Mドルを 調達 2021 9月 シリーズA資金調達ラウンドで、 50Mドルを調達 正式にサービスを公開 2021 8月 ClickHouse, Inc. をアメリカで設立 2009 ClickHouseの プロトタイプを開発 2016 6月 ClickHouseを Apache 2.0ライセンスの 下で公開 100 リリース 2024 4月 ClickHouse Cloudが AWSの東京リージョンを サポート開始 2024 6月 ClickHouse Cloudが Azure上で一般提供開 始 ClickHouse の歴史
  4. ✓ 38k以上のGitHubスター ✓ 6.4k以上のフォーク ✓ 1.3k以上のコントリビュータ ✓ 100k以上のコミット ✓ 114k

    のアクティブなコミュニティメンバー Cloud ✓ 高速、スケーラブル、そして信頼性が高い ✓ 柔軟で機能が豊富、かつ使いやすい ✓ 毎日数十億のクエリを処理 ClickHouse オープンソース ClickHouse Cloud
  5. Cloud セルフマネージド セルフマネージドにおけるアーキテクチャのサンプル ClickHouse Cloud architecture ✓ オープンソース ✓ 柔軟なアーキテクチャ

    ✓ 効率的で堅牢 ✓ サポート契約が利用可能 ✓ 使いやすい ✓ 機能が豊富 ✓ 高速 ✓ スケーラブル ✓ 信頼性が高い ✓ PAYG マネージド型サービス クラウドファースト機能とツールを提供 自動的にパフォーマンスと効率を最適化 シームレスなスケーリング 高い信頼性を保証 利用量と容量に応じた料金設定
  6. リアルタイム分析 大規模データのリアルタイム分析・集計が可能なイ ンタラクティブなアプリケーションとダッシュボードを 実現。社内の複雑な分析処理も、分や時間単位で はなく、ミリ秒単位での実行を実現。 ビジネスインテリジェンス データを自在に分析し、分析レポートや社内アプリ ケーションの構築に活用。ユーザー行動分析、広告 ・メディア効果測定、市場動向分析など、幅広い用 途に対応。

    機械学習と生成 AI 高速かつ効率的なベクトル検索を実現。様々なプ ロバイダーの生成 AIモデルをすぐに利用可能。ペ タバイト規模のモデルトレーニングも、超高速な集 計処理で実現。 ログ、イベント、トレース ログ、イベント、トレースの確実な監視 を実現。異常検知や不正検知、ネット ワーク・インフラの問題など、様々な課 題を検出可能。 ユースケース
  7. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 18 ログ分析プラットフォーム アーキテクチャ  Log

    shippers → Kafka → ClickHouse → Kibana  LuceneクエリをSQLクエリに変換するQueryBridgeを  開発し、Kibanaを使用 メリット  高速なデータ取り込み  コスト管理 トレードオフ  スタックの管理、UIの開発 https://www.uber.com/blog/logging/ https://presentations.clickhouse.com/meetup40/uber.pdf
  8. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 20 オブザーバビリティのドッグフーディング アーキテクチャ  OpenTelemetry

    → ClickHouse → Grafana メリット  ログデータを詳細に、長期間にわたって保持可能  Datadog のコスト削減 トレードオフ  構築、保守に1.5人分の労力 https://clickhouse.com/blog/building-a-logging-platform-with-clickhouse-and-saving-millions-ov er-datadog
  9. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 25 柔軟なスキーマの必要性 多くのシステム、特にマイクロサービスアーキテクチャでは、 はじめからデータが可変であることが前提にになっている。

    • 多様なマイクロサービス → 出力フォーマットが統一されない • 新機能リリース → ログ項目の追加・削除がたびたび発生 • 環境やバージョン違い → 出力形式が異なりやすい 引用: https://github.com/aelkz/microservices-observability
  10. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 29 10億ドキュメント JSONチャレンジ 半構造化された

    JSON ドキュメントの大規模なデータセットをどれだけ 効率的に保存し、集計できるかを測定する。 # TABLE DDL CREATE TABLE bluesky ( `data` JSON kind LowCardinality(String), commit.operation LowCardinality(String), commit.collection LowCardinality(String), did String, time_us UInt64 ) ) ORDER BY ( data.kind, data.commit.operation, data.commit.collection, data.did, fromUnixTimestamp64Micro(data.time_us) ); # データセットのサンプル { "account": { "active": true, "did": "did:plc:kjealuouxn3l6v4byxh2fhff", "seq": "706717212", "time": "20241127T180002.429Z" }, "did": "did:plc:kjealuouxn3l6v4byxh2fhff", "kind": "account", "time_us": "1732730402720719" }
  11. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 31 クエリの集計パフォーマンス – Query1

    SELECT data.commit.collection AS event, count() AS count FROM bluesky GROUP BY event ORDER BY count DESC;
  12. ©2024 CLICKHOUSE INC., CONFIDENTIAL & PROPRIETARY 33 まとめ • リアルタイムOLAPとオープンソースによる標準化により

    SQLベースのオブザーバビリティが登場した • 高いコストパフォーマンスを誇るため、多くの注目を集めている • JSONのネイティブサポートにより、 スキーマに依存しない柔軟なデータモデルに対応している