Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DataStax ご紹介~エンタープライズCassandra、そしてリアルタイムAI

DataStax ご紹介~エンタープライズCassandra、そしてリアルタイムAI

DATASTAX JAPAN

June 23, 2023
Tweet

More Decks by DATASTAX JAPAN

Other Decks in Technology

Transcript

  1. ©2023 DataStax. – All rights reserved
 DataStax ご紹介 エンタープライズCassandra、そしてリアルタイムAI 


    河野泰幸<[email protected]> - プリセールスアーキテクト
 
 
 Cassandra Day Tokyo 2023 2023年6月1日

  2. ©2023 DataStax. – All rights reserved
 DataStaxのご紹介 本社
 
 Santa

    Clara, CA
 
 2010年4月創業
 
 Santa Clara • London • Paris • 
 Singapore • Tokyo •
 Sydney • Wellington
 
 テクノロジー
 
 
 
 オープンソースを基盤とした
 テクノロジースタックを
 エンタープライズ向けソリューション 
 として提供
 DATASTAX JAPAN 2017年法人設立
  3. ©2023 DataStax. – All rights reserved
 Apache Cassandra オープンソース NoSQLデータベース


    分散アーキテクチャ
 ワイド カラム データ モデル
 低レイテンシ/ 無限のスケール
 単一障害点のない高可用性 

  4. ©2023 DataStax. – All rights reserved
 Apache Pulsar オープンソース
 メッセージング/ストリーミング


    ミドルウェア
 分散アーキテクチャ
 クラウドネイティブ設計
 保証されたメッセージ配信 
 軽量サーバーレス関数フレームワーク 
 階層型ストレージオフロード 

  5. ©2023 DataStax. – All rights reserved
 包括的な オープンデータスタック クラウドとオンプレ の両方で提供

    リアルタイムAI DataStaxが指向する マシンラーニング
 ストリーミング
 クラウド
 データ

  6. ©2023 DataStax. – All rights reserved
 ©2023 DataStax. – All

    rights reserved
 アジェンダ 8
 データベース
 メッセージング/ストリーミング
 クラウド/マネージドサービス
 AI/ML

  7. ©2023 DataStax. – All rights reserved
 ニーズに応じたDataStaxテクノロジー活用 10
  DataStaxテクノロジー コミュニティー

    技術サポート パッケージ製品 クラウドサービス エンタープライズ オープンソース 市場投入までの期間短縮
  8. ©2023 DataStax. – All rights reserved
 DataStax Enterprise 先進機能とサポートでTCO削減 11


    シンプルな操作 • 構成管理UI • 可観測性: ヘルス メトリックス • 管理 API 先進のパフォーマンス • 2 倍の r-w スループット • レイテンシーを 50% 削減 • データロード4 倍高速化 TCO の削減 • サービス安定性向上 • 運用管理コスト削減 • 開発生産性向上 • 統合テクノロジースタック パートナーシップ • 24時間サポート • バグ修正パッチ • ベスト プラクティス • 専用ツール 詳細 :https://www.datastax.com/resources/whitepaper/advan ced-performance-datastax-enterprise Cassandra に 企業に必要な価値をプラス
  9. ©2023 DataStax. – All rights reserved
 DataStax Enterprise 統合テクノロジースタック 12


    Apache Cassandra NoSQLデータベース マルチモデルデータ アナリティクス 高度なサーチ グラフエンジン 外部連携 Kafka など各種 コネクター Stargate
  10. ©2023 DataStax. – All rights reserved
 アプリケーション開発を簡素化 • RDB/SQL知識経験を活用
 •

    標準API/フォーマット(REST、GraphQL、JSON)知識経験を活用
 INSERT INTO mytable (id,name,address) VALUES (1,'Bob Smith','1 Main Street') SQL類似言語(CQL)
 簡単な開発ツール 各種プログラミング言語対応
 DataStaxスタジオ 任意の API
 Stargate
 gRPC、GraphQL、REST、JSON
 13
 SELECT * FROM mytable WHERE id=1 UPDATE mytable SET name='Tom Smith' WHERE id=1 DELETE FROM mytable WHERE ID=1
  11. ©2023 DataStax. – All rights reserved
 開発を加速するStargateデータAPIゲートウェイ Cassandra Query Language


    GraphQL
 REST
 Document
 SQL同様のテーブルモデル 
 構造化データ
 キーバリューデータ
 強い型付け
 クエリオーバーヘッドが最小 
 型とフィールドの階層 
 構造化データ
 キーバリューデータ
 クエリオーバーヘッドが低い 
 行ベース
 構造化データ
 キーバリューデータ
 より弱い型付け
 クエリオーバーヘッドが高い 
 JSONドキュメント
 準構造化データ
 より弱い型付け
 クエリオーバーヘッドが高い 
 ドライバー
 オープンAPI
 パフォーマンス
 柔軟性
 gRPC
 CQL over gRPC
 より軽量
 ネイティブドライバの代替 
 クエリオーバーヘッドが低い 
 14
 Stargateは、{API:World} 2022にてBest in Data APIs賞を受賞:出典。 gRPC APIとCQLドライバーのパフォーマンス比較は こちらから。 同程度の速度 開発者の選択肢 API、ドライバー、および複数のデータ モデル
  12. ©2023 DataStax. – All rights reserved
 Cassandra Enhancement Proposal (CEP)

    15
 Adopted CEPリスト https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=95652201 Proposal Number Status 起案エンジニア所属企業 CEP-3: Guardrails V4.1実装済み DataStax CEP-7: Storage Attached Index v5.0対応予定 DataStax CEP-9: Make SSLContext creation pluggable v4.1実装済み CEP-10: Cluster and Code Simulation v4.1実装済み Apple CEP-11: Pluggable memtable implementations v4.1実装済み DataStax CEP-14: Paxos Improvements v4.1実装済み Apple CEP-15: General Purpose Transactions v5.0対応予定 Apple CEP-13: Denylisting partitions v4.1実装済み Netflix CEP-16: Auth Plugin Support for CQLSH v4.1実装済み CEP-17: SSTable format API DataStax CEP-19: Trie memtable implementations v5.0対応予定 DataStax CEP-20: Dynamic Data Masking DataStax CEP-21: Transactional Cluster Metadata v5.0対応予定 Apple CEP-25: Trie Indexed SSTable DataStax
  13. ©2023 DataStax. – All rights reserved
 注目の新機能 Cassandra 4.1  (午後の日本Cassandraコミュニティのセッションで説明)


    • CEP-03 = システム全体のガードレール機能
 • CEP-13 = パーティションキーの拒否リスト
 • CEP-11 = プラグ可能なMemtable
 Cassandra 5.0 
 • CEP-07 = ストレージ・アタッチド・インデックス Storage Attached Indexes
 • CEP-15 = ACID トランザクション (午後のDataStaxのセッションで説明)
 • CEP-19 = Trie Memtables
 • CEP-21 = トランザクショナルなクラスターメタデータ
 その他の注目の新機能
 • CEP-20 = 動的データマスキング
 • CEP-25 = Trie Indexed SSTable
 • CEP-26 = Unified Compaction Strategy
 • CEP-28 = Spark Bulk Analyticsを使ったCassandraデータの読み書き(SSTableファイルダイレクトアクセス )

  14. ©2023 DataStax. – All rights reserved
 CEP-30:ベクトル検索 (Cassandra 5.0プロポーザル) 18


    新たなデータ型 VECTORの導入 新たなオペレーター ANN OFの導入 近似最近傍探索を実装 approximate nearest neighbor (ANN) インデックスを定義 Storage Attached Index
  15. ©2023 DataStax. – All rights reserved
 CassIO 19
 https://cassio.org/ CassIO

    の目的は、GenerativeAI やその他の機械学習ワークロード の一般的なニーズに合わせて Cassandra データベースにアクセスする詳細を抽象化し、 Cassandra をシームレスに統合 するためツール セットを提供すること です。 一部の機能は「ベクトル類似性検索」機能に依存しています。この機能は Cassandra に追加されています が、リリースされたバージョンにはまだマージされていません。 現時点では、それらの機能を試すには、 Cassandraをソースからバイナリを自分でビルドする必要がありま す。 LangChain は、LLM(大規模言語モデル)の管理と対話を自動化するフ レームワークです。 CassIO は LangChain とシームレスに統合した Cassandra 固有のツー ルを提供します。 https://docs.langchain.com/docs/
  16. ©2023 DataStax. – All rights reserved
 CassandraをRAPIDS/GPUで活用する試み 20
 https://www.datastax.com/blog/analyzing-cassandra-data-using-gpus-part-1 SSTable

    to Arrow - Cassandra で GPU アクセラレーションによる分析クエリを有効にするプロジェクト https://github.com/datastax/sstable-to-arrow RAPIDS https://rapids.ai/ 開発者が GPU を活用できるようにするために Nvidia によって開発された開発者ツールキットであ るCUDAから派生。 RAPIDS は、 pandasやscikit-learnなどの一般的 な AI / ML API に、GPU アクセラレーションを使用 できるようにします。 RAPIDSでは、基礎となるメモリ形式として Apache Arrowが使用されています。
  17. ©2023 DataStax. – All rights reserved
 Luna for Apache Cassandra

    のご紹介 お客様のニーズに合わせて以下のサポート形態を提供します。 
 22
 プレミアムサポートエンジニア - 専任または共有 Premium Support アドオン Luna for Apache Cassandra スタンダード 通常サポート オープンソースのCassandraに対する商用サポート • DataStaxには、サポートエンジニアとして、 Cassandraコミッターが在籍 • 迅速な問題解決によるシステムの安定稼働を実現 • スタンダードよりも手厚いサポート(レスポンスタイム等) • Apache Cassandra のサポート終了後の延長サポートのご相談
  18. ©2023 DataStax. – All rights reserved
 Apache Cassandraリリース・サポート状況 https://cassandra.apache.org/_/download.html
 23


    現在、3.xをご利用の方は、2023年11~12月に訪れる予定のサポート期間の終了にご注意ください。
  19. ©2023 DataStax. – All rights reserved
 移行先のオプション&その後のサポート期間 24
 Apache Cassandra

    3.11, 3.0 DataStax Enterprise 6.8 DataStax Enterprise 7.0 Apache Cassandra 4.0 Apache Cassandra 4.1 Apache Cassandra 5.0 移行先
 サポート終了
 6/30/2026 (Earliest EOL)
 Apache Cassandra 3.11 互換 https://www.datastax.com/jp/legal/supported-software
  20. ©2023 DataStax. – All rights reserved
 エンタープライズ メッセージングの簡単な歴史 26
 1993年:

    IBM MQ シリーズを発表 1998年: JMS登場 2004年: ActiveMQ登場 2007年: RabbitMQ登場 2009年: Kafkaの登場 JMS は 20 年以上前に登場 RabbitMQ は 16 年前に登場 2016年: PulsarがASFに寄贈さ れる 2021年: DataStax が Kesque社 (エンタープライズPulsarサービス)を 買収 モノリシックな
 アーキテクチャー
 分散 SOA
 クラウドネイティブ

  21. ©2023 DataStax. – All rights reserved
 メッセージングミドルウェアを... 利用しない場合 29
 •

    データ利用要件発生の度に開発が必要:コスト増 • 開発はソースシステムに影響 • データロードの増加により、性能問題、システム不安定化 利用する場合 • データソースを再利用できる:コスト減 • データソースを利用する上流システムに影響なし • キューを介したデータロードの調整が働く。システム影響低
  22. ©2023 DataStax. – All rights reserved
 ストリーム処理と は? 30
 データ永続化前にリアルタイムで

    操作 プラットフォームによる並列 実行 着信データはプロセッサを継続 的に流れ、時には状態を保持し ます
  23. ©2023 DataStax. – All rights reserved
 ストリーミングは ビジネスを どのように 変えるか?

    31
 意思決定 フィルター 期間データ 変換 エンリッチ クレンジング 機械学習モデルを適用したデータ 主導の意思決定 変化する状況への迅速な対応、コ スト最適化 データ付与、正規化など リアルタイム ダッシュボード ストリーミングデータを毎分等の期間 で、データ集計(平均、最大、…)
  24. ©2023 DataStax. – All rights reserved
 32
 オープンソース 作成者 Yahoo

    2016 年 Apache Software Foundation (ASF) に寄贈 2018 年 トップレベルプロジェクトに昇格 ➔ クラウドネイティブ設計 ➔ クラスターベース ➔ マルチテナント ➔ コンピューティングとストレージを分離 ➔ データ期限の管理:コールドストレージへのオフロード メッセージング メッセージが Pulsar ブローカーに到達すると、構成されたター ゲットに配信されます。 ストリーミング Pulsar クラスター内で複雑な処理ロジックを作成できます。 ( デー タ パイプライン)
  25. ©2023 DataStax. – All rights reserved
 33
 https://streamnative.io/blog/engineering/2022-04-07-pulsar-vs-kafka-benchmark/ アクティブコントリビューターの推移でApache Kafka

    を上回る アクティブコントリビューターの推移 2021 年、Pulsar はApache Software Foundationプロジェクトのコミット数トッ プ 5 にランク https://thestack.technology/top-apache-projects-in -2021-from-superset-to-nuttx/ 開発の活況状況
  26. ©2023 DataStax. – All rights reserved
 34
 Splunkは、Pulsar を搭載 調査結果:

    Pulsar はKafka よりも 5 倍から 50 倍優れたレイテンシ を実現し、運用上の負担を軽減 します • フラッグシップ DSP 製品、 • 1 日あたり数十億のメッセージ処理に対応
  27. ©2023 DataStax. – All rights reserved
 35
 それぞれのコミュニティーから、自身のテクノロジーをサポートするレポートが出されているが ... •

    Confluent (Kafka) Benchmarking Apache Kafka, Apache Pulsar, and RabbitMQ: Which is the Fastest? ◦ https://www.confluent.io/blog/kafka-fastest-messaging-system/ • StreamNative (Pulsar) Benchmarking Pulsar and Kafka - A More Accurate Perspective on Pulsar’s Performance ◦ https://streamnative.io/blog/tech/2020-11-09-benchmark-pulsar-kafka-performance 「経験則として、Kafka は高スループットを、Pulsarは低レイテンシーを指向している」(Ivan Despot: “Apache Pulsar vs Apache Kafka - How to choose a data streaming platform” ) https://memgraph.com/blog/pulsar-vs-kafka Kafka vs Pulsar: 性能比較
  28. ©2023 DataStax. – All rights reserved
 36
 Pulsar for Data-In-Motion

    (通信データ) • 
 Databases Service
 Process Automation
 Web/Mobile Applications
 ERP Systems
 Application Services
 B2B
 Static Data
 IoT Sensors
 Legacy Application Servers
 Micro-
 services
 CRM
 Data Analytics
 Service Distribution
 Security
 Alerting
 Data Ingestion
 Service Data Mobilization
 Messaging
 Integration Services
 Application Discovery
 メッセージング、ストリーミング、イベント /ストリームプロセッシングをすべて一つのプラットフォームで
  29. ©2023 DataStax. – All rights reserved
 データエコシステムとの連携 
 リクエストベースから、イベントドリブンへ 37


    データの変化を反映 
 データ変更を他へ伝搬 
 イベント コンシューマー
 イベント プロデューサー
 データ変更プロデューサー 

  30. ©2023 DataStax. – All rights reserved
 DataStax Starlight: Pulsar用のプロトコル互換機能 39


    既存メッセージングシステムやストリーミング プラットフォームの置き換えを実現 既存のスキルセットを適用 可能 各種メッセージングプラットフォーム間の インターオペラビリティ(総合運用) を確保 仕様及び機能レベルでの フル互換確保のために 徹底した試験を実施 **MQTT, ActiveMQ, RocketMQ coming soon
  31. ©2023 DataStax. – All rights reserved
 イベント駆動型アーキテクチャ • 異なるシステム コンポーネント間で、

    「イベ ント」を使用
 • 「イベント」は、意思決定を促進するための コンテキスト情報を含む、送受信可能な データ
 
 • 典型的な使用例:
 ◦ サプライチェーンマネジメント 
 ◦ 運送・物流業務
 ◦ IoT運用
 ◦ 製造業
 ◦ 金融サービス/不正検出
 

  32. ©2023 DataStax. – All rights reserved
 Apache Cassandra
 マルチクラウド DBaaS

    (Database-as-a-Service)
 
 
 
 導入期間短縮 数クリックで環境利用開始、リソース計画不要 運用管理オーバーヘッドなし 運用の管理が不要になり、 ビジネスの推進に専念 動的な弾力性 プロビジョニングの過剰や不足なし ベンダーロックインなし AWS、Azure、GCPにデプロイ可能 真の意味で従量課金 READ/WRITEリクエスト、データ容量単位 開発速度向上 各種APIと柔軟なデータモデル astra.datastax.com
  33. ©2023 DataStax. – All rights reserved
 複数の データ モデル 共通API

    一般的な プログラミング 言語のドライバー ドキュメント キー バリュー カラム ファミリー グラフ 開発柔軟性 API と ドライバー 複数の データ モデル マネージド DBaaS クラウド ネイティブ クラウド プラットフォーム 非依存 運用環境を 問わない ゼロ ダウンタイム & ゼロ オペレーション 自動スケーリング、マ ルチリージョン 等 ASTRA DB 概要
  34. ©2023 DataStax. – All rights reserved
 Apache Pulsar マルチクラウド Streaming-as-a-Service

    
 運用負荷ゼロ ストリーミング サービスを運用・スケーリングす るためのオーバーヘッドを排除 AstraDB統合 DataStax Astra DBとのCDC機能を提供 従量制モデル 柔軟な消費ベースの価格設定 簡単な構成管理 REST API管理コンソールまたは REST APIで 簡単に設定可能 
 46

  35. ©2023 DataStax. – All rights reserved
 Astra Streamingの提供するビルトイン連携 47
 データソース


    データシンク
 ※それぞれ、 一部を掲載。
 Experimental
 として、さらに 多くをサポート

  36. ©2023 DataStax. – All rights reserved
 機械学習における隠れた技術的負債 49
 Hidden Technical

    Debt in Machine Learning Systems (Sculley et al. 2015) https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf
  37. ©2023 DataStax. – All rights reserved
 フィーチャーストアのない世界とある世界 51
 ML Feature

    Stores: A Casual Tour ⅓ https://farmi.medium.com/ml-feature-stores-a-casual-tour-fc45a25b446a
  38. ©2023 DataStax. – All rights reserved
 Kaskada:モダンなテクノロジーを用いたOSS 55
 • 単一バイナリで構成、ローカルおよびクラウドへの展開が容易

    ◦ Pythonライブラリ + IPythonマジックコマンド ◦ コマンドラインインターフェイス (CLI) • プログラミング言語Rustによる実装 • 内部では、Apache Arrow (列データ処理フレームワーク)を活用 現在、Kaskadaの機能はすべてApache 2.0 ライセンスの下でGitHub リポジトリから入手できます。 https://github.com/kaskada-ai/kaskada
  39. ©2023 DataStax. – All rights reserved
 Kaskada:宣言型言語Fenl 56
 • 宣言型言語(Fenl)を使用してユーザーが記述した特徴量を計算

    • 既存のデータプロセッシングシステムとは異なり、 機械学習のニーズを満たすために設計 https://kaskada.io/2023/03/28/announcing-kaskada-oss.html
  40. ©2023 DataStax. – All rights reserved
 Kaskada:イベント処理エンジン 57
 機械学習のトレーニング データを計算する場合、

    過去のある時点での特徴量と後の時点で確定されたラベル値 とを組み合わせる必要がある • タイムトラベル: ◦ 単なるウィンドウ集計に留まらない、時間の経過に伴う計算を簡単に表現 ▪ これにより、時間を操作するための強力な一連の操作が可能に • イベント(時系列データ)中心設計: ◦ クエリを実行して、時間の経過に伴うすべての結果と最終結果を取得する機能。 ◦ 一連のイベントを変換し、直接利用 ◦ 計算結果の保存 ▪ ストリームとテーブルの違いについて考える必要も、それぞれに異なる API を使 用する必要もありません。
  41. ©2023 DataStax. – All rights reserved
 Kaskada インテグレーション: Cassandra+Pulsar 58


    Kaskadaで扱うデータ(特徴量)は、Pulsar を介して Cassandra に書き込むことができます。 その他、Redis、AWS Redshift、Snowflakeとの統 合機能を提供 https://kaskada.io/docs-site/kaskada/main/integrating/index.html
  42. ©2023 DataStax. – All rights reserved
 継続的な
 イノベーション
 
 ジェネレーティブ

    AI
 拡張性
 エンタープライズ対応 
 オープンソース
 機械学習テクノロジーにおけるイノベーション 
 • Cassandra
 ◦ ベクトル検索 - 大規模なデータセットでの効率的な類似性検索の機能 
 ◦ CQL-ML - 機械学習のための Cassandra Query Language
 • Kaskada
 ◦ リアルタイムのデータ処理、管理のための Kaskada の開発、統合
 • スマート データ パイプライン
 ◦ 機械学習を効率的なデータのマッピングと変換に利用 
 クラウド・サービスとの統合 
 • AI プラットフォーム (PaaS)
 ◦ GCP Vertex AI / AWS SageMaker / Azure Synapse との統合により、機 械学習モデルのトレーニングとデプロイ機能を強化 
 • データ ウェアハウス
 ◦ GCP BigQuery および Dataflow との統合
 • ストリーム処理
 ◦ GCP DataFlow / AWS Kinesis / Azure Synapse との統合

  43. ©2023 DataStax. – All rights reserved
 ThirdAIとの提携を発表 60
 BOLT (Big

    Ol' Layer Training) エンジン: CPU (Intel、AMD、ARM)での ニューラル ネットワーク トレーニングを桁違いに高速化 https://www.datastax.com/press-release/datastax-and-thirdai-partner-to-accelerate-ai-adoption-in-the-cloud-or-da tacenter-at-dramatically-lower-cost?utm_medium=social_organic&utm_source=linkedin&utm_campaign=press-re lease&utm_content=thirdai
  44. ©2023 DataStax. – All rights reserved
 必要なところに データをデプロイ オンプレ ハイブリッド

    クラウド データモダナイズの戦略的な選択肢 企業のニーズに応じた選択肢を提供 61
 as-a-Service
 Apache Cassandra (Astra DB)とApache Pulsar (Astra Streaming)をもとに構築し たサーバレスのマネージド as-a-service。主要クラウド ベンダーで利用可能。 
 Self-Managed
 機能強化をした、エンジニア リングのサポートを直接受け られるエンタープライズ向け のApache Cassandraソ リューション。オンプレミス及 びクラウドにデプロイ可能。 
 Open Source
 OSSのApache Cassandra (Luna for Apache Cassandra),
 Apache Pulsar (Luna Streaming), 
 Kaskada(Luna ML)の
 サブスクリプションベースの技術 サポート。