Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベクトルデータベース Astra DB / Apache Cassandra 紹介

ベクトルデータベース Astra DB / Apache Cassandra 紹介

DATASTAX JAPAN

December 20, 2023
Tweet

More Decks by DATASTAX JAPAN

Other Decks in Technology

Transcript

  1. ©2023 DataStax. – All rights reserved
 ベクトルデータベース Astra DB /

    Apache Cassandra 紹介 
 河野泰幸
 
 
 2023年12月19日

  2. ©2023 DataStax. – All rights reserved
 自己紹介:河野 泰幸 Yoshiyuki Kono

    ソフトウェア会社プリセールス
 2022年8月よりDATASTAX JAPAN所属
 日本ディープラーニング協会 検定・資格
 2017年 Deep Learning Foundation Nanodegree 等
 https://www.linkedin.com/in/yoshiyukikono/ 著書

  3. ©2023 DataStax. – All rights reserved
 DataStaxのご紹介 本社
 
 Santa

    Clara, CA
 
 2010年4月創業
 
 Santa Clara • London • Paris • 
 Singapore • Tokyo •
 Sydney • Wellington
 
 
 
 
 オープンソースを基盤とした
 テクノロジースタックを
 エンタープライズ向けソリューション
 として提供
 DATASTAX JAPAN 2017年法人設立
  4. ©2023 DataStax. – All rights reserved
 Apache Cassandra オープンソース NoSQLデータベース


    分散アーキテクチャ
 ワイド カラム データ モデル
 低レイテンシ/ 無限のスケール
 単一障害点のない高可用性 
 最新は、5.0-BETA1 (2023年12月1日リリース)

  5. ©2023 DataStax. – All rights reserved
 Uber:CassandraをMLプラットフォームに活用 6
 https://www.uber.com/en-JP/blog/michelangelo-machine-learning-platform/ Cassandra

    フィーチャーストア Cassandra モデルレポ • バッチ(OFFLINE)とリアルタイム(ONLINE)、 2つ のデータ処理パイプラインを備えた Lambda アーキテクチャ
  6. ©2023 DataStax. – All rights reserved
 Netflix: Cassandraをアノテーション管理に活用 7
 https://netflixtechblog.com/scalable-annotation-service-marken-f5ba9266d428

    https://www.infoq.com/news/2023/02/netflix-annotations-cassandra/ Cassandra アノテーションの シングル・ソース・オブ ・トゥルース
  7. ©2023 DataStax. – All rights reserved
 Cassandra Enhancement Proposal (CEP)

    8
 Adopted CEPリスト https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=95652201 Proposal Number Status 起案エンジニア所属企業 CEP-3: Guardrails V4.1実装済み DataStax CEP-7: Storage Attached Index v5.0対応 DataStax CEP-9: Make SSLContext creation pluggable v4.1実装済み CEP-10: Cluster and Code Simulation v4.1実装済み Apple CEP-11: Pluggable memtable implementations v4.1実装済み DataStax CEP-14: Paxos Improvements v4.1実装済み Apple CEP-15: General Purpose Transactions v5.1対応予定 Apple CEP-13: Denylisting partitions v4.1実装済み Netflix CEP-16: Auth Plugin Support for CQLSH v4.1実装済み CEP-17: SSTable format API v5.0対応 DataStax CEP-19: Trie memtable implementations v5.0対応 DataStax CEP-20: Dynamic Data Masking v5.0対応 DataStax CEP-21: Transactional Cluster Metadata v5.0対応 Apple CEP-25: Trie Indexed SSTable v5.x対応予定 DataStax CEP-30: Approximate Nearest Neighbor(ANN) Vector Search via Storage-Attached Indexes近似最近傍 (ANN) ベクトル検索 v5.0対応 DataStax
  8. ©2023 DataStax. – All rights reserved
 独自のベクトル類似性検索エンジン ベクトル類似性検索
 Lucene
 SAI


    Storage Attached Index
 業界標準
 従来のCassandraのインデックスが持 つ課題を乗り越えるために 
 開発された独自のインデックス 
 JVector Lucene実装の課題を
 乗り越えるために開発された 
 独自のベクトル検索実装 
 • JVector は、 Lucene と比較して、最大 12.7 倍高いスループットを実現 初期の実装では
 業界標準のLuceneを採用

  9. ©2023 DataStax. – All rights reserved
 ノンブロッキングインデックス 12
 プロダクションシステムでは、データの追加・更新は大前提。 


    専用のベクトルストアでは、データ変更に伴うインデックスの更新による性能影響が顕著。 
 画像は、DataStaxブログ「5 Hard Problems in Vector Search, and How Cassandra Solves Them」 (https://thenewstack.io/5-hard-problems-in-vector-search-and-how-cassandra-solves-them/)より引用
  10. ©2023 DataStax. – All rights reserved
 DATASTAX JAPANメンバーのコミュニティ活動 16
 https://datastaxjp.connpass.com/

    • ウェビナーやイベント主催 • 生成AIやLangChainの入門等 次回:
 2024年1月23(火)開催
 
 LangChain体験入門(再)