Slide 1

Slide 1 text

©2023 DataStax. – All rights reserved
 ベクトルデータベース Astra DB / Apache Cassandra 紹介 
 河野泰幸
 
 
 2023年12月19日


Slide 2

Slide 2 text

©2023 DataStax. – All rights reserved
 自己紹介:河野 泰幸 Yoshiyuki Kono ソフトウェア会社プリセールス
 2022年8月よりDATASTAX JAPAN所属
 日本ディープラーニング協会 検定・資格
 2017年 Deep Learning Foundation Nanodegree 等
 https://www.linkedin.com/in/yoshiyukikono/ 著書


Slide 3

Slide 3 text

©2023 DataStax. – All rights reserved
 DataStaxのご紹介 本社
 
 Santa Clara, CA
 
 2010年4月創業
 
 Santa Clara • London • Paris • 
 Singapore • Tokyo •
 Sydney • Wellington
 
 
 
 
 オープンソースを基盤とした
 テクノロジースタックを
 エンタープライズ向けソリューション
 として提供
 DATASTAX JAPAN 2017年法人設立

Slide 4

Slide 4 text

©2023 DataStax. – All rights reserved
 Apache Cassandra オープンソース NoSQLデータベース
 分散アーキテクチャ
 ワイド カラム データ モデル
 低レイテンシ/ 無限のスケール
 単一障害点のない高可用性 
 最新は、5.0-BETA1 (2023年12月1日リリース)


Slide 5

Slide 5 text

©2023 DataStax. – All rights reserved
 リアルタイム AI を活用するリーダー企業 Apache Cassandra を使用してAIを実現


Slide 6

Slide 6 text

©2023 DataStax. – All rights reserved
 Uber:CassandraをMLプラットフォームに活用 6
 https://www.uber.com/en-JP/blog/michelangelo-machine-learning-platform/ Cassandra フィーチャーストア Cassandra モデルレポ ● バッチ(OFFLINE)とリアルタイム(ONLINE)、 2つ のデータ処理パイプラインを備えた Lambda アーキテクチャ

Slide 7

Slide 7 text

©2023 DataStax. – All rights reserved
 Netflix: Cassandraをアノテーション管理に活用 7
 https://netflixtechblog.com/scalable-annotation-service-marken-f5ba9266d428 https://www.infoq.com/news/2023/02/netflix-annotations-cassandra/ Cassandra アノテーションの シングル・ソース・オブ ・トゥルース

Slide 8

Slide 8 text

©2023 DataStax. – All rights reserved
 Cassandra Enhancement Proposal (CEP) 8
 Adopted CEPリスト https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=95652201 Proposal Number Status 起案エンジニア所属企業 CEP-3: Guardrails V4.1実装済み DataStax CEP-7: Storage Attached Index v5.0対応 DataStax CEP-9: Make SSLContext creation pluggable v4.1実装済み CEP-10: Cluster and Code Simulation v4.1実装済み Apple CEP-11: Pluggable memtable implementations v4.1実装済み DataStax CEP-14: Paxos Improvements v4.1実装済み Apple CEP-15: General Purpose Transactions v5.1対応予定 Apple CEP-13: Denylisting partitions v4.1実装済み Netflix CEP-16: Auth Plugin Support for CQLSH v4.1実装済み CEP-17: SSTable format API v5.0対応 DataStax CEP-19: Trie memtable implementations v5.0対応 DataStax CEP-20: Dynamic Data Masking v5.0対応 DataStax CEP-21: Transactional Cluster Metadata v5.0対応 Apple CEP-25: Trie Indexed SSTable v5.x対応予定 DataStax CEP-30: Approximate Nearest Neighbor(ANN) Vector Search via Storage-Attached Indexes近似最近傍 (ANN) ベクトル検索 v5.0対応 DataStax

Slide 9

Slide 9 text

©2023 DataStax. – All rights reserved
 Cassandraの フルマネージドサービス:AstraDB 9
 http://astra.datastax.com

Slide 10

Slide 10 text

©2023 DataStax. – All rights reserved
 10
 https://integrations.langchain.com/vectorstores 本日(2023年12月19日)時点
 のスクリーンショット
 Cassandra LangChainベクトルストア3位 (実質2位?)

Slide 11

Slide 11 text

©2023 DataStax. – All rights reserved
 独自のベクトル類似性検索エンジン ベクトル類似性検索
 Lucene
 SAI
 Storage Attached Index
 業界標準
 従来のCassandraのインデックスが持 つ課題を乗り越えるために 
 開発された独自のインデックス 
 JVector Lucene実装の課題を
 乗り越えるために開発された 
 独自のベクトル検索実装 
 ● JVector は、 Lucene と比較して、最大 12.7 倍高いスループットを実現 初期の実装では
 業界標準のLuceneを採用


Slide 12

Slide 12 text

©2023 DataStax. – All rights reserved
 ノンブロッキングインデックス 12
 プロダクションシステムでは、データの追加・更新は大前提。 
 専用のベクトルストアでは、データ変更に伴うインデックスの更新による性能影響が顕著。 
 画像は、DataStaxブログ「5 Hard Problems in Vector Search, and How Cassandra Solves Them」 (https://thenewstack.io/5-hard-problems-in-vector-search-and-how-cassandra-solves-them/)より引用

Slide 13

Slide 13 text

©2023 DataStax. – All rights reserved
 テクノロジーリサーチファームGIGAOMレポート 13
 https://gigaom.com/reprint/vector-databases-compared-datastax/

Slide 14

Slide 14 text

©2023 DataStax. – All rights reserved
 データの投入とインデックス化の時間 14


Slide 15

Slide 15 text

©2023 DataStax. – All rights reserved


Slide 16

Slide 16 text

©2023 DataStax. – All rights reserved
 DATASTAX JAPANメンバーのコミュニティ活動 16
 https://datastaxjp.connpass.com/ ● ウェビナーやイベント主催 ● 生成AIやLangChainの入門等 次回:
 2024年1月23(火)開催
 
 LangChain体験入門(再)