Cassandraの活用事例とパフォーマンス特性

Cassandra の活⽤事例とパフォーマンス特性 joker1007 (Repro inc. CTO)

self.inspect @joker1007 Ruby/Rails/fluentd/presto/infra ⼤体アーキテクト業今はkafka とkudu に興味がある

話すこと Repro でのCassandra の活⽤⽬的 Cassandra の選定理由 Cassandra のパフォーマンス特性と設計時の注意話さないこと運⽤時の細かな注意点

何のために端末情報記録ユーザープロフィール情報イベント実⾏回数 / user リアルタイムで更新される情報の保持がメイン

何故Cassandra を選択したか書き込み回数が⾮常に多いかつ読み込み時に100 万件単位で取得しJOIN する必要がある組み合わせる対象として、数⼗⽇分の⾏動ログを含む。書き込みがスケールし、当時からセグメンテーションに利⽤していたpresto と連携が可能で、読み込みもある程度分散できるデータストアが必要。
→ Cassandra を採⽤。

Cassandra のパフォーマンス特性

書き込みの概要 Client Client R2 R2 R3 R3 1 1 2
3 4 4 5 6 7 8 9 10 11 12 R1 R1 Write response Chosen node Coordinator node https://docs.datastax.com/ja/cassandra- jajp/3.0/cassandra/dml/dmlClientRequestsWrite.html

書き込みの概要 https://docs.datastax.com/ja/cassandra- jajp/3.0/cassandra/dml/dmlHowDataWritten.html

書き込みパフォーマンス特性パーティション対象の決定とmemtable 、transaction log が書ければOK 。最終的なテーブルファイルは不変なので、書き出しがシンプル。パーティションさえ均等なら割と簡単にスケールする⼀件単位の書き込みは、ほぼ100 マイクロ秒以下
現時点で20000/sec ぐらいの書き込みがある整合性を保ってカウントアップする処理は重い複数ノードを跨いでCAS やロックが必要になる

読み込みの概要 Client Client R2 R2 R3 R3 1 1 2
3 4 4 5 6 7 8 9 10 11 12 R1 R1 replica node failed coodinator node resends after timeout Chosen node Coordinator node https://docs.datastax.com/ja/cassandra- jajp/3.0/cassandra/dml/dmlClientRequestsRead.html

読み込みの概要 https://docs.datastax.com/ja/cassandra-jajp/3.0/cassandra/dml/dmlAboutReads.html

読み込みパフォーマンス特性⼀件単位の読み込みに向いている多くのデータをまとめて取得するには不向き取得対象のパーティションとノード特定にCPU を使うクラスタのノード間でデータの通信が多く発⽣するパーティション毎のdigest 要求 read repair

presto での利⽤は本来は不向きパーティション数とノード数でバランスを取ることで何とか⽬的のパフォーマンスを維持

テーブル設計の重要性読み込みワークロードに合わせてテーブルを設計する、でないとまともにパフォーマンスが出ない。ユースケース毎にテーブルがあり、データの重複は覚悟する。とにかくパーティションキー以外を条件にクエリしないこと。

まとめ読み込みパターンに合わせたテーブル設計をすること⽤途が適切ならかなりのパフォーマンスが出せるパーティション数とデータの分散度合いのコントロールが重要

その他のTips CPU 、ディスクI/O 、ネットワークそれぞれかなり影響があるのでメトリックをちゃんと取得しておくことホットデータはオンメモリで読み書きするのでメモリは多くセカンダリインデックスは基本使えない

Cassandraの活用事例とパフォーマンス特性

Cassandraの活用事例とパフォーマンス特性

Tomohiro Hashidate

More Decks by Tomohiro Hashidate

Other Decks in Technology

Featured

Transcript

Cassandra の活⽤事例とパフォーマンス特性 joker1007 (Repro inc. CTO)

self.inspect @joker1007 Ruby/Rails/fluentd/presto/infra ⼤体アーキテクト業今はkafka とkudu に興味がある

話すこと Repro でのCassandra の活⽤⽬的 Cassandra の選定理由 Cassandra のパフォーマンス特性と設計時の注意話さないこと運⽤時の細かな注意点

何のために端末情報記録ユーザープロフィール情報イベント実⾏回数 / user リアルタイムで更新される情報の保持がメイン

Cassandra のパフォーマンス特性

書き込みの概要 Client Client R2 R2 R3 R3 1 1 2

書き込みの概要 https://docs.datastax.com/ja/cassandra- jajp/3.0/cassandra/dml/dmlHowDataWritten.html

読み込みの概要 Client Client R2 R2 R3 R3 1 1 2

読み込みの概要 https://docs.datastax.com/ja/cassandra-jajp/3.0/cassandra/dml/dmlAboutReads.html

presto での利⽤は本来は不向きパーティション数とノード数でバランスを取ることで何とか⽬的のパフォーマンスを維持

まとめ読み込みパターンに合わせたテーブル設計をすること⽤途が適切ならかなりのパフォーマンスが出せるパーティション数とデータの分散度合いのコントロールが重要

その他のTips CPU 、ディスクI/O 、ネットワークそれぞれかなり影響があるのでメトリックをちゃんと取得しておくことホットデータはオンメモリで読み書きするのでメモリは多くセカンダリインデックスは基本使えない