これは分散KVS? NoSQL? NewSQL? 謎の HarperDBにせまる

@jyoshise これは分散KVS? NOSQL? NEWSQL? 謎の HARPERDBにせまる

4 • LMDB (Lightning Memory-Mapped Database) とは： • もともとはOpenLDAPプロジェクトのために作られたOSS •
CloudflareがDNS用のデータストアとして使っていたりとか • Memory-mapped fileを使用 • 軽量 • 高速 • ACID準拠 • 読み出しと書き込みに高度に最適化された追記型B+tree構造 • トランザクションをサポート • 書き込みロック処理→デッドロックは発生しない • Full MVCC→ReaderとWriterは競合しない • Dup-sorted keys UNDERLYING STORAGE MECHANISM OF HARPERDB: LMDB

5 • JSONやSQLでデータを取り込み、1つのデータスキーマに格納できるようにしたい。 • マルチモデルデータベースでよくある、1つのデータベース内でモデル間でデータが重複してしまうという問題を解決する • Same
data set • Common services/core operation • No data duplication for different models • SQL, NoSQL, CSV, etc… all talking to HarperDB core and same data set OPERATIONAL MODEL

7 • テーブルを作成するときはハッシュAttribute名（Primary key）を定義するだけでよい • 各テーブルはディスク上に1つのデータファイル（.mdb）であり、すべてのインデックスはデータファイル内の「サブデータベース」 • データ書き込み（挿入、更新、削除）は「マイクロバッチ処理」とし、トランザクションの一括実行を可能にすることで、より高いパフォーマンスを実現
STORAGE HIERARCHY

8 • コア数 • インストールされたインスタンスで利用可能なコア数に合わせてスケール可能 –Raspberry Pi から大規模ベアメタルサーバーまで –大規模環境ではHarperDBを並列プロセスで実行 •
プロセス数＝利用可能なコアの数 • ディスク • ストレージは無制限→テーブルはインスタンスのストレージの利用可能な容量まで成長 SCALING WITH HARDWARE

9 • Read/Write Optimized • 1ノードあたり毎秒20Kの書き込みが可能 • 読み込みと書き込みが独立したノンブロッキングのグローバルレプリケーション（MVCC）を110msで実行できる • High
Throughput • HarperDB 1ノードで120Kリクエスト/秒の処理能力 • Storage Engine • ACID準拠 • Attributesはuniversally indexed by default →効率的な格納と検索が可能 PERFORMANCE & BENCHMARKS

13 • 各ノードはトランザクションとストレージをACIDに他のノードから独立して処理 • 各ノードは、他のノードに接続し、任意のテーブルに対してトランザクションを送受信できる • スキーマメタデータとトランザクションを、定義されたトポロジーに基づき決定論的にリアルタイムで送信 •
すべてのノードがネットワークやサーバーの停止からキャッチアップでき、”dead on the floor”トランザクションは発生しない • 一貫性を保つためにタイムスタンプを利用→更新のシナリオでは最新のトランザクションを優先（古い更新があった場合、それは破棄される） • 再接続シナリオでは、HarperDBノードは自動的にオフラインだった時間分のキャッチアップペイロードを要求し、送信 HARPERDB: DISTRIBUTED COMPUTE & STORAGE

15 HarperDBは • むちゃくちゃ速い（らしい） • DB設計をほとんど考えなくてよいので楽 • CSVなりJSONなりでデータをぶっこめばインデックスしてくれて、あとはSQLで読み書きできる •
Geo distributionはConsistencyの点でまだ開発途上のようだが、読み書き性能を優先する用途には使えそう • クラウドのDBaaSもあるのでとっつきやすい • https://harperdb.io/ • 小さいインスタンスなら無料でお試しできます • オンプレにデプロイしてクラウドで管理もできるまとめ

これは分散KVS? NoSQL? NewSQL? 謎の HarperDBにせまる

これは分散KVS? NoSQL? NewSQL? 謎の HarperDBにせまる

jyoshise

More Decks by jyoshise

Other Decks in Technology

Featured

Transcript

@jyoshise これは分散KVS? NOSQL? NEWSQL? 謎の HARPERDBにせまる

3

4 • LMDB (Lightning Memory-Mapped Database) とは： • もともとはOpenLDAPプロジェクトのために作られたOSS •

5 • JSONやSQLでデータを取り込み、1つのデータスキーマに格納できるようにしたい。 • マルチモデルデータベースでよくある、1つのデータベース内でモデル間でデータが重複してしまうという問題を解決する • Same

6

8 • コア数 • インストールされたインスタンスで利用可能なコア数に合わせてスケール可能 –Raspberry Pi から大規模ベアメタルサーバーまで –大規模環境ではHarperDBを並列プロセスで実行 •

9 • Read/Write Optimized • 1ノードあたり毎秒20Kの書き込みが可能 • 読み込みと書き込みが独立したノンブロッキングのグローバルレプリケーション（MVCC）を110msで実行できる • High

10

11

12

14

15 HarperDBは • むちゃくちゃ速い（らしい） • DB設計をほとんど考えなくてよいので楽 • CSVなりJSONなりでデータをぶっこめばインデックスしてくれて、あとはSQLで読み書きできる •