Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
これは分散KVS? NoSQL? NewSQL? 謎の HarperDBにせまる
Search
jyoshise
December 13, 2022
Technology
630
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
これは分散KVS? NoSQL? NewSQL? 謎の HarperDBにせまる
Cloud Native Database Meetup #5 のLT資料です。
jyoshise
December 13, 2022
More Decks by jyoshise
See All by jyoshise
GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい
jyoshise
0
620
米軍Platform One / Black Pearlに学ぶ極限環境DevSecOps
jyoshise
2
820
AIがコード書きすぎ問題にはAIで立ち向かえ
jyoshise
14
14k
Nutanix Kubernetes PlatformでLLMを動かす話
jyoshise
0
540
CNDT2023_Nutanix_jyoshise
jyoshise
0
610
クラウドネイティブインフラおじさんがNutanixに入社することになったので以下略
jyoshise
0
1.3k
全てがクラウドネイティブで良いのか。その謎を明らかにすべく我々はエンプラの奥地に向かった
jyoshise
8
6k
Kubeadmによるクラスタアップグレード・その光と闇
jyoshise
3
4.8k
Kubernetes Meetup Tokyo #26 / Recap: Kubecon Keynote by Walmart
jyoshise
6
3.5k
Other Decks in Technology
See All in Technology
「速く作る」から「正しく作る」へ ─ 生成AI時代の開発フロー改革の ロードマップと実行 ─
starfish719
0
8.7k
AgentGatewayを試してみたかった
tkikuchi
0
120
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
2
220
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
380
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
350
Mastering Ruby Box
tagomoris
3
150
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
7
4.2k
LLMと共に進化するプロセスを目指して
ymatsuwitter
12
3.6k
やさしいA2A入門
minorun365
PRO
7
400
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
260
Diagnosing performance problems without the guesswork
elenatanasoiu
0
170
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
2
140
Featured
See All Featured
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
300
The untapped power of vector embeddings
frankvandijk
2
1.7k
Typedesign – Prime Four
hannesfritz
42
3.1k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
WCS-LA-2024
lcolladotor
0
620
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
840
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.3k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Transcript
@jyoshise これは分散KVS? NOSQL? NEWSQL? 謎の HARPERDBにせまる
None
3
4 • LMDB (Lightning Memory-Mapped Database) とは: • もともとはOpenLDAPプロジェクトのために作られたOSS •
CloudflareがDNS用のデータストアとして使っていたりとか • Memory-mapped fileを使用 • 軽量 • 高速 • ACID準拠 • 読み出しと書き込みに高度に最適化された追記型B+tree構造 • トランザクションをサポート • 書き込みロック処理→デッドロックは発生しない • Full MVCC→ReaderとWriterは競合しない • Dup-sorted keys UNDERLYING STORAGE MECHANISM OF HARPERDB: LMDB
5 • JSONやSQLでデータを取り込み、1つの データスキーマに格納できるようにしたい。 • マルチモデルデータベースでよくある、1つ のデータベース内でモデル間でデータが重複 してしまうという問題を解決する • Same
data set • Common services/core operation • No data duplication for different models • SQL, NoSQL, CSV, etc… all talking to HarperDB core and same data set OPERATIONAL MODEL
6
7 • テーブルを作成するときはハッシュAttribute名(Primary key)を定義するだけでよい • 各テーブルはディスク上に1つのデータファイル(.mdb)であり、すべてのインデックス はデータファイル内の「サブデータベース」 • データ書き込み(挿入、更新、削除)は「マイクロバッチ処理」とし、トランザクション の一括実行を可能にすることで、より高いパフォーマンスを実現
STORAGE HIERARCHY
8 • コア数 • インストールされたインスタンスで利用可能なコア数に合わせてスケール可能 –Raspberry Pi から大規模ベアメタルサーバーまで –大規模環境ではHarperDBを並列プロセスで実行 •
プロセス数=利用可能なコアの数 • ディスク • ストレージは無制限→テーブルはインスタンスのストレージの利用可能な容量まで成長 SCALING WITH HARDWARE
9 • Read/Write Optimized • 1ノードあたり毎秒20Kの書き込みが可能 • 読み込みと書き込みが独立したノンブロッキングのグローバルレプリケーション(MVCC)を110msで実行できる • High
Throughput • HarperDB 1ノードで120Kリクエスト/秒の処理能力 • Storage Engine • ACID準拠 • Attributesはuniversally indexed by default →効率的な格納と検索が可能 PERFORMANCE & BENCHMARKS
10
11
12
13 • 各ノードはトランザクションとストレージをACIDに他のノードから独立して処理 • 各ノードは、他のノードに接続し、任意のテーブルに対してトランザクションを送受信で きる • スキーマメタデータとトランザクションを、定義されたトポロジーに基づき決定論的にリ アルタイムで送信 •
すべてのノードがネットワークやサーバーの停止からキャッチアップでき、”dead on the floor”トランザクションは発生しない • 一貫性を保つためにタイムスタンプを利用→更新のシナリオでは最新のトランザクション を優先(古い更新があった場合、それは破棄される) • 再接続シナリオでは、HarperDBノードは自動的にオフラインだった時間分のキャッチアッ プペイロードを要求し、送信 HARPERDB: DISTRIBUTED COMPUTE & STORAGE
14
15 HarperDBは • むちゃくちゃ速い(らしい) • DB設計をほとんど考えなくてよいので楽 • CSVなりJSONなりでデータをぶっこめばインデックスしてくれて、あとはSQLで 読み書きできる •
Geo distributionはConsistencyの点でまだ開発途上のようだが、読み書き性能を優先す る用途には使えそう • クラウドのDBaaSもあるのでとっつきやすい • https://harperdb.io/ • 小さいインスタンスなら無料でお試しできます • オンプレにデプロイしてクラウドで管理もできる まとめ