Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DB Tree Algorithms
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Yunosuke Yamada
October 16, 2022
Programming
130
0
Share
DB Tree Algorithms
Yunosuke Yamada
October 16, 2022
More Decks by Yunosuke Yamada
See All by Yunosuke Yamada
AI時代に成長するエンジニアに必要なスキルとは.pdf
yunosukey
0
190
Gemini CLIでもセキュアで堅牢な開発をしたい!
yunosukey
1
610
DevOps/MLOpsに学ぶエージェントの可観測性
yunosukey
1
1.1k
Agent Development Kitで作るマルチエージェントアプリケーション(AIAgent勉強会)
yunosukey
4
1.6k
Agent Development Kitで作るマルチエージェントアプリケーション(GCNT2025)
yunosukey
0
75
AIエージェントのオブザーバビリティについて
yunosukey
1
890
OpenTelemetry + LLM = OpenLLMetry!?
yunosukey
2
1k
クラウド開発環境Cloud Workstationsの紹介
yunosukey
0
450
フロントエンドオブザーバビリティ on Google Cloud
yunosukey
1
360
Other Decks in Programming
See All in Programming
AIチームを指揮するOSS「TAKT」活用術 / How to Use “TAKT,” an OSS Tool for Orchestrating AI Teams
nrslib
6
820
フロントエンドとバックエンドで「1文字」を揃えよう
youkidearitai
PRO
0
190
DynamoDBには集計系のクエリがないけどなんとかしたい
musan
1
130
メソッドのジェネリクスでGoの夢は広がるか? / Kyoto.go #65
utgwkk
3
520
ユニットテストの先へ:テスト技法で要求・仕様を整理するJava開発実践 / Beyond_Unit_Testing_Practical_Java_Development_Techniques_for_Organizing_Requirements_and_Specifications
shimashima35
0
350
密結合なバックエンドから TypeScript のコードを生成する
kemuridama
1
720
AIエージェントと協働するCLI開発 — BunとOpenClawで学んだこと
yoshikouki
1
230
Swiftのレキシカルスコープ管理
kntkymt
0
210
セキュリティの専門家じゃなくてもできる。「セキュリティ意識」をアップデートして サプライチェーン攻撃への耐性を高めよう。
tk3fftk
5
620
Make SRE Operations Easier with Azure SRE Agent
kkamegawa
0
3.8k
SPMマルチモジュールで テストカバレッジを取得する技法
yosshi4486
0
140
生成AI時代にこそ効くGo | Why Go Works in the Age of Generative AI
mom0tomo
8
3.1k
Featured
See All Featured
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Are puppies a ranking factor?
jonoalderson
1
3.5k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
130
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
300
Producing Creativity
orderedlist
PRO
348
40k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Skip the Path - Find Your Career Trail
mkilby
1
140
Mind Mapping
helmedeiros
PRO
1
230
ラッコキーワード サービス紹介資料
rakko
1
3.5M
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
570
Designing for Timeless Needs
cassininazir
1
250
Transcript
DBとアルゴリズム 2021/09/09 山田悠之介
Web の技術とアルゴリズム アルゴリズムの理論には純粋なパズル的な楽しさがある Web の技術ではプラクティカルな話が中心で理論の話は多くない (そんな事ないよって方の LT をお待ちしています) DB は理論の話が多く面白い
今回は DB にまつわるアルゴリズムのうち、木に関するものを紹介 2
流れ データ構造をいくつか紹介 BST B-tree LSM tree(主題) 時間があれば LSM tree における最適化をいくつか紹介
3
BST(二分探索木) 右部分木のノードは親より大きく、左部分木のノードは親より小さい 多くの言語で Map, Set の実装に使われる 4
BST(二分探索木) バランスしている時、読み込み・書き込み (INSERT, UPDATE, DELETE)がO(log N) 5
BST はディスクと相性が悪い バランシングが頻発する → ディスクの読み書きが増える ノードサイズとページサイズと合っていない 6
B-tree (B+ tree) ディスクに最適化された探索木 多くの RDBMS (MySQL, PostgreSQL など) のストレージエンジン
でインデックスとして用いられている 7
B-tree (B+ tree) ディスク最適化 各ノードの大きさをページサイズに合わせる バランシングも兄弟への分割・兄弟とのマージなので局所的 8
B-tree の向き・不向き 読み込み・書き込みともに だが、 書き込みが多いユースケースではボトルネックになる ミュータブルなので排他制御が必要 O(log N) 9
LSM tree 書き込みに最適化されたデータ構造 Cassandra などの NoSQL, Spanner などの分散 DB で用いられる
書き込みが 、読み込みが 書き込み時はメモリとログに書くだけにして、 重複を読み込み時に解決する ディスク上のコンポーネントはイミュータブルで、 ロックなしで読み書きできる O(1) O(N) 10
LSM tree 小さなメモリ上のコンポーネント (memtable) 大きなディスク上のコンポーネント(複数) からなる 11
LSM tree 全ての書き込みは memtable に適用される 耐久性を保証するためにログファイルが必要となる memtable はサイズが閾値になると,ディスク上に永続化される ディスク上のデータ構造は B-tree
が一般的 12
LSM tree フラッシュ後のテーブルの数を抑えるために定期的にマージする (コンパクション) コンパクションではマージされた結果を新しいファイルに書き出す (イミュータブル) 13
LSM tree の書き込みと読み込み 追加・更新は memtable に新たに key と value を追加するだけ
削除では memtable からデータレコードを削除するだけでは不十分 (ディスク上のコンポーネントが同じキーのデータレコードを 保持している可能性がある) value に特別な削除エントリ(墓石)を割り当てることで対応 読み込みでは複数のコンポーネントにアクセスし、 タイムスタンプを比較して最新の結果を返すようにする → どのコンポーネントにレコードがあるか知りたい 14
Leveled compaction レベル 0 はフラッシュされたテーブルがそのまま入る レベル 1 以降は上のレベルからマージされ、 key の範囲が各レベルで被らないようにすることで探索を最適化する
15
Bloom Filter 各レベルである key がどのテーブルの範囲にあるかはわかるが、 本当にそのテーブルにあるかは分からない Bloom filter という確率的データ構造がよく使われる 16
Bloom Filter 構築時: 要素の key に対して hash 値のビットを全て立てる (ビット配列は共有) 探索時:
hash 値のビットが全て立っていれば要素かもしれない、 そうでなければ要素ではない 17
まとめ B-tree は読み込み・書き込みともに優れたデータ構造 特殊なケースでは書き込みに特化した LSM tree が使われる LSM tree の読み取りを改善する最適化がいろいろある
18
参考資料 Database Internals 19