DB Tree Algorithms - Speaker Deck

Slide 1

Slide 1 text

DBとアルゴリズム 2021/09/09 山田悠之介

Slide 2

Slide 2 text

Web の技術とアルゴリズムアルゴリズムの理論には純粋なパズル的な楽しさがある Web の技術ではプラクティカルな話が中心で理論の話は多くない（そんな事ないよって方の LT をお待ちしています） DB は理論の話が多く面白い今回は DB にまつわるアルゴリズムのうち、木に関するものを紹介 2

Slide 3

Slide 3 text

流れデータ構造をいくつか紹介 BST B-tree LSM tree（主題）時間があれば LSM tree における最適化をいくつか紹介 3

Slide 4

Slide 4 text

BST（二分探索木）右部分木のノードは親より大きく、左部分木のノードは親より小さい多くの言語で Map, Set の実装に使われる 4

Slide 5

Slide 5 text

BST（二分探索木）バランスしている時、読み込み・書き込み（INSERT, UPDATE, DELETE）がO(log N) 5

Slide 6

Slide 6 text

BST はディスクと相性が悪いバランシングが頻発する → ディスクの読み書きが増えるノードサイズとページサイズと合っていない 6

Slide 7

Slide 7 text

B-tree (B+ tree) ディスクに最適化された探索木多くの RDBMS (MySQL, PostgreSQL など) のストレージエンジンでインデックスとして用いられている 7

Slide 8

Slide 8 text

B-tree (B+ tree) ディスク最適化各ノードの大きさをページサイズに合わせるバランシングも兄弟への分割・兄弟とのマージなので局所的 8

Slide 9

Slide 9 text

B-tree の向き・不向き読み込み・書き込みともにだが、書き込みが多いユースケースではボトルネックになるミュータブルなので排他制御が必要 O(log N) 9

Slide 10

Slide 10 text

LSM tree 書き込みに最適化されたデータ構造 Cassandra などの NoSQL, Spanner などの分散 DB で用いられる書き込みが、読み込みが書き込み時はメモリとログに書くだけにして、重複を読み込み時に解決するディスク上のコンポーネントはイミュータブルで、ロックなしで読み書きできる O(1) O(N) 10

Slide 11

Slide 11 text

LSM tree 小さなメモリ上のコンポーネント (memtable) 大きなディスク上のコンポーネント（複数）からなる 11

Slide 12

Slide 12 text

LSM tree 全ての書き込みは memtable に適用される耐久性を保証するためにログファイルが必要となる memtable はサイズが閾値になると，ディスク上に永続化されるディスク上のデータ構造は B-tree が一般的 12

Slide 13

Slide 13 text

LSM tree フラッシュ後のテーブルの数を抑えるために定期的にマージする（コンパクション）コンパクションではマージされた結果を新しいファイルに書き出す（イミュータブル） 13

Slide 14

Slide 14 text

LSM tree の書き込みと読み込み追加・更新は memtable に新たに key と value を追加するだけ削除では memtable からデータレコードを削除するだけでは不十分（ディスク上のコンポーネントが同じキーのデータレコードを保持している可能性がある） value に特別な削除エントリ（墓石）を割り当てることで対応読み込みでは複数のコンポーネントにアクセスし、タイムスタンプを比較して最新の結果を返すようにする → どのコンポーネントにレコードがあるか知りたい 14

Slide 15

Slide 15 text

Leveled compaction レベル 0 はフラッシュされたテーブルがそのまま入るレベル 1 以降は上のレベルからマージされ、 key の範囲が各レベルで被らないようにすることで探索を最適化する 15

Slide 16

Slide 16 text

Bloom Filter 各レベルである key がどのテーブルの範囲にあるかはわかるが、本当にそのテーブルにあるかは分からない Bloom filter という確率的データ構造がよく使われる 16

Slide 17

Slide 17 text

Bloom Filter 構築時：　要素の key に対して hash 値のビットを全て立てる　（ビット配列は共有）探索時：　 hash 値のビットが全て立っていれば要素かもしれない、　そうでなければ要素ではない 17

Slide 18

Slide 18 text

まとめ B-tree は読み込み・書き込みともに優れたデータ構造特殊なケースでは書き込みに特化した LSM tree が使われる LSM tree の読み取りを改善する最適化がいろいろある 18

Slide 19

Slide 19 text

参考資料 Database Internals 19