B+木入門：PHPで理解するデータベースインデックスの仕組み/b-plus-tree-101

@hanhan1978 B+木入門：PHPで理解するデータベースインデックスの仕組み PHPerKaigi 2024/03/09

@hanhan1978 • 富所亮 • 所属株式会社カオナビ CTO室 BackEnd Re-architecturing
Team (BERT) • 職業バックエンドエンジニア • ブログ https://blog.hanhans.net • Yokohama North AM https://anchor.fm/yokohama-north-am 2

まず基礎的な知識から

B木の木って何？

コンピューターサイエンスにおける基本的なデータ構造のひとつ https://en.wikipedia.org/wiki/Tree_(data_structure) 由来がわからない程度には基本

データ構造って？言語によってはありえない質問かも

アルゴリズム + データ構造プログラム

アルゴリズム + データ構造

アルゴリズム https://ja.wikipedia.org/wiki/アルゴリズム > アルゴリズムとは、解が定まっている「計算可能」問題に対して、その解を正しく求める手続きをさす。あるいはそれを形式的に表現したもの。

ようするにプログラム

アルゴリズム + データ構造

たとえば、PHPの配列 https://www.php.net/manual/ja/language.types.array.php

たとえば、PHPの配列 https://www.php.net/manual/ja/language.types.array.php 便利すぎる？

私達はもう自然にデータ構造を使いこなしていた（過言）

余談 https://www.php.net/manual/ja/function.array-is-list.php 配列がリストかどうかをチェックする（錯乱）

PHPの配列は便利すぎるデータ構造 https://fortee.jp/phperkaigi-2023/proposal/e00788a4-ef25-49ee-b254-9d2b53e19633

PHPの配列は便利すぎるデータ構造2 https://tek.phparch.com/schedule

配列は便利すぎるデータ構造としての用途ならSPL推奨

Standard PHP Library https://www.php.net/manual/ja/spl.datastructures.php

データ構造を意識するのはいつ？

• 低レイヤー • 競技プログラミング • 就活(leetcode) • パフォーマンス改善 PHPの仕事ではあんまりデータ構造を意識しないかも

LeetCode https://leetcode.com/

• 低レイヤー • 競技プログラミング • 就活(leetcode) • パフォーマンス改善 PHPの仕事ではあんまりデータ構造を意識しないかも

アルゴリズムだけだとどうしても改善できないことがある

そのため、やりたいことに合わせてデータ構造とアルゴリズムを変える

例えば • [データ構造]　リスト • [アルゴリズム]　ループ PHPの文字列リストから、特定の文字を探す場合

例えば • [データ構造]　リスト • [アルゴリズム]　ループ PHPの文字列リストから、特定の文字を探す場合 O(N)

例えば • [データ構造]　リスト • [アルゴリズム]　Binary Search 整列されたデータであった場合

例えば • [データ構造]　リスト • [アルゴリズム]　Binary Search 整列されたデータであった場合 O(LogN)

計算量のおさらい https://www.techscore.com/blog/2016/08/08/開発新卒に捧ぐ、基本のアルゴリズムと計算量/

計算量整列されてないデータ整列されているデータ O(N) 単純ループ O(logN) Binary Search

アルゴリズム単体での限界この先はデータ構造の助けがいる

例えば PHPでのよくある解決策としては配列の値をhashのキーに置き換える

例えば • [データ構造]　HashMap • [アルゴリズム]　キーの存在チェック

例えば • [データ構造]　HashMap • [アルゴリズム]　キーの存在チェック O(1)

計算量のおさらい https://www.techscore.com/blog/2016/08/08/開発新卒に捧ぐ、基本のアルゴリズムと計算量/

ここまでのまとめ

アルゴリズムだけでは、限界があるのでデータ構造を工夫する必要がある

つまり、データ構造は向いているアルゴリズムがある

C言語とか書いてた人はそりゃデータ構造いるだろ？何いってんだ？となる

ここからB木の話

B木 1972年にBayerとMcCreightが発表した論文 ORGANIZATION AND MAINTENANCE OF LARGE ORDERED INDICES
Boeing Research Labs に所属していた

B木の特徴データアクセスを最小限にしつつ、データを効率的に保存するためのデータ構造として生み出された。

B木の特徴平衡木という特徴がある二分木の場合 -> 偏った木になる可能性がある

偏った木

偏った木ルートから３回の値比較が必要

平衡木

平衡木全体の深さが同じになる

B木は挿入、削除で木の調整を行う

全体としてバランスの取れた状態になる

ここでピンと来るかもしれない

B木は挿入、削除で木の調整を行う

データベースのインデックス追加時のコスト平衡木はデータ追加時に木に調整が必要

5を加えたらどうなる？

これは平衡でない

高さが一定になるように調整されるこの”調整”がいわゆるコスト

このコストはどれくらいなのか？

5を加えることを考える

1. 挿入箇所を探すルートからキーを比較して挿入箇所のノードを探す

2. 挿入処理を行う探した挿入箇所にノードを追加する

3. ノード数が次数に達したら上にマージ 3,4,5で分裂した木をルートに向けてマージする

3. ノード数が次数に達したら上にマージもし、ここも満杯になったら同じ処理を上に向かって繰り返す

O(logN) で探す＋ O(logN) でマージ

2 x O(logN) の計算量でインデックスの再構築が行われる

基本的にはデータを挿入するノードに至るまでの経路上のノードに対して再帰的に処理を行えば平衡が保たれる

経路外のノードは調整しないそこまで仕様は複雑じゃない

B木の特徴また、もう一つの大きな特徴として外部メモリ使用時の有用性

最近はインメモリデータベースなどもありますが、一般的にはデータベースはストレージ（HDD, SSD) にデータを保存

OSのシステムコールはブロック単位でデータの読み書きを行う通常は4096バイト

必要なデータが1バイトだったとしても4096バイトの読み込み

昔のHDD ぐるぐる回るシリンダーから、データを読み取るため、ブロック効率が良くないともったいない！ SSDで読み取りが早くなったとはいえ、無駄のないデータIOはデータベースの鍵

B木はノードのサイズを設計可能例えば 4バイト整数のキーで、ノードのインデックスも４バイトの場合

(4+4) x 2B = 8 x 512 = 4096 バイト
このように外部メモリに対してあらかじめデータ量を計算できる

なんでB木はデータベースインデックスで使われるの？

因果関係が逆

Randomに配置された大量の書類のインデックスを効率的に管理するために作られたのがB木

実際のB木の動き（デモ）

B+木 B木の特徴を保持しつつ、実用的な機能性を付加論文 The Ubiquitous B-Tree

データ構造のイメージ

B+木平衡を保つ基本的な仕組みはB木と同じただし、リーフノードにすべてのデータを保持

データ構造のイメージリーフにすべてのデータが並ぶ

木の高さが変わってもリーフにすべてのデータが並ぶ

B+木の検索 3を探す場合は近傍のノードから到達

リーフがポインターを数珠つなぎにもつため範囲検索も可能

検索始点・終点でリーフだけで範囲を取得できる

カバリングインデックス（おまけ）インデックスのデータのみを取得する場合

カバリングインデックス（おまけ）インデックス検索以後の処理が必要ない

本当は実装が完了したリポジトリリンクをバシッと貼りたかったが未完...orz 口でいうほど全然簡単じゃなかった

まとめ

データベースのインデックスが速いのはインデックスのデータ構造が専用につくられているから

古典インデックスサイズの正確な計算を実感するにはやはりC

安定のラムダノートこの本には何度も命を救われている

B+木入門：PHPで理解する データベースインデックスの仕組み/b-plus-tree-101

B+木入門：PHPで理解する データベースインデックスの仕組み/b-plus-tree-101

More Decks by Ryo Tomidokoro

Other Decks in Technology

Featured

Transcript

B+木入門：PHPで理解するデータベースインデックスの仕組み/b-plus-tree-101

B+木入門：PHPで理解するデータベースインデックスの仕組み/b-plus-tree-101