5分で分かるBloom Filter

5分でわかる Bloom Filter ※個人差があります

Bloom Filter 適用例

BOOTHアイコン BOOTHに商品が存在するタグ集合に作品についたタグが含まれているかを判定百科事典アイコン pixiv百科事典に記事が存在するタグ集合に作品についたタグが含まれているかを判定 Bloom Filter 適用例

Burton H. Bloom (1970) 要素が集合の要素に含まれるかを判定する確率的アルゴリズムその他の要素判定アルゴリズム探索木、ハッシュテーブル、線形リスト etc... Bloom Filter

準備 m ビットの配列 (初期値は0) 値が一様に分布する k 個のハッシュ関数 Bloom Filter 0
0 0 0 0 0 0 0 0 0 m = 10

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …
, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) Bloom Filter 0 0 0 0 0 0 0 0 0 0 m = 10

, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) 例: 2 と 6 を追加する f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 0 0 0 0 0 0 0 0 0 m = 10

, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) 例: 2 と 6 を追加する f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 0 0 0 0 0 0 0 0 0 m = 10 2 6 f(x) % m g(x) % m

, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) 例: 2 と 6 を追加する f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 0 0 0 0 0 0 0 0 0 m = 10 2 6 f(x) % m 4 g(x) % m 8

, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) 例: 2 と 6 を追加する f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 0 0 1 0 0 0 1 0 0 m = 10 2 6 f(x) % m 4 g(x) % m 8

, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) 例: 2 と 6 を追加する f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 0 0 1 0 0 0 1 0 0 m = 10 2 6 f(x) % m 4 2 g(x) % m 8 4

, hk とするハッシュ値の示す1箇所のビットに1を立てる hi % m ( 1 <= i <= k ) 例: 2 と 6 を追加する f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10 2 6 f(x) % m 4 2 g(x) % m 8 4 2回目だけど気にしたら負け ↑

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …
, hk とするハッシュ値の示す全てのビットが1であれば true Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10

, hk とするハッシュ値の示す全てのビットが1であれば true 例: 2 と 10 をチェックする f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10

, hk とするハッシュ値の示す全てのビットが1であれば true 例: 2 と 10 をチェックする f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10 2 10 f(x) % m 4 g(x) % m 8

, hk とするハッシュ値の示す全てのビットが1であれば true 例: 2 と 10 をチェックする f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10 2 10 f(x) % m 4 g(x) % m 8 4番目と8番目のビットが1なので 2 は集合に存在する！！

, hk とするハッシュ値の示す全てのビットが1であれば true 例: 2 と 10 をチェックする f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10 2 10 f(x) % m 4 2 g(x) % m 8 4

, hk とするハッシュ値の示す全てのビットが1であれば true 例: 2 と 10 をチェックする f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10 2 10 f(x) % m 4 2 g(x) % m 8 4 2番目と4番目のビットが1なので 10 は集合に存在する！？

, hk とするハッシュ値の示す全てのビットが1であれば true 例: 2 と 10 をチェックする f(x) = 2 * x g(x) = 4 * x Bloom Filter 0 1 0 1 0 0 0 1 0 0 m = 10 2 10 f(x) % m 4 2 g(x) % m 8 4 10 は偽陽性の誤検出

特徴必要メモリ量が集合要素数に比例しない追加したい要素そのものを保持するわけではない要素を追加しても使用メモリ量が増えない追加・判定処理に必要な時間が集合要素数と無関係要素の削除はできない => CountingFilter 要素を追加しすぎると誤検出の確率が上がる偽陽性誤検出
偽陰性誤検出は絶対に起きない Bloom Filter

気になる誤検出確率: m : ビット数 n : 想定される登録要素の最大数 k: 誤検出確率を最小にする最適ハッシュ関数の数 (近似)
k ≒ 0.7 * m / n Bloom Filter

備考: BloomFilterの性能は明らかにハッシュ関数の性能に左右される誤検出確率は一様に分布する優秀なハッシュ関数を想定している Bloom Filter

初期実装: 2,000,000ビットくらいの1本のブルームフィルタでかすぎて(250KBくらい) apc_fetchに 6ms かかる →メッチャ重い →ブルームフィルタ要らない子 BOOTHアイコン適用裏話

リベンジ: 8192ビットのブルームフィルタを100本用意する →あるタグの存在判定に必要なのは1本だけどのブルームフィルタを使えばいいのか？ →タグ名をハッシュ化して求める 1本当たり1KBなのでapc_fetch問題もクリア (0.01ms) 誤検出確率は 0.1% →ブルームフィルタはやれば出来る子
BOOTHアイコン適用裏話

5分で分かるBloom Filter

5分で分かるBloom Filter

neo-nanikaka

More Decks by neo-nanikaka

Other Decks in Programming

Featured

Transcript

5分でわかる Bloom Filter ※個人差があります

Bloom Filter 適用例

BOOTHアイコン BOOTHに商品が存在するタグ集合に作品についたタグが含まれているかを判定百科事典アイコン pixiv百科事典に記事が存在するタグ集合に作品についたタグが含まれているかを判定 Bloom Filter 適用例

Burton H. Bloom (1970) 要素が集合の要素に含まれるかを判定する確率的アルゴリズムその他の要素判定アルゴリズム探索木、ハッシュテーブル、線形リスト etc... Bloom Filter

準備 m ビットの配列 (初期値は0) 値が一様に分布する k 個のハッシュ関数 Bloom Filter 0

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x を追加する O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

要素 x の存在判定をする O (k) x をk 個のハッシュ関数に渡して得られた値をh1, h2, …

気になる誤検出確率: m : ビット数 n : 想定される登録要素の最大数 k: 誤検出確率を最小にする最適ハッシュ関数の数 (近似)

備考: BloomFilterの性能は明らかにハッシュ関数の性能に左右される誤検出確率は一様に分布する優秀なハッシュ関数を想定している Bloom Filter

初期実装: 2,000,000ビットくらいの1本のブルームフィルタでかすぎて(250KBくらい) apc_fetchに 6ms かかる →メッチャ重い →ブルームフィルタ要らない子 BOOTHアイコン適用裏話