Slide 22
Slide 22 text
Sansan Builders Box
⽂書に含まれる単語をいくつかのハッシュ関数でハッシュ化し、
最⼩ハッシュ同⼠を⽐較するとJaccard係数に近似する結果が得られる
さらに⾼速にするために、ハッシュの最下位ビットだけを⽤いたり、
ビット演算を多⽤する
さらに論⽂より実験から計算を簡略化
B-bit Minwise Hashingの実装
float bBitMinHash::estimate(uint64_t x, uint64_t y) const
{
return this->calc_hamming_distance(x, y) / float(this->k);
}
C++とPyBind11で、超⾼速かつPythonからも呼び出せる