Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Hyperloglog 简析
Search
onlyice
January 25, 2021
Programming
0
170
Hyperloglog 简析
描述了在面对海量数据时,如何利用 HyperLogLog 做去重和统计,以及它背后的概率原理。
onlyice
January 25, 2021
Tweet
Share
Other Decks in Programming
See All in Programming
DSPy入門 Pythonで実現する自動プロンプト最適化 〜人手によるプロンプト調整からの卒業〜
seaturt1e
1
480
24時間止められないシステムを守る-医療ITにおけるランサムウェア対策の実際
koukimiura
2
180
AWS Infrastructure as Code の新機能 2025 総まとめ 〜SA 4人による怒涛のデモ祭り〜
konokenj
10
3.1k
Claude Codeと2つの巻き戻し戦略 / Two Rewind Strategies with Claude Code
fruitriin
0
200
AIプロダクト時代のQAエンジニアに求められること
imtnd
2
640
AI巻き込み型コードレビューのススメ
nealle
2
2.5k
The Past, Present, and Future of Enterprise Java
ivargrimstad
0
190
RubyとGoでゼロから作る証券システム: 高信頼性が求められるシステムのコードの外側にある設計と運用のリアル
free_world21
0
180
TipKitTips
ktcryomm
0
150
コーディングルールの鮮度を保ちたい / keep-fresh-go-internal-conventions
handlename
0
150
AI時代でも変わらない技術コミュニティの力~10年続く“ゆるい”つながりが生み出す価値
n_takehata
2
610
Rubyと楽しいをつくる / Creating joy with Ruby
chobishiba
0
200
Featured
See All Featured
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
280
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
65
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Leo the Paperboy
mayatellez
4
1.5k
Embracing the Ebb and Flow
colly
88
5k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
80
Transcript
HyperLogLog 简析 林志衡 blog.zhiheng.io 2021/01/23
问题 大数据量去重统计,比如页面 UV。 2
传统方法 把全部数据加入 Set。 优点:精确 缺点:内存消耗巨大 概率方法 HyperLogLog 算法。 优点:内在消耗很少 缺点:不精确,但误差可以控
制在 1% 以内 3
什么是概率方法? 4
一个简单例子 将原始数据通过哈希算法随机生成一批均匀 分布在 [0, 1) 的数字。 只要随机过程足够均匀,比如图中的 hash(x)。 那么: 估算的元素个数
= 1 / 最小的 hash 值 缺点: 如果最小的哈希值碰巧很小,那么估算误差 巨大。 5
另外一种方法 计算末尾连续 0 个数。 前提: 1. 哈希算法计算出来的值是均匀分布的整数 2. 均匀分布的整数中,末位是连续 n
个 0 的 概率为 2^n 结论: 计算一批哈希值中,末位连续 0 最多的数字, 比如是连续 R 位。那么: 估算的元素个数 = 2^R 6
连续末尾 0 计数法 缺点: 1. 估算出来的元素个数 只能是 2 的次方 2.
估算结果可能 不精确(当碰巧出现末尾连 续 0 比较多时) 7
优化精确度 使用多个 hash 函数,生成多批哈希值并估算 出多个元素个数值,再做平均值。 优点: 避免单个 hash 函数带来可能的大误差。 缺点:
计算量成倍增加。 8 LogLog 算法, 1. 取哈希值的前几位作为桶(bucket,也称 register) 2. 按前几位的不同,把数字分入不同的桶中 3. 各个桶分别计算出元素个数,再估算出总 数 优点: 1. 通过分桶实现与多个 hash 函数一样的效果 2. 计算量不会大量增加
LogLog 算法 9 比如取前 4 位来生成桶。 有 2^4 即 16
个桶( 表示)。 数字按其前 4 位分到不同桶。 每个桶可以统计出最长的连续末 尾 0 位数,比如图中桶 11 的结 果为 5(R11 表示)。 将不同桶的结果取算术平均数。 套入下面的公式: 即可计算出更精确的元素个数。 CARDINALITY = ⋅ ⋅ 2 1 σ=1 R 没有研究数学推导的过程。 constant 取值为 0.79402。 这种方式的误差在 1.3/ 。
进一步提升精确度 10 SuperLogLog: 去掉异常值、使用几何平均数。 精确度提升到 1.05 。 HyperLogLog: 使用调和平均数。 精确度提升到
1.04 。
Redis 的 HyperLogLog 实现 11 • Hash 值为 64 位整数
• 使用前 14 位作为桶(register),一共 16K 个桶(16384 ) • 误差在 0.81%
参考 12 1. HyperLogLog in Presto: A significantly faster way
to handle cardinality estimation https://engineering.fb.com/2018/12/13/data-infrastructure/hyperloglog/ 2. Redis new data structure: the HyperLogLog http://antirez.com/news/75
Thanks! 林志衡 blog.zhiheng.io 13