t-digestアルゴリズム概要 - ストリームデータにおける近似分位点の計算

t-digest アルゴリズム概要ストリームデータにおける近似分位数の計算

分位数（Quantile）とは？データを小さい順に並べたとき、特定の位置（割合）にある値のこと正確な計算全データをソートする必要がある → O(N log N) 大規模データ・ストリームでは非現実的近似アルゴリズムが必要
少ないメモリで、データを 1回見るだけで分位数を推定したい → t-digest はその代表的手法

Trino / Athena での使い方 — 基本 tdigest_agg() でグループの集合を作り、 value_at_quantile() で分位数を取得する
レスポンスタイムの p50 / p95 / p99 を計算 SELECT value_at_quantile(tdigest_agg(response_ms), 0.50) AS p50, value_at_quantile(tdigest_agg(response_ms), 0.95) AS p95, value_at_quantile(tdigest_agg(response_ms), 0.99) AS p99 FROM access_logs; tdigest_agg(column) カラムの全値からグループの集合を作成する集約関数（GROUP BY と組み合わせ可） value_at_quantile(tdigest, q) グループの集合から分位数 q（0〜1）に対応する近似値を返す

t-digest は何をしているのか？背景: 正確な分位数にはデータ数 N に比例するメモリが必要だが、ストリームではメモリに上限がある。近似で分位数を推定するのが合理的目的: データが来るたびにグループへ振り分けることで、少ないメモリで分位数を推定する新しいデータが来たら、平均値との差が最も小さいグループを探す
グループに余裕がある場合そのグループに追加する → 平均値とデータ数を更新例: (平均98, 25個) → (平均99, 26個) グループがいっぱいの場合新しいグループを作る → データ1個だけのグループが誕生「いっぱい」の基準はスケール関数が決める（後述）

グループの配置 — テールほど細かく分布の端（テール）では小さなグループが密集し、中央では大きなグループにまとめる各グループ = (平均値, データ数) 元のデータは持たず、代表値だけで要約するこのグループの集合を「ダイジェスト」と呼ぶ
なぜテールが高精度？グループが小さい = 少数のデータだけで 1 グループ → そこから推定する分位数が真の値に近くなる

スケール関数 — グループの大きさを場所で変える「テールは小さく分ける、中央は大きくまとめる」を数学的に実現するルール補足: q-digest アルゴリズムはテール部分の精度制御を持たず、分布全体で一様な誤差となる。 t-digest はスケール関数によりテール精度を高めている点が大きく異なる

マージ — 別々に作ったグループの集合を結合する分散ノードやストリームの時間窓ごとに独立に計算し、後から精度を保ったまま 1 つにまとめられるストリームの時間窓ごと、分散 DBの各ノードで独立にグループを計算 → 後から結合できるのが最大の強み

Trino / Athena での使い方 — 応用事前にグループの集合を保存しておき、 merge() で結合して任意期間の分位数を高速に取得日次でグループの集合を保存しておく
CREATE TABLE daily_digest AS SELECT dt, CAST(tdigest_agg(val) AS VARBINARY) AS digest FROM metrics GROUP BY dt; 後から任意期間の分位数を高速に取得 SELECT value_at_quantile(merge(CAST(digest AS tdigest)), 0.99) AS p99 FROM daily_digest WHERE dt BETWEEN '2025-01-01' AND '2025-03-31'; merge() は保存済みのグループの集合を結合する関数。前述のマージ処理を SQL から呼び出せる

まとめデータを「グループの集合」に要約して分位数を推定全データをソートせず、似た値をグループにまとめることで省メモリ・高速に近似。理論保証はないが実用上極めて高精度ストリーム・分散 DBに最適母集団が動的に変化する環境でも、オンラインでグループの集合を更新し続けられるスケール関数でテール精度を確保テール（端）のグループを細かく、中央を粗くすることで、 p99
等の精度を特に高めるマージ機能で柔軟な集約ノード・時間帯ごとのグループの集合を後から精度劣化なしに結合。事前集約・再利用パターンに強い参考文献: Dunning & Ertl (2019). arXiv:1902.04023 | trino.io/docs/current/functions/tdigest.html

t-digestアルゴリズム概要 - ストリームデータにおける近似分位点の計算

t-digestアルゴリズム概要 - ストリームデータにおける近似分位点の計算

hiroshi ueda

More Decks by hiroshi ueda

Other Decks in Technology

Featured

Transcript

t-digest アルゴリズム概要ストリームデータにおける近似分位数の計算

分位数（Quantile）とは？データを小さい順に並べたとき、特定の位置（割合）にある値のこと正確な計算全データをソートする必要がある → O(N log N) 大規模データ・ストリームでは非現実的近似アルゴリズムが必要

Trino / Athena での使い方 — 基本 tdigest_agg() でグループの集合を作り、 value_at_quantile() で分位数を取得する

Trino / Athena での使い方 — 応用事前にグループの集合を保存しておき、 merge() で結合して任意期間の分位数を高速に取得日次でグループの集合を保存しておく