UMAPをざっくりと理解 / Overview of UMAP

Slide 1

Slide 1 text

1 25 慶應義塾大学理工学部物理情報工学科渡辺宙志 2025年5月1日研究室ミーティング UMAPをざっくりと理解 UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction Leland McInnes, John Healy, James Melville, arXiv:1802.0326

Slide 2

Slide 2 text

2 25 UMAPとは？ Uniform Manifold Approximation and Projection for Dimension Reduction 次元削減手法の一つ 𝑓( Ԧ 𝑥) = Ԧ 𝑦 入力データ高次元ベクトル出力データ低次元ベクトル (D=2 or 3) 広く使われている次元削減手法であるt-SNEに比べてクラスタ間の分離に強く、計算負荷が小さい

Slide 3

Slide 3 text

3 25 なぜ次元削減をするのか？高次元空間に隠れた「低次元構造」を見出すため上から見たら横から見たら 3次元空間に2次元構造が隠れていた → 超高次元データからこのような構造を人の目で探すのは困難このデータを

Slide 4

Slide 4 text

4 25 なぜ次元削減をするのか？ • ノイズの影響を強くうけてしまう • 高次元空間のデータのままでは処理が重い • クラスタリングできたとしても、解釈が難しいデータ点の関係をなるべく保存したまま次元削減を行うことで • ノイズの影響を回避しつつ • 計算コストを抑えながら • 解釈しやすいデータを抽出できる t-SNE UMAP 高次元データをそのままクラスタリングすると次元削減クラスタリング k-means (H)DBSCAN クラスタリングの前処理のため

Slide 5

Slide 5 text

5 25 次元削減の例(MNIST) 𝑥𝑖 = (0.0, 0.0, ... 0.4, 0.8, ..., 0.0) 784次元ベクトル各手書き数字データは784次元空間上の点これが7万点ある 784次元から2次元へ埋め込み 𝑦𝑖 = (0.2, 0.8) Ԧ 𝑦 = 𝑓( Ԧ 𝑥) UMAPには「数字が10種類ある」と教えていないのに10個のクラスタに分離できた元のデータは784次元空間上の点 2次元ベクトル

Slide 6

Slide 6 text

6 25 次元削減でしたいこと元の空間で近い点は、変換後の空間でも近くしたい | Ԧ 𝑥𝑖 − Ԧ 𝑥𝑗 |が小さいなら | Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 |も小さくしたい 𝑓( Ԧ 𝑥) = Ԧ 𝑦

Slide 7

Slide 7 text

7 25 UMAPのアルゴリズム 1. 通常のユークリッド距離でk個の隣接データ点を探す 2. k個の隣接データ点から距離のスケールパラメータを決める 3. 元の空間各点の接続重みを計算する 4. 接続重みを対称化する 5. 削減後の空間の接続重みを定義する 6. 元の空間と次元削減後の空間の接続重みの交差エントロピーを最小化するように低次元埋め込みを行う

Slide 8

Slide 8 text

8 25 スケールパラメータの決定なんとなく2つのクラスタが見える

Slide 9

Slide 9 text

9 25 スケールパラメータの決定各点の感じる「距離感」が異なる → 適切な距離感を定めるこれは近傍としたいこれは近傍としたくない単純な距離で近傍を定めると、空間の密度の非一様性の影響を受けやすい

Slide 10

Slide 10 text

10 25 スケールパラメータの決定この点にとっての近傍この点にとっての近傍点ごとに「距離感(スケール)」を定義このスケールで見て点が概ね一様に分布するように選ぶ点が疎なら大きく点が密なら小さく

Slide 11

Slide 11 text

11 25 スケールパラメータの決定 𝐷𝑌 ：埋め込み次元 𝑟𝑖𝑗 ：点𝑖, 𝑗間の距離 𝜌𝑖 ：点𝑖の最近接点への距離 Ω𝑖 ：点𝑖の近傍の集合以上の情報から、点𝑖のスケールパラメータ𝜎𝑖 を以下のように定める ෍ 𝑗∈Ω𝑖 exp − (𝑟𝑖𝑗 − 𝜌𝑖 ) 𝜎𝑖 = log2 𝐷𝑌 実際には二分探索で𝜎𝑖 を求める

Slide 12

Slide 12 text

12 25 スケールパラメータの決定元の空間スケールした空間これは近傍としたいこれは近傍としたくない

Slide 13

Slide 13 text

13 25 重みの対称化近傍の数をk=3とした場合 i j iにとってjはk近傍(𝑝 𝑗 𝑖 ≠ 0)だが jにとってiはk近傍ではない(𝑝 𝑗 𝑖 = 0) i j iから見たjは近いが jから見たiは遠い 𝑝 𝑗 𝑖 = exp − (𝑟𝑖𝑗 − 𝜌𝑖 ) 𝜎𝑖 点𝑖から点𝑗へ接続する確率 𝑝 𝑗 𝑖 ≠ 𝑝 𝑖 𝑗 一般に 𝑝 𝑗 𝑖 > 𝑝(𝑖|𝑗) 𝑖にとっての単位長さ 𝑗にとっての単位長さ

Slide 14

Slide 14 text

14 25 重みの対称化 𝑝𝑖𝑗 = 1 − (1 − 𝑝 𝑗 𝑖 )(1 − 𝑝 𝑖 𝑗 ) 「少なくともどちらか一方は接続する確率」により対称化 iからjに接続しない jからiに接続しないかつ 𝑖 𝑗 𝑝 𝑗 𝑖 𝑝 𝑖 𝑗 = 𝑝 𝑗 𝑖 + 𝑝 𝑖 𝑗 − 𝑝 𝑖 𝑗 𝑝 𝑖 𝑗

Slide 15

Slide 15 text

15 25 Fuzzy Topological Set 一般の集合は「集合に属しているかどうか」が0/1で決まるファジー集合では、点が集合に属すかどうかが確率的に決まる先ほど前の計算により、UMAPは各ノードが最大k個のエッジを持つファジーグラフ(正確にはFuzzy simplical set)を構築する 0.1 0.4 0.9 0.5 各エッジに重みが定義されたようなグラフ接続されていないノードは重みゼロとみなす

Slide 16

Slide 16 text

16 25 低次元埋め込み 𝑓( Ԧ 𝑥) = Ԧ 𝑦 高次元空間低次元空間各エッジの重みが同じようになるように低次元に埋め込む (低次元で対応するデータ点の位置を決める)

Slide 17

Slide 17 text

17 25 距離のスムージングクラスター内で点の距離が近くなりすぎるのを防ぐため「最低距離」を定め、それを用いて距離のスムージングを行う 𝑦𝑖𝑗 ：次元削減後の点𝑖, 𝑗間のユークリッド距離 𝑙0 ：最低距離(ハイパーパラメータ) 𝑎, 𝑏： 𝑙0 から決まるパラメータ 𝑞𝑖𝑗 = 1 1 + 𝑎𝑦𝑖𝑗 2𝑏 上記を用いてただし𝑎, 𝑏は𝜙 𝑑 = 1 + 𝑎𝑑2𝑏 −1 が以下の関数に最も近くなるようにフィッティングで決める 𝜓 𝑑 = ቊ = 1 𝑑 ≤ 𝑙0 = exp(−(𝑑 − 𝑙0 )) otherwise

Slide 18

Slide 18 text

18 25 距離のスムージング 𝑞𝑖𝑗 = 1 1 + 𝑎𝑦𝑖𝑗 2𝑏 以下を次元削減後の空間の点𝑖, 𝑗間の重みとする • 0 < 𝑞𝑖𝑗 ≤ 1を満たす • 距離𝑦𝑖𝑗 が小さいほど重み𝑞𝑖𝑗 が大きくなる • 𝑎 = 𝑏 = 1の場合、Studentのt分布に帰着 • 𝑙0 より小さい場合の重みの変化を無視する次元削減前の重み𝑝𝑖𝑗 と、次元削減後の重み𝑞𝑖𝑗 をなるべく近づける最適化を行う

Slide 19

Slide 19 text

19 25 コスト関数 Ƹ 𝑝𝑖𝑗 ：元の空間で𝑖, 𝑗が接続しているか 1:接続、0:接続していない ො 𝑞𝑖,𝑗 ：次元削減後の空間でエッジ𝑖が接続しているか 𝐻 = ෍ 𝑖,𝑗 𝑃 Ƹ 𝑝𝑖𝑗 = 1 log 𝑃 Ƹ 𝑝𝑖𝑗 = 1 𝑃(𝑞𝑖𝑗 = 1) + 𝑃 Ƹ 𝑝𝑖𝑗 = 0 log 𝑃 Ƹ 𝑝𝑖𝑗 = 0 𝑃(ො 𝑞𝑖𝑗 = 0) この量を最小化するように低次元配置を決める = ෍ 𝑖 𝑝𝑖𝑗 log 𝑝𝑖𝑗 𝑞𝑖𝑗 + (1 − 𝑝𝑖𝑗 ) log (1 − 𝑝𝑖𝑗 ) (1 − 𝑞𝑖𝑗 ) ※ 数式上はKLダイバージェンスに見えるが、論文には交差エントロピーと書いてある

Slide 20

Slide 20 text

20 25 コスト関数元の空間で距離が近い(𝑝𝑖𝑗 が大きい)と、次元削減後のエッジの重み 𝑞𝑖𝑗 も大きくしようとする→距離が近づく→引力相互作用元の空間で距離が遠い(𝑝𝑖𝑗 が小さい)と、次元削減後のエッジの重み 𝑞𝑖𝑗 も小さくしようとする→距離が遠ざかる→斥力相互作用この量を確率的勾配降下法(stochastic gradient descent method)で最適化引力項は真面目に計算するが、斥力項はNegative Samplingにより評価 𝐻 = ෍ 𝑖 𝑝𝑖𝑗 log 𝑝𝑖𝑗 𝑞𝑖𝑗 + (1 − 𝑝𝑖𝑗 ) log (1 − 𝑝𝑖𝑗 ) (1 − 𝑞𝑖𝑗 ) 𝑝𝑖𝑗 ：高次元空間でのグラフの重み 𝑞𝑖𝑗 ：低次元空間でのグラフの重み

Slide 21

Slide 21 text

21 25 ハイパーパラメタの影響少ない ← 近傍点数k → 大きい最低距離短い長い ↑ ↓ 近傍点数が大きすぎる→小さな構造を取りこぼす最低距離が長すぎる→クラスタを分離できない異なるクラスタが重なっているクラスタが接近しすぎている

Slide 22

Slide 22 text

22 25 t-SNEとの比較 t-SNEよりもUMAPの方がクラスタが明瞭に分かれている MNIST (70000x784) Fashion-MNIST (70000x784) UMAP t-SNE

Slide 23

Slide 23 text

23 25 t-SNEとの比較 MNIST (70000x784) Fashion-MNIST (70000x784) UMAP t-SNE UMAPの方がt-SNEよりも圧倒的に早い 87s 65s 1450s 934s

Slide 24

Slide 24 text

24 25 t-SNEとの比較 t-SNE UMAP 高次元空間の重み exp(− Ԧ 𝑥𝑖 − Ԧ 𝑥𝑗 2 /2𝜎𝑖 2) ガウス型 exp(−(𝑟𝑖𝑗 − 𝜌𝑖 )/𝜎𝑖 ) 指数関数型低次元空間の重み t分布 𝑞𝑖𝑗 ∝ 1 + Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 2 −1 修正t分布 𝑞𝑖𝑗 ∝ 1 + 𝑎 Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 2𝑏 −1 𝑝𝑖𝑗 の構築全データ点ペア 𝑝𝑖𝑗 の意味点𝑖が近傍として点𝑗を選ぶ確率点𝑖, 𝑗間を結ぶエッジが存在する確率 k個の近傍点についてのみ対称化 𝑝𝑖𝑗 = 𝑝 𝑗 𝑖 + 𝑝(𝑖|𝑗) 2𝑁 幾何平均 𝑝𝑖𝑗 = 𝑝 𝑗 𝑖 + 𝑝 𝑖 𝑗 − 𝑝 𝑖 𝑗 𝑝 𝑖 𝑗 T-conorm

Slide 25

Slide 25 text

25 25 まとめ • UMAPはファジートポロジカル構造に着目することで次元削減するアルゴリズム • 最初にk個の近傍点を探し、その近傍点の重みのみを考えるため、計算が軽い • 重要なハイパーパラメタは近傍点数kと最低距離min_dist 近傍点数：注目したい領域のサイズを決める小さすぎるとノイズに埋もれ、大きすぎると小さい構造を取りこぼす最低距離：引力が働く距離の下限。これより小さいと引力が抑制される大きすぎるとクラスターがつぶれ、小さすぎるとクラスターが分離できない