t-SNEをざっくりと理解 / Overview of t-SNE

Slide 1

Slide 1 text

1 17 慶應義塾大学理工学部物理情報工学科渡辺宙志 2023年12月7日研究室ミーティング t-SNEをざっくりと理解 “Visualizing Data Using t-SNE” L. J. P van der Maaten, G. E. Hinton, J. Mach. Learn. .Res. 9: 2579–2605 (2008).

Slide 2

Slide 2 text

2 17 t-SNEとは？次元削減手法の一つ SNEの改良版 t分布型確率的近傍埋め込み法 t-Distributed Stochastic Neighbor Embedding Ԧ 𝑦 = 𝑓( Ԧ 𝑥) 入力データ高次元ベクトル出力データ低次元ベクトル (D=2 or 3)

Slide 3

Slide 3 text

3 17 次元削減でしたいこと元の空間で近い点は、変換後の空間でも近くしたい | Ԧ 𝑥𝑖 − Ԧ 𝑥𝑗 |が小さいなら | Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 |も小さくしたい Ԧ 𝑦 = 𝑓( Ԧ 𝑥)

Slide 4

Slide 4 text

4 17 SNE 入力データの間の距離を確率として定義する SNE (Stochastic Neighbor Embedding) 確率的近傍埋め込み法 𝑝𝑗|𝑖 ∝ exp(− Ԧ 𝑥𝑖 − Ԧ 𝑥𝑗 2 /2𝜎𝑖 2) データ点𝑖が、近傍点としてデータ点jを選択する確率ガウス分布で定義データ点𝑖にとっての「距離感」を𝜎𝑖 で指定

Slide 5

Slide 5 text

5 17 SNE 元の空間変換後の空間これは近傍としたいこれは近傍としたくない

Slide 6

Slide 6 text

6 17 SNE この点にとっての近傍この点にとっての近傍点ごとに「距離感(スケール)」を定義このスケールで見て点が概ね一様に分布するように選ぶ点が疎なら大きく点が密なら小さく

Slide 7

Slide 7 text

7 17 SNE 𝑝𝑗|𝑖 𝑝𝑖|𝑖 = 0とする 𝑝𝑖|𝑗 ≠ 𝑝𝑗|𝑖 (距離は非対称) 元の空間での距離分布 𝑖 𝑗 0番から見た2番の距離 2番から見た0番の距離

Slide 8

Slide 8 text

8 17 SNE 𝑞𝑗|𝑖 ∝ exp(− Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 2 ) 𝑝𝑗|𝑖 ∝ exp(− Ԧ 𝑥𝑖 − Ԧ 𝑥𝑗 2 /2𝜎𝑖 2) 変換後のデータ間の距離分布𝑞𝑗|𝑖 も同様に定義スケールが存在しない (空間が一様になっている) これを変換前のデータ間の距離分布に近づけたい

Slide 9

Slide 9 text

9 17 SNE 𝑝𝑗|𝑖 𝑞𝑗|𝑖 変換前(高次元) 変換後(低次元) この二つの分布をなるべく近づけたい

Slide 10

Slide 10 text

10 17 SNE 𝐶 = ෍ 𝑖 𝐾𝐿 Ԧ 𝑝𝑖 Ԧ 𝑞𝑖 ≡ ෍ 𝑖 ෍ 𝑗 𝑝𝑗|𝑖 log 𝑝𝑗|𝑖 𝑞𝑗|𝑖 𝑝𝑗|𝑖 = 𝑞𝑗|𝑖 となるように 𝑦𝑖 = 𝑓(𝑥𝑖 ) という変換を定めたい 2つの分布間のKullback–Leibler 情報量を最小化する

Slide 11

Slide 11 text

Slide 12

Slide 12 text

12 17 SNEの問題点混雑問題(Crowding Problem) 円周上の点は中心から等距離 2次元 1次元中心点からの距離を保とうとしてクラスター内部が潰されてしまう

Slide 13

Slide 13 text

13 17 t-SNE t分布型確率的近傍埋め込み法 t-Distributed Stochastic Neighbor Embedding →距離分布を対称化するコスト関数の最適化が難しい →t分布を利用して緩和次元削減後にクラスターがつぶれてしまう

Slide 14

Slide 14 text

14 17 t-SNE 距離分布を対称化する 𝑝𝑖𝑗 = 𝑝𝑖|𝑗 + 𝑝𝑗|𝑖 2𝑁 𝑝𝑗|𝑖 𝑝𝑖𝑗 > 1 2𝑁 となるので、全てのデータ点が構造に寄与 (寄与が小さすぎて場所が決まらないデータ点がなくなる) 𝐶 = 𝐾𝐿(𝑃|𝑄) ≡ ෍ 𝑖,𝑗 𝑝𝑖𝑗 log 𝑝𝑖𝑗 𝑞𝑖𝑗 1つのKL情報量を最小化すればよいまた

Slide 15

Slide 15 text

15 17 t-SNE ガウス分布 t分布ガウス分布に比べてt分布は • 中心付近が鋭い →近距離を重視 • 裾が広い →遠距離は誤差を許容変換後の分布をガウス分布からt分布に 𝑞𝑗|𝑖 ∝ exp(− Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 2 ) 𝑞𝑖𝑗 ∝ 1 + Ԧ 𝑦𝑖 − Ԧ 𝑦𝑗 2 −1

Slide 16

Slide 16 text

16 17 t-SNE 混雑問題(Crowding Problem) 1次元遠い点からの距離については誤差を許容近い点の距離は正確に表現しようとする 2次元 1次元

Slide 17

Slide 17 text

17 17 まとめ • t-SNEは次元削減手法 • 高次元空間のデータ点の距離の関係をなるべく保ったまま低次元にマップする • SNEに対してt-SNEは • 距離を対称化(コスト関数の最適化を容易に) • ガウス分布の代わりにt分布を利用(混雑問題の緩和)