次元削減・多様体学習 /maniford-learning20200707

Transcript

次元削減・多様体学習 -第10回 ML基礎- 仲宗根太朗 2022.07.07 Master輪講会

⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l

多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP

⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l

イントロ︓次元削減について n機械学習における主要な問題の１つ l ⾼次元データの次元削減 ► データが⾼次元空間に表⽰される場合でも，その複雑さは低く，低次元空間で表現できるという仮定に基づく n次元を減らす応⽤上の動機 l 可視化

► 3次元以下に次元を落とすことで図⽰可能にする l データの圧縮 ► 計算量削減が期待される l 特徴抽出・選択

イントロ︓次元削減について n次元削減の２つの標準形 l PCA ;principal component analysis (1901） ► 可能な限り多くの分散をとる元データの線形写像を⾒つける

► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線形写像を計算する． l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては，距離の情報から地図を作るような感じ

イントロ︓次元削減について n次元削減の２つの標準形 l PCA ;principal component analysis (1901） ► 可能な限り多くの分散をとる元データの線形写像を⾒つける

► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線形写像を計算する． l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては，距離の情報から地図を作るような感じこれらは線形⼿法(射影)です

イントロ︓次元削減について n次元削減の２つの標準形 l PCA ;principal component analysis (1901） ► 可能な限り多くの分散をとる元データの線形写像を⾒つける

► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線形写像を計算する． l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては，距離の情報から地図を作るような感じ PCAに関するおすすめの参考資料 ► 次元削減（主成分分析・カーネル主成分分析） ► 論⽂紹介︓ Supervised Principal Component Analysis

linear⼿法とnon-linear⼿法マインドマップ https://www.edrawmind.com/online/map.html?sharecode=62624523c1cb02a06096548 https://www.edrawmind.com/online/map.html?sharecode=6262444e7fb0e0a68444152

なぜnon-linear⼿法が必要なのか︖ (a)のような，データ点が⾮線形多様体上にあることがわかるデータ集合に線形(射影)⼿法を適⽤すると，(b)のように正しい展開ではなく，(c)のような結果になる．

なぜnon-linear⼿法が必要なのか︖ (a)のような，データ点が⾮線形多様体上にあることがわかるデータ集合に線形(射影)⼿法を適⽤すると，(b)のように正しい展開ではなく，(c)のような結果になる．データの⾮線形性を処理する場合，⾮線形⼿法が必要となる

⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l

⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は，⾼次元データが低次元の⾮線形多様体に埋め込まれているという仮定に基づく

⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l

多様体学習⼿法の説明

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ線形部分空間上にあると仮定した⼿法多様体上のデータをどう表すか︖

► 多様体は局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめらかに繋げれば，多様体を表現できる 💡idea

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ線形部分空間上にあると仮定した⼿法多様体上のデータをどう表すか︖

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋

~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋

n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック

n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり，スムーズな多様体構造を持たない時，結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm

n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック

n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり，スムーズな多様体構造を持たない時，結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm

n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06]

► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは，Hessian eigenmapsという． ► LLEの正規化問題を修正したもう１つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: hAps://towardsdatascience.com/lle-locally-linear-embedding-a-niBy-way-to-reduce-dimensionality-in-python-ab5c38336107 hAps://cs.nyu.edu/~roweis/lle/algorithm.htm

n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06]

► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは，Hessian eigenmapsという． ► LLEの正規化問題を修正したもう１つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm これら⼿法の説明は，今回は割愛します🙇‍‍‍

MDS ;multi-dimensional scaling (多次元尺度法) n点群間の⾮類似性を保持しながら平⾯へ写像する l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ l 必ずしも，距離でなくてもよい(扱うデータの性質により分類される)

► 計量データの場合︔metric MDS ► ⾮計量データの場合︔non-metric MDS

MDS ;multi-dimensional scaling (多次元尺度法) n点群間の⾮類似性を保持しながら平⾯へ写像する l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ l 必ずしも，距離でなくてもよい(扱うデータの性質により分類される)

► 計量データの場合︔metric MDS ► ⾮計量データの場合︔non-metric MDS 今回は便宜上，metric MDSを説明します

n厳密には，データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適化問題として定式化されるここで， Metric-MDS ;metric multi-dimensional scaling

補⾜︓距離の公理. (1) 対称性 iとjを⼊れ替えてもdは不変 (2) 同⼀性｢dが0であること｣と｢iとjが等しいこと｣が同値である (3) ⾮負性 dは負の値にはならない

(4) 三⾓不等式任意の3つのベクトルに対して，三⾓不等式が成り⽴つ 𝑑!" 𝑑!# 𝑑#" i k j 距離の公理

n厳密には，データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適化問題として定式化されるここで， Metric-MDS ;metric multi-dimensional scaling

Metric-MDS ;metric multi-dimensional scaling n厳密には，データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅の差を最⼩化する最適化問題として定式化されるここで，

nアルゴリズムは様々ある n古典的な⼿法は，内積からy座標への変換を考えるもの l 距離を求める ► 距離⾏列D(")(n次正⽅⾏列)を作成する l Young-Householder変換でグラム⾏列B(内積⾏列のこと)に変換する ► 中⼼化⾏列を⽤いて，グラム⾏列Bを得る

l ⾏列Bの固有値・固有ベクトルを⾒つける ► グラム⾏列Bのスペクトル分解を⾏う(∵Bはn×nの実対称⾏列) ► 固有値の対⾓⾏列Λ = 𝑑𝑖𝑎𝑔(𝜆$ , … , 𝜆% ) , 固有ベクトル⾏列𝑉 = (𝑣$ , … , 𝑣% )& l 固有値・固有ベクトルからk次元の構成を定義する sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) Metric-MDS ;metric multi-dimensional scaling

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする．距離⾏列の２乗に両側から中⼼化⾏列を掛ける演算

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling Young-household 変換 →内積⾏列のこと nグラム⾏列

Β →この内積を𝑏!" とする．距離⾏列の２乗に両側から中⼼化⾏列を掛ける演算つまり，点間距離を求めることは内積を求めることに等しい参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling

https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から固有値固有ベクトルを得る. nグラム⾏列Β は n×n の実対称⾏列なので， “スペクトル分解”することができる．従って，を得る． n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選択することで，k 次元の構成を定義できる． diag : 対⾓⾏列

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ，先頭の最適化問題で導く

内積に相当するグラム⾏列が実対称⾏列なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対するトレースとは，対⾓成分の和に等しい． 𝑡𝑟𝐴 = - *+, - 𝑎** 定義：トレース

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ，先頭の最適化問題で導く

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: hLp://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html hLps://en.wikipedia.org/wiki/MulMdimensional_scaling hLps://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e hLp://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ，先頭の最適化問題で導く

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ，先頭の最適化問題で導く

nここまでを踏まえ，先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解によりとする．

nここまでを踏まえ，先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで最適化 𝒀 =

𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌＝𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling

nここまでを踏まえ，先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで最適化 𝒀 =

n固有値分解の⼿法をまとめると l 固有ベクトル︓低次元埋込みを⽣成するためのスケーリング l 固有値︓寄与率の測定 l 固有値の数︓次元削減後の次元数 n現在は，SMACOFアルゴリズム（反復法︖）による最適化が主流 l 原論︓Multidimensional

Scaling Using Majorization: SMACOF in R* Metric-MDS ;metric multi-dimensional scaling sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク)

n固有値分解の⼿法をまとめると l 固有ベクトル︓低次元埋込みを⽣成するためのスケーリング l 固有値︓寄与率の測定 l 固有値の数︓次元削減後の次元数 n現在は，SMACOFアルゴリズム（反復法︖）による最適化が主流 l 原論︓Multidimensional

Scaling Using Majorization: SMACOF in R* Metric-MDS ;metric multi-dimensional scaling sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) * (J.Stat.So<w.’2008, J.leeuw+)

n 近傍グラフを⽤いて，多様体上の測地線距離を求め， MDSを⽤いて低次元空間に埋め込む⼿法曲⾯(リーマン多様体)上の⼗分に近い2 つの離れた点が最短線で結ばれた曲線．測地線 (geodesic) ユークリッド距離は，データセットの形状の形状を無視しているのに対し，測地線距離は，隣接するデータを考

慮するので直感的にmetric-MDSより上⼿くいきそう ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] 引⽤：isomap-embedding-an-awesome-approach-to-non-linear-dimensionality-reduction

n 近傍グラフを⽤いて，多様体上の測地線距離を求め， MDSを⽤いて低次元空間に埋め込む⼿法曲⾯(リーマン多様体)上の⼗分に近い2 つの離れた点が最短線で結ばれた曲線．測地線 (geodesic) ユークリッド距離は，データセットの形状の形状を無視しているのに対し，測地線距離は，隣接するデータを考

慮するので直感的にmetric-MDSより上⼿くいきそう ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] 引⽤：isomap-embedding-an-awesome-approach-to-non-linear-dimensionality-reduc5on

n ステップ 1. 各データポイント𝑿𝒊 のk近傍を選択 ► ⼀定の半径r or k近傍法 2.

近傍グラフを構築する 3. グラフ上の全てのペア間の測地線距離を計算 ► 4. MDSを適⽤して，マッピング ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] Floyd-Warshall フロイド - ワーシャル法 or Dijkstra ダイクストラ法引⽤： https://www.numerical-tours.com/matlab/shapes_7_isomap/ https://towardsdatascience.com/preserving-geodesic-distance-for-non-linear-datasets-isomap-d24a1a1908b2

n 強み l グローバルデータ構造を保持する l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点

l ⾮常に遅い l 「ショートカット」に敏感 ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]

n 強み l グローバルデータ構造を保持する l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点

l ⾮常に遅い l 「ショートカット」に敏感 ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]

SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ] n⾼次元空間上のユークリッド距離を，データ点の類似度を表現する条件付き確率に変換する⼿法

𝑥! 𝑥" 𝑥# ガウス分布 💡Idea 𝑥$ を中⼼とするガウス分布の密度に⽐例して近傍が選択されてほしい ► 条件付き確率が⾼い → 近い ► 条件付き確率が低い → 遠い

n⾼次元空間上のユークリッド距離を，データ点の類似度を表現する条件付き確率に変換する⼿法 𝑥! 𝑥" 𝑥# ガウス分布 💡Idea 𝑥$ を中⼼とするガウス分布の密度に⽐例して近傍が選択されてほしい

► 条件付き確率が⾼い → 近い ► 条件付き確率が低い → 遠い SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は， nマップ点の条件付き確率は， 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ►

𝑝'|) ≈ 𝑞'|) の間のKL距離（ダイバージェンス）を最⼩化するようなマップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は， nマップ点の条件付き確率は， 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ►

補⾜︓KL距離 (Kullback-Leibler divergence) n確率分布Pが，確率分布Qとどのように異なるかの尺度． l 𝐷'((P||Q) ► この式は，Qに対するPのKL divergenceを表す．

n勾配法を⽤いてKL距離の最⼩化を⾏う． l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 𝑃* ： 𝑥* に対する全てのデータ点の条件付き確率分布

Q* ：y* に対する全てのデータ点の条件付き確率分布 𝑌(/)：時刻tにおけるマップ点 𝜂：学習率 𝛽(t)：時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

n勾配法を⽤いてKL距離の最⼩化を⾏う． l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 𝑃* ： 𝑥* に対する全てのデータ点の条件付き確率分布

Q* ：y* に対する全てのデータ点の条件付き確率分布 𝑌(/)：時刻tにおけるマップ点 𝜂：学習率 𝛽(t)：時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

n勾配法を⽤いてKL距離の最⼩化を⾏う． l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 ※1 ⾼速化⼿法であり，局所解になりにくい効果もある． 𝑃* ：

𝑥* に対する全てのデータ点の条件付き確率分布 Q* ：y* に対する全てのデータ点の条件付き確率分布 𝑌(/)：時刻tにおけるマップ点 𝜂：学習率 𝛽(t)：時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

補⾜︓モメンタム法;momentum(慣性) 引⽤: h:ps://qiita.com/ophhdn/items/3deaf4fcc43b4f027458 単純な勾配降下法(左)とモメンタム法(右)の⽐較

n弱点１．コスト関数の最適化が困難 ► ノイズ初期値とその減少率の設定がシビア ► パラメータの探索に⾮常に時間を要する ► 収束が確約された他の⼿法の⽅が使いやすい２．Crowding問題 ►

次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

n弱点１．コスト関数の最適化が困難 ► ノイズ初期値とその減少率の設定がシビア ► パラメータの探索に⾮常に時間を要する ► 収束が確約された他の⼿法の⽅が使いやすい２．Crowding問題 ►

Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08] nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点（𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊

) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は， l 分布が任意のiとjに対して対称（ 𝒑𝒊𝒋 ＝𝒑𝒋𝒊 , 𝒒𝒊𝒋 ＝𝒒𝒋𝒊 ） l ただし，元の空間で点iが外れ値の時，問題※が起きるので，元の空間の類似度の形を変更

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点（𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

n同時確率で定義することでコスト関数は， l 分布が任意のiとjに対して対称（ 𝒑𝒊𝒋 ＝𝒑𝒋𝒊 , 𝒒𝒊𝒋 ＝𝒒𝒋𝒊 ） l ただし，元の空間で点iが外れ値の時，問題※が起きるので，元の空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

復習︓SNEのコスト関数 n 問題︓コスト関数が⾮対称である点（𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 )

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点（𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

n同時確率で定義することでコスト関数は， l 分布が任意のiとjに対して対称（ 𝒑𝒊𝒋 ＝𝒑𝒋𝒊 , 𝒒𝒊𝒋 ＝𝒒𝒋𝒊 ） l ただし，元の空間で点iが外れ値の時，問題※が起きるので，元の空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]* *t-SNE論⽂「visualizing data using t-SNE」で紹介されている

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点（𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

n同時確率で定義することでコスト関数は， l 分布が任意のiとjに対して対称（ 𝒑𝒊𝒋 ＝𝒑𝒋𝒊 , 𝒒𝒊𝒋 ＝𝒒𝒋𝒊 ） l ただし，元の空間で点iが外れ値の時，問題※が起きるので，元の空間の類似度の形を変更 ※元の空間で点iが外れ値の時𝒑𝒊𝒋 が⾮常に⼩さくなり，コスト関数への影響⼒が⼩さくなる Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

n勾配の変化: SNE → Symmetric-SNE Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08] nSymmetric-SNE

同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に，近傍の点を中⼼に強く押し集める l 代替案︓低次元空間（マップ）上での２点間の類似度の計算の基準をガウス分布 → Student-t分布(⾃由度1) に変更 ► ガウス分布 ► Student-t分布(df=1)

nSymmetric-SNE 同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に，近傍の点を中⼼に強く押し集める l 代替案︓低次元空間（マップ）上での２点間の類似度の計算の基準をガウス分布 → Student-t分布(⾃由度1)

に変更 ► ガウス分布 ► Student-t分布(df=1) t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nSymmetric-SNE 同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に，近傍の点を中⼼に強く押し集める l 代替案︓低次元空間（マップ）上での２点間の類似度の計算の基準をガウス分布 → Student-t分布(⾃由度1)

に変更 ► ガウス分布 ► Student-t分布(df=1) t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

n ガウス分布とt分布 colab t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. &

Hinton.G.E, JMLRʼ08]

n ガウス分布とt分布 colab t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. &

n ガウス分布とt分布ヘヴィーテイル(heavy-tail)なのでより遠くへ配置可能に colab t-SNE ;t-distributed Stochastic Neighbor Embedding

[Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nt分布(⾃由度1)を利⽤したマップ点の同時確率は， nこの場合の勾配は， t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E,

JMLRʼ08]

nt分布(⾃由度1)を利⽤したマップ点の同時確率は， nこの場合の勾配は， t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E,

JMLRʼ08]

nヒートマップによる勾配の⽐較(SNE, t-SNE) l 横軸︓元の次元での距離縦軸︓低次元での距離 l 勾配が正の時に引⼒，負の時に斥⼒が働く引⽤：Visualizing Data using

t-SNE t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nヒートマップによる勾配の⽐較(SNE, t-SNE) l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒ l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒

低次元(近)かつ元の次元(遠)の時 → 斥⼒ t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nヒートマップによる勾配の⽐較(SNE, t-SNE) l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒ l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒

低次元(近)かつ元の次元(遠)の時 → 斥⼒ t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nヒートマップによる勾配の⽐較(SNE, t-SNE) l つまり，t-SNEの勾配は(SNEよりも)本質的 ► 「元の次元で距離が離れたデータ点」は，類似しない点として計算 ► 「距離が近いデータ点」は，類似する点として計算 t-SNE ;t-distributed

Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nt-SNEの課題 l 可視化のための⼿法であり，⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では，構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

⾼次元データが実際に⾼い内在次元を持っている場合に，パフォーマンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる，メモリ消費量が多い引⽤元： https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nt-SNEの課題 l 可視化のための⼿法であり，⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では，構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

⾼次元データが実際に⾼い内在次元を持っている場合に，パフォーマンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる，メモリ消費量が多い引⽤元： hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cﬀ4f7 hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

nt-SNEの課題 l 可視化のための⼿法であり，⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では，構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

⾼次元データが実際に⾼い内在次元を持っている場合に，パフォーマンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる，メモリ消費量が多い引⽤元： hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cﬀ4f7 hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

n発展⼿法 n 全データ点間距離の計算重い→kNN探索⼜は,近似kNN探索(kNNグラフ構築) の流れ l Barnes-Hut-SNE (;BH-t-SNE) [Maaten.L.V. ,ICLRʼ13] ►

VP-tree*1とBarnes-Hutアルゴリズム*2を⽤いて，t-SNEを近似的⽅法で⾼速化&省メモリ化 ► 𝑶 𝑵𝟐 → 𝑶( 𝑵 𝒍𝒐𝒈 𝑵 ) l LargeVis [Tang.J.＋,WWWʼ16] ► RP-treeベース*3のアルゴリズム ► ⼤規模,⾼次元データに効果的な⼿法の提案 ► BH-t-SNEよりもはるかにスケーリング(数百万次元のデータにも拡張可能） l AtSNE [Fu.C.+,KDDʼ19] ► GPUベースのソリューション ► 上記⼿法と⽐較して，5~28倍の速度向上 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08] *2 Barnes-hutアルゴリズムはN体シミュレーションで⽤いられるアルゴリズム *1 Vantage-point treeはk最近傍グラフの構築に⽤いる空間分割⽊(space-portioning trees)の1種 *3 Random Projection treeも*1と同様の空間分割⽊の1種

UMAP ; Uniform Manifold Approximation and Projection [Mclnnes.L.+, JOSSʼ18] n

圏論の概念で書かれており，理解困難なので要点のみ n t-SNEと⽐較して l ⾼速 l スケーラブル ► 埋め込み後の次元数を⼤きくしても現実的な時間内に収束 l グローバル・ローカルな構造をうまく捉えている l 既存の埋め込みに新しいデータ点を追加できる l 多様体学習における強固な理論的基盤をもつ l 応⽤が効く ► 様々な距離を扱える ► 教師あり・半教師ありの次元削減ができる理論的な解説記事： https://github.com/cympfh/cympfh.github.io/blob/master/paper/UMAP.md

n MNISTの画像10000枚でt-SNEと⽐較引⽤： https://qiita.com/cympfh/items/e8c2669c646a73205ea9 $me: 28.3s time: 4min24s UMAP t-SNE

UMAP ; Uniform Manifold Approximation and Projection [Mclnnes.L.+, JOSSʼ18]

参考⽂献 n 英wiki『nonlinear-dimensionality-reduction』 n haifa⼤学『Unsupervised Learning』資料 n github『drewwilimitis/Manifold-Learning』 n 書籍︓『Manifold

Learning Theory and Applications 』 → Google scholarで検索するとFreeでDLできました

別添︓PCAとIsomap,LLEの⽐較 nS字型のデータセット（3次元空間内の2次元多様体） colab

別添︓mnistでの⽐較 nOpen-ML(mnist_784) colab MDE; Minimum-Distortion Embedding[Agrawal.A+, Found.Trends Mach.Learn(2021)] paper https://pymde.org/

https://www.akshayagrawal.com/ https://twitter.com/akshaykagrawal/status/1374774666565361664?s=20&t=TpSYgnIxqBw8LbHO0JR2bg

別添︓k-NNグラフの構築 n最近傍探索⼿法は，⼤きく3つに分類される l Space partitioning trees ► 空間を⽊で幾つかの領域に分けていく ► 遠くにあるものに可能な限りアクセスしない⼿段により判定処理を減ら

す効果 ► e.g.) kd trees, vp-trees, cover trees, RP-trees l Locality Sensitive Hashing ;LSH l Neighbor exploring techniques ► e.g.) NN-Descent nANN-Benchmarks [Aumüller, M.+,SISAPʼ18] github 参考： hAps://github.com/vwrs/gitpitch-test/blob/master/PITCHME.md hAps://ak-blog.hatenablog.jp/entry/20130426/1366990657 hAps://speakerdeck.com/matsui_528/jin-si-zui-jin-bang-tan-suo-falsezui-qian-xian?slide=30

次元削減・多様体学習 /maniford-learning20200707

次元削減・多様体学習 /maniford-learning20200707

More Decks by Taro Nakasone

Other Decks in Research

Featured

Transcript