Slide 1

Slide 1 text

次元削減・多様体学習 -第10回 ML基礎- 仲宗根 太朗 2022.07.07 Master輪講会

Slide 2

Slide 2 text

⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l 多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP

Slide 3

Slide 3 text

⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l 多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP

Slide 4

Slide 4 text

⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l 多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP

Slide 5

Slide 5 text

イントロ︓次元削減について n機械学習における主要な問題の1つ l ⾼次元データの次元削減 ► データが⾼次元空間に表⽰される場合でも,その複雑さは低く,低 次元空間で表現できるという仮定に基づく n次元を減らす応⽤上の動機 l 可視化 ► 3次元以下に次元を落とすことで図⽰可能にする l データの圧縮 ► 計算量削減が期待される l 特徴抽出・選択

Slide 6

Slide 6 text

イントロ︓次元削減について n次元削減の2つの標準形 l PCA ;principal component analysis (1901) ► 可能な限り多くの分散をとる元データの線形写像を⾒つける ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線 形写像を計算する. l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては,距離の情報から地図を作るような感じ

Slide 7

Slide 7 text

イントロ︓次元削減について n次元削減の2つの標準形 l PCA ;principal component analysis (1901) ► 可能な限り多くの分散をとる元データの線形写像を⾒つける ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線 形写像を計算する. l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては,距離の情報から地図を作るような感じ これらは線形⼿法(射影)です

Slide 8

Slide 8 text

イントロ︓次元削減について n次元削減の2つの標準形 l PCA ;principal component analysis (1901) ► 可能な限り多くの分散をとる元データの線形写像を⾒つける ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線 形写像を計算する. l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては,距離の情報から地図を作るような感じ PCAに関するおすすめの参考資料 ► 次元削減(主成分分析・カーネル主成分分析) ► 論⽂紹介︓ Supervised Principal Component Analysis

Slide 9

Slide 9 text

linear⼿法とnon-linear⼿法 マインドマップ https://www.edrawmind.com/online/map.html?sharecode=62624523c1cb02a06096548 https://www.edrawmind.com/online/map.html?sharecode=6262444e7fb0e0a68444152

Slide 10

Slide 10 text

なぜnon-linear⼿法が必要なのか︖ (a)のような,データ点が⾮線形多様体上にあることがわかる データ集合に線形(射影)⼿法を適⽤すると,(b)のように正しい 展開ではなく,(c)のような結果になる.

Slide 11

Slide 11 text

なぜnon-linear⼿法が必要なのか︖ (a)のような,データ点が⾮線形多様体上にあることがわかる データ集合に線形(射影)⼿法を適⽤すると,(b)のように正しい 展開ではなく,(c)のような結果になる. データの⾮線形性を処理する場合,⾮線形⼿法が必要となる

Slide 12

Slide 12 text

⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま れているという仮定に基づく

Slide 13

Slide 13 text

⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま れているという仮定に基づく

Slide 14

Slide 14 text

⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま れているという仮定に基づく

Slide 15

Slide 15 text

多様体学習⼿法の説明

Slide 16

Slide 16 text

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖ ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea

Slide 17

Slide 17 text

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖ ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea

Slide 18

Slide 18 text

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖ ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea

Slide 19

Slide 19 text

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖ ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea

Slide 20

Slide 20 text

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋 ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

Slide 21

Slide 21 text

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋 ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

Slide 22

Slide 22 text

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋 ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

Slide 23

Slide 23 text

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋 ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

Slide 24

Slide 24 text

n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり,スムーズな多様体構造を持たない 時,結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm

Slide 25

Slide 25 text

n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり,スムーズな多様体構造を持たない 時,結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm

Slide 26

Slide 26 text

n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06] ► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは,Hessian eigenmapsという. ► LLEの正規化問題を修正したもう1つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: hAps://towardsdatascience.com/lle-locally-linear-embedding-a-niBy-way-to-reduce-dimensionality-in-python-ab5c38336107 hAps://cs.nyu.edu/~roweis/lle/algorithm.htm

Slide 27

Slide 27 text

n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06] ► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは,Hessian eigenmapsという. ► LLEの正規化問題を修正したもう1つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm これら⼿法の説明は,今回は割愛します🙇‍‍‍

Slide 28

Slide 28 text

MDS ;multi-dimensional scaling (多次元尺度法) n点群間の⾮類似性を保持しながら平⾯へ写像する l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ l 必ずしも,距離でなくてもよい(扱うデータの性質により分類される) ► 計量データの場合︔metric MDS ► ⾮計量データの場合︔non-metric MDS

Slide 29

Slide 29 text

MDS ;multi-dimensional scaling (多次元尺度法) n点群間の⾮類似性を保持しながら平⾯へ写像する l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ l 必ずしも,距離でなくてもよい(扱うデータの性質により分類される) ► 計量データの場合︔metric MDS ► ⾮計量データの場合︔non-metric MDS 今回は便宜上,metric MDSを説明します

Slide 30

Slide 30 text

n厳密には,データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適 化問題として定式化される ここで, Metric-MDS ;metric multi-dimensional scaling

Slide 31

Slide 31 text

補⾜︓距離の公理. (1) 対称性 iとjを⼊れ替えてもdは不変 (2) 同⼀性 「dが0であること」と「iとjが等しいこと」が同値である (3) ⾮負性 dは負の値にはならない (4) 三⾓不等式 任意の3つのベクトルに対して,三⾓不等式が成り⽴つ 𝑑!" 𝑑!# 𝑑#" i k j 距離の公理

Slide 32

Slide 32 text

n厳密には,データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適 化問題として定式化される ここで, Metric-MDS ;metric multi-dimensional scaling

Slide 33

Slide 33 text

Metric-MDS ;metric multi-dimensional scaling n厳密には,データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅の差を最⼩化する最適化 問題として定式化される ここで,

Slide 34

Slide 34 text

nアルゴリズムは様々ある n古典的な⼿法は,内積からy座標への変換を考えるもの l 距離を求める ► 距離⾏列D(")(n次正⽅⾏列)を作成する l Young-Householder変換でグラム⾏列B(内積⾏列のこと)に変換する ► 中⼼化⾏列を⽤いて,グラム⾏列Bを得る l ⾏列Bの固有値・固有ベクトルを⾒つける ► グラム⾏列Bのスペクトル分解を⾏う(∵Bはn×nの実対称⾏列) ► 固有値の対⾓⾏列Λ = 𝑑𝑖𝑎𝑔(𝜆$ , … , 𝜆% ) , 固有ベクトル⾏列𝑉 = (𝑣$ , … , 𝑣% )& l 固有値・固有ベクトルからk次元の構成を定義する sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) Metric-MDS ;metric multi-dimensional scaling

Slide 35

Slide 35 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算

Slide 36

Slide 36 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算

Slide 37

Slide 37 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算 つまり,点間距離を求めることは 内積を求めることに等しい 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf

Slide 38

Slide 38 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算

Slide 39

Slide 39 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算

Slide 40

Slide 40 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算

Slide 41

Slide 41 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算

Slide 42

Slide 42 text

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列

Slide 43

Slide 43 text

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列

Slide 44

Slide 44 text

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列

Slide 45

Slide 45 text

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列

Slide 46

Slide 46 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 47

Slide 47 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 48

Slide 48 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 49

Slide 49 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: hLp://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html hLps://en.wikipedia.org/wiki/MulMdimensional_scaling hLps://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e hLp://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 50

Slide 50 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 51

Slide 51 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 52

Slide 52 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く 内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース

Slide 53

Slide 53 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 54

Slide 54 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 55

Slide 55 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 56

Slide 56 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 57

Slide 57 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 58

Slide 58 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 59

Slide 59 text

nここまでを踏まえ,先頭の最適化問題で導く Metric-MDS ;metric multi-dimensional scaling スペクトル分解 により とする.

Slide 60

Slide 60 text

nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling

Slide 61

Slide 61 text

nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling

Slide 62

Slide 62 text

nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling

Slide 63

Slide 63 text

nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling

Slide 64

Slide 64 text

nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling

Slide 65

Slide 65 text

n固有値分解の⼿法をまとめると l 固有ベクトル︓低次元埋込みを⽣成するためのスケーリング l 固有値︓寄与率の測定 l 固有値の数︓次元削減後の次元数 n現在は,SMACOFアルゴリズム(反復法︖)による最適化が主流 l 原論︓Multidimensional Scaling Using Majorization: SMACOF in R* Metric-MDS ;metric multi-dimensional scaling sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク)

Slide 66

Slide 66 text

n固有値分解の⼿法をまとめると l 固有ベクトル︓低次元埋込みを⽣成するためのスケーリング l 固有値︓寄与率の測定 l 固有値の数︓次元削減後の次元数 n現在は,SMACOFアルゴリズム(反復法︖)による最適化が主流 l 原論︓Multidimensional Scaling Using Majorization: SMACOF in R* Metric-MDS ;metric multi-dimensional scaling sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) * (J.Stat.So

Slide 67

Slide 67 text

n 近傍グラフを⽤いて,多様体上の 測地線距離を求め, MDSを⽤いて低次元空間に埋め込む⼿法 曲⾯(リーマン多様体)上の⼗分に近い2 つの離れた点が最短線で結ばれた曲線. 測地線 (geodesic) ユークリッド距離は,データセットの形状の形状を無視 しているのに対し,測地線距離は,隣接するデータを考 慮するので直感的にmetric-MDSより上⼿くいきそう ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] 引⽤:isomap-embedding-an-awesome-approach-to-non-linear-dimensionality-reduction

Slide 68

Slide 68 text

n 近傍グラフを⽤いて,多様体上の 測地線距離を求め, MDSを⽤いて低次元空間に埋め込む⼿法 曲⾯(リーマン多様体)上の⼗分に近い2 つの離れた点が最短線で結ばれた曲線. 測地線 (geodesic) ユークリッド距離は,データセットの形状の形状を無視 しているのに対し,測地線距離は,隣接するデータを考 慮するので直感的にmetric-MDSより上⼿くいきそう ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] 引⽤:isomap-embedding-an-awesome-approach-to-non-linear-dimensionality-reduc5on

Slide 69

Slide 69 text

n ステップ 1. 各データポイント𝑿𝒊 のk近傍を選択 ► ⼀定の半径r or k近傍法 2. 近傍グラフを構築する 3. グラフ上の全てのペア間の測地線距離を計算 ► 4. MDSを適⽤して,マッピング ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] Floyd-Warshall フ ロ イ ド - ワ ー シ ャ ル 法 or Dijkstra ダ イ ク ス ト ラ 法 引⽤: https://www.numerical-tours.com/matlab/shapes_7_isomap/ https://towardsdatascience.com/preserving-geodesic-distance-for-non-linear-datasets-isomap-d24a1a1908b2

Slide 70

Slide 70 text

n 強み l グローバルデータ構造を保持する l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点 l ⾮常に遅い l 「ショートカット」に敏感 ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]

Slide 71

Slide 71 text

n 強み l グローバルデータ構造を保持する l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点 l ⾮常に遅い l 「ショートカット」に敏感 ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]

Slide 72

Slide 72 text

SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ] n⾼次元空間上のユークリッド距離を,データ点の類似度 を表現する条件付き確率に変換する⼿法 𝑥! 𝑥" 𝑥# ガウス分布 💡Idea 𝑥$ を中⼼とするガウス分布の密度に ⽐例して近傍が選択されてほしい ► 条件付き確率が⾼い → 近い ► 条件付き確率が低い → 遠い

Slide 73

Slide 73 text

n⾼次元空間上のユークリッド距離を,データ点の類似度 を表現する条件付き確率に変換する⼿法 𝑥! 𝑥" 𝑥# ガウス分布 💡Idea 𝑥$ を中⼼とするガウス分布の密度に ⽐例して近傍が選択されてほしい ► 条件付き確率が⾼い → 近い ► 条件付き確率が低い → 遠い SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 74

Slide 74 text

n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は, nマップ点の条件付き確率は, 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ► 𝑝'|) ≈ 𝑞'|) の間のKL距離(ダイバージェンス)を最⼩化するような マップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 75

Slide 75 text

n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は, nマップ点の条件付き確率は, 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ► 𝑝'|) ≈ 𝑞'|) の間のKL距離(ダイバージェンス)を最⼩化するような マップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 76

Slide 76 text

n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は, nマップ点の条件付き確率は, 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ► 𝑝'|) ≈ 𝑞'|) の間のKL距離(ダイバージェンス)を最⼩化するような マップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 77

Slide 77 text

補⾜︓KL距離 (Kullback-Leibler divergence) n確率分布Pが,確率分布Qとどのように異なるかの尺度. l 𝐷'((P||Q) ► この式は,Qに対するPのKL divergenceを表す.

Slide 78

Slide 78 text

補⾜︓KL距離 (Kullback-Leibler divergence) n確率分布Pが,確率分布Qとどのように異なるかの尺度. l 𝐷'((P||Q) ► この式は,Qに対するPのKL divergenceを表す.

Slide 79

Slide 79 text

n勾配法を⽤いてKL距離の最⼩化を⾏う. l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 𝑃* : 𝑥* に対する全てのデータ点の条件付き確率分布 Q* :y* に対する全てのデータ点の条件付き確率分布 𝑌(/):時刻tにおけるマップ点 𝜂:学習率 𝛽(t):時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 80

Slide 80 text

n勾配法を⽤いてKL距離の最⼩化を⾏う. l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 𝑃* : 𝑥* に対する全てのデータ点の条件付き確率分布 Q* :y* に対する全てのデータ点の条件付き確率分布 𝑌(/):時刻tにおけるマップ点 𝜂:学習率 𝛽(t):時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 81

Slide 81 text

n勾配法を⽤いてKL距離の最⼩化を⾏う. l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 ※1 ⾼速化⼿法であり,局所解になりにくい効果もある. 𝑃* : 𝑥* に対する全てのデータ点の条件付き確率分布 Q* :y* に対する全てのデータ点の条件付き確率分布 𝑌(/):時刻tにおけるマップ点 𝜂:学習率 𝛽(t):時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 82

Slide 82 text

補⾜︓モメンタム法;momentum(慣性) 引⽤: h:ps://qiita.com/ophhdn/items/3deaf4fcc43b4f027458 単純な勾配降下法(左)とモメンタム法(右)の⽐較

Slide 83

Slide 83 text

n弱点 1.コスト関数の最適化が困難 ► ノイズ初期値とその減少率の設定がシビア ► パラメータの探索に⾮常に時間を要する ► 収束が確約された他の⼿法の⽅が使いやすい 2.Crowding問題 ► 次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 84

Slide 84 text

n弱点 1.コスト関数の最適化が困難 ► ノイズ初期値とその減少率の設定がシビア ► パラメータの探索に⾮常に時間を要する ► 収束が確約された他の⼿法の⽅が使いやすい 2.Crowding問題 ► 次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 85

Slide 85 text

n弱点 1.コスト関数の最適化が困難 ► ノイズ初期値とその減少率の設定がシビア ► パラメータの探索に⾮常に時間を要する ► 収束が確約された他の⼿法の⽅が使いやすい 2.Crowding問題 ► 次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

Slide 86

Slide 86 text

Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08] nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更

Slide 87

Slide 87 text

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 88

Slide 88 text

復習︓SNEのコスト関数 n 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 )

Slide 89

Slide 89 text

復習︓SNEのコスト関数 n 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 )

Slide 90

Slide 90 text

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]* *t-SNE論⽂「visualizing data using t-SNE」で紹介されている

Slide 91

Slide 91 text

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 92

Slide 92 text

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 93

Slide 93 text

nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 ※元の空間で点iが外れ値の時𝒑𝒊𝒋 が⾮常に⼩さくなり,コスト関数への影響⼒が⼩さくなる Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 94

Slide 94 text

n勾配の変化: SNE → Symmetric-SNE Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 95

Slide 95 text

t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08] nSymmetric-SNE 同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を ガウス分布 → Student-t分布(⾃由度1) に変更 ► ガウス分布 ► Student-t分布(df=1)

Slide 96

Slide 96 text

nSymmetric-SNE 同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を ガウス分布 → Student-t分布(⾃由度1) に変更 ► ガウス分布 ► Student-t分布(df=1) t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 97

Slide 97 text

nSymmetric-SNE 同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を ガウス分布 → Student-t分布(⾃由度1) に変更 ► ガウス分布 ► Student-t分布(df=1) t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 98

Slide 98 text

n ガウス分布とt分布 colab t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 99

Slide 99 text

n ガウス分布とt分布 colab t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 100

Slide 100 text

n ガウス分布とt分布 colab t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 101

Slide 101 text

n ガウス分布とt分布 ヘヴィーテイル(heavy-tail)なので より遠くへ配置可能に colab t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 102

Slide 102 text

nt分布(⾃由度1)を利⽤したマップ点の同時確率は, nこの場合の勾配は, t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 103

Slide 103 text

nt分布(⾃由度1)を利⽤したマップ点の同時確率は, nこの場合の勾配は, t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 104

Slide 104 text

nヒートマップによる勾配の⽐較(SNE, t-SNE) l 横軸︓元の次元での距離 縦軸︓低次元での距離 l 勾配が正の時に引⼒,負の時に斥⼒が働く 引⽤:Visualizing Data using t-SNE t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 105

Slide 105 text

nヒートマップによる勾配の⽐較(SNE, t-SNE) l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒ l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒ 低次元(近)かつ元の次元(遠)の時 → 斥⼒ t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 106

Slide 106 text

nヒートマップによる勾配の⽐較(SNE, t-SNE) l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒ l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒ 低次元(近)かつ元の次元(遠)の時 → 斥⼒ t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 107

Slide 107 text

nヒートマップによる勾配の⽐較(SNE, t-SNE) l つまり,t-SNEの勾配は(SNEよりも)本質的 ► 「元の次元で距離が離れたデータ点」は,類似しない点として計算 ► 「距離が近いデータ点」は,類似する点として計算 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 108

Slide 108 text

nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 109

Slide 109 text

nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 110

Slide 110 text

nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 111

Slide 111 text

nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 112

Slide 112 text

nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 113

Slide 113 text

nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

Slide 114

Slide 114 text

n発展⼿法 n 全データ点間距離の計算重い→kNN探索⼜は,近似kNN探索(kNNグラフ構築) の流れ l Barnes-Hut-SNE (;BH-t-SNE) [Maaten.L.V. ,ICLRʼ13] ► VP-tree*1とBarnes-Hutアルゴリズム*2を⽤いて,t-SNEを近似的⽅法で⾼速化&省メモリ化 ► 𝑶 𝑵𝟐 → 𝑶( 𝑵 𝒍𝒐𝒈 𝑵 ) l LargeVis [Tang.J.+,WWWʼ16] ► RP-treeベース*3のアルゴリズム ► ⼤規模,⾼次元データに効果的な⼿法の提案 ► BH-t-SNEよりもはるかにスケーリング(数百万次元のデータにも拡張可能) l AtSNE [Fu.C.+,KDDʼ19] ► GPUベースのソリューション ► 上記⼿法と⽐較して,5~28倍の速度向上 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08] *2 Barnes-hutアルゴリズムはN体シミュレーションで⽤いられるアルゴリズム *1 Vantage-point treeはk最近傍グラフの構築に⽤いる空間分割⽊(space-portioning trees)の1種 *3 Random Projection treeも*1と同様の空間分割⽊の1種

Slide 115

Slide 115 text

UMAP ; Uniform Manifold Approximation and Projection [Mclnnes.L.+, JOSSʼ18] n 圏論の概念で書かれており,理解困難なので要点のみ n t-SNEと⽐較して l ⾼速 l スケーラブル ► 埋め込み後の次元数を⼤きくしても現実的な時間内に収束 l グローバル・ローカルな構造をうまく捉えている l 既存の埋め込みに新しいデータ点を追加できる l 多様体学習における強固な理論的基盤をもつ l 応⽤が効く ► 様々な距離を扱える ► 教師あり・半教師ありの次元削減ができる 理論的な解説記事: https://github.com/cympfh/cympfh.github.io/blob/master/paper/UMAP.md

Slide 116

Slide 116 text

n MNISTの画像10000枚でt-SNEと⽐較 引⽤: https://qiita.com/cympfh/items/e8c2669c646a73205ea9 $me: 28.3s time: 4min24s UMAP t-SNE UMAP ; Uniform Manifold Approximation and Projection [Mclnnes.L.+, JOSSʼ18]

Slide 117

Slide 117 text

参考⽂献 n 英wiki『nonlinear-dimensionality-reduction』 n haifa⼤学『Unsupervised Learning』資料 n github『drewwilimitis/Manifold-Learning』 n 書籍︓『Manifold Learning Theory and Applications 』 → Google scholarで検索するとFreeでDLできました

Slide 118

Slide 118 text

別添︓PCAとIsomap,LLEの⽐較 nS字型のデータセット(3次元空間内の2次元多様体) colab

Slide 119

Slide 119 text

別添︓mnistでの⽐較 nOpen-ML(mnist_784) colab MDE; Minimum-Distortion Embedding[Agrawal.A+, Found.Trends Mach.Learn(2021)] paper https://pymde.org/ https://www.akshayagrawal.com/ https://twitter.com/akshaykagrawal/status/1374774666565361664?s=20&t=TpSYgnIxqBw8LbHO0JR2bg

Slide 120

Slide 120 text

別添︓k-NNグラフの構築 n最近傍探索⼿法は,⼤きく3つに分類される l Space partitioning trees ► 空間を⽊で幾つかの領域に分けていく ► 遠くにあるものに可能な限りアクセスしない⼿段により判定処理を減ら す効果 ► e.g.) kd trees, vp-trees, cover trees, RP-trees l Locality Sensitive Hashing ;LSH l Neighbor exploring techniques ► e.g.) NN-Descent nANN-Benchmarks [Aumüller, M.+,SISAPʼ18] github 参考: hAps://github.com/vwrs/gitpitch-test/blob/master/PITCHME.md hAps://ak-blog.hatenablog.jp/entry/20130426/1366990657 hAps://speakerdeck.com/matsui_528/jin-si-zui-jin-bang-tan-suo-falsezui-qian-xian?slide=30