Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

次元削減・多様体学習 /maniford-learning20200707

Taro Nakasone
October 01, 2022

次元削減・多様体学習 /maniford-learning20200707

Taro Nakasone

October 01, 2022
Tweet

More Decks by Taro Nakasone

Other Decks in Research

Transcript

  1. ⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l

    多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP
  2. ⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l

    多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP
  3. ⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l

    多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP
  4. イントロ︓次元削減について n次元削減の2つの標準形 l PCA ;principal component analysis (1901) ► 可能な限り多くの分散をとる元データの線形写像を⾒つける

    ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線 形写像を計算する. l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては,距離の情報から地図を作るような感じ
  5. イントロ︓次元削減について n次元削減の2つの標準形 l PCA ;principal component analysis (1901) ► 可能な限り多くの分散をとる元データの線形写像を⾒つける

    ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線 形写像を計算する. l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては,距離の情報から地図を作るような感じ これらは線形⼿法(射影)です
  6. イントロ︓次元削減について n次元削減の2つの標準形 l PCA ;principal component analysis (1901) ► 可能な限り多くの分散をとる元データの線形写像を⾒つける

    ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線 形写像を計算する. l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては,距離の情報から地図を作るような感じ PCAに関するおすすめの参考資料 ► 次元削減(主成分分析・カーネル主成分分析) ► 論⽂紹介︓ Supervised Principal Component Analysis
  7. ⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l

    ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま れているという仮定に基づく
  8. ⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l

    ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま れているという仮定に基づく
  9. ⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l

    ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま れているという仮定に基づく
  10. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖

    ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea
  11. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖

    ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea
  12. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖

    ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea
  13. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ 線形部分空間上にあると仮定した⼿法 多様体上のデータをどう表すか︖

    ► 多様体は 局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめ らかに繋げれば,多様体を表現できる 💡idea
  14. nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋

    ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
  15. nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋

    ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
  16. nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋

    ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
  17. nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋

    ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
  18. n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック

    n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり,スムーズな多様体構造を持たない 時,結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm
  19. n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック

    n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり,スムーズな多様体構造を持たない 時,結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm
  20. n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06]

    ► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは,Hessian eigenmapsという. ► LLEの正規化問題を修正したもう1つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: hAps://towardsdatascience.com/lle-locally-linear-embedding-a-niBy-way-to-reduce-dimensionality-in-python-ab5c38336107 hAps://cs.nyu.edu/~roweis/lle/algorithm.htm
  21. n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06]

    ► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは,Hessian eigenmapsという. ► LLEの正規化問題を修正したもう1つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm これら⼿法の説明は,今回は割愛します🙇‍‍‍
  22. nアルゴリズムは様々ある n古典的な⼿法は,内積からy座標への変換を考えるもの l 距離を求める ► 距離⾏列D(")(n次正⽅⾏列)を作成する l Young-Householder変換でグラム⾏列B(内積⾏列のこと)に変換する ► 中⼼化⾏列を⽤いて,グラム⾏列Bを得る

    l ⾏列Bの固有値・固有ベクトルを⾒つける ► グラム⾏列Bのスペクトル分解を⾏う(∵Bはn×nの実対称⾏列) ► 固有値の対⾓⾏列Λ = 𝑑𝑖𝑎𝑔(𝜆$ , … , 𝜆% ) , 固有ベクトル⾏列𝑉 = (𝑣$ , … , 𝑣% )& l 固有値・固有ベクトルからk次元の構成を定義する sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) Metric-MDS ;metric multi-dimensional scaling
  23. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算
  24. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算
  25. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling Young-household 変換 →内積⾏列のこと nグラム⾏列

    Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算 つまり,点間距離を求めることは 内積を求めることに等しい 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
  26. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算
  27. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算
  28. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算
  29. n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e

    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする. 距離⾏列の2乗に 両側から中⼼化⾏ 列を掛ける演算
  30. →内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling

    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列
  31. →内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling

    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列
  32. →内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling

    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列
  33. →内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling

    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から 固有値 固有ベクトル を得る. nグラム⾏列Β は n×n の実対称⾏列なので, “スペクトル分解”することができる. 従って, を得る. n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選 択することで,k 次元の構成を定義できる. diag : 対⾓⾏列
  34. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  35. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  36. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  37. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: hLp://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html hLps://en.wikipedia.org/wiki/MulMdimensional_scaling hLps://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e hLp://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  38. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  39. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  40. Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ,先頭の最適化問題で導く

    内積に 相当する グラム⾏列が 実対称⾏列 なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対する トレースとは,対⾓成分の和 に等しい. 𝑡𝑟𝐴 = - *+, - 𝑎** 定義:トレース
  41. nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 =

    𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling
  42. nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 =

    𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling
  43. nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 =

    𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling
  44. nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 =

    𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling
  45. nここまでを踏まえ,先頭の最適化問題で導く 𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化 𝒀 =

    𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル Λ は上位 k 個の固有値 𝑌=𝑉𝛬′3/4 𝑌 = 𝑄𝛬′3/4 Metric-MDS ;metric multi-dimensional scaling
  46. n ステップ 1. 各データポイント𝑿𝒊 のk近傍を選択 ► ⼀定の半径r or k近傍法 2.

    近傍グラフを構築する 3. グラフ上の全てのペア間の測地線距離を計算 ► 4. MDSを適⽤して,マッピング ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00] Floyd-Warshall フ ロ イ ド - ワ ー シ ャ ル 法 or Dijkstra ダ イ ク ス ト ラ 法 引⽤: https://www.numerical-tours.com/matlab/shapes_7_isomap/ https://towardsdatascience.com/preserving-geodesic-distance-for-non-linear-datasets-isomap-d24a1a1908b2
  47. n 強み l グローバルデータ構造を保持する l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点

    l ⾮常に遅い l 「ショートカット」に敏感 ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]
  48. n 強み l グローバルデータ構造を保持する l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点

    l ⾮常に遅い l 「ショートカット」に敏感 ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]
  49. SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ] n⾼次元空間上のユークリッド距離を,データ点の類似度 を表現する条件付き確率に変換する⼿法

    𝑥! 𝑥" 𝑥# ガウス分布 💡Idea 𝑥$ を中⼼とするガウス分布の密度に ⽐例して近傍が選択されてほしい ► 条件付き確率が⾼い → 近い ► 条件付き確率が低い → 遠い
  50. n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は, nマップ点の条件付き確率は, 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ►

    𝑝'|) ≈ 𝑞'|) の間のKL距離(ダイバージェンス)を最⼩化するような マップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
  51. n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は, nマップ点の条件付き確率は, 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ►

    𝑝'|) ≈ 𝑞'|) の間のKL距離(ダイバージェンス)を最⼩化するような マップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
  52. n データ点𝑥5 に対するデータ𝑥6 の条件付き確率は, nマップ点の条件付き確率は, 𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊 にしたい ►

    𝑝'|) ≈ 𝑞'|) の間のKL距離(ダイバージェンス)を最⼩化するような マップ点の探索を⾏う 𝑥! , 𝑥" : ⾼次元空間のデータ点 σ! $: x! を中⼼としたガウス分布の分散 𝑦! , 𝑦" : 低次元空間のデータ点 SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
  53. n勾配法を⽤いてKL距離の最⼩化を⾏う. l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 𝑃* : 𝑥* に対する全てのデータ点の条件付き確率分布

    Q* :y* に対する全てのデータ点の条件付き確率分布 𝑌(/):時刻tにおけるマップ点 𝜂:学習率 𝛽(t):時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
  54. n勾配法を⽤いてKL距離の最⼩化を⾏う. l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 𝑃* : 𝑥* に対する全てのデータ点の条件付き確率分布

    Q* :y* に対する全てのデータ点の条件付き確率分布 𝑌(/):時刻tにおけるマップ点 𝜂:学習率 𝛽(t):時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
  55. n勾配法を⽤いてKL距離の最⼩化を⾏う. l コスト関数︓全てのデータ点に対するKL距離の和 l コスト関数をモメンタム※1 導⼊の勾配法により更新 ※1 ⾼速化⼿法であり,局所解になりにくい効果もある. 𝑃* :

    𝑥* に対する全てのデータ点の条件付き確率分布 Q* :y* に対する全てのデータ点の条件付き確率分布 𝑌(/):時刻tにおけるマップ点 𝜂:学習率 𝛽(t):時刻tにおけるモメンタム SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
  56. Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08] nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊

    ) l 代替案︓条件付き確率分布 → 同時確率分布 n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更
  57. nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

    n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  58. nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

    n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]* *t-SNE論⽂「visualizing data using t-SNE」で紹介されている
  59. nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

    n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  60. nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

    n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  61. nSNEの「コスト関数の最適化の問題」を解決する提案 l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊 ) l 代替案︓条件付き確率分布 → 同時確率分布

    n同時確率で定義することでコスト関数は, l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋 =𝒑𝒋𝒊 , 𝒒𝒊𝒋 =𝒒𝒋𝒊 ) l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の 空間の類似度の形を変更 ※元の空間で点iが外れ値の時𝒑𝒊𝒋 が⾮常に⼩さくなり,コスト関数への影響⼒が⼩さくなる Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  62. t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08] nSymmetric-SNE

    同様に同時確率分布で定義 nSNEの「Crowding問題」を解決する提案 l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を ガウス分布 → Student-t分布(⾃由度1) に変更 ► ガウス分布 ► Student-t分布(df=1)
  63. nヒートマップによる勾配の⽐較(SNE, t-SNE) l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒ l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒

    低次元(近)かつ元の次元(遠)の時 → 斥⼒ t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  64. nヒートマップによる勾配の⽐較(SNE, t-SNE) l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒ l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒

    低次元(近)かつ元の次元(遠)の時 → 斥⼒ t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  65. nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

    ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  66. nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

    ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  67. nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

    ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  68. nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

    ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  69. nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

    ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  70. nt-SNEの課題 l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数 ► 特徴抽出等には適⽤しにくい ► ⾼次元空間への圧縮では,構造を保持することが難しい l 本質的な次元が⾼いデータではイマイチ ►

    ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー マンスが低下する l ⽬的変数の収束が担保されていない ► コスト関数の凸性が証明されていない l アルゴリズム的な⽋点 ► 計算に時間が⾮常にかかる,メモリ消費量が多い 引⽤元: hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7 hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
  71. n発展⼿法 n 全データ点間距離の計算重い→kNN探索⼜は,近似kNN探索(kNNグラフ構築) の流れ l Barnes-Hut-SNE (;BH-t-SNE) [Maaten.L.V. ,ICLRʼ13] ►

    VP-tree*1とBarnes-Hutアルゴリズム*2を⽤いて,t-SNEを近似的⽅法で⾼速化&省メモリ化 ► 𝑶 𝑵𝟐 → 𝑶( 𝑵 𝒍𝒐𝒈 𝑵 ) l LargeVis [Tang.J.+,WWWʼ16] ► RP-treeベース*3のアルゴリズム ► ⼤規模,⾼次元データに効果的な⼿法の提案 ► BH-t-SNEよりもはるかにスケーリング(数百万次元のデータにも拡張可能) l AtSNE [Fu.C.+,KDDʼ19] ► GPUベースのソリューション ► 上記⼿法と⽐較して,5~28倍の速度向上 t-SNE ;t-distributed Stochastic Neighbor Embedding [Maaten.L.V. & Hinton.G.E, JMLRʼ08] *2 Barnes-hutアルゴリズムはN体シミュレーションで⽤いられるアルゴリズム *1 Vantage-point treeはk最近傍グラフの構築に⽤いる空間分割⽊(space-portioning trees)の1種 *3 Random Projection treeも*1と同様の空間分割⽊の1種
  72. UMAP ; Uniform Manifold Approximation and Projection [Mclnnes.L.+, JOSSʼ18] n

    圏論の概念で書かれており,理解困難なので要点のみ n t-SNEと⽐較して l ⾼速 l スケーラブル ► 埋め込み後の次元数を⼤きくしても現実的な時間内に収束 l グローバル・ローカルな構造をうまく捉えている l 既存の埋め込みに新しいデータ点を追加できる l 多様体学習における強固な理論的基盤をもつ l 応⽤が効く ► 様々な距離を扱える ► 教師あり・半教師ありの次元削減ができる 理論的な解説記事: https://github.com/cympfh/cympfh.github.io/blob/master/paper/UMAP.md
  73. 別添︓mnistでの⽐較 nOpen-ML(mnist_784) colab MDE; Minimum-Distortion Embedding[Agrawal.A+, Found.Trends Mach.Learn(2021)] paper https://pymde.org/

    https://www.akshayagrawal.com/ https://twitter.com/akshaykagrawal/status/1374774666565361664?s=20&t=TpSYgnIxqBw8LbHO0JR2bg
  74. 別添︓k-NNグラフの構築 n最近傍探索⼿法は,⼤きく3つに分類される l Space partitioning trees ► 空間を⽊で幾つかの領域に分けていく ► 遠くにあるものに可能な限りアクセスしない⼿段により判定処理を減ら

    す効果 ► e.g.) kd trees, vp-trees, cover trees, RP-trees l Locality Sensitive Hashing ;LSH l Neighbor exploring techniques ► e.g.) NN-Descent nANN-Benchmarks [Aumüller, M.+,SISAPʼ18] github 参考: hAps://github.com/vwrs/gitpitch-test/blob/master/PITCHME.md hAps://ak-blog.hatenablog.jp/entry/20130426/1366990657 hAps://speakerdeck.com/matsui_528/jin-si-zui-jin-bang-tan-suo-falsezui-qian-xian?slide=30