Upgrade to Pro — share decks privately, control downloads, hide ads and more …

次元削減・多様体学習 /maniford-learning20200707

Taro Nakasone
October 01, 2022

次元削減・多様体学習 /maniford-learning20200707

Taro Nakasone

October 01, 2022
Tweet

More Decks by Taro Nakasone

Other Decks in Research

Transcript

  1. 次元削減・多様体学習
    -第10回 ML基礎-
    仲宗根 太朗
    2022.07.07 Master輪講会

    View full-size slide

  2. ⽬次
    n イントロ
    l 次元削減について
    l linear⼿法とnon-linear⼿法
    l なぜnon-linear⼿法が必要なのか
    l 多様体学習とは
    n 多様体学習⼿法の説明
    l LLE+
    l MDS ~ ISOMAP
    l SNE ~ t-SNE+
    l UMAP

    View full-size slide

  3. ⽬次
    n イントロ
    l 次元削減について
    l linear⼿法とnon-linear⼿法
    l なぜnon-linear⼿法が必要なのか
    l 多様体学習とは
    n 多様体学習⼿法の説明
    l LLE+
    l MDS ~ ISOMAP
    l SNE ~ t-SNE+
    l UMAP

    View full-size slide

  4. ⽬次
    n イントロ
    l 次元削減について
    l linear⼿法とnon-linear⼿法
    l なぜnon-linear⼿法が必要なのか
    l 多様体学習とは
    n 多様体学習⼿法の説明
    l LLE+
    l MDS ~ ISOMAP
    l SNE ~ t-SNE+
    l UMAP

    View full-size slide

  5. イントロ︓次元削減について
    n機械学習における主要な問題の1つ
    l ⾼次元データの次元削減
    ► データが⾼次元空間に表⽰される場合でも,その複雑さは低く,低
    次元空間で表現できるという仮定に基づく
    n次元を減らす応⽤上の動機
    l 可視化
    ► 3次元以下に次元を落とすことで図⽰可能にする
    l データの圧縮
    ► 計算量削減が期待される
    l 特徴抽出・選択

    View full-size slide

  6. イントロ︓次元削減について
    n次元削減の2つの標準形
    l PCA ;principal component analysis (1901)
    ► 可能な限り多くの分散をとる元データの線形写像を⾒つける
    ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線
    形写像を計算する.
    l MDS ;multi-dimensional scaling (1962)
    ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像
    ► イメージとしては,距離の情報から地図を作るような感じ

    View full-size slide

  7. イントロ︓次元削減について
    n次元削減の2つの標準形
    l PCA ;principal component analysis (1901)
    ► 可能な限り多くの分散をとる元データの線形写像を⾒つける
    ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線
    形写像を計算する.
    l MDS ;multi-dimensional scaling (1962)
    ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像
    ► イメージとしては,距離の情報から地図を作るような感じ
    これらは線形⼿法(射影)です

    View full-size slide

  8. イントロ︓次元削減について
    n次元削減の2つの標準形
    l PCA ;principal component analysis (1901)
    ► 可能な限り多くの分散をとる元データの線形写像を⾒つける
    ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線
    形写像を計算する.
    l MDS ;multi-dimensional scaling (1962)
    ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像
    ► イメージとしては,距離の情報から地図を作るような感じ
    PCAに関するおすすめの参考資料
    ► 次元削減(主成分分析・カーネル主成分分析)
    ► 論⽂紹介︓ Supervised Principal Component Analysis

    View full-size slide

  9. linear⼿法とnon-linear⼿法
    マインドマップ
    https://www.edrawmind.com/online/map.html?sharecode=62624523c1cb02a06096548
    https://www.edrawmind.com/online/map.html?sharecode=6262444e7fb0e0a68444152

    View full-size slide

  10. なぜnon-linear⼿法が必要なのか︖
    (a)のような,データ点が⾮線形多様体上にあることがわかる
    データ集合に線形(射影)⼿法を適⽤すると,(b)のように正しい
    展開ではなく,(c)のような結果になる.

    View full-size slide

  11. なぜnon-linear⼿法が必要なのか︖
    (a)のような,データ点が⾮線形多様体上にあることがわかる
    データ集合に線形(射影)⼿法を適⽤すると,(b)のように正しい
    展開ではなく,(c)のような結果になる.
    データの⾮線形性を処理する場合,⾮線形⼿法が必要となる

    View full-size slide

  12. ⾮線形次元削減 (non-linear dimensionality reduction ; NLDR)
    nNLDR = 多様体学習(manifold-learning)
    l ⼀般的なトポロジーと微分幾何学の概念
    l ⽕種となった論⽂
    ► “A global geometric framework for nonlinear dimensionality
    reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤)
    ► “Nonlinear dimensionality reduction by locally linear
    embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤)
    l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま
    れているという仮定に基づく

    View full-size slide

  13. ⾮線形次元削減 (non-linear dimensionality reduction ; NLDR)
    nNLDR = 多様体学習(manifold-learning)
    l ⼀般的なトポロジーと微分幾何学の概念
    l ⽕種となった論⽂
    ► “A global geometric framework for nonlinear dimensionality
    reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤)
    ► “Nonlinear dimensionality reduction by locally linear
    embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤)
    l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま
    れているという仮定に基づく

    View full-size slide

  14. ⾮線形次元削減 (non-linear dimensionality reduction ; NLDR)
    nNLDR = 多様体学習(manifold-learning)
    l ⼀般的なトポロジーと微分幾何学の概念
    l ⽕種となった論⽂
    ► “A global geometric framework for nonlinear dimensionality
    reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤)
    ► “Nonlinear dimensionality reduction by locally linear
    embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤)
    l 多様体学習は,⾼次元データが低次元の⾮線形多様体に埋め込ま
    れているという仮定に基づく

    View full-size slide

  15. 多様体学習⼿法の説明

    View full-size slide

  16. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    nデータは多様体上にあり、各サンプルとその近傍はほぼ
    線形部分空間上にあると仮定した⼿法
    多様体上のデータをどう表すか︖
    ► 多様体は 局所的にみればユークリッド
    (線形空間)とみなせる
    ► 狭い範囲で構築した線形モデルをなめ
    らかに繋げれば,多様体を表現できる
    💡idea

    View full-size slide

  17. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    nデータは多様体上にあり、各サンプルとその近傍はほぼ
    線形部分空間上にあると仮定した⼿法
    多様体上のデータをどう表すか︖
    ► 多様体は 局所的にみればユークリッド
    (線形空間)とみなせる
    ► 狭い範囲で構築した線形モデルをなめ
    らかに繋げれば,多様体を表現できる
    💡idea

    View full-size slide

  18. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    nデータは多様体上にあり、各サンプルとその近傍はほぼ
    線形部分空間上にあると仮定した⼿法
    多様体上のデータをどう表すか︖
    ► 多様体は 局所的にみればユークリッド
    (線形空間)とみなせる
    ► 狭い範囲で構築した線形モデルをなめ
    らかに繋げれば,多様体を表現できる
    💡idea

    View full-size slide

  19. LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    nデータは多様体上にあり、各サンプルとその近傍はほぼ
    線形部分空間上にあると仮定した⼿法
    多様体上のデータをどう表すか︖
    ► 多様体は 局所的にみればユークリッド
    (線形空間)とみなせる
    ► 狭い範囲で構築した線形モデルをなめ
    らかに繋げれば,多様体を表現できる
    💡idea

    View full-size slide

  20. nLLEのステップ
    1. 各データポイント𝑿𝒊
    の近傍を計算する
    a. knnで全てのデータ点のk最近傍を⾒つける
    b. 近接グラフを構築
    2. 重み𝑾𝒊𝒋
    ~ 𝑾𝒊𝒌
    を計算する
    a. 各点𝑋!
    は近傍点の線形結合として表す
    b. コスト関数を最⼩化することで重み𝑊!"
    を求める
    c. 重み⾏列を作成する
    3. パラメータ𝒘𝒊𝒋
    を⽤いて低次元座標を求める
    a. 再構成誤差を最⼩化することで座標Yを求める
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

    View full-size slide

  21. nLLEのステップ
    1. 各データポイント𝑿𝒊
    の近傍を計算する
    a. knnで全てのデータ点のk最近傍を⾒つける
    b. 近接グラフを構築
    2. 重み𝑾𝒊𝒋
    ~ 𝑾𝒊𝒌
    を計算する
    a. 各点𝑋!
    は近傍点の線形結合として表す
    b. コスト関数を最⼩化することで重み𝑊!"
    を求める
    c. 重み⾏列を作成する
    3. パラメータ𝒘𝒊𝒋
    を⽤いて低次元座標を求める
    a. 再構成誤差を最⼩化することで座標Yを求める
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

    View full-size slide

  22. nLLEのステップ
    1. 各データポイント𝑿𝒊
    の近傍を計算する
    a. knnで全てのデータ点のk最近傍を⾒つける
    b. 近接グラフを構築
    2. 重み𝑾𝒊𝒋
    ~ 𝑾𝒊𝒌
    を計算する
    a. 各点𝑋!
    は近傍点の線形結合として表す
    b. コスト関数を最⼩化することで重み𝑊!"
    を求める
    c. 重み⾏列を作成する
    3. パラメータ𝒘𝒊𝒋
    を⽤いて低次元座標を求める
    a. 再構成誤差を最⼩化することで座標Yを求める
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

    View full-size slide

  23. nLLEのステップ
    1. 各データポイント𝑿𝒊
    の近傍を計算する
    a. knnで全てのデータ点のk最近傍を⾒つける
    b. 近接グラフを構築
    2. 重み𝑾𝒊𝒋
    ~ 𝑾𝒊𝒌
    を計算する
    a. 各点𝑋!
    は近傍点の線形結合として表す
    b. コスト関数を最⼩化することで重み𝑊!"
    を求める
    c. 重み⾏列を作成する
    3. パラメータ𝒘𝒊𝒋
    を⽤いて低次元座標を求める
    a. 再構成誤差を最⼩化することで座標Yを求める
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

    View full-size slide

  24. n 強み
    l ⽐較的早い
    ► 反復法を含まないので
    l ノンパラメトリック
    ► 近傍サイズのみがヒューリスティック
    n 弱点
    l 外れ値やノイズに敏感
    ► データセットの密度は様々であり,スムーズな多様体構造を持たない
    時,結果が良くない
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    引⽤元:
    https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107
    https://cs.nyu.edu/~roweis/lle/algorithm.htm

    View full-size slide

  25. n 強み
    l ⽐較的早い
    ► 反復法を含まないので
    l ノンパラメトリック
    ► 近傍サイズのみがヒューリスティック
    n 弱点
    l 外れ値やノイズに敏感
    ► データセットの密度は様々であり,スムーズな多様体構造を持たない
    時,結果が良くない
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    引⽤元:
    https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107
    https://cs.nyu.edu/~roweis/lle/algorithm.htm

    View full-size slide

  26. n改良⼿法
    l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06]
    ► LLEの正規化問題を修正した⼿法
    ► ⽅法︓各近傍で複数の重みベクトルを使⽤する
    l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03]
    ► あるいは,Hessian eigenmapsという.
    ► LLEの正規化問題を修正したもう1つの⼿法
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    引⽤元:
    hAps://towardsdatascience.com/lle-locally-linear-embedding-a-niBy-way-to-reduce-dimensionality-in-python-ab5c38336107
    hAps://cs.nyu.edu/~roweis/lle/algorithm.htm

    View full-size slide

  27. n改良⼿法
    l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06]
    ► LLEの正規化問題を修正した⼿法
    ► ⽅法︓各近傍で複数の重みベクトルを使⽤する
    l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03]
    ► あるいは,Hessian eigenmapsという.
    ► LLEの正規化問題を修正したもう1つの⼿法
    LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]
    引⽤元:
    https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107
    https://cs.nyu.edu/~roweis/lle/algorithm.htm
    これら⼿法の説明は,今回は割愛します🙇‍‍‍

    View full-size slide

  28. MDS ;multi-dimensional scaling (多次元尺度法)
    n点群間の⾮類似性を保持しながら平⾯へ写像する
    l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ
    l 必ずしも,距離でなくてもよい(扱うデータの性質により分類される)
    ► 計量データの場合︔metric MDS
    ► ⾮計量データの場合︔non-metric MDS

    View full-size slide

  29. MDS ;multi-dimensional scaling (多次元尺度法)
    n点群間の⾮類似性を保持しながら平⾯へ写像する
    l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ
    l 必ずしも,距離でなくてもよい(扱うデータの性質により分類される)
    ► 計量データの場合︔metric MDS
    ► ⾮計量データの場合︔non-metric MDS
    今回は便宜上,metric MDSを説明します

    View full-size slide

  30. n厳密には,データは距離の公理を前提とする
    n簡単にいうと
    l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適
    化問題として定式化される
    ここで,
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  31. 補⾜︓距離の公理.
    (1) 対称性 iとjを⼊れ替えてもdは不変
    (2) 同⼀性 「dが0であること」と「iとjが等しいこと」が同値である
    (3) ⾮負性 dは負の値にはならない
    (4) 三⾓不等式 任意の3つのベクトルに対して,三⾓不等式が成り⽴つ
    𝑑!"
    𝑑!#
    𝑑#"
    i
    k
    j
    距離の公理

    View full-size slide

  32. n厳密には,データは距離の公理を前提とする
    n簡単にいうと
    l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適
    化問題として定式化される
    ここで,
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  33. Metric-MDS ;metric multi-dimensional scaling
    n厳密には,データは距離の公理を前提とする
    n簡単にいうと
    l 元の距離と投影されたペアワイズ距離の平⽅の差を最⼩化する最適化
    問題として定式化される
    ここで,

    View full-size slide

  34. nアルゴリズムは様々ある
    n古典的な⼿法は,内積からy座標への変換を考えるもの
    l 距離を求める
    ► 距離⾏列D(")(n次正⽅⾏列)を作成する
    l Young-Householder変換でグラム⾏列B(内積⾏列のこと)に変換する
    ► 中⼼化⾏列を⽤いて,グラム⾏列Bを得る
    l ⾏列Bの固有値・固有ベクトルを⾒つける
    ► グラム⾏列Bのスペクトル分解を⾏う(∵Bはn×nの実対称⾏列)
    ► 固有値の対⾓⾏列Λ = 𝑑𝑖𝑎𝑔(𝜆$
    , … , 𝜆%
    ) , 固有ベクトル⾏列𝑉 = (𝑣$
    , … , 𝑣%
    )&
    l 固有値・固有ベクトルからk次元の構成を定義する
    sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク)
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  35. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算

    View full-size slide

  36. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算

    View full-size slide

  37. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算
    つまり,点間距離を求めることは
    内積を求めることに等しい
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf

    View full-size slide

  38. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算

    View full-size slide

  39. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算

    View full-size slide

  40. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算

    View full-size slide

  41. n距離⾏列 𝑫(𝒙)
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    Young-household
    変換
    →内積⾏列のこと
    nグラム⾏列 Β
    →この内積を𝑏!"
    とする.
    距離⾏列の2乗に
    両側から中⼼化⾏
    列を掛ける演算

    View full-size slide

  42. →内積⾏列のこと
    nグラム⾏列 Β
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    グラム⾏列Β から
    固有値
    固有ベクトル
    を得る. nグラム⾏列Β は n×n の実対称⾏列なので,
    “スペクトル分解”することができる.
    従って, を得る.
    n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選
    択することで,k 次元の構成を定義できる.
    diag : 対⾓⾏列

    View full-size slide

  43. →内積⾏列のこと
    nグラム⾏列 Β
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    グラム⾏列Β から
    固有値
    固有ベクトル
    を得る. nグラム⾏列Β は n×n の実対称⾏列なので,
    “スペクトル分解”することができる.
    従って, を得る.
    n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選
    択することで,k 次元の構成を定義できる.
    diag : 対⾓⾏列

    View full-size slide

  44. →内積⾏列のこと
    nグラム⾏列 Β
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    グラム⾏列Β から
    固有値
    固有ベクトル
    を得る. nグラム⾏列Β は n×n の実対称⾏列なので,
    “スペクトル分解”することができる.
    従って, を得る.
    n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選
    択することで,k 次元の構成を定義できる.
    diag : 対⾓⾏列

    View full-size slide

  45. →内積⾏列のこと
    nグラム⾏列 Β
    Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    グラム⾏列Β から
    固有値
    固有ベクトル
    を得る. nグラム⾏列Β は n×n の実対称⾏列なので,
    “スペクトル分解”することができる.
    従って, を得る.
    n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選
    択することで,k 次元の構成を定義できる.
    diag : 対⾓⾏列

    View full-size slide

  46. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  47. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  48. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  49. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    hLp://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    hLps://en.wikipedia.org/wiki/MulMdimensional_scaling
    hLps://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    hLp://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  50. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  51. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  52. Metric-MDS ;metric multi-dimensional scaling
    参考⽂献:
    http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html
    https://en.wikipedia.org/wiki/Multidimensional_scaling
    https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e
    http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf
    nここまでを踏まえ,先頭の最適化問題で導く
    内積に
    相当する
    グラム⾏列が
    実対称⾏列
    なので
    𝐵 = 𝑋∗)𝑋∗
    n次正⽅⾏列 A=[𝑎#$
    ] に対する
    トレースとは,対⾓成分の和
    に等しい.
    𝑡𝑟𝐴 = -
    *+,
    -
    𝑎**
    定義:トレース

    View full-size slide

  53. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  54. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  55. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  56. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  57. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  58. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  59. nここまでを踏まえ,先頭の最適化問題で導く
    Metric-MDS ;metric multi-dimensional scaling
    スペクトル分解
    により
    とする.

    View full-size slide

  60. nここまでを踏まえ,先頭の最適化問題で導く
    𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化
    𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル
    Λ は上位 k 個の固有値
    𝑌=𝑉𝛬′3/4
    𝑌 = 𝑄𝛬′3/4
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  61. nここまでを踏まえ,先頭の最適化問題で導く
    𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化
    𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル
    Λ は上位 k 個の固有値
    𝑌=𝑉𝛬′3/4
    𝑌 = 𝑄𝛬′3/4
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  62. nここまでを踏まえ,先頭の最適化問題で導く
    𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化
    𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル
    Λ は上位 k 個の固有値
    𝑌=𝑉𝛬′3/4
    𝑌 = 𝑄𝛬′3/4
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  63. nここまでを踏まえ,先頭の最適化問題で導く
    𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化
    𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル
    Λ は上位 k 個の固有値
    𝑌=𝑉𝛬′3/4
    𝑌 = 𝑄𝛬′3/4
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  64. nここまでを踏まえ,先頭の最適化問題で導く
    𝜦ʼ を 𝜦 の上位 k 個の成分要素にすることで 最適化
    𝒀 = 𝑽𝜦′𝟏/𝟐 V は上位 k 個の固有値に相当する固有ベクトル
    Λ は上位 k 個の固有値
    𝑌=𝑉𝛬′3/4
    𝑌 = 𝑄𝛬′3/4
    Metric-MDS ;metric multi-dimensional scaling

    View full-size slide

  65. n固有値分解の⼿法をまとめると
    l 固有ベクトル︓低次元埋込みを⽣成するためのスケーリング
    l 固有値︓寄与率の測定
    l 固有値の数︓次元削減後の次元数
    n現在は,SMACOFアルゴリズム(反復法︖)による最適化が主流
    l 原論︓Multidimensional Scaling Using Majorization: SMACOF in R*
    Metric-MDS ;metric multi-dimensional scaling
    sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク)

    View full-size slide

  66. n固有値分解の⼿法をまとめると
    l 固有ベクトル︓低次元埋込みを⽣成するためのスケーリング
    l 固有値︓寄与率の測定
    l 固有値の数︓次元削減後の次元数
    n現在は,SMACOFアルゴリズム(反復法︖)による最適化が主流
    l 原論︓Multidimensional Scaling Using Majorization: SMACOF in R*
    Metric-MDS ;metric multi-dimensional scaling
    sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) * (J.Stat.So

    View full-size slide

  67. n 近傍グラフを⽤いて,多様体上の 測地線距離を求め,
    MDSを⽤いて低次元空間に埋め込む⼿法
    曲⾯(リーマン多様体)上の⼗分に近い2
    つの離れた点が最短線で結ばれた曲線.
    測地線 (geodesic)
    ユークリッド距離は,データセットの形状の形状を無視
    しているのに対し,測地線距離は,隣接するデータを考
    慮するので直感的にmetric-MDSより上⼿くいきそう
    ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]
    引⽤:isomap-embedding-an-awesome-approach-to-non-linear-dimensionality-reduction

    View full-size slide

  68. n 近傍グラフを⽤いて,多様体上の 測地線距離を求め,
    MDSを⽤いて低次元空間に埋め込む⼿法
    曲⾯(リーマン多様体)上の⼗分に近い2
    つの離れた点が最短線で結ばれた曲線.
    測地線 (geodesic)
    ユークリッド距離は,データセットの形状の形状を無視
    しているのに対し,測地線距離は,隣接するデータを考
    慮するので直感的にmetric-MDSより上⼿くいきそう
    ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]
    引⽤:isomap-embedding-an-awesome-approach-to-non-linear-dimensionality-reduc5on

    View full-size slide

  69. n ステップ
    1. 各データポイント𝑿𝒊
    のk近傍を選択
    ► ⼀定の半径r or k近傍法
    2. 近傍グラフを構築する
    3. グラフ上の全てのペア間の測地線距離を計算

    4. MDSを適⽤して,マッピング
    ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]
    Floyd-Warshall
    フ ロ イ ド - ワ ー シ ャ ル
    法 or Dijkstra
    ダ イ ク ス ト ラ

    引⽤:
    https://www.numerical-tours.com/matlab/shapes_7_isomap/
    https://towardsdatascience.com/preserving-geodesic-distance-for-non-linear-datasets-isomap-d24a1a1908b2

    View full-size slide

  70. n 強み
    l グローバルデータ構造を保持する
    l ノンパラメトリック
    ► 近傍サイズのみがヒューリスティック
    n 弱点
    l ⾮常に遅い
    l 「ショートカット」に敏感
    ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]

    View full-size slide

  71. n 強み
    l グローバルデータ構造を保持する
    l ノンパラメトリック
    ► 近傍サイズのみがヒューリスティック
    n 弱点
    l ⾮常に遅い
    l 「ショートカット」に敏感
    ISOMAP ;Isometric Feature Mapping [Tenenbaum+,Scienceʼ00]

    View full-size slide

  72. SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]
    n⾼次元空間上のユークリッド距離を,データ点の類似度
    を表現する条件付き確率に変換する⼿法
    𝑥!
    𝑥"
    𝑥#
    ガウス分布
    💡Idea
    𝑥$
    を中⼼とするガウス分布の密度に
    ⽐例して近傍が選択されてほしい
    ► 条件付き確率が⾼い → 近い
    ► 条件付き確率が低い → 遠い

    View full-size slide

  73. n⾼次元空間上のユークリッド距離を,データ点の類似度
    を表現する条件付き確率に変換する⼿法
    𝑥!
    𝑥"
    𝑥#
    ガウス分布
    💡Idea
    𝑥$
    を中⼼とするガウス分布の密度に
    ⽐例して近傍が選択されてほしい
    ► 条件付き確率が⾼い → 近い
    ► 条件付き確率が低い → 遠い
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  74. n データ点𝑥5
    に対するデータ𝑥6
    の条件付き確率は,
    nマップ点の条件付き確率は,
    𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊
    にしたい
    ► 𝑝'|)
    ≈ 𝑞'|)
    の間のKL距離(ダイバージェンス)を最⼩化するような
    マップ点の探索を⾏う
    𝑥! , 𝑥" : ⾼次元空間のデータ点
    σ!
    $: x!
    を中⼼としたガウス分布の分散
    𝑦!
    , 𝑦"
    : 低次元空間のデータ点
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  75. n データ点𝑥5
    に対するデータ𝑥6
    の条件付き確率は,
    nマップ点の条件付き確率は,
    𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊
    にしたい
    ► 𝑝'|)
    ≈ 𝑞'|)
    の間のKL距離(ダイバージェンス)を最⼩化するような
    マップ点の探索を⾏う
    𝑥! , 𝑥" : ⾼次元空間のデータ点
    σ!
    $: x!
    を中⼼としたガウス分布の分散
    𝑦!
    , 𝑦"
    : 低次元空間のデータ点
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  76. n データ点𝑥5
    に対するデータ𝑥6
    の条件付き確率は,
    nマップ点の条件付き確率は,
    𝒑𝒋|𝒊 ≈ 𝒒𝒋|𝒊
    にしたい
    ► 𝑝'|)
    ≈ 𝑞'|)
    の間のKL距離(ダイバージェンス)を最⼩化するような
    マップ点の探索を⾏う
    𝑥! , 𝑥" : ⾼次元空間のデータ点
    σ!
    $: x!
    を中⼼としたガウス分布の分散
    𝑦!
    , 𝑦"
    : 低次元空間のデータ点
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  77. 補⾜︓KL距離 (Kullback-Leibler divergence)
    n確率分布Pが,確率分布Qとどのように異なるかの尺度.
    l 𝐷'((P||Q)
    ► この式は,Qに対するPのKL divergenceを表す.

    View full-size slide

  78. 補⾜︓KL距離 (Kullback-Leibler divergence)
    n確率分布Pが,確率分布Qとどのように異なるかの尺度.
    l 𝐷'((P||Q)
    ► この式は,Qに対するPのKL divergenceを表す.

    View full-size slide

  79. n勾配法を⽤いてKL距離の最⼩化を⾏う.
    l コスト関数︓全てのデータ点に対するKL距離の和
    l コスト関数をモメンタム※1
    導⼊の勾配法により更新
    𝑃*
    : 𝑥*
    に対する全てのデータ点の条件付き確率分布
    Q*
    :y*
    に対する全てのデータ点の条件付き確率分布
    𝑌(/):時刻tにおけるマップ点
    𝜂:学習率 𝛽(t):時刻tにおけるモメンタム
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  80. n勾配法を⽤いてKL距離の最⼩化を⾏う.
    l コスト関数︓全てのデータ点に対するKL距離の和
    l コスト関数をモメンタム※1
    導⼊の勾配法により更新
    𝑃*
    : 𝑥*
    に対する全てのデータ点の条件付き確率分布
    Q*
    :y*
    に対する全てのデータ点の条件付き確率分布
    𝑌(/):時刻tにおけるマップ点
    𝜂:学習率 𝛽(t):時刻tにおけるモメンタム
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  81. n勾配法を⽤いてKL距離の最⼩化を⾏う.
    l コスト関数︓全てのデータ点に対するKL距離の和
    l コスト関数をモメンタム※1
    導⼊の勾配法により更新
    ※1 ⾼速化⼿法であり,局所解になりにくい効果もある.
    𝑃*
    : 𝑥*
    に対する全てのデータ点の条件付き確率分布
    Q*
    :y*
    に対する全てのデータ点の条件付き確率分布
    𝑌(/):時刻tにおけるマップ点
    𝜂:学習率 𝛽(t):時刻tにおけるモメンタム
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  82. 補⾜︓モメンタム法;momentum(慣性)
    引⽤: h:ps://qiita.com/ophhdn/items/3deaf4fcc43b4f027458
    単純な勾配降下法(左)とモメンタム法(右)の⽐較

    View full-size slide

  83. n弱点
    1.コスト関数の最適化が困難
    ► ノイズ初期値とその減少率の設定がシビア
    ► パラメータの探索に⾮常に時間を要する
    ► 収束が確約された他の⼿法の⽅が使いやすい
    2.Crowding問題
    ► 次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  84. n弱点
    1.コスト関数の最適化が困難
    ► ノイズ初期値とその減少率の設定がシビア
    ► パラメータの探索に⾮常に時間を要する
    ► 収束が確約された他の⼿法の⽅が使いやすい
    2.Crowding問題
    ► 次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  85. n弱点
    1.コスト関数の最適化が困難
    ► ノイズ初期値とその減少率の設定がシビア
    ► パラメータの探索に⾮常に時間を要する
    ► 収束が確約された他の⼿法の⽅が使いやすい
    2.Crowding問題
    ► 次元を圧縮した時に近傍の点を中⼼に強く集めて押し潰す問題
    SNE ;Stochastic Neighbor Embedding [Hinton.G.E & Roweis,NIPSʼ02 ]

    View full-size slide

  86. Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
    nSNEの「コスト関数の最適化の問題」を解決する提案
    l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊
    )
    l 代替案︓条件付き確率分布 → 同時確率分布
    n同時確率で定義することでコスト関数は,
    l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋
    =𝒑𝒋𝒊
    , 𝒒𝒊𝒋
    =𝒒𝒋𝒊

    l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の
    空間の類似度の形を変更

    View full-size slide

  87. nSNEの「コスト関数の最適化の問題」を解決する提案
    l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊
    )
    l 代替案︓条件付き確率分布 → 同時確率分布
    n同時確率で定義することでコスト関数は,
    l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋
    =𝒑𝒋𝒊
    , 𝒒𝒊𝒋
    =𝒒𝒋𝒊

    l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の
    空間の類似度の形を変更
    Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  88. 復習︓SNEのコスト関数
    n 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋
    ≠ 𝒑𝒋|𝒊
    )

    View full-size slide

  89. 復習︓SNEのコスト関数
    n 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋
    ≠ 𝒑𝒋|𝒊
    )

    View full-size slide

  90. nSNEの「コスト関数の最適化の問題」を解決する提案
    l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊
    )
    l 代替案︓条件付き確率分布 → 同時確率分布
    n同時確率で定義することでコスト関数は,
    l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋
    =𝒑𝒋𝒊
    , 𝒒𝒊𝒋
    =𝒒𝒋𝒊

    l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の
    空間の類似度の形を変更
    Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]*
    *t-SNE論⽂「visualizing data using t-SNE」で紹介されている

    View full-size slide

  91. nSNEの「コスト関数の最適化の問題」を解決する提案
    l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊
    )
    l 代替案︓条件付き確率分布 → 同時確率分布
    n同時確率で定義することでコスト関数は,
    l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋
    =𝒑𝒋𝒊
    , 𝒒𝒊𝒋
    =𝒒𝒋𝒊

    l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の
    空間の類似度の形を変更
    Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  92. nSNEの「コスト関数の最適化の問題」を解決する提案
    l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊
    )
    l 代替案︓条件付き確率分布 → 同時確率分布
    n同時確率で定義することでコスト関数は,
    l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋
    =𝒑𝒋𝒊
    , 𝒒𝒊𝒋
    =𝒒𝒋𝒊

    l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の
    空間の類似度の形を変更
    Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  93. nSNEの「コスト関数の最適化の問題」を解決する提案
    l 問題︓コスト関数が⾮対称である点(𝒑𝒊|𝒋 ≠ 𝒑𝒋|𝒊
    )
    l 代替案︓条件付き確率分布 → 同時確率分布
    n同時確率で定義することでコスト関数は,
    l 分布が任意のiとjに対して対称( 𝒑𝒊𝒋
    =𝒑𝒋𝒊
    , 𝒒𝒊𝒋
    =𝒒𝒋𝒊

    l ただし,元の空間で点iが外れ値の時,問題※が起きるので,元の
    空間の類似度の形を変更
    ※元の空間で点iが外れ値の時𝒑𝒊𝒋
    が⾮常に⼩さくなり,コスト関数への影響⼒が⼩さくなる
    Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  94. n勾配の変化: SNE → Symmetric-SNE
    Symmetric-SNE [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  95. t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
    nSymmetric-SNE 同様に同時確率分布で定義
    nSNEの「Crowding問題」を解決する提案
    l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める
    l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を
    ガウス分布 → Student-t分布(⾃由度1) に変更
    ► ガウス分布
    ► Student-t分布(df=1)

    View full-size slide

  96. nSymmetric-SNE 同様に同時確率分布で定義
    nSNEの「Crowding問題」を解決する提案
    l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める
    l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を
    ガウス分布 → Student-t分布(⾃由度1) に変更
    ► ガウス分布
    ► Student-t分布(df=1)
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  97. nSymmetric-SNE 同様に同時確率分布で定義
    nSNEの「Crowding問題」を解決する提案
    l 問題︓次元を圧縮した時に,近傍の点を中⼼に強く押し集める
    l 代替案︓低次元空間(マップ)上での2点間の類似度の計算の基準を
    ガウス分布 → Student-t分布(⾃由度1) に変更
    ► ガウス分布
    ► Student-t分布(df=1)
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  98. n ガウス分布とt分布
    colab
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  99. n ガウス分布とt分布
    colab
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  100. n ガウス分布とt分布
    colab
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  101. n ガウス分布とt分布
    ヘヴィーテイル(heavy-tail)なので
    より遠くへ配置可能に
    colab
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  102. nt分布(⾃由度1)を利⽤したマップ点の同時確率は,
    nこの場合の勾配は,
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  103. nt分布(⾃由度1)を利⽤したマップ点の同時確率は,
    nこの場合の勾配は,
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  104. nヒートマップによる勾配の⽐較(SNE, t-SNE)
    l 横軸︓元の次元での距離 縦軸︓低次元での距離
    l 勾配が正の時に引⼒,負の時に斥⼒が働く
    引⽤:Visualizing Data using t-SNE
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  105. nヒートマップによる勾配の⽐較(SNE, t-SNE)
    l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒
    l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒
    低次元(近)かつ元の次元(遠)の時 → 斥⼒
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  106. nヒートマップによる勾配の⽐較(SNE, t-SNE)
    l SNE︓元の次元(近)かつ低次元(遠)の時 → 引⼒
    l t-SNE︓元の次元(近)かつ低次元(近)の時 → 引⼒
    低次元(近)かつ元の次元(遠)の時 → 斥⼒
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  107. nヒートマップによる勾配の⽐較(SNE, t-SNE)
    l つまり,t-SNEの勾配は(SNEよりも)本質的
    ► 「元の次元で距離が離れたデータ点」は,類似しない点として計算
    ► 「距離が近いデータ点」は,類似する点として計算
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  108. nt-SNEの課題
    l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数
    ► 特徴抽出等には適⽤しにくい
    ► ⾼次元空間への圧縮では,構造を保持することが難しい
    l 本質的な次元が⾼いデータではイマイチ
    ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー
    マンスが低下する
    l ⽬的変数の収束が担保されていない
    ► コスト関数の凸性が証明されていない
    l アルゴリズム的な⽋点
    ► 計算に時間が⾮常にかかる,メモリ消費量が多い
    引⽤元:
    https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7
    https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  109. nt-SNEの課題
    l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数
    ► 特徴抽出等には適⽤しにくい
    ► ⾼次元空間への圧縮では,構造を保持することが難しい
    l 本質的な次元が⾼いデータではイマイチ
    ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー
    マンスが低下する
    l ⽬的変数の収束が担保されていない
    ► コスト関数の凸性が証明されていない
    l アルゴリズム的な⽋点
    ► 計算に時間が⾮常にかかる,メモリ消費量が多い
    引⽤元:
    hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7
    hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  110. nt-SNEの課題
    l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数
    ► 特徴抽出等には適⽤しにくい
    ► ⾼次元空間への圧縮では,構造を保持することが難しい
    l 本質的な次元が⾼いデータではイマイチ
    ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー
    マンスが低下する
    l ⽬的変数の収束が担保されていない
    ► コスト関数の凸性が証明されていない
    l アルゴリズム的な⽋点
    ► 計算に時間が⾮常にかかる,メモリ消費量が多い
    引⽤元:
    https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7
    https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  111. nt-SNEの課題
    l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数
    ► 特徴抽出等には適⽤しにくい
    ► ⾼次元空間への圧縮では,構造を保持することが難しい
    l 本質的な次元が⾼いデータではイマイチ
    ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー
    マンスが低下する
    l ⽬的変数の収束が担保されていない
    ► コスト関数の凸性が証明されていない
    l アルゴリズム的な⽋点
    ► 計算に時間が⾮常にかかる,メモリ消費量が多い
    引⽤元:
    https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7
    https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  112. nt-SNEの課題
    l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数
    ► 特徴抽出等には適⽤しにくい
    ► ⾼次元空間への圧縮では,構造を保持することが難しい
    l 本質的な次元が⾼いデータではイマイチ
    ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー
    マンスが低下する
    l ⽬的変数の収束が担保されていない
    ► コスト関数の凸性が証明されていない
    l アルゴリズム的な⽋点
    ► 計算に時間が⾮常にかかる,メモリ消費量が多い
    引⽤元:
    https://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7
    https://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  113. nt-SNEの課題
    l 可視化のための⼿法であり,⼀般タスクでの振る舞いは未知数
    ► 特徴抽出等には適⽤しにくい
    ► ⾼次元空間への圧縮では,構造を保持することが難しい
    l 本質的な次元が⾼いデータではイマイチ
    ► ⾼次元データが実際に⾼い内在次元を持っている場合に,パフォー
    マンスが低下する
    l ⽬的変数の収束が担保されていない
    ► コスト関数の凸性が証明されていない
    l アルゴリズム的な⽋点
    ► 計算に時間が⾮常にかかる,メモリ消費量が多い
    引⽤元:
    hEps://medium.com/data-folks-indonesia/the-underlying-idea-of-t-sne-6ce4cff4f7
    hEps://www.slideshare.net/t_koshikawa/visualizing-data-using-tsne-56773191
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]

    View full-size slide

  114. n発展⼿法
    n 全データ点間距離の計算重い→kNN探索⼜は,近似kNN探索(kNNグラフ構築) の流れ
    l Barnes-Hut-SNE (;BH-t-SNE) [Maaten.L.V. ,ICLRʼ13]
    ► VP-tree*1とBarnes-Hutアルゴリズム*2を⽤いて,t-SNEを近似的⽅法で⾼速化&省メモリ化
    ► 𝑶 𝑵𝟐 → 𝑶( 𝑵 𝒍𝒐𝒈 𝑵 )
    l LargeVis [Tang.J.+,WWWʼ16]
    ► RP-treeベース*3のアルゴリズム
    ► ⼤規模,⾼次元データに効果的な⼿法の提案
    ► BH-t-SNEよりもはるかにスケーリング(数百万次元のデータにも拡張可能)
    l AtSNE [Fu.C.+,KDDʼ19]
    ► GPUベースのソリューション
    ► 上記⼿法と⽐較して,5~28倍の速度向上
    t-SNE ;t-distributed Stochastic Neighbor Embedding
    [Maaten.L.V. & Hinton.G.E, JMLRʼ08]
    *2 Barnes-hutアルゴリズムはN体シミュレーションで⽤いられるアルゴリズム
    *1 Vantage-point treeはk最近傍グラフの構築に⽤いる空間分割⽊(space-portioning trees)の1種
    *3 Random Projection treeも*1と同様の空間分割⽊の1種

    View full-size slide

  115. UMAP ; Uniform Manifold Approximation and Projection
    [Mclnnes.L.+, JOSSʼ18]
    n 圏論の概念で書かれており,理解困難なので要点のみ
    n t-SNEと⽐較して
    l ⾼速
    l スケーラブル
    ► 埋め込み後の次元数を⼤きくしても現実的な時間内に収束
    l グローバル・ローカルな構造をうまく捉えている
    l 既存の埋め込みに新しいデータ点を追加できる
    l 多様体学習における強固な理論的基盤をもつ
    l 応⽤が効く
    ► 様々な距離を扱える
    ► 教師あり・半教師ありの次元削減ができる
    理論的な解説記事:
    https://github.com/cympfh/cympfh.github.io/blob/master/paper/UMAP.md

    View full-size slide

  116. n MNISTの画像10000枚でt-SNEと⽐較
    引⽤: https://qiita.com/cympfh/items/e8c2669c646a73205ea9
    $me: 28.3s time: 4min24s
    UMAP t-SNE
    UMAP ; Uniform Manifold Approximation and Projection
    [Mclnnes.L.+, JOSSʼ18]

    View full-size slide

  117. 参考⽂献
    n 英wiki『nonlinear-dimensionality-reduction』
    n haifa⼤学『Unsupervised Learning』資料
    n github『drewwilimitis/Manifold-Learning』
    n 書籍︓『Manifold Learning Theory and Applications 』
    → Google scholarで検索するとFreeでDLできました

    View full-size slide

  118. 別添︓PCAとIsomap,LLEの⽐較
    nS字型のデータセット(3次元空間内の2次元多様体)
    colab

    View full-size slide

  119. 別添︓mnistでの⽐較
    nOpen-ML(mnist_784)
    colab
    MDE; Minimum-Distortion Embedding[Agrawal.A+, Found.Trends Mach.Learn(2021)] paper
    https://pymde.org/
    https://www.akshayagrawal.com/
    https://twitter.com/akshaykagrawal/status/1374774666565361664?s=20&t=TpSYgnIxqBw8LbHO0JR2bg

    View full-size slide

  120. 別添︓k-NNグラフの構築
    n最近傍探索⼿法は,⼤きく3つに分類される
    l Space partitioning trees
    ► 空間を⽊で幾つかの領域に分けていく
    ► 遠くにあるものに可能な限りアクセスしない⼿段により判定処理を減ら
    す効果
    ► e.g.) kd trees, vp-trees, cover trees, RP-trees
    l Locality Sensitive Hashing ;LSH
    l Neighbor exploring techniques
    ► e.g.) NN-Descent
    nANN-Benchmarks [Aumüller, M.+,SISAPʼ18] github
    参考:
    hAps://github.com/vwrs/gitpitch-test/blob/master/PITCHME.md
    hAps://ak-blog.hatenablog.jp/entry/20130426/1366990657
    hAps://speakerdeck.com/matsui_528/jin-si-zui-jin-bang-tan-suo-falsezui-qian-xian?slide=30

    View full-size slide