次元削減・多様体学習 /maniford-learning20200707

Slide 1

Slide 1 text

次元削減・多様体学習 -第10回 ML基礎- 仲宗根太朗 2022.07.07 Master輪講会

Slide 2

Slide 2 text

⽬次 n イントロ l 次元削減について l linear⼿法とnon-linear⼿法 l なぜnon-linear⼿法が必要なのか l 多様体学習とは n 多様体学習⼿法の説明 l LLE+ l MDS ~ ISOMAP l SNE ~ t-SNE+ l UMAP

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

イントロ︓次元削減について n機械学習における主要な問題の１つ l ⾼次元データの次元削減 ► データが⾼次元空間に表⽰される場合でも，その複雑さは低く，低次元空間で表現できるという仮定に基づく n次元を減らす応⽤上の動機 l 可視化 ► 3次元以下に次元を落とすことで図⽰可能にする l データの圧縮 ► 計算量削減が期待される l 特徴抽出・選択

Slide 6

Slide 6 text

イントロ︓次元削減について n次元削減の２つの標準形 l PCA ;principal component analysis (1901） ► 可能な限り多くの分散をとる元データの線形写像を⾒つける ► アルゴリズム︓データ共分散⾏列の上位固有ベクトルから最⼤分散の線形写像を計算する． l MDS ;multi-dimensional scaling (1962) ► 距離関数により点群間の⾮類似性を保持しながら平⾯へ写像 ► イメージとしては，距離の情報から地図を作るような感じ

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

linear⼿法とnon-linear⼿法マインドマップ https://www.edrawmind.com/online/map.html?sharecode=62624523c1cb02a06096548 https://www.edrawmind.com/online/map.html?sharecode=6262444e7fb0e0a68444152

Slide 10

Slide 10 text

なぜnon-linear⼿法が必要なのか︖ (a)のような，データ点が⾮線形多様体上にあることがわかるデータ集合に線形(射影)⼿法を適⽤すると，(b)のように正しい展開ではなく，(c)のような結果になる．

Slide 11

Slide 11 text

なぜnon-linear⼿法が必要なのか︖ (a)のような，データ点が⾮線形多様体上にあることがわかるデータ集合に線形(射影)⼿法を適⽤すると，(b)のように正しい展開ではなく，(c)のような結果になる．データの⾮線形性を処理する場合，⾮線形⼿法が必要となる

Slide 12

Slide 12 text

⾮線形次元削減 (non-linear dimensionality reduction ; NLDR) nNLDR = 多様体学習(manifold-learning) l ⼀般的なトポロジーと微分幾何学の概念 l ⽕種となった論⽂ ► “A global geometric framework for nonlinear dimensionality reduction.” [Tenenbaum+,Scienceʼ00] (12275引⽤) ► “Nonlinear dimensionality reduction by locally linear embedding.” [Roweis and Saul,Scienceʼ00] (14061引⽤) l 多様体学習は，⾼次元データが低次元の⾮線形多様体に埋め込まれているという仮定に基づく

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

多様体学習⼿法の説明

Slide 16

Slide 16 text

LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] nデータは多様体上にあり、各サンプルとその近傍はほぼ線形部分空間上にあると仮定した⼿法多様体上のデータをどう表すか︖ ► 多様体は局所的にみればユークリッド (線形空間)とみなせる ► 狭い範囲で構築した線形モデルをなめらかに繋げれば，多様体を表現できる 💡idea

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

nLLEのステップ 1. 各データポイント𝑿𝒊 の近傍を計算する a. knnで全てのデータ点のk最近傍を⾒つける b. 近接グラフを構築 2. 重み𝑾𝒊𝒋 ~ 𝑾𝒊𝒌 を計算する a. 各点𝑋! は近傍点の線形結合として表す b. コスト関数を最⼩化することで重み𝑊!" を求める c. 重み⾏列を作成する 3. パラメータ𝒘𝒊𝒋 を⽤いて低次元座標を求める a. 再構成誤差を最⼩化することで座標Yを求める LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00]

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

n 強み l ⽐較的早い ► 反復法を含まないので l ノンパラメトリック ► 近傍サイズのみがヒューリスティック n 弱点 l 外れ値やノイズに敏感 ► データセットの密度は様々であり，スムーズな多様体構造を持たない時，結果が良くない LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm

Slide 25

Slide 25 text

Slide 26

Slide 26 text

n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06] ► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは，Hessian eigenmapsという． ► LLEの正規化問題を修正したもう１つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: hAps://towardsdatascience.com/lle-locally-linear-embedding-a-niBy-way-to-reduce-dimensionality-in-python-ab5c38336107 hAps://cs.nyu.edu/~roweis/lle/algorithm.htm

Slide 27

Slide 27 text

n改良⼿法 l MLLE ;Modified Locally Linear Embedding [Z.Zhang and J.Wang,NIPSʼ06] ► LLEの正規化問題を修正した⼿法 ► ⽅法︓各近傍で複数の重みベクトルを使⽤する l HLLE ;Hessian Locally Linear Embedding [Donoho and Grimes,PNASʼ03] ► あるいは，Hessian eigenmapsという． ► LLEの正規化問題を修正したもう１つの⼿法 LLE ;Locally Linear Embedding [Roweis and Saul,Scienceʼ00] 引⽤元: https://towardsdatascience.com/lle-locally-linear-embedding-a-nifty-way-to-reduce-dimensionality-in-python-ab5c38336107 https://cs.nyu.edu/~roweis/lle/algorithm.htm これら⼿法の説明は，今回は割愛します🙇‍‍‍

Slide 28

Slide 28 text

MDS ;multi-dimensional scaling (多次元尺度法) n点群間の⾮類似性を保持しながら平⾯へ写像する l イメージ: ⾮類似性(ex.距離)の情報から地図を作るような感じ l 必ずしも，距離でなくてもよい(扱うデータの性質により分類される) ► 計量データの場合︔metric MDS ► ⾮計量データの場合︔non-metric MDS

Slide 29

Slide 29 text

Slide 30

Slide 30 text

n厳密には，データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅根の差を最⼩化する最適化問題として定式化されるここで， Metric-MDS ;metric multi-dimensional scaling

Slide 31

Slide 31 text

補⾜︓距離の公理. (1) 対称性 iとjを⼊れ替えてもdは不変 (2) 同⼀性｢dが0であること｣と｢iとjが等しいこと｣が同値である (3) ⾮負性 dは負の値にはならない (4) 三⾓不等式任意の3つのベクトルに対して，三⾓不等式が成り⽴つ 𝑑!" 𝑑!# 𝑑#" i k j 距離の公理

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Metric-MDS ;metric multi-dimensional scaling n厳密には，データは距離の公理を前提とする n簡単にいうと l 元の距離と投影されたペアワイズ距離の平⽅の差を最⼩化する最適化問題として定式化されるここで，

Slide 34

Slide 34 text

nアルゴリズムは様々ある n古典的な⼿法は，内積からy座標への変換を考えるもの l 距離を求める ► 距離⾏列D(")(n次正⽅⾏列)を作成する l Young-Householder変換でグラム⾏列B(内積⾏列のこと)に変換する ► 中⼼化⾏列を⽤いて，グラム⾏列Bを得る l ⾏列Bの固有値・固有ベクトルを⾒つける ► グラム⾏列Bのスペクトル分解を⾏う(∵Bはn×nの実対称⾏列) ► 固有値の対⾓⾏列Λ = 𝑑𝑖𝑎𝑔(𝜆$ , … , 𝜆% ) , 固有ベクトル⾏列𝑉 = (𝑣$ , … , 𝑣% )& l 固有値・固有ベクトルからk次元の構成を定義する sklearn.manifold.mdsはSMACOFアルゴリズムを使⽤(リンク) Metric-MDS ;metric multi-dimensional scaling

Slide 35

Slide 35 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする．距離⾏列の２乗に両側から中⼼化⾏列を掛ける演算

Slide 36

Slide 36 text

Slide 37

Slide 37 text

n距離⾏列 𝑫(𝒙) Metric-MDS ;metric multi-dimensional scaling Young-household 変換 →内積⾏列のこと nグラム⾏列 Β →この内積を𝑏!" とする．距離⾏列の２乗に両側から中⼼化⾏列を掛ける演算つまり，点間距離を求めることは内積を求めることに等しい参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

→内積⾏列のこと nグラム⾏列 Β Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf グラム⾏列Β から固有値固有ベクトルを得る. nグラム⾏列Β は n×n の実対称⾏列なので， “スペクトル分解”することができる．従って，を得る． n𝚲 の最⼤の固有値 k 個と対応する固有ベクトルを選択することで，k 次元の構成を定義できる． diag : 対⾓⾏列

Slide 43

Slide 43 text

Slide 44

Slide 44 text

Slide 45

Slide 45 text

Slide 46

Slide 46 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: http://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html https://en.wikipedia.org/wiki/Multidimensional_scaling https://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e http://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ，先頭の最適化問題で導く内積に相当するグラム⾏列が実対称⾏列なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対するトレースとは，対⾓成分の和に等しい． 𝑡𝑟𝐴 = - *+, - 𝑎** 定義：トレース

Slide 47

Slide 47 text

Slide 48

Slide 48 text

Slide 49

Slide 49 text

Metric-MDS ;metric multi-dimensional scaling 参考⽂献: hLp://lbm.ab.a.u-tokyo.ac.jp/~omori/similar_visual.html hLps://en.wikipedia.org/wiki/MulMdimensional_scaling hLps://qiita.com/szkyt/items/95f9ebde9cf70bb92f4e hLp://www.cs.haifa.ac.il/~rita/uml_course/lectures/PCA_MDS.pdf nここまでを踏まえ，先頭の最適化問題で導く内積に相当するグラム⾏列が実対称⾏列なので 𝐵 = 𝑋∗)𝑋∗ n次正⽅⾏列 A=[𝑎#$ ] に対するトレースとは，対⾓成分の和に等しい． 𝑡𝑟𝐴 = - *+, - 𝑎** 定義：トレース

Slide 50

Slide 50 text

Slide 51

Slide 51 text