Slide 1

Slide 1 text

PCAに関する最新動向 Sansan 株式会社 DSOC(Data Strategy & Operation Center) R&D Group 吉村 皐亮 SIL勉強会 機械学習編(2019/05/28)

Slide 2

Slide 2 text

⽬次: PCAに関する最新動向 はじめに PCA (主成分分析) とは PCAの類似⼿法 (t-SNE) 様々なPCAの派⽣ Probabilistic PCA Robust PCA Kernel PCA ICMLʼ19で受理されたPCA関連の論⽂の紹介 Phase transition in PCA with missing data: Reduced signal-to-noise ratio, not sample size! Refined Complexity of PCA with Outliers. Phaseless PCA: Low-Rank Matrix Recovery from Column-with Phaseless Measurements. まとめ 1

Slide 3

Slide 3 text

はじめに 2

Slide 4

Slide 4 text

PCA (主成分分析) とは: 可視化、圧縮、次元削減、特徴選択に⽤いられる⼿法. PCAを利⽤する場⾯ データの可視化, ⾮可逆圧縮, 次元削減, 特徴選択 など. PCAの⼆つの定義 [C. M. Bishop, 2006]) 1. 主部分空間上へのデータ点の直交射影. 2. 射影前後のデータ点間のコスト関数の期待値を最⼩化する線形射影. → これらはいずれも固有値が⼤きい順にM個の対応する固有ベクトルを 求めることに帰着する. 結局PCAって何? ⾼次元な観測空間にあるデータ集合を, 観測空間上での情報をできるだけ残しつつ, (⾃分が設定した) 低次元な潜在空間へ射影する⼿法. 3

Slide 5

Slide 5 text

PCAの類似⼿法: 可視化に特化したt-SNEという⼿法がある. t-SNE (t-distributed Stochastic Neighbor Embedding) とは ⽇本名:t分布型確率的近傍埋め込み ⾼次元観測空間上のデータ点同⼠の類似度 (近さ) をある程度保たせつつ 観測空間上の点と対応する点を低次元潜在空間上に配置する⼿法. 利点:類似度 (近さ) を元に低次元に埋め込むため, 観測空間上でのデータ点 同⼠の関係を反映した形で表現できるので可視化のための⼿法として有効. そのため, 普通は2次元か3次元空間への写像を⾏う. ⽋点:データ点同⼠の類似度 (近さ) を⽤いるため, 計算量がデータ点の数の 2乗のオーダーとなるため⼤規模データには対応できない. 計算量: (2), ただし, は観測空間の次元, はデータ点数. がある値より⼤きい場合にはより⾼速な, Barnes-Hut t-SNE という近似⼿法を⽤いる. 4

Slide 6

Slide 6 text

様々なPCAの派⽣ 5

Slide 7

Slide 7 text

Probabilistic PCA: データ中に⽋損値が存在する場合にも利⽤可能なPCA. Probabilistic PCA (確率的主成分分析) PCAを観測空間上のデータ点がある確率的な潜在変数モデルの最尤解として再定式化 したもの. = (|0, ), ( = (| + , 4) と定式化し, 潜在空間上の⼀点をサンプリン グすることで, そこから観測空間上のデータ点をサンプリングする⽣成モデルとして⾒る ことができる. 利点: PCAを実施するためのEMアルゴリズムを導出でき, これを⽤いることで上位の 固有ベクトルのみが必要な場合には⾼速に計算を⾏うことができる. 確率モデルとEMアルゴリズムを⽤いることで, データ集合内に⽋損値があっても扱うこと が可能. PCAをBayes的に扱うための基本的な⼿法ということができ, データ集合に基づいて 潜在空間の次元を決定することができる. 6

Slide 8

Slide 8 text

Robust PCA (= Principal Component Pursuit): 外れ値に対して頑健なPCA. Principal Component Pursuit (PCP) [E. Candes et al., 2011] PCPでは, 外れ値の存在を予め明⽰的にモデルに組み込んでおくことで, 外れ値からの 影響をあまり受けない (Robust) な低ランク⾏列を得られる. 観測空間のデータ点集合を表す⾏列を = + と分解する. ただし, は低ランク⾏列, は疎⾏列とする. 学習時に解くべき最適化問題は下記のようになる. ||||∗ + ||||? + = ただし, ||||∗ ∶= ∑J () (特異値の総和) で, ||||? は 1ノルムを表す. 学習には Augmented Lagrange Multiplier (ALM) を⽤いる. ちなみに, 2016年にsklearnでRobustPCA実装のプルリクは投げられている(こちら) 7

Slide 9

Slide 9 text

Kernel PCA: 各データ間の⾮線形な相関関係も捉えることが可能なPCA. Kernel PCA [B. Schölkopf et al., 1999] カーネル置換をPCAに適⽤することで, ⾮線形変換に対する⼀般化を⾏った⼿ 法. 元のデータ点に対してカーネルを適⽤したものを元に固有⽅程式を解くと, 主成分への射影をカーネル関数で表すことが可能になる. ⽋点1:いわゆる主成分分析のように×⾏列ではなく, ×⾏列N の 固有ベクトルを得ることになる点. [は特徴空間の次元, はデータ点数] そのため, 実際に⽤いる場合には近似解法が⽤いられることが多い. ⽋点2:⽐較的少ない数の固有値だけを⽤いてデータ点を近似することはでき ない. 8

Slide 10

Slide 10 text

ICMLʼ19で受理されたPCA関連の論⽂紹介 9

Slide 11

Slide 11 text

Phase transition in PCA with missing data: Reduced signal-to-noise ratio, not sample size! 10

Slide 12

Slide 12 text

概要: ⽋損値を含む場合の主成分について理論を⼀般化. この論⽂で⾔いたいこと [N. B. Ipson and L. K. Hansen, 2019] ⽋損値を含む場合のPCAの理論は, いわゆるPCAの学習結果に対して単純な 修正を施すだけで⼀般化が可能である. ⽋損値が増えることによる影響が, 有効に働くサンプルサイズに影響しているという よりも, signal-to-noise ratio に対しての⽅がより影響している. ⽋損値がない場合 ⽋損値がある場合 : データ点数分の特徴次元 : 信号雑⾳⽐率 2: 妥当性の指標 : ⽋損値⽐率 4 = S 0, 4 < 1 4 − 1 + 4 , 4 ≥ 1 4 = S 0, 4 < 1 ()4 − 1 () + ()4 , 4 ≥ 1 11

Slide 13

Slide 13 text

Refined Complexity of PCA with Outliers. 12

Slide 14

Slide 14 text

概要: 外れ値がある場合のPCAに影響を理論的に証明. この論⽂で⾔いたいこと [F. V. Fomin et. al., 2019] 前提: PCAは外れ値の存在に対して⾮常に鋭敏に 反応し,性能が悪くなることが知られている. 外れ値ありのPCAを学習する際に, ⼊⼒データ点の特徴量の次元が定数である場合 には, (XY) の計算量(つまり, 多項式時間)で学習できるアルゴリズムを提案. ただし, はデータ点の数. このアルゴリズムから得られる下限により, が⼊⼒として与えられる値の 場合にはNP困難であることが導かれる. 加えて, 外れ値ありの場合に指数時間仮説を仮定すると, 任意の定数 ≧ 1に対して, 任意の変数のみを取る関数に対して, ()(XY)時間では, -近似ができないことが 導かれた. 外れ値 外れ値がないときの 主成分 実際に得られる主成分 13

Slide 15

Slide 15 text

Phaseless PCA: Low-Rank Matrix Recovery from Column-wise Phaseless Measurements. 14

Slide 16

Slide 16 text

概要: 強度(絶対値)の情報から位相(正負)を含む低ランク⾏列を復元する⼿法を提案. この論⽂で⾔いたいこと [S. Nayer et. al., 2019] 例えば, 光波などを測定する時にはその強度 (絶対値) の情報しか測定できない. しかし, 波の情報を記述するためには位相(正負)情報も必須である. そこで, 強度の情報のみから, 位相情報も含んだ低ランクな⾏列を復元する 問題設定 (Phaseless PCA)を定義した. 加えて, Phaseless PCA の問題設定における学習アルゴリズムとして, AltMinLowRap (Alternative Minimization for Phaseless Low-Rank Recovery) を提案. ⾏列の条件数が定数である場合に, 約4log(1/)個の測定値のみを⽤いて, の精度まで復元できることを証明した. 15

Slide 17

Slide 17 text

まとめ 16

Slide 18

Slide 18 text

まとめ: PCAに関する基本知識と最新動向についてお話ししました. PCA⾃体について PCAは, データの可視化, ⾮可逆圧縮, 次元削減, 特徴選択に⽤いられる⼿法. 似たようなものに, t-SNEなどがある. 外れ値問題, ⽋損値問題, ⾮線形を表現したいという課題などに対して, 特化した専⽤のPCA⼿法がある. ICML 19でのPCAに関するpaperについて そのどれもが⾮常に複雑な理論に関する論⽂である. Probabilistic PCA について, ⽋損値が何に影響を与えているかの証明. Robust PCA 的な外れ値ありPCAに関して, 効率的なアルゴリズムは存在しないことを証明. 特殊な問題設定を提案し, それに対する初めてのアルゴリズムを提案. 17

Slide 19

Slide 19 text

Reference [C. M. Bishop, 2006] C. M. Bishop; “パターン認識と機械学習 上/下”, 丸善出版, 2006. [E. J. Candes et al., 2011] E. J. Candes, X. Li, Y. Ma, and, J. Wright; “Robust Principal Component Analysis?”, ACM, 2009. [B. Schölkopf et al., 1999] B. Schölkopf, A. Smola, and, K. R. Müller; “Kernel Principal Component Analysis”, MIT press, 1999. [N. B. Ipson and L. K. Hansen, 2019] N. B. Ipson, and L. K. Hansen; “Phase transition in PCA with missing data: Reduced signal-to-noise ratio, not sample size!”, arXiv, 2019. [F. V. Fomin et al., 2019] F. V. Fomin, P. A. Golovach, F. Panolan, and, K. Simonov; “Refined Complexity of PCA with Outliers”, arXiv, 2019. [S. Nayer et al., 2019] S. Nayer, P. Narayanamurthy, and, N. Vaswani: “Phaseless PCA: Low-Rank Matrix Recovery from Column-wise Phaseless Measurements”, arXiv, 2019. 18

Slide 20

Slide 20 text

19