主成分分析（PCA）の仕組み

次元削減１次元削減１主成分分析主成分分析作成者：K （リンク）

『次元削減』で説明する項目 PCA・ICA・CCA など

今回の内容 •「教師なし学習」のおさらい •「次元削減」とは •主成分分析 •アルゴリズム •実験 •まとめ PCA(主成分分析)について説明します

教師なし学習教師データ無しでデータの中の構造を見つけるデータは与えられているが、正解データは無い　　　　　＝教師なし学習 X y ڭࢣͳֶ͠शʢ͖ΐ͏͠ͳ͕͘͠͠Ύ͏,
ӳ: Unsupervised Learningʣͱ͸ɺػցֶशͷख๏ͷҰ ͭͰ͋Δɻʮग़ྗ͢΂͖΋ͷʯ͕͋Β͔͡Ίܾ·͍ͬͯͳ͍ͱ͍͏఺Ͱڭࢣ͋Γֶशͱ͸େ͖͘ҟ ͳΔɻσʔλͷഎޙʹଘࡏ͢Δຊ࣭తͳߏ଄Λநग़͢ΔͨΊʹ༻͍ΒΕΔɻ ग़యɿhttps://ja.wikipedia.org/wiki/ڭࢣͳֶ͠श

次元削減とはたくさんある特徴をより少ない数値で表現する例：ボディマス指数 BMI = 体重[kg] / (身長[m]) × (身長[m])
  →体重と身長というデータをBMIと呼ばれる一つの数値で表している

次元削減とはたくさんある特徴をより少ない数値で表現する例：ボディマス指数 BMI = 体重[kg] / (身長[m]) × (身長[m])
  →体重と身長というデータをBMIと呼ばれる一つの数値で表している手元にあるデータに対して、いい感じに次元削減してデータを表現する方法はないだろうか？ ㅟ ㅟ ㅟ ㅟ

PCA(主成分分析) データのばらつきを表現できる軸を見つける手法 ओ੒෼෼ੳʢ͠Ύ͍ͤͿΜͿΜ͖ͤɺӳ: principal component analysis; PCAʣ͸ɺ૬ؔͷ͋Δଟ਺ ͷม਺͔Β૬ؔͷͳ͍গ਺Ͱશମͷ͹Β͖ͭΛ࠷΋Α͘ද͢ओ੒෼ͱݺ͹ΕΔม਺Λ߹੒͢Δଟม ྔղੳͷҰख๏ɻ ग़యɿhttps://ja.wikipedia.org/wiki/ओ੒෼෼ੳ
✕✕ ✕ ✕ ✕ ✕ ✕ 第一主成分

PCA(主成分分析) 二次元の座標のデータを一次元で表現してみる

PCA(主成分分析) 二次元の座標のデータを一次元で表現してみる ✕✕ ✕ ✕ ✕ ✕ ✕ ✕ ✕
✕ ✕ ✕ ✕ ✕

PCA(主成分分析) 二次元の座標のデータを一次元で表現してみる ✕✕ ✕ ✕ ✕ ✕ ✕ ✕ ✕
✕ ✕ ✕ ✕ ✕ 分散が少ない = 情報の損失が多い分散が大きい = 情報が残っているデータを射影した時に分散が最大になるような軸を探せばいい

実際に分散が最大になるような軸を見つけてみる３つのデータをまとめた行列 X = x1,1 x1,2 x2,1 x2,2 x3,1 x3,2

実際に分散が最大になるような軸を見つけてみる ✕ ✕ ✕ ✕ ✕ ✕ e e x1
x2 x3 x3 ·e 分散が最大 → が最大 → が最大 → が最大 → が最大となるを見つければ良い (x1 ·e)2 + (x2 ·e)2 + (x3 ·e)2 (Xe)T(Xe) eT(XTX)e/3 eTΣe e

実際に分散が最大になるような軸を見つけてみる ✕ ✕ ✕ e x3 ·e 分散が最大 → が最大
→ が最大 → が最大 → が最大となるを見つければ良い (x1 ·e)2 + (x2 ·e)2 + (x3 ·e)2 (Xe)T(Xe) eT(XTX)/3 eTΣe e の直線でありという制約をつける ↓ 「制約がある中で分散の式を最大にする」という問題になる。 ↓ ラグランジュの未定乗数法で解ける！ e = αx + βy α2 + β2 = 1

ラグランジュの未定乗数法を適用する L(ex , ey , λ) = eTΣe − λ(α2
+ β2 − 1) ∂L(ex , ey , λ) ∂α = (1 0) Σ ( α β) + (α β) ΣT ( 1 0) − 2λα = 0 ∂L(ex , ey , λ) ∂β = (0 1) Σ ( α β) + (α β) ΣT ( 0 1) − 2λβ = 0 Σ ( α β) = λ ( α β) となるようなが求まれば、分散を最大にする軸が求まる！ α, β e

ラグランジュの未定乗数法を適用する Σ ( α β) = λ ( α β)
となるようなが求まれば、分散を最大にする軸が求まる！ α, β e 分散が最大になるような軸を見つけたいならば、の最大固有値の固有ベクトルを求めればよい Σ ※ は分散共分散行列と呼ばれる行列 Σ = (XTX)/3 分散が最大 → が最大 → が最大 → が最大 → が最大となるを見つければ良い (x1 ·e)2 + (x2 ·e)2 + (x3 ·e)2 (Xe)T(Xe) eT(XTX)/3 eTΣe e 上の式をに代入するととなることがわかる eTΣe eTΣe = λ

PCA(主成分分析) データのばらつきを表現できる軸を見つける手法 ✕✕ ✕ ✕ ✕ ✕ ✕ 第一主成分 •第一主成分を求めるには、分散共分散行列の最大固有値の固有ベクトルを求める
•データ前処理がこの計算に影響を与えるかどうか意識する必要がある

実験！

３次元のデータを二次元にして散布図で可視化します https://k-datamining.github.io/dm-book/data-analysis/materials/dimensionality_reduction/PCA.html

まとめ主成分分析について説明しました •主成分分析（PCA)とは、次元削減をする教師なし学習手法のひとつ •主に高次元のデータを可視化する時に使うことができる •分散が最大になる方向が最も情報の損失が少ない方向 •分散共分散行列の固有ベクトルを求めることで、主成分方向が求まる •PCAで次元削減して可視化をする時は、データ前処理がPCAの計算にどのような影響を与えるか考える

参考文献 •鈴木大慈, データ解析第七回「主成分分析」http://ibis.t.u-tokyo.ac.jp/suzuki/ lecture/2015/dataanalysis/L7.pdf •sklearn.decomposition.PCA — scikit-learn 1.0.2 documentation

主成分分析（PCA）の仕組み

主成分分析（PCA）の仕組み

K_DM

More Decks by K_DM

Other Decks in Education

Featured

Transcript

次元削減１次元削減１主成分分析主成分分析作成者：K （リンク）

『次元削減』で説明する項目 PCA・ICA・CCA など

今回の内容 •「教師なし学習」のおさらい •「次元削減」とは •主成分分析 •アルゴリズム •実験 •まとめ PCA(主成分分析)について説明します

教師なし学習教師データ無しでデータの中の構造を見つけるデータは与えられているが、正解データは無い　　　　　＝教師なし学習 X y ڭࢣͳֶ͠शʢ͖ΐ͏͠ͳ͕͘͠͠Ύ͏,

次元削減とはたくさんある特徴をより少ない数値で表現する例：ボディマス指数 BMI = 体重[kg] / (身長[m]) × (身長[m])

次元削減とはたくさんある特徴をより少ない数値で表現する例：ボディマス指数 BMI = 体重[kg] / (身長[m]) × (身長[m])

PCA(主成分分析) 二次元の座標のデータを一次元で表現してみる

PCA(主成分分析) 二次元の座標のデータを一次元で表現してみる ✕✕ ✕ ✕ ✕ ✕ ✕ ✕ ✕

PCA(主成分分析) 二次元の座標のデータを一次元で表現してみる ✕✕ ✕ ✕ ✕ ✕ ✕ ✕ ✕

実際に分散が最大になるような軸を見つけてみる３つのデータをまとめた行列 X = x1,1 x1,2 x2,1 x2,2 x3,1 x3,2

実際に分散が最大になるような軸を見つけてみる ✕ ✕ ✕ ✕ ✕ ✕ e e x1

実際に分散が最大になるような軸を見つけてみる ✕ ✕ ✕ e x3 ·e 分散が最大 → が最大

ラグランジュの未定乗数法を適用する L(ex , ey , λ) = eTΣe − λ(α2

ラグランジュの未定乗数法を適用する Σ ( α β) = λ ( α β)

PCA(主成分分析) データのばらつきを表現できる軸を見つける手法 ✕✕ ✕ ✕ ✕ ✕ ✕ 第一主成分 •第一主成分を求めるには、分散共分散行列の最大固有値の固有ベクトルを求める

実験！

３次元のデータを二次元にして散布図で可視化します https://k-datamining.github.io/dm-book/data-analysis/materials/dimensionality_reduction/PCA.html

参考文献 •鈴木大慈, データ解析第七回「主成分分析」http://ibis.t.u-tokyo.ac.jp/suzuki/ lecture/2015/dataanalysis/L7.pdf •sklearn.decomposition.PCA — scikit-learn 1.0.2 documentation