【論文紹介】Sparse Embedded k-means Clustering

【論文紹介】Sparse Embedded k-means Clustering

99e9e6d2de62c373990ac1bd7c4defc5?s=128

Shuhei Goda

January 21, 2018
Tweet

Transcript

  1. Sparse Embedded k-Means Clustering 2018/01/21 マジ卍論文読み会

  2. 概要 l 背景 ü K-meansクラスタリングは、高次元データに対して計算コストが高い。 ü 先行研究では、Random ProjectionやSVDなどの線形次元削減による 手法を用いて計算コストの改善を行っているが、それでも、   程度 の計算コストが生じている。

    l 本論文の手法 ü Random Projectionで用いる写像行列にスパース行列を採用して、 高速な行列演算を実行することで、計算コストを      に抑える。 l 結論 ü 本論文の手法は、先行研究の手法に比べて、十分なクラスタリング精度 を達成しつつ、計算時間を大幅に短縮している。 1   ) (nd O )) ( ( X nnz O
  3. k平均法の計算コスト削減を目的とした先行手法 l SVDやRandom Projectionを使用した、データ行列の次元削減 ü state-of-the-artなRPでも、      の計算量と (2+ε)の精度 2  

            ) log( 2 d ndk O 
  4. 本手法の概要 l Sparse Embedded k-Means Clustering ü RPの写像行列にスパース行列を採用することで、RPの計算量を          にする。

    ü 埋め込み次元が           である場合、信頼度      で、クラスタリングの最適解への近似精度が(1+ε)となる。 3   )) 6 , ) / 1 log( (max( 2 2      k O ) ( 1  O  )) ( ( X nnz O
  5. Sparse Embedding Algorithm 4   ランダム直交行列の作成 )) ( ( X

    nnz O
  6. ε-Approximation Embedded Matrix 5   k-Means Clusteringの目的は (1)式を満たす計画行列Dを得ること

  7. ε-Approximation Embedded Matrix 6   元データXのクラスタリング精度に対して(1±ε)の誤差を持つような、 埋め込み後のデータ行列X^ を扱う

  8. ε-Approximation Embedded Matrix 7   γとは、埋め込み後の データ行列X^に対する 計画行列D^が、最適解D^*に どの程度近いかを表す指標 D^がX^に対する最適解(γ=1)であるならば、

    D^はデータ行列Xに対して精度(1+ε)を保証する
  9. ε-Approximation Embedded Matrix l まとめると ü ε近似解(2)式を満たすような次元削減後のデータ行列X^があり、 ü D^がX^に対する最適解である(γ=1)ならば、 ü

    D^はデータ行列Xに対して精度(1+ε)を保証する。 8  
  10. Sparse Embedding Matrix ≈ ε-Approximation Embedded Matrix 9   埋め込み次元の大きさに制約をかけることで、

    ランダム直交行列R=(QΦ)'を使った埋め込み行列X^=XR'は、 1-O(δ)の確率で(2)式の条件を満たす。(証明は3章)
  11. 実験結果 10   ・クラスタリング精度 ・次元削減の計算時間