【論文紹介】Sparse Embedded k-means Clustering

Sparse Embedded k-Means Clustering 2018/01/21 マジ卍論文読み会

概要 l 背景 ü K-meansクラスタリングは、高次元データに対して計算コストが高い。 ü 先行研究では、Random ProjectionやSVDなどの線形次元削減による手法を用いて計算コストの改善を行っているが、それでも、　　　程度の計算コストが生じている。
l 本論文の手法 ü Random Projectionで用いる写像行列にスパース行列を採用して、高速な行列演算を実行することで、計算コストを　　　　　に抑える。 l 結論 ü 本論文の手法は、先行研究の手法に比べて、十分なクラスタリング精度を達成しつつ、計算時間を大幅に短縮している。 1 　 ) (nd O )) ( ( X nnz O

k平均法の計算コスト削減を目的とした先行手法 l SVDやRandom Projectionを使用した、データ行列の次元削減 ü state-of-the-artなRPでも、　　　　　の計算量と (2+ε)の精度 2 　
        ) log( 2 d ndk O 

本手法の概要 l Sparse Embedded k-Means Clustering ü RPの写像行列にスパース行列を採用することで、RPの計算量を　　　　　　　　にする。
ü 埋め込み次元が　　　　　　　　　　である場合、信頼度　　　　で、クラスタリングの最適解への近似精度が(1+ε)となる。 3 　 )) 6 , ) / 1 log( (max( 2 2      k O ) ( 1  O  )) ( ( X nnz O

Sparse Embedding Algorithm 4 　ランダム直交行列の作成 )) ( ( X
nnz O

ε-Approximation Embedded Matrix 5 　 k-Means Clusteringの目的は (1)式を満たす計画行列Dを得ること

ε-Approximation Embedded Matrix 6 　元データXのクラスタリング精度に対して(1±ε）の誤差を持つような、埋め込み後のデータ行列X^ を扱う

ε-Approximation Embedded Matrix 7 　 γとは、埋め込み後のデータ行列X^に対する計画行列D^が、最適解D^*にどの程度近いかを表す指標 D^がX^に対する最適解（γ＝１）であるならば、
D^はデータ行列Xに対して精度(1+ε)を保証する

ε-Approximation Embedded Matrix l まとめると ü ε近似解(2)式を満たすような次元削減後のデータ行列X^があり、 ü D^がX^に対する最適解である（γ＝１）ならば、 ü
D^はデータ行列Xに対して精度(1+ε)を保証する。 8 　

Sparse Embedding Matrix ≈ ε-Approximation Embedded Matrix 9 　埋め込み次元の大きさに制約をかけることで、
ランダム直交行列R=(QΦ)'を使った埋め込み行列X^=XR'は、 1-O(δ)の確率で(2)式の条件を満たす。（証明は3章）

実験結果 10 　・クラスタリング精度・次元削減の計算時間

【論文紹介】Sparse Embedded k-means Clustering

【論文紹介】Sparse Embedded k-means Clustering

Shuhei Goda

More Decks by Shuhei Goda

Other Decks in Technology

Featured

Transcript

Sparse Embedded k-Means Clustering 2018/01/21 マジ卍論文読み会

k平均法の計算コスト削減を目的とした先行手法 l SVDやRandom Projectionを使用した、データ行列の次元削減 ü state-of-the-artなRPでも、　　　　　の計算量と (2+ε)の精度 2

本手法の概要 l Sparse Embedded k-Means Clustering ü RPの写像行列にスパース行列を採用することで、RPの計算量を　　　　　　　　にする。

Sparse Embedding Algorithm 4 　ランダム直交行列の作成 )) ( ( X

ε-Approximation Embedded Matrix 5 　 k-Means Clusteringの目的は (1)式を満たす計画行列Dを得ること

ε-Approximation Embedded Matrix 6 　元データXのクラスタリング精度に対して(1±ε）の誤差を持つような、埋め込み後のデータ行列X^ を扱う

ε-Approximation Embedded Matrix 7 　 γとは、埋め込み後のデータ行列X^に対する計画行列D^が、最適解D^*にどの程度近いかを表す指標 D^がX^に対する最適解（γ＝１）であるならば、

ε-Approximation Embedded Matrix l まとめると ü ε近似解(2)式を満たすような次元削減後のデータ行列X^があり、 ü D^がX^に対する最適解である（γ＝１）ならば、 ü

Sparse Embedding Matrix ≈ ε-Approximation Embedded Matrix 9 　埋め込み次元の大きさに制約をかけることで、

実験結果 10 　・クラスタリング精度・次元削減の計算時間