Slide 1

Slide 1 text

Sparse Embedded k-Means Clustering 2018/01/21 マジ卍論文読み会

Slide 2

Slide 2 text

概要 l 背景 ü K-meansクラスタリングは、高次元データに対して計算コストが高い。 ü 先行研究では、Random ProjectionやSVDなどの線形次元削減による 手法を用いて計算コストの改善を行っているが、それでも、   程度 の計算コストが生じている。 l 本論文の手法 ü Random Projectionで用いる写像行列にスパース行列を採用して、 高速な行列演算を実行することで、計算コストを      に抑える。 l 結論 ü 本論文の手法は、先行研究の手法に比べて、十分なクラスタリング精度 を達成しつつ、計算時間を大幅に短縮している。 1   ) (nd O )) ( ( X nnz O

Slide 3

Slide 3 text

k平均法の計算コスト削減を目的とした先行手法 l SVDやRandom Projectionを使用した、データ行列の次元削減 ü state-of-the-artなRPでも、      の計算量と (2+ε)の精度 2           ) log( 2 d ndk O 

Slide 4

Slide 4 text

本手法の概要 l Sparse Embedded k-Means Clustering ü RPの写像行列にスパース行列を採用することで、RPの計算量を          にする。 ü 埋め込み次元が           である場合、信頼度      で、クラスタリングの最適解への近似精度が(1+ε)となる。 3   )) 6 , ) / 1 log( (max( 2 2      k O ) ( 1  O  )) ( ( X nnz O

Slide 5

Slide 5 text

Sparse Embedding Algorithm 4   ランダム直交行列の作成 )) ( ( X nnz O

Slide 6

Slide 6 text

ε-Approximation Embedded Matrix 5   k-Means Clusteringの目的は (1)式を満たす計画行列Dを得ること

Slide 7

Slide 7 text

ε-Approximation Embedded Matrix 6   元データXのクラスタリング精度に対して(1±ε)の誤差を持つような、 埋め込み後のデータ行列X^ を扱う

Slide 8

Slide 8 text

ε-Approximation Embedded Matrix 7   γとは、埋め込み後の データ行列X^に対する 計画行列D^が、最適解D^*に どの程度近いかを表す指標 D^がX^に対する最適解(γ=1)であるならば、 D^はデータ行列Xに対して精度(1+ε)を保証する

Slide 9

Slide 9 text

ε-Approximation Embedded Matrix l まとめると ü ε近似解(2)式を満たすような次元削減後のデータ行列X^があり、 ü D^がX^に対する最適解である(γ=1)ならば、 ü D^はデータ行列Xに対して精度(1+ε)を保証する。 8  

Slide 10

Slide 10 text

Sparse Embedding Matrix ≈ ε-Approximation Embedded Matrix 9   埋め込み次元の大きさに制約をかけることで、 ランダム直交行列R=(QΦ)'を使った埋め込み行列X^=XR'は、 1-O(δ)の確率で(2)式の条件を満たす。(証明は3章)

Slide 11

Slide 11 text

実験結果 10   ・クラスタリング精度 ・次元削減の計算時間