論文紹介：Clustering with Bregman Divergences: an Asymptotic Analysis

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References 論文紹介：Clustering with Bregman Divergences: an Asymptotic Analysis Masanari Kimura 総研大統計科学専攻日野研究室 [email protected]

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Intro 2/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References 3/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References TL;DR ▶ [Liu and Belkin, 2016] ▶ クラスタ数 k が大きくなる時の Bregman divergence を用いたクラスタリングの漸近的振る舞いをしらべる． 4/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References k-means clustering and its asymptotic analysis データセット D = {xi}n i=1 ⊂ Rd が与えられた時，k-means クラスタリングは以下を最小にするような centroids α = {aj}k j=1 ⊂ Rd を計算する： L(α) = 1 n ∑ j=1 min a∈α ∥xj − a∥2 2 . (1) この問題の大域最適解を求めるのは NP-hard だが，Lloyd’s algorithm によって局所最適解が効率的に求められることが知られている: 1) クラスタ j に含まれる点集合：Cj = {xi | ∥xi − aj∥2 2 ≤ ∥xi − al∥2 2 , ∀l ∈ {1, . . . , k} \ j}; 2) centroids の更新：aj = 1 |Cj| ∑ xi∈Cj xi ; 3) 1) と 2) を繰り返す． 5/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Lloyd’s algorithm の有効性は，点集合の算術平均が式 (1)における損失関数のユニークな minimizer になることによってサポートされる： 1 n n ∑ i=1 xi = arg min s∈Rd 1 n n ∑ i=1 ∥xi − s∥2 2 . (2) 式 (2)は k-means の実用性を支える squared Euclidean distance の重要な性質． 6/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Asymptotic analysis of Euclidean quantization サンプルサイズがクラスタ数よりも十分大きいケース（n ≫ k）で，k → ∞ のときの漸近的な振る舞いを考える．オーダー r の Euclidean quantization L(α) = RP [ min a∈α ∥X − a∥r 2 ] (3) を考えると，興味があるのは， ▶ asymptotic quantization error; ▶ centroids の従う分布． 7/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Asymptotic quantization error Graf and Luschgy [2007] によると，k → ∞ でオーダー r の quantization error は k−r/d のレートで減少することが示されており，その係数は以下の形で書ける： Qr(P) = Qr([0, 1]d)∥P∥d/(d+r) = Qr([0, 1]d) (∫ Pd/(d+r)dλd )(d+r)/d . (4) ここで P と独立な定数 Qr([0, 1]d) は幾何学的には d 次元立方体 [0, 1]d 上の一様分布の asymptotic Euclidean quantization error として解釈される． 8/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Locational distribution of centroids あまり知られていない事実として，k-means の最適な centroids の位置は，元の確率密度に関わる極限分布に収束する．特に centroids 集合 α が与えられた時，対応する確率測度を Pk = 1 k k ∑ j=1 δaj (5) とすると，開集合 A ⊂ Rd について Pk(A) は A 内に含まれる centroid の数 kA と centroids の総数 k の比になる：P(A) = kA/k． ˜ P を centroids の極限分布（{Pk} が ˜ P に弱収束する）とすると，Rd 上のルベーグ測度 λd と正則化項 N について， ˜ Pr = ˜ Prλd, ˜ Pr = N · Pd/(d+r). (6) 9/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Bregman divergences and Bregman clustering ▶ Bregman divergence の定義； ▶ Bregman divergence を用いたクラスタリングの定式化． 10/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Bregman divergence Definition 1 (Bregman divergence) 関数 ϕ を凸集合 Ω ⊂ Rd で微分可能な凸関数とする．このとき ϕ に関する Bregman divergence Dϕ : Ω × Ω → R: Dϕ [p∥q] = ϕ(p) − ϕ(q) − ⟨p − q, ∇ϕ(q)⟩. (7) ▶ Bregman divergence は non-negativity を満たす； ▶ 一般に triangle inequality と symmetry は満たさない． 11/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Examples of Bregman divergences Squared Euclidean distance: DEU[p∥q] = ∥p − q∥2 2 , (ϕEU(z) = ∥z∥2) Mahalanobis distance: DMH[p∥q] = (p − q)⊤A(p − q), A ∈ Rd×d KL-divergence: DKL[p∥q] = ∑ i pi ln pi qi , (ϕKL(z) = ∑ i zi ln zi − zi) Itakura-Saito divergence: DIS[p∥q] = ∑ i pi qi − ln pi qi − 1, (ϕIS(z) = − ∑ i ln zi) Norm-like divergence: DNL[p∥q] = ∑ i pα i + (α − 1)qα i − αpi qα−1 i . (ϕNL(z) = ∑ i zα i ) それぞれの定義域は， ΩEU = ΩMH = Rd, ΩKL = ΩIS = ΩNL = Rd + . 12/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Alternative expression: the quadratic form 凸関数 ϕ ∈ C2(Ω) とすると，ϕ(q) + ⟨p − q, ∇ϕ(q)⟩ は ϕ の q における Taylor 展開の最初の 2 項になるので，Bregman divergence は凸関数 ϕ とその線形近似の差になっている： Dϕ [p∥q] = ϕ(p) − (ϕ(q) − ⟨p − q, ∇ϕ(q)⟩) . (8) 剰余項の Lagrande 形式より，ξi = [min(pi, qi), max(pi, qi)] となるような ξ が存在し（i.e., ξ は p と q を含む最小の d 次元軸並行立方体）， Dϕ [p∥q] = 1 2 (p − q)⊤∇2ϕ(ξ)(p − q) (9) と書ける．ここで ∇2ϕ(ξ) は ϕ の ξ における Hessian matrix. 式 (9)の形式は後々の議論で用いる． 13/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References The mean as the minimizer Banerjee et al. [2005] によって示されている通り，式 (2)の性質は一般の Bregman divergence においても成り立つ： 1 n n ∑ i=1 xi = arg min s∈Ω n ∑ i=1 Dϕ [xi∥s]. (10) この事実は Lloyd’s method が任意の Bregman divergence について一般化できることを意味する： L(α) = 1 n n ∑ i=1 min a∈α Dϕ [xi∥α]. (11) この k-means の一般化である Bregman hard clustering もまた局所最適であることが示されている． 14/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Asymptotic Analysis of Bregman Quantization 15/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Definition 2 (k-th quantization error for P of order r) P に従う確率変数 X が Ω ⊂ Rd の値をとるとする．このとき，Dϕ の P についてのオーダー r の k-th quantization error は Vk,r,ϕ (P) = inf α∈Rd,|α|=k EP [ min a∈α Dr ϕ (X, a) ] (12) と定義される． Remark 3 下界に至る集合 α∗ は k-optimal centroids 集合と呼ばれる． 16/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Asymptotic Bregman quantization error ▶ k → ∞ であるような漸近的なケースを考える． ▶ まず，k が十分大きいとき，分布のサポートに含まれる全ての点 x は，Bregman divergence に関して centroids に任意に近づくことができるので，quantization error は漸近的に 0 になる． ▶ 以降では，以下について考える： ▶ 収束レート； ▶ Bregman quantization error の係数． 17/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Intuition on convergence rate 各クラスタがサイズ ϵ の Bregman Voronoi 領域であるとする． 18/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Intuition on convergence rate 各クラスタがサイズ ϵ の Bregman Voronoi 領域であるとする．サポートの総サイズは常に一定であるので，一つ一つの Voronoi 領域のサイズはクラスタ数に反比例する：ϵd ∼ 1/k．一方で，Bregman divergence の quadratic 形式 9より，一つの領域内の 2 点間の Bregman divergence は領域サイズの 2 乗オーダーになる： Dϕ (X, a) ∼ ϵ2．ここから以下が示唆される． Vk,r,ϕ (P) ∼ k−2r/d asymptotically. (13) 上記は直感的な主張であり，以降ではより精密な係数の議論を進める． 19/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Lemma 4 k → ∞ において，最適な Bregman clustering の下では P のサポートの各内点 x は任意の近傍の centroid に割り当てられる． Lemma 5 P のサポートが凸集合，ϕ が厳密に凸でかつ ∇2ϕ が一様連続であるとき，(0, ∞) 上で lim k→∞ k2r d Vk,r,ϕ (P) (14) が存在し，これを Qr,ϕ (P) とすると Qr,ϕ (P) = lim k→∞ k2r d inf α(|a|=k) EP [ min a∈α ( 1 2 (X − a)⊤∇2ϕ(a)(X − a) )⊤ ] . (15) 20/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Coefficient of Bregman quantization error ▶ 式 (15)に基づいて，quantization error Qr,ϕ の係数を評価する． ▶ Euclidean 距離とは異なり，一般の Bregman divergence の場合は非対称性などの性質による難しさがある． ▶ そこで，各 Voronoi 領域 {Al} ごとに，不動点 zl についての定数行列 ∇2ϕ(zl) によって Hessian を近似することで，Bregman quantization error の評価を各 Voronoi 領域ごとの Euclidean quantization error の評価に緩和することを考える． 21/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References sl = P(Al) として，条件付き密度を P(·|Al)，αl = α ∪ Al ，vl = kl/k とする．式 (15)および P = ∑ P(Al)P(·|Al) より，Qr,ϕ (P) は以下で近似される： Qr,ϕ (P, {vl}) ∼ ∑ l sl v−2r/d l Qr,Mh,k(P(·|Al)), (16) Qr,Mh,l(P(·|Al)) = lim kl→∞ k2r d l inf αl(|αl|=kk) EP(·|Al) [ min a∈αl 1 2 (X − a)⊤∇2ϕ(zl)(X − a) ]⊤ . (17) ここで Qr,Mh,l(P(·|Al)) は各領域 Al ごとに定数行列 ∇2ϕ(zl) によって評価される quantization error． 22/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References 各領域 Al ごとに P(·|Al) を一様分布 U(Al) = 1/Vl で近似すると，Qr,Mh,l(U(Al)) は squared Euclidean quantization error に緩和される． Qr,Mh,l(U(Al)) = 1 2r Q2r([0, 1]d)δ2r[det ∇2ϕ(zl)]r/d (18) ここで δ は立方体のサイズで Q2 r([0, 1]d) は定数になる．式 (17)と (18)を組み合わせると， Qr,ϕ (P, {vl}) ∼ 1 2r Q2r([0, 1]d)δ2r ∑ l sl v−2r/d l [det ∇2ϕ(zl)]r/d. (19) 全体に占める領域 Al に含まれる centroids の割合 vl = kl/k はまだ未定数． 23/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Lemma 6 B = {v1 , . . . , vL} ∈ (0, ∞)L : ∑L l=1 vl = 1 とし， v∗ l = sd/(d+2r) l [det ∇2ϕ(zl)]r/(d+2r) ∑ l sd/(d+2r) l [det ∇2ϕ(zl)]r/(d+2r) (20) と定義すると， F(v1 , . . . , vL) = L ∑ l=1 sl v−2r/d l [det ∇2ϕ(zl)]r/d (21) F(v∗ 1 , . . . , v∗ L ) = min (v1,...,vL)∈B F(v1 , . . . , vL) = ( ∑ l sd/(d+2r) l [det ∇2ϕ(zl)]r/d+2r )(d+2r)/d . (22) 24/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References 補題 6は最適な割り当て {vl} を決定し，quantization error が有り得る全ての割り当てについての下界として定義されていることから，以下の主定理を得る． Theorem 7 ある ϵ > 0 について E[∥X∥2r+ϵ] < ∞ かつ ∇2ϕ が P のサポートの上で一様連続であるとする．このとき， Qr,ϕ (P) = 1 2r Q2r([0, 1]d)∥(det ∇2ϕ)r/dP∥d/(d+2r) . (23) 25/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References The limit distribution of centroids 式 (23)において，正規化項 N として Pr,ϕ = N · (det ∇2ϕ)r/(d+2r)Pd/(d+2r) (24) と定義する．このとき Pr,ϕ は連続な分布になることが示される． Example 1: Clustering with Squared Euclidean distance. 凸関数 ϕ(z) = ∑ z2 i とすると， Pr,EU(z) ∼ Pd/(d+2r)(z). (25) Example 2: Clustering with Mahalanobis distance. 凸関数 ϕ(z) = z⊤Az とすると， Pr,Mh(z) ∼ Pd/(d+2r)(z). (26) Example 3: Clustering with KL-divergence. 凸関数 ϕ(z) = ∑ i zi ln zi − zi とすると， Pr,KL(z) ∼ Pd/(d+2r)(z) ( ∏ i zi )−r/(d+2r) . (27) 26/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Example 4: Clustering witn Itakura-Saito divergence. 凸関数 ϕ(z) = − ∑ i ln zi とすると， Pr,IS(z) ∼ Pd/(d+2r)(z) ( ∏ i z2 i )−r/(d+2r) (28) Example 5: Clustering with Norm-like divergence. 凸関数 ϕ(z) = ∑ i zα i とすると， Pr,NL(z) ∼ Pd/(d+2r)(z) ( ∏ i zi )(α−2)r/(d+2r) (29) 27/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Experiments 28/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Experiments ▶ これまでの結果を数値実験から確かめる． ▶ 理論解析ではサンプルサイズ n → ∞ およびクラスタ数 k → ∞ のケースを考えていたが，このような設定は現実的でないので，n が k に比べて十分大きいケースを扱う． 29/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Case 1 (1-dimensional): P が [0, 1] 上の一様分布であるとする．クラスタ数 k = 81 として，複数の Bregman hard clustering を適用する．それぞれについての理論的な centroids locational distribution の予測は， P1,EU(z) = 1, z ∈ [0, 1], P1,KL(z) ∼ z−1/3, z ∈ (0, 1], P1,NL(z) ∼ z1/3, z ∈ [0, 1]. Figure: 上段が centroids の分布の理論解，下段が数値実験で得られたヒストグラム． 30/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Case 2 (2-dimensional): P が [0, 1]2 上の一様分布であるとする．k = 81 として case 1 と同じ 3 つの Bregman divergence によるクラスタリングを適用し，理論解と比較する．それぞれについての理論的な centroids locational distribution の予測は， P1,EU(z) = 1, z = (z1 , z2 ) ∈ [0, 1]2, P1,KL(z) ∼ (z1 z2 )−1/4, z = (z1 , z2 ) ∈ (0, 1]2, P1,NL(z) ∼ (z1 z2 )1/4, z = (z1 , z2 ) ∈ [0, 1]2. Figure: 上段が数値実験で得られた centroids のプロット，下段が centroids の分布の理論解． 31/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Conclusion 32/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References Conclusion ▶ Bregman divergence を用いたクラスタリングの漸近的な振る舞いについて議論した； ▶ Asymptotic quantization error と centroids の位置分布についての明示解が得られ，どちらも k-means による古典的な結果の拡張になった； ▶ これらの結果が一般の Bregman divergence にどのように適用されるかを示し，数値実験によって確かめた； ▶ future works: ▶ Bregman soft clustering やその他の手法への拡張 [Banerjee et al., 2005; Jiang et al., 2012]； ▶ 初期シードに関する分析 [Nock et al., 2008]． 33/34

. . . . . . . . . .
. . . . . . . . . . . . . . . . Intro . . . . . . . . . . . . . . . . . . . . . . . . . . Asymptotic Analysis of Bregman Quantization . . . . . . . . Experiments . . . . Conclusion References References I Arindam Banerjee, Srujana Merugu, Inderjit S Dhillon, Joydeep Ghosh, and John Lafferty. Clustering with bregman divergences. Journal of machine learning research, 6(10), 2005. Siegfried Graf and Harald Luschgy. Foundations of quantization for probability distributions. Springer, 2007. Ke Jiang, Brian Kulis, and Michael Jordan. Small-variance asymptotics for exponential family dirichlet process mixture models. Advances in Neural Information Processing Systems, 25, 2012. Chaoyue Liu and Mikhail Belkin. Clustering with bregman divergences: an asymptotic analysis. Advances in Neural Information Processing Systems, 29, 2016. Richard Nock, Panu Luosto, and Jyrki Kivinen. Mixed bregman clustering with approximation guarantees. In Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2008, Antwerp, Belgium, September 15-19, 2008, Proceedings, Part II 19, pages 154–169. Springer, 2008. 34/34

論文紹介：Clustering with Bregman Divergences: an As...

論文紹介：Clustering with Bregman Divergences: an Asymptotic Analysis

More Decks by Masanari Kimura

Other Decks in Research

Featured

Transcript