Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Stochastic Complexities of Reduced Rank Regression in Bayesian Estimationの証明概略

xiangze
November 15, 2023

Stochastic Complexities of Reduced Rank Regression in Bayesian Estimationの証明概略

xiangze

November 15, 2023
Tweet

Other Decks in Science

Transcript

  1. 示したいこと Reduced Rank Regression model p(y∣x, w) = exp( ∣∣y

    − BAx∣∣ {w = (A, B)} (AはHxM行列,BはNxH行列) の学習係数(Real Log Canonical Threshold)は λ = max{ ∣0 ≤ s ≤ min(M + r, H + r)} で与えられる √2πN 1 2 1 2 2 (N+M)r−r +s(N−r)+(M−r−s)(H−r−s) 2 3
  2. 方針 真の分布にたいして KL distance Φ ≡ ∥BA − B A

    ∣∣ を考え サイズ C : r × r, C : (N − r) × r の行列に対して Φ = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣B A ∣∣ と書けることを示し(Lemma 5) 行列の各要素sに再帰的にblow upすることで ℓ(s) = (N + M)r − r + s(N − r) + (M − r − s)(H − r − j) − 1 に対して λ = max{ ∣0 ≤ s ≤ min(M + r, H + r)} となることを示す。 0 0 2 1 2 ′ 1 2 2 2 3 2 4 4 2 2 2 ℓ(s)+1 4
  3. Φ = ∣∣P (B A − )Q ∣∣ とA B

    を対角化 A = B = A : r × r, A : r × (M − r) A : (H − r) × r, A : (H − r) × (M − r) B : r × r, B : r × (H − r) B : (N − r) × r, B : (N − r) × (H − r) rank((B B ) ) = r なので C = B A + B A − E C = B A + B A 0 ′ ′ ( E 0 0 0 ) 0 2 0 0 ′ ( A1 A2 A3 A4 ) ′ ( B1 B2 B3 B4 ) 1 3 2 4 1 3 2 4 1 3 ( A1 A2 ) 1 1 1 3 2 2 2 1 4 2 5
  4. C = B A + B A − E C

    = B A + B A とおいて B A − = = A = −A A1 A + A = Φ = ∣∣P Q ∣∣ と書ける。 1 1 1 3 2 2 2 1 4 2 ′ ′ ( E 0 0 0 ) ( C1 C2 (C + E − B A )A A + B A 1 3 2 1 −1 3 3 4 (C − B A )A A + B A 2 4 2 1 −1 3 4 4 ) ( C1 C2 C A A + A A + B A 1 1 −1 3 1 −1 3 3 4 ′ C A A + B A 2 1 −1 3 4 4 ′ ) 4 ′ 2 −1 3 4 ( C1 C2 C (A − B A ) + A 1 3 ′ 3 4 ′ 3 ′ C (A − B A ) + B A 2 3 ′ 3 4 ′ 4 4 ′ ) 0 ( C1 C2 C (A − B A ) + A 1 3 ′ 3 4 ′ 3 ′ C (A − B A ) + B A 2 3 ′ 3 4 ′ 4 4 ′ ) 0 2 6
  5. (lennma2,3から) Φ ψdw の極は ∣∣ ∣∣ ψdw で決まる。 これをblow upしていく。

    ∫ U(A ,B ) ′ ′ z ∫ U(A ,B ) ′ ′ ( C1 C2 A3 ′ B A 4 4 ′ ) 2z 7
  6. まず A = B = のようにblow upしていく。 { a =

    u 11 11 a = u a (i, j) ≠ (1, 1) ij 11 ij ′ 4 ⎝ ⎜ ⎜ ⎛ a11 a21 aH−r,1 ... ... ⋮ ... a1,M−r a2,M−r aH−r,M−r ⎠ ⎟ ⎟ ⎞ 4 ⎝ ⎜ ⎜ ⎛ b11 b21 bN−r,1 ... ... ⋮ ... b1,H−r b2,H−r bN−r,H−r ⎠ ⎟ ⎟ ⎞ 8
  7. 逐次的な特異点解消 Φ = u ...u (∣∣C ∣∣ + ∣∣C ∣∣

    + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣ b D + B A ∣∣ ) A = B = b = というかたちに持っていきたい → ′′ 11 2 ss 2 1 2 2 2 3 2 ∑ i=1 s i 2 ∑ i=1 s i i (s+1) (s+1) 2 s+1 ⎝ ⎜ ⎜ ⎛as+1,s+1 as+2,s+1 aH−r,s+1 ... ... ⋮ ... a1,M−r a2,M−r aH−r,M−r ⎠ ⎟ ⎟ ⎞ 4 ⎝ ⎜ ⎜ ⎛ b11 b21 bN−r,1 ... ... ⋮ ... b1,H−r b2,H−r bN−r,H−r ⎠ ⎟ ⎟ ⎞ i ⎝ ⎜ ⎜ ⎛ b1i b2i ⋮ bN−r,i ⎠ ⎟ ⎟ ⎞ 9
  8. 2パターンのblow upが考えられる。 まず {C = C = C = A

    = 0} において (1) 1 2 3 4 ⎩ ⎨ ⎧ c = v, 11 c = vc (i.j) ≠ (1, 1), ij ij C = vC , C = vC , A = vA 2 2 3 3 4 4 10
  9. すると Φ = v (1 + (c ) + ∣∣C

    ∣∣ + ∣∣C ∣∣ + ∣∣B A ∣∣ ) となりヤコビアンはv となる。 この指数がλに効いてくる。 ′ 2 ∑′ ij (1) 2 2 2 3 2 4 4 2 ℓ(0) 11
  10. 別のblow upとして (2) を考える。(一般にはa = u という形が含まれる) これによって ⎩ ⎨

    ⎧ a = u , 11 11 a = u a (i.j) ≠ (1, 1), ij 11 ij C = vC , C = vC , A = vA 2 2 3 3 4 4 ij 11 12
  11. a と列b に関わる項B A から出すと Φ = u (∣∣C ∣∣

    + ∣∣C ∣∣ + ∣∣C ∣∣ +∣∣b + B a ∣∣ + ∣∣(b B ) ∣∣ と書ける 11 1 4 4 ′ 11 2 1 2 2 2 3 2 1 (2) 1 2 1 (2) ( a1 A(2) ) 2 13
  12. b = B + B a と書き換えると Φ = u

    (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ +∣∣b ∣∣ + ∣∣(b − a B b B ) ∣∣ = u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣(b 0) + B (−a E) ∣∣ = u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣b + B (−a + A )∣∣ A = −a + A とおき直すと 1 1 (2) 1 ′ 11 2 1 2 2 2 3 2 1 2 1 1 (2) 1 (2) ( a1 A(2) ) 2 11 2 1 2 2 2 3 2 1 2 1 ( a ¯1 A(2) ) (2) 1 ( a ¯1 A(2) ) 2 11 2 1 2 2 2 3 2 1 2 1a ¯ (2) 1a ¯1 (2) (2) 1a ¯1 (2) 14
  13. Φ = u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C

    ∣∣ + ∣∣b ∣∣ +∣∣b + B A ∣∣ とかけ、ヤコビアンはu となる。 B A の各列に対してこの処理を繰り返す。 ′ 11 2 1 2 2 2 3 2 1 2 1a ¯1 (2) (2) 2 11 ℓ 4 4 15
  14. 再帰的処理 blow up(1)をΦ = ∣∣C ∣∣ + ∣∣C ∣∣ +

    ∣∣C ∣∣ + ∣∣B A ∣∣ に対して行うと Φ = u ...u v (1 + (c ) + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ + ∣∣ b D + B A ∣∣ (D はB A のs+1行s+1列以降B A 以外の部分であり再帰 的に定義される。) c , c , c , b に対しては同じ式の形になり ヤコビアンはu ...u v (Φ dw = Φ u ...u v dw) ′ 1 2 2 2 3 2 4 4 2 ′′ 11 2 ss 2 2 ∑′ ij (1) 2 2 2 3 2 ∑ i=1 s i 2 ∑ i=1 s i i (s+1) (s+1) 2 i 4 4 (s+1) (s+1) ji (1) ji (2) ji (3) ji 11 ℓ(0) ss ℓ(s+1) ℓ(s) ′z ′ ′′z 11 ℓ(0) ss ℓ(s+1) ℓ(s) 16
  15. blow up(2)をΦ に行うと Φ = u ...u u (∣∣C ∣∣

    + ∣∣C ∣∣ + ∣∣C ∣∣ ∣∣b ∣∣ +∣∣ b D + (b B ) ∣∣ = u ...u u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣ b D + (b + B a 0) + (b B ) ∣∣ = (a , ..., a ) a = (a , ..., a ) と変換される。 ′ ′′ 11 2 ss 2 s+1,s+1 2 1 2 2 2 3 2 ∑ i=1 s s 2 ∑ i=1 s i i s+1 (s+2) ( 1 as+1 a ¯s+1 A(s+2) ) 2 11 2 ss 2 s+1,s+1 2 1 2 2 2 3 2 ∑ i=1 s 1 2 ∑ i=1 s s i s+1 (s+2) s+1 s+1 (s+2) ( a ¯s+1 A(s+2) ) 2 a ¯s+1 s+1,s+2 s+1,M+r s+1 s+2,s+1 H−r,s+1 T 17
  16. D = (Col1(D ) D ) とおくと Φ /u ...u

    u = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ + ∣∣b ∣∣ +∣∣ b D + (b − B a − b Col(D ) B ) ∣∣ b をまとめて項を分割 = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣ b D + (b − b Col(D ) 0) +(−B a B ) ∣∣ b = b + B a + b Col(D ) とおき直す。 i i i ′ ′′ 11 2 ss 2 s+1,s+1 2 1 2 2 2 3 2 ∑ i=1 s s 2 s+1 2 ∑ i=1 s i i ′ s+1 (s+2) s+1 ∑s i i (s+2) ( a ¯s+1 A(s+2) ) 2 s+1 1 2 2 2 3 2 ∑ i=1 s+1 i 2 ∑ i=1 s i i ′ s+1 ∑s i i ( a ¯s+1 A(s+2) ) (s+2) s+1 (s+2) ( a ¯s+1 A(s+2) ) 2 s+1 s+1 s+2) s+1 ∑s i i 18
  17. 計算とb_iでのくくり出し = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣

    + ∣∣b ∣∣ +∣∣ b (D − Col(D ) ) + b +B (−a E) ∣∣ (Eは単位行列) = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣ b (D − Col(D ) ) + b +B (−a + A )∣∣ 1 2 2 2 3 2 ∑ i=1 s+1 s 2 ∑ i=1 s i i ′ i a ¯s+1 s+1a ¯s+1 (s+2) s+1 ( a ¯s+1 A(s+2) ) 2 1 2 2 2 3 2 ∑ i=1 s+1 s 2 ∑ i=1 s i i ′ i a ¯s+1 s+1a ¯s+1 (s+2) s+1a ¯s+1 (s+2) 2 19
  18. A = −a + A とおき直すと = ∣∣C ∣∣ +

    ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣ b (D − Col(D ) ) + b +B A ∣∣ D = D − Col(D ) , D = とおき直すと元の形 Φ = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ +∣∣ b D + D + B A ∣∣ = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ + ∣∣ b D + B A ∣∣ 戻るのでblow up(1),(2)を繰り返す。すると各変数の指数はℓ(s) なので最大の極の指数(Real Log Canonical Threshold)は λ = max{ ∣0 ≤ s ≤ min(M + r, H + r)} と書ける。 (s+2) s+1a ¯s+1 (s+2) 1 2 2 2 3 2 ∑ i=1 s+1 s 2 ∑ i=1 s i i ′ i a ¯s+1 s+1a ¯s+1 (s+2) (s+2) 2 i i ′ i a ¯s+1 s+1 a ¯s+1 1 2 2 2 3 2 ∑ i=1 s+1 s 2 ∑ i=1 s i i s+1a ¯s+1 (s+2) (s+2) 2 1 2 2 2 3 2 ∑ i=1 s+1 s 2 ∑ i=1 s+1 i i (s+2) (s+2) 2 2 (N+M)r−r +s(N−r)+(M−r−s)(H−r−s) 2 20
  19. ただし ℓ(s) = (N + M)r − r + s(N

    − r) + (M − r − s)(H − r − j) − 1 C : r × r C : (N − r) × r C (A ) : r × (M − r) C + C + C = (M + N)r − r : 2 1 2 3 2 ′ 1 2 3 2 21
  20. Lemma2(元論文の8 page) ζ(z) = ∣f(w)∣ g(w)dw の極−Λ(f, g)は ∣f ∣

    ≤ ∣f ∣, ∣g ∣ ≤ ∣g ∣)の時Λ(f , g ) ≤ Λ(f , g ) ∫ W z 1 2 1 2 1 2 2 2 22
  21. Lemma3(元論文の9 page) T (w), T (w), T (w)をそれぞれN × H

    , N × M , H × M 行列の関数とすると ∃α, β.st. α(∣∣T ∣∣ + ∣∣T ∣∣ ) ≤ ∣∣T ∣∣ + ∣∣T + T T∣∣ ≤ β(∣∣T ∣∣ + ∣∣T ∣∣ ) 1 2 3 ′ ′ ′ ′ ′ ′ 1 2 2 2 1 2 2 1 2 1 2 2 2 23
  22. 24