Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Information Geometry Connecting Wasserstein Distance and Kullback-Leibler Divergence via the Entropy-Relaxed Transportation Problem

論文紹介:Information Geometry Connecting Wasserstein Distance and Kullback-Leibler Divergence via the Entropy-Relaxed Transportation Problem

C612ab39597a17ba5948cae54d13f99f?s=128

Masanari Kimura

July 10, 2021
Tweet

Transcript

  1. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References 論文紹介:Information Geometry Connecting Wasserstein Distance and Kullback-Leibler Divergence via the Entropy-Relaxed Transportation Problem Masanari Kimura 総研大 統計科学専攻 日野研究室 mkimura@ism.ac.jp
  2. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Overview Introduction Fisher 情報幾何と Wasserstein 幾何 Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1 Discussions 2/37
  3. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Article Information [Amari et al., 2018] 3/37
  4. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References TL;DR ▶ Fisher 計量ベースの幾何と Wasserstein 距離ベースの幾何の統一理論を提唱 ▶ エントロピー制約付き最適輸送解を全て内包するような divergence を導出 4/37
  5. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Fisher 情報幾何 ▶ 確率変数の可逆変換に関して不変 ▶ 確率分布を元とする Riemann 多様体 ▶ KL-divergence が幾何を誘導する ▶ Fisher 情報行列が唯一不変な Riemann 計量 5/37
  6. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Wasserstein 幾何 ▶ 最適輸送問題に基づく理論 ▶ ある確率分布を別の確率分布に移す Wasserstein 距離 ▶ 確率分布の形状を調べるツールとして有用 6/37
  7. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Fisher 情報幾何と Wasserstein 幾何の統一化 KL-divergence と Wasserstein distance を関連づけることと同義 KL-divergence DKL[p : q] = i=1 pi log pi qi Wasserestein distance CW(p, q) = min P⊂U(p,q) ⟨M, P⟩ 7/37
  8. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Overview Introduction Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1 Discussions 8/37
  9. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Fisher Information Geometry ξ ∈ Rn をパラメータとして持つ確率分布 p(x, ξ) の集合は n 次元多様体になる: M = {p(x, ξ)}. (1) 具体的な ξ = {ξ1 , . . . , ξn} が決まると p(x, ξ) も決まる ⇒ ξ は確率分布の座標を決める(ξ は M の局所座標系になる) . 9/37
  10. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References 十分統計量に関する幾何の不変性 統計量 T(x) は以下を満たすとき十分統計量であるという: p(x, ξ) = p(T(x), ξ)p(x|T(x)) = p(T(x), ξ)p(x|T(x)). (2) Definition M = {p(x, ξ)} と ˜ M = {p(T(x), ξ)} の幾何学的性質が一致するとき,これらに関する幾何 は不変であるという. Theorem 統計的多様体 M は唯一不変の二次対称テンソル g と三次対称テンソル T を持つ. gij = E ∂i log p(x, ξ)∂j log p(x, ξ) (Fisher information matrix) (3) Tijk = E ∂i log p(x, ξ)∂j log p(x, ξ)∂k log p(x, ξ) (4) 10/37
  11. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Dual structure induced from divergence Theorem ダイバージェンス D[ξ∥ξ′] は以下の正定値行列を誘導する: gij = ∂2 ∂ξi∂ξ′j D[ξ∥ξ′] ξ′=ξ . (5) この正定値行列 gij は Riemannian 計量として振る舞い, Γijk = − ∂3 ∂ξi∂ξj∂ξ′k D[ξ∥ξ′] ξ′=ξ , (6) Γ∗ ijk = ∂3 ∂ξk∂ξ′i∂ξ′j D[ξ∥ξ′] ξ′=ξ (7) は双対アフィン接続の接続係数になる. 11/37
  12. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Dually flat manifold Riemannian 曲率及びその双対が消失するとき,多様体は双対平坦であると言われる: R = R∗ = 0. (8) ここで Rr ijk = ∂iΓr jk − ∂jΓr ik + Γr ih Γh jk − Γr jh Γh ik , (9) R(∂i, ∂j, ∂k) = Rr ijk ∂r. (10) 一般には成り立たないが,成り立つときは Euclidean 空間の良い性質を多く継承する. 双対平坦な統計的多様体の代表例:指数型分布族. 12/37
  13. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Geometry of exponential family 自然パラメータを θ とする指数型分布族を考える: p(x; θ) = exp θixi − ψ(θ) . (11) 確率変数 x = {x1 , . . . , xn} の期待値(期待値パラメータ) : η = E[x] = xp(x; θ)dx. (12) 13/37
  14. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Normalizing factor ψ(x) 期待値パラメータは ψ(x) の一階微分で与えられる: ∂ ∂θ p(x; θ) = x − ∂ ∂θ ψ(θ) p(x; θ) η = ∂ ∂θ ψ(θ). ∵ ∂ ∂θ p(x; θ)dµ(x) = ∂ ∂θ p(x; θ)dµ(x = 0 (13) 分散は ψ(x) の二階微分で与えられる: E[(x − η)(x − η)T] = ∂2 ∂θ∂θ ψ(θ). (14) Eq. (13)から,期待値パラメータ η は自然パラメータ θ の Legendre 変換. ⇒ η もまた座標系になる. 14/37
  15. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Legendre dual φ(η) ψ(θ) の Legendre 双対 φ(η) は以下で与えられる: φ(η) = θ · η − ψ(θ). (15) これらを用いると,KL-divergence が自然に誘導される: DKL[θ∥θ′] = ψ(θ′) + φ(η) − θ′ · η. (16) さらに KL-divergence は以下のように双対構造を誘導する: gij(θ) = ∂i∂jψ(θ), (17) Tijk(θ) = ∂i∂j∂kψ(θ), (18) Γijk(θ) = 0, (19) Γ∗ ijk = Tijk(θ). (20) gij(η) = ∂i∂jφ(η), (21) Tijk(η) = ∂i∂j∂kφ(η), (22) Γijk = Tijk(η), (23) Γ∗ijk = 0. (24) 15/37
  16. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Overview Introduction Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1 Discussions 16/37
  17. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Transportation problem ▶ χ = (X1 , X2 , . . . , Xn) = χS ∪ χR ; ▶ χS = (X1 , . . . , Xs), p = (p1 , . . . , ps), pi = 1; ▶ χR = (Xj1 , . . . , Xjr ), q = (q1 , . . . , qr), qi = 1; ▶ 輸送計画:s × r 行列 P = (Pij): j Pij = pi, i Pij = qj, ij Pij = 1. (25) 式 (25)を満たす輸送計画集合を U(p, q) と書く. 17/37
  18. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Optimal transport Wasserstein distance ▶ コスト行列:M = (mij); Xi から Xj への輸送コスト. ▶ 輸送計画 P の輸送コスト C(P): C(P) = ⟨M, P⟩ = ij mij Pij. (26) p と q との間の Wasserstein distance はこれらの間の最小輸送コストとして定義: CW(p, q) = min P⊂U(p,q) ⟨M, P⟩. (27) 18/37
  19. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Entropy-constrained transportation problem I Theorem ▶ 結合エントロピー:H(P) = − ij Pij log Pij . 周辺分布 p と q が与えられたとき,H(P) を最大化する輸送計画 P は PD = p ⊗ q = (pi qj) (28) で与えられる. Proof. H(PD) = − PDij log PDij = H(p) + H(q) ≥ H(P) (∀P ⊂ U(p, q)) (29) 19/37
  20. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Entropy-constrained transportation problem II Entropy-constrained transportation problem ▶ H(P) ≥ const のもとで ⟨M, P⟩ を最小化する制約付き問題を考える. ▶ この問題は P が PD を中心とする KL-divergence ball に含まれるような制約を課す ことと同値: DKL[P∥PD] = Pij log Pij pi qj = −H(P) + H(p) + H(q) ≤ const. (30) 定数 const が増加 ⇒ H(P) が増加. ⇒ entropy-constrained transportation problem for constant λ [Cuturi, 2013]. Fλ (P) = ⟨M, P⟩ − λH(P). (31) 20/37
  21. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Cuturi function[Cuturi, 2013] Theorem ある λ について,エントロピー制約の下での最適輸送解 P∗ λ は P∗ λij = cai bj Kij (32) で与えられる(c = 1/ ai bj Kij ) .ここで,ラグランジュ乗数 α,β について, Kij = exp − mij λ , ai = exp 1 + λ λ αi , bj = exp 1 + λ λ βj . 最適輸送解 P∗ λ を用いて導出される一般化コスト関数 Cλ (p, q) = 1 1 + λ ⟨M, P∗ λ ⟩ − λ 1 + λ H(P∗ λ ) (33) を Cuturi function と呼ぶ [Cuturi, 2013]. 21/37
  22. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Properties of Cuturi Function Cλ (p, q) ▶ (p, q) に関して凸関数 ▶ λ → 0 で Wasserstein 距離 CW(p, q) に収束 ▶ p = q で Cλ (p, q) ̸= 0 ▶ p = q で最小値をとらない 22/37
  23. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Overview Introduction Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 STP と SOTP,λ SOTP,λ の双対構造 λ-divergences in Sn−1 Discussions 23/37
  24. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Transportation Plans as the Manifold 輸送計画 P は確率分布とみなせる: P(x) = i,j Pijδij(x). (34) ここでパラメータ θ = (θij) を θij = log Pij Psr (35) として導入すると, P(x, θ) = exp i,j θijδij(x) + log Psr . (36) ⇒ 輸送計画の集合は指数型分布族になり,(sr − 1) 次元多様体 STP を構成. ▶ 自然パラメータ θ = (θij) ▶ 期待値パラメータ η = (ηij) = (Pij) 24/37
  25. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Optimal Transportation Plans as the Embedded Manifold 式 (32)において (α, β) によって決まる最適輸送計画: P∗ λ (x, α, β) = exp i,j 1 + λ λ (αi + βj) − mij λ δij(x) − 1 + λ λ ψλ (α, β) . (37) 正則化項 ψλ (α, β) はポテンシャル関数: ψλ (α, β) = − λ 1 + λ log c. (c は自由エネルギー) (38) P∗ λ (x, α, β) はそれ自身も指数型分布族になるので,多様体 SOTP,λ は STP の部分多様体 ⇒ SOTP,λ は双対平坦な (s + r − 2) 次元多様体. ▶ 自然パラメータ:(α, β) 25/37
  26. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Some quantities of SOTP,λ ▶ 自由エネルギー c = x∈(χS,χR) exp θijδij(x) , (39) θij = 1 + λ λ (αi + βj) − mij λ . (40) ▶ 期待値パラメータ E j δij(x) , E i δij(x) = (pi, qj). (41) 26/37
  27. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Legendre dual of the potential function ψλ (α, β) の Legendre 双対: φλ (p, q) = p · α + q · β − ψλ (α, β). (42) θ = (α, β)T,η = (p, q) と記法を改めると, ψλ (θ) + φλ (η) = θ · η. (43) 27/37
  28. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References The dual potential φλ = Cuturi function Cλ Theorem 双対ポテンシャル φλ は Cuturi 関数 Cλ に一致する. Proof. φλ (p, q) = p · α + q · β − ψλ (α, β) = 1 1 + λ ⟨M, P⟩ + i,j Pij (αi + βj) − 1 1 + λ mij − ψλ = 1 1 + λ ⟨M, P⟩ + 1 1 + λ i,j Pij log αi + log βj − mij λ + log c = Cλ (p, q). (44) 28/37
  29. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Legendre relationship and Fisher information matrix ψλ と φλ は以下の Legendre 変換で関連づけられる: θ = ∇η φλ (η), η = ∇θ ψλ (θ). (45) また,Riemannian 計量とその逆行列は Gλ = ∇η ∇η φλ (η), G−1 λ = ∇θ ∇θ ψλ (θ). (46) Theorem θ-座標系における Fisher 情報行列 G−1 λ は以下で与えられる: G−1 λ = piδij − pi pj Pij − pi qj Pij − pi qj qiδij − qi qj . (47) 29/37
  30. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Canonical Divergence between Two Transportation Problems Legendre 双対 ψλ と φλ を用いて,canonical divergence を誘導できる: Dλ [(p, q)∥(p′, q′)] = ψλ (α, β) + φ(p′, q′) − α · p′ − β · q′ (48) = DKL[Pλ (p, q), Pλ (p′, q′)] 最適輸送プラン同士の KLD . (49) 次にやりたいことは,canonical divergence から確率分布同士の divergence の導出. 30/37
  31. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Overview Introduction Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1 λ-divergences の導出 Discussions 31/37
  32. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References λ-divergences ▶ 最後に,SOTP,λ の canonical divergence を用いて p ∈ Sn−1 と q ∈ Sn−1 間のダイバー ジェンスを定義すること. ある reference distribution r ∈ Sn−1 について,r-referenced divergence とその双対を Dr,λ [p, q] = γλ DKL[P∗ λ (r, p)∥P∗ λ (r, q)], (50) Dr,λ [p, q] = γλ ˜ DKL[P∗ λ (r, q)∥P∗ λ (r, p)] (51) と定義する.ここで γλ は正規化定数.ここで r = p と選ぶと,以下の λ-divergence が定 義できる: Dλ [p∥q] = γλ DKL[P∗ λ (p, p)∥P∗ λ (p, q)]. (52) 32/37
  33. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References λ-divergences are constructed from the Cuturi function Theorem 正規化定数を γλ = λ 1+λ と選ぶと,Dλ [p∥q] は以下で与えられる. Dλ [p∥q] = Cλ (p, p) − Cλ (p, q) − ∇q Cλ (p, q) · (p − q). (53) Proof. λ 1 + λ log P∗ λ (p, p)ij = α′ i + β′ j − mij λ − ψ′ λ , λ 1 + λ log P∗ λ (p, q)ij = αi + βj − mij λ − ψλ . ⇒ Dλ [p∥q] = φλ (p, p) − φλ (p, q) − ∇qφλ (p, q) · (p − q) (54) 33/37
  34. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References λ-divergence is related to DKL and Cλ 結局,Dλ は以下のように KL-divergence とエントロピー制約付き最適輸送を紐づける. ▶ Dλ は Cuturi 関数で書ける(Theorem 8) ; ▶ λ → ∞ で Dλ は DKL[p∥q] に収束する. 34/37
  35. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Overview Introduction Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1 Discussions 35/37
  36. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References Discussions ▶ 最適輸送解の一意性: 元の Wasseerstein distance は線形計画問題を解くことで得られ るので,解の一意性が保証されない一方で,エントロピー制約解は一意かつ微分可能 ▶ 意識の統合情報理論への応用 ▶ f-divergence による類似の divergence の導出 ▶ q-entropy 緩和最適輸送 ▶ Dλ と元々の Cλ との比較 36/37
  37. Intro Fisher 情報幾何 Entropy-constrained transportation problem 最適輸送の幾何 λ-divergences in Sn−1

    Discussions References References Shun-ichi Amari, Ryo Karakida, and Masafumi Oizumi. Information geometry connecting wasserstein distance and kullback–leibler divergence via the entropy-relaxed transportation problem. Information Geometry, 1(1):13–37, 2018. Marco Cuturi. Sinkhorn distances: Lightspeed computation of optimal transport. Advances in neural information processing systems, 26:2292–2300, 2013. 37/37