Upgrade to Pro — share decks privately, control downloads, hide ads and more …

平均場近似を用いた非負テンソルの高速な低ランク近似法(StatsML Symposium'21...

Kazu Ghalamkari
February 09, 2022

平均場近似を用いた非負テンソルの高速な低ランク近似法(StatsML Symposium'21, 招待講演)

第6回統計機械学習若手シンポジウム(招待講演)での発表です.
"平均場近似を用いた非負テンソルの高速な低ランク近似法"

論文はこちら
https://papers.nips.cc/paper/2021/hash/040ca38cefb1d9226d79c05dd25469cb-Abstract.html

Kazu Ghalamkari

February 09, 2022
Tweet

More Decks by Kazu Ghalamkari

Other Decks in Research

Transcript

  1. 勾配法に基づかない高速な低ランク近似法 KL情報量 低ランク近似 情報幾何学 𝐷𝐾𝐿 𝑝, 𝑞 = ෍ 𝑖

    𝑝𝑖 log 𝑝𝑖 𝑞𝑖 ≈ 関連タスクでも高速な解法が見つかる e.g. 複数の行列の同時分解, 欠損NMF, .. 低ランク近似の幾何的な議論 平均場近似との類似性 今日のトピック! 3 (Ghalamkari & Sugiyama, NeurIPS 2021) (Ghalamkari & Sugiyama, AISTATS 2022) 少ない基底で テンソルを近似 分布間の類似性 を評価する量 確率分布の 幾何学
  2. 発表の流れ ◆ 導入:テンソルの低ランク近似 ◆ テンソルの最良ランク1近似 ー テンソルと分布の対応 ー 分布のパラメータでテンソルのランクを特徴づける ー

    ランク1近似と平均場近似の類似性 ◆ 勾配法に基づかない高速な低タッカーランク近似法(LTR) ◆ まとめ 6
  3. テンソル低ランク近似 ത 𝒫𝑖𝑗𝑘 = ෍ 𝑙=1 𝐿 ෍ 𝑚=1 𝑀

    ෍ 𝑛=1 𝑁 𝒢𝑖𝑗𝑘 𝐴𝑖𝑙 𝐵𝑗𝑚 𝐶𝑘𝑛 ・非負テンソルを確率分布と対応させ,情報幾何的な議論から最良ランク1近似の公式を導く. ・非負テンソルのランク1近似を平均場近似として捉える. ・最良ランク1近似の公式に基づく高速な非負テンソルの低タッカーランク近似(LTR)を提案する. ത 𝒫のタッカーランク : 𝐿, 𝑀, 𝑁 低ランク近似 : テンソルをランクの小さいテンソルで近似するとメモリ容量の削減が可能. ランク(1,1,1)を単にランク1と呼ぶ. 本研究 多くの非負低ランク近似手法は勾配法に基づく → 初期位置, 収束判定, 学習率... 😢😢 フロベニウスエラーやKLエラー最小化 𝐿 ≤ 𝐼, 𝑀 ≤ 𝐽, 𝑁 ≤ 𝐾 本発表ではタッカーランクを単にランクと呼ぶ 7 ≈ 𝒫 ത 𝒫 𝑨 𝒢 𝑪 𝑩 I 𝐽 𝐾
  4. 半順序集合上の対数線形モデル 半順序集合(poset) 有限集合𝑆の任意の要素𝑠1 , 𝑠2 , 𝑠3 ∈ 𝑆に次の関係があるときに, 𝑆を半順序集合と呼ぶ.

    (1)反射律: 𝑠1 ≤ 𝑠1 (2)反対称律: 𝑠1 ≤ 𝑠2 , 𝑠2 ≤ 𝑠1 ⇒ 𝑠1 = 𝑠2 (3)推移律:𝑠1 ≤ 𝑠2 , 𝑠2 ≤ 𝑠3 ⇒ 𝑠1 ≤ 𝑠3 半順序集合𝑆上の対数線形モデル 写像𝑝: 𝑆 → 0,1 として,順序集合𝑆上の対数線形モデルを定義する.分布の自然パラメータ 𝜃 で分布が定まる. 𝑝𝜃 𝑥 = exp ෍ 𝑠≤𝑥 𝜃 𝑠 𝑥 ∈ 𝑆 𝜃空間 𝜃(s2 ) 𝜃(s1 ) 𝜃(s3 ) 𝑝 𝜂空間 Möbius関数𝜇を用いれば,期待値パラメータ 𝜂 で分布を定めることもできる. 𝜂 𝑥 = ෍ 𝑠≥𝑥 𝑝 𝑠 𝜂(s2 ) 𝜂(s1 ) 𝜂(s3 ) 𝑝 𝑝𝜂 𝑥 = ෍ 𝑠∈𝑆 𝜇 𝑥, 𝑠 𝜂 𝑠 Mahito Sugiyama, Hiroyuki Nakahara and Koji Tsuda "Tensor balancing on statistical manifold“(2017) ICML. 𝜇 𝑥, 𝑠 = ቐ 1 − σ𝑥≤𝑠<𝑦 𝜇 𝑥, 𝑠 0 if 𝑥 = 𝑦 if 𝑥 < 𝑦 otherwise Möbius関数 • • 8
  5. 例:高次のボルツマンマシン 𝑆 = 2 1,2,⋯,𝑛 𝑝 𝑥 = exp ෍

    𝑠≤𝑥 𝜃 𝑠 𝜂 𝑥 = ෍ 𝑠≥𝑥 𝑝 𝑠 123 𝜽𝟐𝟑 3 1 2 23 13 12 {} 𝜽𝟐 𝜽𝟑 𝜼𝟐𝟑 𝜼𝟏𝟐𝟑 𝜽∅ Normalizer 高次のボルツマンマシン 𝑝 23 = exp 𝜃 ∅ + 𝜃 2 + 𝜃 3 + 𝜃 23 𝜂 23 = 𝑝 23 + 𝑝 123 𝑝 𝒙 = 1 𝑍 𝜽 exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 + ⋯ + 𝜃1⋯𝑛 𝑥1 ⋯ 𝑥𝑛 𝒙 = 𝑥1 , … , 𝑥𝑛 ∈ 0,1 𝑛 = ∅, 1 , 2 , 3 , 12 , ⋯ , 123 , ⋯ 𝑥 ≤ 𝑦 ⟺ 𝑥 ⊆ 𝑦 𝑝 0,1,1 = exp 𝜃2 + 𝜃3 + 𝜃23 𝑍 𝔼𝑝 𝑥2 𝑥3 = 𝑝 0,1,1 + 𝑝 1,1,1 Mahito Sugiyama, Hiroyuki Nakahara and Koji Tsuda "Tensor balancing on statistical manifold“(2017) ICML. 9 例:𝑛 = 3 例:𝑛 = 3
  6. 半順序集合上の対数線形モデルと非負テンソルの対応 𝑆 = 𝑖, 𝑗 |𝑖, 𝑗 = 1,2, ⋯

    𝑛 𝑖1 , 𝑗1 ≤ 𝑖2 , 𝑗2 ⟺ 𝑖1 ≤ 𝑖2 and 𝑗1 ≤ 𝑗2 11 21 31 12 22 32 33 23 31 𝜽𝟏𝟏 𝜽𝟏𝟐 𝜽𝟐𝟐 𝜽𝟐𝟏 𝜼𝟐𝟐 𝜼𝟑𝟐 𝜼𝟐𝟑 𝜼𝟑𝟑 Normalizer 𝑆 = 𝑖, 𝑗, 𝑘 |𝑖, 𝑗, 𝑘 = 1,2, ⋯ 𝑛 𝑖1 , 𝑗1 , 𝑘1 ≤ 𝑖2 , 𝑗2 , 𝑘2 ⟺ 𝑖1 ≤ 𝑖2 and 𝑗1 ≤ 𝑗2 and 𝑘1 ≤ 𝑘2 𝑝𝜂 (2,2) = 𝜂22 − 𝜂23 − 𝜂32 + 𝜂33 𝑝𝜃 (2,2) = exp 𝜃11 + 𝜃12 + 𝜃21 + 𝜃22 𝑝𝜃 (𝑖, 𝑗) = exp ෍ 𝑖′≤𝑖 ෍ 𝑗′≤𝑗 𝜃𝑖′𝑗′ 𝑝𝜃 (𝑖, 𝑗, 𝑘) = exp ෍ 𝑖′≤𝑖 ෍ 𝑗′≤𝑗 ෍ 𝑘′≤𝑘 𝜃𝑖′𝑗′𝑘′ 𝑝𝜃 (1,1,2) = exp 𝜃111 + 𝜃112 𝑝𝜂 1,1,2 = 𝜂222 − 𝜂221 − 𝜂122 + 𝜂112 行列 テンソル 111 121 122 112 221 222 212 211 Normalizer 確率変数:テンソルの添字𝐢, 𝐣, 𝐤 標本空間:添字集合 確率の値:テンソルの値𝓟𝒊𝒋𝒌 テンソルと確率分布の対応 10 確率変数:行列の添字𝐢, 𝐣 標本空間:添字集合 確率の値:行列の値𝓟𝒊𝒋 行列と確率分布の対応
  7. 一体・多体のパラメータ 𝜃-表示 𝜂-表示 12 𝒫𝑖𝑗𝑘 One to One One to

    One 𝑝𝜃 (𝑖, 𝑗, 𝑘) 𝑝𝜂 (𝑖, 𝑗, 𝑘) 1でない添字が1つだけ. 𝜃𝑖11 , 𝜃1𝑗1 , 𝜃11𝑘 多体のパラメータ 1体のパラメータ以外のパラメータ 𝜂𝑖11 , 𝜂1𝑗1 , 𝜂11𝑘 1体のパラメータ
  8. テンソルのランク1条件を(𝜃, 𝜂)で記述する 𝒫𝑖𝑗𝑘 = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1

    𝑗 ෍ 𝑘′=1 𝑘 𝜃𝑖′𝑗′𝑘′ rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 = exp 𝜃111 exp ෍ 𝑖′=2 𝑖 𝜃𝑖′11 exp ෍ 𝑗′=2 𝑗 𝜃1𝑗′1 exp ෍ 𝑘′=2 𝑘 𝜃11𝑘′ 𝒫 = 𝑒𝜃111 1 𝑒𝜃211 𝑒𝜃211+𝜃311 ⋮ 𝑒𝜃211+𝜃311+⋯+𝜃𝐼11 ⊗ 1 𝑒𝜃121 𝑒𝜃121+𝜃131 ⋮ 𝑒𝜃121+𝜃131+⋯+𝜃1𝐽1 ⊗ 1 𝑒𝜃211 𝑒𝜃211+𝜃311 ⋮ 𝑒𝜃211+𝜃311+⋯+𝜃11𝐾 ⟸ を示す 3つのベクトルのクロネッカー積でかけるオーダー3のテンソルのランクは1 ∎ ランク1条件(𝜽表示) 13 1でない添字が1つだけ. 𝜃𝑖11 , 𝜃1𝑗1 , 𝜃11𝑘 多体のパラメータ 1体のパラメータ以外のパラメータ 𝜂𝑖11 , 𝜂1𝑗1 , 𝜂11𝑘 1体のパラメータ
  9. 多体の自然パラメータが0の部分空間への射影 ランク1近似は,多体の自然パラメータがすべて0の部分空間𝓑への射影 𝜃123 • • 𝜃11𝑘 𝒫 ത 𝒫 入力テンソル

    𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影 ℬ ℬの平坦性から,𝒫 ∈ ℝ≥0 𝐼×𝐽×𝐾からℬへのKL情報量を最小化する射影は一意 But!! 勾配法は,初期値依存,収束判定,学習率の設定などが厄介 😢😢 期待値パラメータ 𝜼 でランク1条件を記述してみる. 𝜃1𝑗1 𝜼𝟏𝟏𝒌 𝜼𝟏𝟏𝒌 14 自然勾配法で解ける! この𝑚射影で一体のηが不変 ランク1近似は各軸方向の和が不変
  10. テンソルのランク1条件を(𝜃, 𝜂)で記述する rank 𝒫 = 1 ⟺ 多体の期待値パラメータ𝜂が一体の𝜂の積でかける𝜂𝑖𝑗𝑘 = 𝜂𝑖11

    𝜂1𝑗1 𝜂11𝑘 ランク1条件(𝜼表示) rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク1条件(𝜽表示) 15
  11. KL情報量を最小化する最良ランク1公式 この2つの補題から,ランク1近似後のテンソルを求める解の公式が導出できる. KL情報量最小化の最良ランク1近似公式 (𝑑 = 3 の場合) テンソル𝒫 ∈ ℝ>0

    𝐼×𝐽×𝐾の各軸方向の和の積で得るテンソル ത 𝒫𝑖𝑗𝑘 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ෍ 𝑘′=1 𝐾 ෍ 𝑖′=1 𝐼 𝒫𝑖′𝑗𝑘′ ෍ 𝑖′=1 𝐼 ෍ 𝑗′=1 𝐽 𝒫𝑖′𝑗′𝑘 は,𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾からのKL情報量を最小化するランク1テンソルである. ത 𝒫 = argmin 𝒬:rank 𝒬 =1 𝐷KL 𝒫; 𝒬 K.Huang, et al. "Kullback-Leibler principal component for tensors is not NP-hard." ACSSC 2017 の結果を再現 rank 𝒫 = 1 ⟺ 多体の𝜂が一体の𝜂の積でかける𝜂𝑖𝑗𝑘 = 𝜂𝑖11 𝜂1𝑗1 𝜂11𝑘 ランク1条件(𝜼表示) rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク1条件(𝜽表示) ちなみに… フロベニウス誤差 最小化はNP困難 16
  12. 平均場近似とランク1近似 テンソル𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾の各軸方向の和の積で得るテンソル ത 𝒫𝑖𝑗𝑘 = ෍ 𝑗′=1

    𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ෍ 𝑘′=1 𝐾 ෍ 𝑖′=1 𝐼 𝒫𝑖′𝑗𝑘′ ෍ 𝑖′=1 𝐼 ෍ 𝑗′=1 𝐽 𝒫𝑖′𝑗′𝑘 は,𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾からのKL情報量を最小化するランク1テンソルである. 𝑖のみに依存する 規格化ベクトル 𝑗のみに依存する 規格化ベクトル 𝑘のみに依存する 規格化ベクトル 添字が𝑑個の総和が1のテンソルを,確率変数が𝑑個ある同時分布とみなしていた. 添字が1個の総和が1のベクトルは,確率変数が1つしかない分布とみなせる. テンソルのランク1近似は同時分布を確率変数が1つしかない分布の積で近似する操作 KL情報量最小化の最良ランク1近似公式 (𝒅 = 𝟑 の場合) 平均場近似:多体問題を一体問題に帰着する方法論として物理学では頻繁に登場 17
  13. ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖

    𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝑂 2𝑛 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 平均場方程式 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 18 相互作用 Bias
  14. ボルツマンマシンの平均場近似 ランク1近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖

    𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝑝𝜃 (𝑖, 𝑗, 𝑘) = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1 𝑗 ෍ 𝑘′=1 𝑘 𝜃𝑖′𝑗′𝑘′ 𝑂 2𝑛 𝑂 𝐼𝐽𝐾 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 平均場方程式 独立分布の積からなる分布の集合 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 𝜂𝑖11 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 計算可能 19 相互作用 Bias
  15. KL最小化 逆KL最小化 ランク1近似 BMの 平均場近似 困難 解の公式 𝜂𝑖 = σ

    𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 𝜂𝑘 良い解が見つかるか? 𝑂 2𝑛 Future Work 𝜂𝑖1 = 𝜂𝑖1 σ − ෍ 𝑘 𝜃𝑗𝑘 𝜂1𝑘 + 𝜂𝑖1 σ ෍ 𝑘 𝜃𝑗𝑘 𝜂1𝑘 m射影 e射影 射影先はe平坦 射影先はe平坦 20 unique unique BMの平均場近似とランク1近似の関係
  16. 発表の流れ ◆ 導入:テンソルの低ランク近似 ◆ テンソルの最良ランク1近似 ー テンソルと分布を対応 ー 分布のパラメータでテンソルのランクを特徴づける ー

    ランク1近似と平均場近似の類似性 ◆ 勾配法に基づかない高速な低タッカーランク近似法(LTR) ◆ まとめ 21
  17. ランク1条件を緩和して,タッカーランク削減を定式化する 𝜃𝑖𝑗𝑘 = 0 𝜃112 𝜃131 𝜃121 𝜃113 𝜃211 𝜃311

    𝒎番目の軸に注目してテンソルを展開して矩形行列𝜽(𝒎)にする(モード𝒎展開) 𝜃(1) = 𝜃111 𝜃121 𝜃131 𝜃112 0 0 𝜃113 0 0 𝜃211 0 0 0 0 0 0 0 0 𝜃311 0 0 0 0 0 0 0 0 𝜃(2) = 𝜃111 𝜃211 𝜃311 𝜃112 0 0 𝜃311 0 0 𝜃121 0 0 0 0 0 0 0 0 𝜃131 0 0 0 0 0 0 0 0 𝜃(3) = 𝜃111 𝜃211 𝜃311 𝜃121 0 0 𝜃131 0 0 𝜃112 0 0 0 0 0 0 0 0 𝜃113 0 0 0 0 0 0 0 0 ランク 1,1,1 ビンゴ2つ rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク1条件(𝜽表示) ビンゴ2つ ビンゴ2つ 1行(列)目は,他の行(列)の何倍かを表す 22
  18. ビンゴとランクの関係 テンソル𝒫 ∈ ℝ𝐼1×𝐼2×𝐼3の 𝜃のモード𝑚展開𝜃(𝑚)が𝑏𝑚 個のビンゴを有する ⇒ rank 𝒫 ≤

    𝐼1 − 𝑏1 , 𝐼2 − 𝑏2 , 𝐼3 − 𝑏3 𝜃(1) = 𝜃111 𝜃121 𝜃131 𝜃112 0 0 𝜃113 0 0 𝜃211 0 0 0 0 0 0 0 0 𝜃311 𝜃321 𝜃331 𝜃312 𝜃322 𝜃332 𝜃313 𝜃323 𝜃333 𝜃(2) = 𝜃111 𝜃211 𝜃311 𝜃112 0 𝜃312 𝜃311 0 𝜃313 𝜃121 0 𝜃321 0 0 𝜃322 0 0 𝜃323 𝜃131 0 𝜃331 0 0 𝜃332 0 0 𝜃333 𝜃(3) = 𝜃111 𝜃211 𝜃311 𝜃121 0 𝜃321 𝜃131 0 𝜃331 𝜃112 0 𝜃312 0 0 𝜃322 0 0 𝜃332 𝜃113 0 𝜃313 0 0 𝜃323 0 0 𝜃333 ビンゴ1つ ビンゴルール(𝑑 = 3 の場合) 𝜃123 • • 𝒫 ത 𝒫 入力テンソル 𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影 モード1方向の2行目の𝜃が全て0の空間ℬ 1 ビンゴなし ビンゴなし ランク 2,3,3 23
  19. 実験結果 [実データ] (92, 112, 400) (9, 9, 512, 512, 3)

    既存の手法と同程度の近似性能で,高速な低ランク近似を実現 29
  20. 初期値依存, 学習率, 収束判定…😢 高次化 ≈ ≈ フロベニウスノルム最小化は ランク1でさえNP困難 フロベニウスノルム最小化は SVDで厳密に解ける😄

    32 勾配法で近似する (Eckart & Young , 1936) 行列低ランク近似 テンソル低ランク近似 非負ランク1近似のバリエーションへの応用
  21. 欠損 KL最小化のランク1公式 複合化 高次化 非負ランク1近似のバリエーションへの応用 ≈ ≈ 複合行列因子分解 ≈ KL最小化のランク1公式

    34 欠損を含むNMF 関連 ≈ 高速なランク1近似解法 (Ghalamkari & Sugiyama, AISTATS 2022) (Ghalamkari & Sugiyama, AISTATS 2022) 行列低ランク近似 テンソル低ランク近似
  22. まとめ ▪ 半順序集合上の対数線形モデルの𝜂, 𝜃 でテンソルの条件を記述 ランク1条件(𝜼表示) ▪ Legendre Tucker Rank

    Reduction ҧ 𝜂𝑖𝑗𝑘 = ҧ 𝜂𝑖11 ҧ 𝜂1𝑗1 ҧ 𝜂11𝑘 ・テンソルの各部分にランク1近似(平均場近似)を行う. ・既存の手法と同程度の近似性能で,高速に近似を実現 ランク1条件(𝜽表示) 多体の ҧ 𝜃𝑖𝑗𝑘 がすべて0 ビンゴ の数だけランクが落ちる. 低ランク条件(𝜽表示) • • 𝜃11𝑘 𝒫 ത 𝒫 入力 𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影 ℬ 𝜃1𝑗1 𝜃𝑖𝑗𝑘 低ランク近似を(𝜽, 𝜼)-空間の射影の問題として議論 Ghalamkari & Sugiyama, NeurIPS 2021 Fast Tucker Rank Reduction for Non-Negative Tensors Using Mean-Field Approximation 35 KL情報量 低ランク近似 情報幾何学 Ghalamkari & Sugiyama, AISTATS 2022 Fast Rank-1 NMF for Missing Data with KL Divergence ▪ 非負複合行列因子分解の解の公式 ≈ ・関連タスクでの最良ランク1近似公式の発見