平均場近似を用いた非負テンソルの高速な低ランク近似法(StatsML Symposium'21, 招待講演)

平均場近似を用いた非負テンソルの高速な低ランク近似法ガラムカリ和1,2 第6回統計・機械学習若手シンポジウム 2022.2.9-11 1 : 国立情報学研究所 2
: 総合研究大学院大学 1

勾配法に基づかない高速な低ランク近似法 KL情報量低ランク近似情報幾何学 𝐷𝐾𝐿 𝑝, 𝑞 = ෍ 𝑖
𝑝𝑖 log 𝑝𝑖 𝑞𝑖 ≈ 関連タスクでも高速な解法が見つかる e.g. 複数の行列の同時分解, 欠損NMF, .. 低ランク近似の幾何的な議論平均場近似との類似性今日のトピック！ 3 (Ghalamkari & Sugiyama, NeurIPS 2021) (Ghalamkari & Sugiyama, AISTATS 2022) 少ない基底でテンソルを近似分布間の類似性を評価する量確率分布の幾何学

発表の流れ ◆ 導入：テンソルの低ランク近似 ◆ テンソルの最良ランク１近似ーテンソルと分布の対応ー分布のパラメータでテンソルのランクを特徴づけるー
ランク１近似と平均場近似の類似性 ◆ 勾配法に基づかない高速な低タッカーランク近似法(LTR) ◆ まとめ 6

テンソル低ランク近似 ത 𝒫𝑖𝑗𝑘 = ෍ 𝑙=1 𝐿 ෍ 𝑚=1 𝑀
෍ 𝑛=1 𝑁 𝒢𝑖𝑗𝑘 𝐴𝑖𝑙 𝐵𝑗𝑚 𝐶𝑘𝑛 ・非負テンソルを確率分布と対応させ，情報幾何的な議論から最良ランク１近似の公式を導く．・非負テンソルのランク１近似を平均場近似として捉える．・最良ランク１近似の公式に基づく高速な非負テンソルの低タッカーランク近似(LTR)を提案する． ത 𝒫のタッカーランク : 𝐿, 𝑀, 𝑁 低ランク近似：テンソルをランクの小さいテンソルで近似するとメモリ容量の削減が可能．ランク(1,1,1)を単にランク１と呼ぶ．本研究多くの非負低ランク近似手法は勾配法に基づく → 初期位置, 収束判定, 学習率... 😢😢 フロベニウスエラーやKLエラー最小化 𝐿 ≤ 𝐼, 𝑀 ≤ 𝐽, 𝑁 ≤ 𝐾 本発表ではタッカーランクを単にランクと呼ぶ 7 ≈ 𝒫 ത 𝒫 𝑨 𝒢 𝑪 𝑩 I 𝐽 𝐾

半順序集合上の対数線形モデル半順序集合(poset) 有限集合𝑆の任意の要素𝑠1 , 𝑠2 , 𝑠3 ∈ 𝑆に次の関係があるときに， 𝑆を半順序集合と呼ぶ．
(1)反射律: 𝑠1 ≤ 𝑠1 (2)反対称律: 𝑠1 ≤ 𝑠2 , 𝑠2 ≤ 𝑠1 ⇒ 𝑠1 = 𝑠2 (3)推移律:𝑠1 ≤ 𝑠2 , 𝑠2 ≤ 𝑠3 ⇒ 𝑠1 ≤ 𝑠3 半順序集合𝑆上の対数線形モデル写像𝑝: 𝑆 → 0,1 として，順序集合𝑆上の対数線形モデルを定義する．分布の自然パラメータ 𝜃 で分布が定まる． 𝑝𝜃 𝑥 = exp ෍ 𝑠≤𝑥 𝜃 𝑠 𝑥 ∈ 𝑆 𝜃空間 𝜃(s2 ) 𝜃(s1 ) 𝜃(s3 ) 𝑝 𝜂空間 Möbius関数𝜇を用いれば，期待値パラメータ 𝜂 で分布を定めることもできる． 𝜂 𝑥 = ෍ 𝑠≥𝑥 𝑝 𝑠 𝜂(s2 ) 𝜂(s1 ) 𝜂(s3 ) 𝑝 𝑝𝜂 𝑥 = ෍ 𝑠∈𝑆 𝜇 𝑥, 𝑠 𝜂 𝑠 Mahito Sugiyama, Hiroyuki Nakahara and Koji Tsuda "Tensor balancing on statistical manifold“(2017) ICML. 𝜇 𝑥, 𝑠 = ቐ 1 − σ𝑥≤𝑠<𝑦 𝜇 𝑥, 𝑠 0 if 𝑥 = 𝑦 if 𝑥 < 𝑦 otherwise Möbius関数 • • 8

例：高次のボルツマンマシン 𝑆 = 2 1,2,⋯,𝑛 𝑝 𝑥 = exp ෍
𝑠≤𝑥 𝜃 𝑠 𝜂 𝑥 = ෍ 𝑠≥𝑥 𝑝 𝑠 123 𝜽𝟐𝟑 3 1 2 23 13 12 {} 𝜽𝟐 𝜽𝟑 𝜼𝟐𝟑 𝜼𝟏𝟐𝟑 𝜽∅ Normalizer 高次のボルツマンマシン 𝑝 23 = exp 𝜃 ∅ + 𝜃 2 + 𝜃 3 + 𝜃 23 𝜂 23 = 𝑝 23 + 𝑝 123 𝑝 𝒙 = 1 𝑍 𝜽 exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 + ⋯ + 𝜃1⋯𝑛 𝑥1 ⋯ 𝑥𝑛 𝒙 = 𝑥1 , … , 𝑥𝑛 ∈ 0,1 𝑛 = ∅, 1 , 2 , 3 , 12 , ⋯ , 123 , ⋯ 𝑥 ≤ 𝑦 ⟺ 𝑥 ⊆ 𝑦 𝑝 0,1,1 = exp 𝜃2 + 𝜃3 + 𝜃23 𝑍 𝔼𝑝 𝑥2 𝑥3 = 𝑝 0,1,1 + 𝑝 1,1,1 Mahito Sugiyama, Hiroyuki Nakahara and Koji Tsuda "Tensor balancing on statistical manifold“(2017) ICML. 9 例：𝑛 = 3 例：𝑛 = 3

半順序集合上の対数線形モデルと非負テンソルの対応 𝑆 = 𝑖, 𝑗 |𝑖, 𝑗 = 1,2, ⋯
𝑛 𝑖1 , 𝑗1 ≤ 𝑖2 , 𝑗2 ⟺ 𝑖1 ≤ 𝑖2 and 𝑗1 ≤ 𝑗2 11 21 31 12 22 32 33 23 31 𝜽𝟏𝟏 𝜽𝟏𝟐 𝜽𝟐𝟐 𝜽𝟐𝟏 𝜼𝟐𝟐 𝜼𝟑𝟐 𝜼𝟐𝟑 𝜼𝟑𝟑 Normalizer 𝑆 = 𝑖, 𝑗, 𝑘 |𝑖, 𝑗, 𝑘 = 1,2, ⋯ 𝑛 𝑖1 , 𝑗1 , 𝑘1 ≤ 𝑖2 , 𝑗2 , 𝑘2 ⟺ 𝑖1 ≤ 𝑖2 and 𝑗1 ≤ 𝑗2 and 𝑘1 ≤ 𝑘2 𝑝𝜂 (2,2) = 𝜂22 − 𝜂23 − 𝜂32 + 𝜂33 𝑝𝜃 (2,2) = exp 𝜃11 + 𝜃12 + 𝜃21 + 𝜃22 𝑝𝜃 (𝑖, 𝑗) = exp ෍ 𝑖′≤𝑖 ෍ 𝑗′≤𝑗 𝜃𝑖′𝑗′ 𝑝𝜃 (𝑖, 𝑗, 𝑘) = exp ෍ 𝑖′≤𝑖 ෍ 𝑗′≤𝑗 ෍ 𝑘′≤𝑘 𝜃𝑖′𝑗′𝑘′ 𝑝𝜃 (1,1,2) = exp 𝜃111 + 𝜃112 𝑝𝜂 1,1,2 = 𝜂222 − 𝜂221 − 𝜂122 + 𝜂112 行列テンソル 111 121 122 112 221 222 212 211 Normalizer 確率変数：テンソルの添字𝐢, 𝐣, 𝐤 標本空間：添字集合確率の値：テンソルの値𝓟𝒊𝒋𝒌 テンソルと確率分布の対応 10 確率変数：行列の添字𝐢, 𝐣 標本空間：添字集合確率の値：行列の値𝓟𝒊𝒋 行列と確率分布の対応

規格化されたテンソルの様々な表現テンソルの性質を𝜃-や𝜂-で表現できる．凸問題としての定式化・理解が容易になる 11 𝜃-表示 𝜂-表示 𝒫𝑖𝑗𝑘 One to One
One to One 𝑝𝜃 (𝑖, 𝑗, 𝑘) 𝑝𝜂 (𝑖, 𝑗, 𝑘)

一体・多体のパラメータ 𝜃-表示 𝜂-表示 12 𝒫𝑖𝑗𝑘 One to One One to
One 𝑝𝜃 (𝑖, 𝑗, 𝑘) 𝑝𝜂 (𝑖, 𝑗, 𝑘) 1でない添字が1つだけ． 𝜃𝑖11 , 𝜃1𝑗1 , 𝜃11𝑘 多体のパラメータ 1体のパラメータ以外のパラメータ 𝜂𝑖11 , 𝜂1𝑗1 , 𝜂11𝑘 1体のパラメータ

テンソルのランク１条件を(𝜃, 𝜂)で記述する 𝒫𝑖𝑗𝑘 = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1
𝑗 ෍ 𝑘′=1 𝑘 𝜃𝑖′𝑗′𝑘′ rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 = exp 𝜃111 exp ෍ 𝑖′=2 𝑖 𝜃𝑖′11 exp ෍ 𝑗′=2 𝑗 𝜃1𝑗′1 exp ෍ 𝑘′=2 𝑘 𝜃11𝑘′ 𝒫 = 𝑒𝜃111 1 𝑒𝜃211 𝑒𝜃211+𝜃311 ⋮ 𝑒𝜃211+𝜃311+⋯+𝜃𝐼11 ⊗ 1 𝑒𝜃121 𝑒𝜃121+𝜃131 ⋮ 𝑒𝜃121+𝜃131+⋯+𝜃1𝐽1 ⊗ 1 𝑒𝜃211 𝑒𝜃211+𝜃311 ⋮ 𝑒𝜃211+𝜃311+⋯+𝜃11𝐾 ⟸ を示す３つのベクトルのクロネッカー積でかけるオーダー３のテンソルのランクは１ ∎ ランク１条件(𝜽表示) 13 1でない添字が1つだけ． 𝜃𝑖11 , 𝜃1𝑗1 , 𝜃11𝑘 多体のパラメータ 1体のパラメータ以外のパラメータ 𝜂𝑖11 , 𝜂1𝑗1 , 𝜂11𝑘 1体のパラメータ

多体の自然パラメータが0の部分空間への射影ランク１近似は，多体の自然パラメータがすべて0の部分空間𝓑への射影 𝜃123 • • 𝜃11𝑘 𝒫 ത 𝒫 入力テンソル
𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影 ℬ ℬの平坦性から，𝒫 ∈ ℝ≥0 𝐼×𝐽×𝐾からℬへのKL情報量を最小化する射影は一意 But!! 勾配法は，初期値依存，収束判定，学習率の設定などが厄介 😢😢 期待値パラメータ 𝜼 でランク１条件を記述してみる． 𝜃1𝑗1 𝜼𝟏𝟏𝒌 𝜼𝟏𝟏𝒌 14 自然勾配法で解ける！この𝑚射影で一体のηが不変ランク１近似は各軸方向の和が不変

テンソルのランク１条件を(𝜃, 𝜂)で記述する rank 𝒫 = 1 ⟺ 多体の期待値パラメータ𝜂が一体の𝜂の積でかける𝜂𝑖𝑗𝑘 = 𝜂𝑖11
𝜂1𝑗1 𝜂11𝑘 ランク１条件(𝜼表示) rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク１条件(𝜽表示) 15

KL情報量を最小化する最良ランク１公式この２つの補題から，ランク１近似後のテンソルを求める解の公式が導出できる． KL情報量最小化の最良ランク１近似公式 (𝑑 = 3 の場合) テンソル𝒫 ∈ ℝ>0
𝐼×𝐽×𝐾の各軸方向の和の積で得るテンソル ത 𝒫𝑖𝑗𝑘 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ෍ 𝑘′=1 𝐾 ෍ 𝑖′=1 𝐼 𝒫𝑖′𝑗𝑘′ ෍ 𝑖′=1 𝐼 ෍ 𝑗′=1 𝐽 𝒫𝑖′𝑗′𝑘 は，𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾からのKL情報量を最小化するランク１テンソルである． ത 𝒫 = argmin 𝒬:rank 𝒬 =1 𝐷KL 𝒫; 𝒬 K.Huang, et al. "Kullback-Leibler principal component for tensors is not NP-hard." ACSSC 2017 の結果を再現 rank 𝒫 = 1 ⟺ 多体の𝜂が一体の𝜂の積でかける𝜂𝑖𝑗𝑘 = 𝜂𝑖11 𝜂1𝑗1 𝜂11𝑘 ランク１条件(𝜼表示) rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク１条件(𝜽表示) ちなみに… フロベニウス誤差最小化はNP困難 16

平均場近似とランク１近似テンソル𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾の各軸方向の和の積で得るテンソル ത 𝒫𝑖𝑗𝑘 = ෍ 𝑗′=1
𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ෍ 𝑘′=1 𝐾 ෍ 𝑖′=1 𝐼 𝒫𝑖′𝑗𝑘′ ෍ 𝑖′=1 𝐼 ෍ 𝑗′=1 𝐽 𝒫𝑖′𝑗′𝑘 は，𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾からのKL情報量を最小化するランク１テンソルである． 𝑖のみに依存する規格化ベクトル 𝑗のみに依存する規格化ベクトル 𝑘のみに依存する規格化ベクトル添字が𝑑個の総和が１のテンソルを，確率変数が𝑑個ある同時分布とみなしていた．添字が1個の総和が１のベクトルは，確率変数が1つしかない分布とみなせる．テンソルのランク１近似は同時分布を確率変数が１つしかない分布の積で近似する操作 KL情報量最小化の最良ランク１近似公式 (𝒅 = 𝟑 の場合) 平均場近似:多体問題を一体問題に帰着する方法論として物理学では頻繁に登場 17

ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖
𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝑂 2𝑛 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 平均場方程式 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 18 相互作用 Bias

ボルツマンマシンの平均場近似ランク１近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖
𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝑝𝜃 (𝑖, 𝑗, 𝑘) = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1 𝑗 ෍ 𝑘′=1 𝑘 𝜃𝑖′𝑗′𝑘′ 𝑂 2𝑛 𝑂 𝐼𝐽𝐾 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 平均場方程式独立分布の積からなる分布の集合 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 𝜂𝑖11 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 計算可能 19 相互作用 Bias

KL最小化逆KL最小化ランク１近似 BMの平均場近似困難解の公式 𝜂𝑖 = σ
𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 𝜂𝑘 良い解が見つかるか？ 𝑂 2𝑛 Future Work 𝜂𝑖1 = 𝜂𝑖1 σ − ෍ 𝑘 𝜃𝑗𝑘 𝜂1𝑘 + 𝜂𝑖1 σ ෍ 𝑘 𝜃𝑗𝑘 𝜂1𝑘 m射影 e射影射影先はe平坦射影先はe平坦 20 unique unique BMの平均場近似とランク１近似の関係

発表の流れ ◆ 導入：テンソルの低ランク近似 ◆ テンソルの最良ランク１近似ーテンソルと分布を対応ー分布のパラメータでテンソルのランクを特徴づけるー
ランク１近似と平均場近似の類似性 ◆ 勾配法に基づかない高速な低タッカーランク近似法(LTR) ◆ まとめ 21

ランク１条件を緩和して，タッカーランク削減を定式化する 𝜃𝑖𝑗𝑘 = 0 𝜃112 𝜃131 𝜃121 𝜃113 𝜃211 𝜃311
𝒎番目の軸に注目してテンソルを展開して矩形行列𝜽(𝒎)にする（モード𝒎展開） 𝜃(1) = 𝜃111 𝜃121 𝜃131 𝜃112 0 0 𝜃113 0 0 𝜃211 0 0 0 0 0 0 0 0 𝜃311 0 0 0 0 0 0 0 0 𝜃(2) = 𝜃111 𝜃211 𝜃311 𝜃112 0 0 𝜃311 0 0 𝜃121 0 0 0 0 0 0 0 0 𝜃131 0 0 0 0 0 0 0 0 𝜃(3) = 𝜃111 𝜃211 𝜃311 𝜃121 0 0 𝜃131 0 0 𝜃112 0 0 0 0 0 0 0 0 𝜃113 0 0 0 0 0 0 0 0 ランク 1,1,1 ビンゴ２つ rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク１条件(𝜽表示) ビンゴ２つビンゴ２つ１行(列)目は，他の行(列)の何倍かを表す 22

ビンゴとランクの関係テンソル𝒫 ∈ ℝ𝐼1×𝐼2×𝐼3の 𝜃のモード𝑚展開𝜃(𝑚)が𝑏𝑚 個のビンゴを有する ⇒ rank 𝒫 ≤
𝐼1 − 𝑏1 , 𝐼2 − 𝑏2 , 𝐼3 − 𝑏3 𝜃(1) = 𝜃111 𝜃121 𝜃131 𝜃112 0 0 𝜃113 0 0 𝜃211 0 0 0 0 0 0 0 0 𝜃311 𝜃321 𝜃331 𝜃312 𝜃322 𝜃332 𝜃313 𝜃323 𝜃333 𝜃(2) = 𝜃111 𝜃211 𝜃311 𝜃112 0 𝜃312 𝜃311 0 𝜃313 𝜃121 0 𝜃321 0 0 𝜃322 0 0 𝜃323 𝜃131 0 𝜃331 0 0 𝜃332 0 0 𝜃333 𝜃(3) = 𝜃111 𝜃211 𝜃311 𝜃121 0 𝜃321 𝜃131 0 𝜃331 𝜃112 0 𝜃312 0 0 𝜃322 0 0 𝜃332 𝜃113 0 𝜃313 0 0 𝜃323 0 0 𝜃333 ビンゴ１つビンゴルール(𝑑 = 3 の場合) 𝜃123 • • 𝒫 ത 𝒫 入力テンソル 𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影モード1方向の2行目の𝜃が全て0の空間ℬ 1 ビンゴなしビンゴなしランク 2,3,3 23

例：(8,8,3)のテンソルのランクを(5,8,3)以下にする． STEP1 : ビンゴの場所を選ぶ．ビンゴビンゴビンゴ 𝜃がゼロ 𝜃が任意 24

STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない 𝜃がゼロ 𝜃が任意 25 例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

STEP1 : ビンゴの場所を選ぶ．赤枠の部分テンソルを最良ランク１近似公式を用いて置換 STEP2 : ビンゴの部分をランク１テンソルで置換する 𝜃がゼロ 𝜃が任意指定したビンゴ空間の中では最良のランク(5,8,3)テンソルが得られる
😄 最良のランク(5,8,3)近似になっている保証はない 😢 26 例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

例：(8,8,3)のテンソルのランクを(5,7,3)以下にする． STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない STEP2 : ビンゴの部分をランク１テンソルで置換する • •
𝒫 ℬ 1 ℬ 2 ℬ 1 への射影後にℬ 2 へ射影してℬ 1 ∩ ℬ 2 に達する (5,8,3) 𝜃がゼロ 𝜃が任意 27

実験結果 [人工データ] 既存の手法と同程度の近似性能で，高速な低ランク近似を実現 28

実験結果 [実データ] (92, 112, 400) (9, 9, 512, 512, 3)
既存の手法と同程度の近似性能で，高速な低ランク近似を実現 29

30 実験結果[KLエラーとLSエラーの比較]

更なる展開 31

初期値依存, 学習率, 収束判定…😢 高次化 ≈ ≈ フロベニウスノルム最小化はランク１でさえNP困難フロベニウスノルム最小化は SVDで厳密に解ける😄
32 勾配法で近似する (Eckart & Young , 1936) 行列低ランク近似テンソル低ランク近似非負ランク１近似のバリエーションへの応用

KL最小化のランク１公式関連タスクでも，最良近似の公式が導けないだろうか？高次化非負ランク１近似のバリエーションへの応用 ≈ ≈ 行列低ランク近似テンソル低ランク近似

欠損 KL最小化のランク１公式複合化高次化非負ランク１近似のバリエーションへの応用 ≈ ≈ 複合行列因子分解 ≈ KL最小化のランク１公式
34 欠損を含むNMF 関連 ≈ 高速なランク１近似解法 (Ghalamkari & Sugiyama, AISTATS 2022) (Ghalamkari & Sugiyama, AISTATS 2022) 行列低ランク近似テンソル低ランク近似

まとめ ▪ 半順序集合上の対数線形モデルの𝜂, 𝜃 でテンソルの条件を記述ランク１条件(𝜼表示) ▪ Legendre Tucker Rank
Reduction ҧ 𝜂𝑖𝑗𝑘 = ҧ 𝜂𝑖11 ҧ 𝜂1𝑗1 ҧ 𝜂11𝑘 ・テンソルの各部分にランク１近似(平均場近似)を行う．・既存の手法と同程度の近似性能で，高速に近似を実現ランク１条件(𝜽表示) 多体の ҧ 𝜃𝑖𝑗𝑘 がすべて0 ビンゴの数だけランクが落ちる．低ランク条件(𝜽表示) • • 𝜃11𝑘 𝒫 ത 𝒫 入力 𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影 ℬ 𝜃1𝑗1 𝜃𝑖𝑗𝑘 低ランク近似を(𝜽, 𝜼)-空間の射影の問題として議論 Ghalamkari & Sugiyama, NeurIPS 2021 Fast Tucker Rank Reduction for Non-Negative Tensors Using Mean-Field Approximation 35 KL情報量低ランク近似情報幾何学 Ghalamkari & Sugiyama, AISTATS 2022 Fast Rank-1 NMF for Missing Data with KL Divergence ▪ 非負複合行列因子分解の解の公式 ≈ ・関連タスクでの最良ランク１近似公式の発見

平均場近似を用いた非負テンソルの高速な低ランク近似法(StatsML Symposium'21...

平均場近似を用いた非負テンソルの高速な低ランク近似法(StatsML Symposium'21, 招待講演)

Kazu Ghalamkari

More Decks by Kazu Ghalamkari

Other Decks in Research

Featured

Transcript

平均場近似を用いた非負テンソルの高速な低ランク近似法ガラムカリ和1,2 第6回統計・機械学習若手シンポジウム 2022.2.9-11 1 : 国立情報学研究所 2

勾配法に基づかない高速な低ランク近似法 KL情報量低ランク近似情報幾何学 𝐷𝐾𝐿 𝑝, 𝑞 = ෍ 𝑖

発表の流れ ◆ 導入：テンソルの低ランク近似 ◆ テンソルの最良ランク１近似ーテンソルと分布の対応ー分布のパラメータでテンソルのランクを特徴づけるー

テンソル低ランク近似 ത 𝒫𝑖𝑗𝑘 = ෍ 𝑙=1 𝐿 ෍ 𝑚=1 𝑀

半順序集合上の対数線形モデル半順序集合(poset) 有限集合𝑆の任意の要素𝑠1 , 𝑠2 , 𝑠3 ∈ 𝑆に次の関係があるときに， 𝑆を半順序集合と呼ぶ．

例：高次のボルツマンマシン 𝑆 = 2 1,2,⋯,𝑛 𝑝 𝑥 = exp ෍

半順序集合上の対数線形モデルと非負テンソルの対応 𝑆 = 𝑖, 𝑗 |𝑖, 𝑗 = 1,2, ⋯

規格化されたテンソルの様々な表現テンソルの性質を𝜃-や𝜂-で表現できる．凸問題としての定式化・理解が容易になる 11 𝜃-表示 𝜂-表示 𝒫𝑖𝑗𝑘 One to One

一体・多体のパラメータ 𝜃-表示 𝜂-表示 12 𝒫𝑖𝑗𝑘 One to One One to

テンソルのランク１条件を(𝜃, 𝜂)で記述する 𝒫𝑖𝑗𝑘 = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1

多体の自然パラメータが0の部分空間への射影ランク１近似は，多体の自然パラメータがすべて0の部分空間𝓑への射影 𝜃123 • • 𝜃11𝑘 𝒫 ത 𝒫 入力テンソル

テンソルのランク１条件を(𝜃, 𝜂)で記述する rank 𝒫 = 1 ⟺ 多体の期待値パラメータ𝜂が一体の𝜂の積でかける𝜂𝑖𝑗𝑘 = 𝜂𝑖11

KL情報量を最小化する最良ランク１公式この２つの補題から，ランク１近似後のテンソルを求める解の公式が導出できる． KL情報量最小化の最良ランク１近似公式 (𝑑 = 3 の場合) テンソル𝒫 ∈ ℝ>0

平均場近似とランク１近似テンソル𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾の各軸方向の和の積で得るテンソル ത 𝒫𝑖𝑗𝑘 = ෍ 𝑗′=1

ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖

ボルツマンマシンの平均場近似ランク１近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖

KL最小化逆KL最小化ランク１近似 BMの平均場近似困難解の公式 𝜂𝑖 = σ

発表の流れ ◆ 導入：テンソルの低ランク近似 ◆ テンソルの最良ランク１近似ーテンソルと分布を対応ー分布のパラメータでテンソルのランクを特徴づけるー

ランク１条件を緩和して，タッカーランク削減を定式化する 𝜃𝑖𝑗𝑘 = 0 𝜃112 𝜃131 𝜃121 𝜃113 𝜃211 𝜃311

ビンゴとランクの関係テンソル𝒫 ∈ ℝ𝐼1×𝐼2×𝐼3の 𝜃のモード𝑚展開𝜃(𝑚)が𝑏𝑚 個のビンゴを有する ⇒ rank 𝒫 ≤

例：(8,8,3)のテンソルのランクを(5,8,3)以下にする． STEP1 : ビンゴの場所を選ぶ．ビンゴビンゴビンゴ 𝜃がゼロ 𝜃が任意 24

STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない 𝜃がゼロ 𝜃が任意 25 例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

例：(8,8,3)のテンソルのランクを(5,7,3)以下にする． STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない STEP2 : ビンゴの部分をランク１テンソルで置換する • •

実験結果 [人工データ] 既存の手法と同程度の近似性能で，高速な低ランク近似を実現 28

実験結果 [実データ] (92, 112, 400) (9, 9, 512, 512, 3)

30 実験結果[KLエラーとLSエラーの比較]

更なる展開 31

初期値依存, 学習率, 収束判定…😢 高次化 ≈ ≈ フロベニウスノルム最小化はランク１でさえNP困難フロベニウスノルム最小化は SVDで厳密に解ける😄

KL最小化のランク１公式関連タスクでも，最良近似の公式が導けないだろうか？高次化非負ランク１近似のバリエーションへの応用 ≈ ≈ 行列低ランク近似テンソル低ランク近似

欠損 KL最小化のランク１公式複合化高次化非負ランク１近似のバリエーションへの応用 ≈ ≈ 複合行列因子分解 ≈ KL最小化のランク１公式

まとめ ▪ 半順序集合上の対数線形モデルの𝜂, 𝜃 でテンソルの条件を記述ランク１条件(𝜼表示) ▪ Legendre Tucker Rank