Ph.D. defense "Convex Manifold Approximation for Tensors"

Slide 1

Slide 1 text

Convex Manifold Approximation for Tensors ガラムカリ和総合研究大学院大学複合科学研究科情報学専攻博士論文発表会 February 1, 2023 審査委員：杉山麿人, 𠮷田悠一, 井上克巳, 山田誠, 三村和史（敬称略）

Slide 2

Slide 2 text

2 Motivation 2 □様々な構造を有するデータの非負低ランク近似 2

Slide 3

Slide 3 text

3 Motivation 3 □様々な構造を有するデータの非負低ランク近似 3 少ない基底(主成分)の線形結合で近似し，特徴量の抽出，メモリの削減，パターンの発見 😀 ≃ ≃ ≃ ≃

Slide 4

Slide 4 text

4 Motivation 4 □様々な構造を有するデータの非負低ランク近似 4 少ない基底(主成分)の線形結合で近似し，特徴量の抽出，メモリの削減，パターンの発見 😀 ≃ ≃ ≃ ≃ 停止条件，学習率，初期値，ランクの適切な設計が必要 😢

Slide 5

Slide 5 text

5 Motivation 5 □様々な構造を有するデータの非負低ランク近似 5 少ない基底(主成分)の線形結合で近似し，特徴量の抽出，メモリの削減，パターンの発見 😀 ≃ ≃ ≃ ≃ 停止条件，学習率，初期値，ランクの適切な設計が必要 😢 データの空間の幾何的な構造に注目して，これらの困難を緩和😀

Slide 6

Slide 6 text

6 Strategy □ データ構造を有向非巡回グラフ(DAG)上の離散確率分布として扱う. 6

Slide 7

Slide 7 text

7 Strategy □ データ構造を有向非巡回グラフ(DAG)上の離散確率分布として扱う. □ 情報幾何学の射影に関する理論を適用する． 7

Slide 8

Slide 8 text

8 8 Strategy □ データ構造を有向非巡回グラフ(DAG)上の離散確率分布として扱う. □ 情報幾何学の射影に関する理論を適用する．

Slide 9

Slide 9 text

9 □ LTR: 低タッカーランク近似法 9 本研究の貢献 Chapter 3

Slide 10

Slide 10 text

10 □ LTR: 低タッカーランク近似法 10 □ 欠損行列の高速ランク１近似本研究の貢献適用解の公式を導出 Chapter 3 Chapter 4

Slide 11

Slide 11 text

11 □ LTR: 低タッカーランク近似法 11 □ 欠損行列の高速ランク１近似本研究の貢献低ランク構造ではなく，モード間の関係に注目した凸な分解適用解の公式を導出 Chapter 3 Chapter 4 Chapter 5 □ テンソル多体近似 (相互作用表示)

Slide 12

Slide 12 text

12 □ LTR: 低タッカーランク近似法 12 □ 欠損行列の高速ランク１近似勾配法に基づかず，学習率, 収束判定の設計が不要で高速な手法を開発 ✨ 本研究の貢献ランクのチューニングが不要✨ 低ランク構造ではなく，モード間の関係に注目した凸な分解適用解の公式を導出 Chapter 3 Chapter 4 Chapter 5 □ テンソル多体近似データ(テンソル)の空間の幾何や平坦性に注目して，最適化と解空間の設計を工夫している (相互作用表示)

Slide 13

Slide 13 text

13 13 多様な構造の配列の低ランク近似を統一的に議論 □ 様々な行列/テンソルの構造を捉える柔軟なモデリング行列やテンソルの構造を捉えたDAG(有向非巡回グラフ)上の対数線形モデルで低ランク近似を定式化．

Slide 14

Slide 14 text

14 □ 半順序集合 (DAG) 集合の任意の要素𝑠1 , 𝑠2 , 𝑠3 ∈ に次の関係があるときに，を半順序集合と呼ぶ． (1)反射律: 𝑠1 ≤ 𝑠1 (2)反対称律: 𝑠1 ≤ 𝑠2 , 𝑠2 ≤ 𝑠1 ⇒ 𝑠1 = 𝑠2 (3)推移律:𝑠1 ≤ 𝑠2 , 𝑠2 ≤ 𝑠3 ⇒ 𝑠1 ≤ 𝑠3 □ 半順序集合上の対数線形モデル写像𝑝: → 0,1 として，順序集合上の対数線形モデルを定義する．自然パラメータ𝜽で分布が定まる． 𝜃空間 𝜂空間メビウス関数𝜇を用いて，期待値パラメータ𝜼で分布を定めることもできる． Sugiyama, M., Nakahara, H., & Tsuda, K. Tensor balancing on statistical manifold. ICML2017 14 メビウス関数入力のデータ構造半順序集合上の対数線形モデル

Slide 15

Slide 15 text

Chapter 3. Legendre Tucker Rank Reduction github.com/gkazunii/Legendre-tucker-rank-reduction 1.Ghalamkari, K., Sugiyama, M. NeurIPS 2020 WS DiffGeo4DL 2.Ghalamkari, K., Sugiyama, M. NeurIPS 2021 3.Ghalamkari, K., Sugiyama, M. Information Geometry Journal (Springer) ★ (前半) テンソルランク１近似 ★ (後半) ビンゴルールによるタッカーランク削減 6:15

Slide 16

Slide 16 text

テンソルに対応する半順序集合の導入 16

Slide 17

Slide 17 text

テンソルに対応する半順序集合の導入 17

Slide 18

Slide 18 text

(θ,η)でテンソルを記述する 18

Slide 19

Slide 19 text

(θ,η)でテンソルを記述する 19 メビウス反転公式

Slide 20

Slide 20 text

(θ,η)でテンソルを記述する 20 メビウス反転公式

Slide 21

Slide 21 text

(θ,η)でテンソルを記述する 21 確率変数：テンソルの添字𝑖, 𝑗, 𝑘 標本空間：添字集合確率の値：テンソルの値𝒫𝑖𝑗𝑘 テンソルと確率分布の対応メビウス反転公式

Slide 22

Slide 22 text

１体のパラメータと多体のパラメータの導入 22 １体のパラメータ多体のパラメータ

Slide 23

Slide 23 text

テンソルのランク１条件のθ表示 23 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) １体のパラメータ多体のパラメータ

Slide 24

Slide 24 text

テンソルのランク１条件のθ表示 24 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) は，e-平坦で射影先の点は一意．１体のパラメータ多体のパラメータ

Slide 25

Slide 25 text

テンソルのランク１条件のθ表示 25 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) 勾配法で射影先の点が見つかる！ But!! 勾配法は，初期値依存，停止条件，学習率の設定などが厄介 😢😢 は，e-平坦で射影先の点は一意．１体のパラメータ多体のパラメータ

Slide 26

Slide 26 text

テンソルのランク１条件のθ表示 26 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) 勾配法で射影先の点が見つかる！ But!! 勾配法は，初期値依存，停止条件，学習率の設定などが厄介 😢😢 期待値パラメータ𝜂でランク１条件を記述してみる．は，e-平坦で射影先の点は一意．

Slide 27

Slide 27 text

テンソルのランク１条件のη表示 27 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) 𝜂𝑖𝑗𝑘 = 𝜂𝑖11 𝜂1𝑗1 𝜂11𝑘 ランク１条件(𝜼-表示)

Slide 28

Slide 28 text

テンソルのランク１条件のη表示 28 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) １体の𝜼-パラメータは𝑚-射影の前後で変化しない. = = = 𝜂𝑖𝑗𝑘 = 𝜂𝑖11 𝜂1𝑗1 𝜂11𝑘 ランク１条件(𝜼-表示) Shun-ichi Amari, Information Geometry and Its Applications, 2008, Theorem 11.6

Slide 29

Slide 29 text

テンソルのランク１近似公式の導出 29 全ての多体の𝜃-パラメータが0. ランク１条件(𝜽-表示) 𝜂𝑖𝑗𝑘 = 𝜂𝑖11 𝜂1𝑗1 𝜂11𝑘 ランク１条件(𝜼-表示) 射影後の全ての𝜼-パラメータが特定できた. メビウス反転公式より，射影後のランク１テンソルが求まる．メビウス反転公式 10:00

Slide 30

Slide 30 text

テンソル𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾の各軸方向の和の積で得るテンソルは，𝒫 ∈ ℝ>0 𝐼×𝐽×𝐾からのKL情報量を最小化するランク１テンソルである． 𝑖のみに依存する規格化ベクトル 𝑗のみに依存する規格化ベクトル 𝑘のみに依存する規格化ベクトル添字が3個で総和が１のテンソルを，確率変数が3個ある同時分布とみなしていた．添字が1個で総和が１のベクトルは，確率変数が1つしかない分布とみなせる．テンソルのランク１近似は同時分布を確率変数が１つしかない分布の積で近似する操作 KL情報量最小化の最良ランク１近似公式 (𝒅 = 𝟑 の場合) 平均場近似:多体問題を一体問題に帰着する方法論として物理学では頻繁に登場 30 ちなみに… フロベニウス誤差最小化はNP困難最良ランク１分解公式と平均場近似 K.Huang, et al. “Kullback-Leibler principal component for tensors is not NP-hard.” ACSSC 2017 の結果を情報幾何学の観点から再現

Slide 31

Slide 31 text

ランク１近似と平均場近似ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 重み (相互作用) バイアス（磁場） 𝒙 ∈ 0,1 𝑛 31

Slide 32

Slide 32 text

ランク１近似と平均場近似ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 重みバイアス = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 = 𝑝 𝑥1 … 𝑝(𝑥𝑛 ) 𝒙 ∈ 0,1 𝑛 32

Slide 33

Slide 33 text

ランク１近似と平均場近似 𝑂 2𝑛 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 平均場方程式ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 重みバイアス 𝒙 ∈ 0,1 𝑛 33

Slide 34

Slide 34 text

ランク１近似と平均場近似テンソルのランク１近似 𝑝𝜃 (𝑖, 𝑗, 𝑘) = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1 𝑗 ෍ 𝑘′=1 𝑘 𝜃𝑖′𝑗′𝑘′ 𝑂 2𝑛 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 平均場方程式独立分布の積からなる分布の集合 𝜂𝑖11 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 重みバイアス 𝒙 ∈ 0,1 𝑛 34

Slide 35

Slide 35 text

ランク１近似と平均場近似 𝑝𝜃 (𝑖, 𝑗, 𝑘) = exp ෍ 𝑖′=1 𝑖 ෍ 𝑗′=1 𝑗 ෍ 𝑘′=1 𝑘 𝜃𝑖′𝑗′𝑘′ 𝑂 2𝑛 𝑂 𝐼𝐽𝐾 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 𝐷𝐾𝐿 𝑝, Ƹ 𝑝 平均場方程式独立分布の積からなる分布の集合 𝜂𝑖11 = ෍ 𝑗′=1 𝐽 ෍ 𝑘′=1 𝐾 𝒫𝑖𝑗′𝑘′ ҧ 𝜂𝑖 = sigmoid 𝜃𝑖 + ෍ 𝑘 𝜃𝑘𝑗 ҧ 𝜂𝑘 計算可能 𝐷𝐾𝐿 Ƹ 𝑝𝑒 , 𝑝 ボルツマンマシンの平均場近似 𝑝 𝒙 = 1 𝑍(𝜽) exp ෍ 𝑖 𝜃𝑖 𝑥𝑖 + ෍ 𝑖<𝑗 𝜃𝑖𝑗 𝑥𝑖 𝑥𝑗 𝜂𝑖 = ෍ 𝑥1=0 1 ⋯ ෍ 𝑥𝑛=0 1 𝑥𝑖 𝑝 𝒙 𝑂 2𝑛 重みバイアス 𝒙 ∈ 0,1 𝑛 テンソルのランク１近似 35 13:00

Slide 36

Slide 36 text

Slide 37

Slide 37 text

ランク１条件を緩和して，タッカーランク削減を定式化する 𝜃𝑖𝑗𝑘 = 0 𝜃112 𝜃131 𝜃121 𝜃113 𝜃211 𝜃311 𝒎番目の軸に注目してテンソルを展開して矩形行列𝜽(𝒎)にする（モード𝒎展開） 𝜃(1) = 𝜃111 𝜃121 𝜃131 𝜃112 0 0 𝜃113 0 0 𝜃211 0 0 0 0 0 0 0 0 𝜃311 0 0 0 0 0 0 0 0 𝜃(2) = 𝜃111 𝜃211 𝜃311 𝜃112 0 0 𝜃311 0 0 𝜃121 0 0 0 0 0 0 0 0 𝜃131 0 0 0 0 0 0 0 0 𝜃(3) = 𝜃111 𝜃211 𝜃311 𝜃121 0 0 𝜃131 0 0 𝜃112 0 0 0 0 0 0 0 0 𝜃113 0 0 0 0 0 0 0 0 ランク 1,1,1 ビンゴ２つ rank 𝒫 = 1 ⟺ 多体の自然パラメータ𝜃が全て0 ランク１条件(𝜽表示) ビンゴ２つビンゴ２つ１行(列)目は，他の行(列)の何倍かを表す 37

Slide 38

Slide 38 text

ビンゴとランクの関係テンソル𝒫 ∈ ℝ𝐼1×𝐼2×𝐼3の 𝜃のモード𝑚展開𝜃(𝑚)が𝑏𝑚 個のビンゴを有する ⇒ rank 𝒫 ≤ 𝐼1 − 𝑏1 , 𝐼2 − 𝑏2 , 𝐼3 − 𝑏3 𝜃(1) = 𝜃111 𝜃121 𝜃131 𝜃112 0 0 𝜃113 0 0 𝜃211 0 0 0 0 0 0 0 0 𝜃311 𝜃321 𝜃331 𝜃312 𝜃322 𝜃332 𝜃313 𝜃323 𝜃333 𝜃(2) = 𝜃111 𝜃211 𝜃311 𝜃112 0 𝜃312 𝜃311 0 𝜃313 𝜃121 0 𝜃321 0 0 𝜃322 0 0 𝜃323 𝜃131 0 𝜃331 0 0 𝜃332 0 0 𝜃333 𝜃(3) = 𝜃111 𝜃211 𝜃311 𝜃121 0 𝜃321 𝜃131 0 𝜃331 𝜃112 0 𝜃312 0 0 𝜃322 0 0 𝜃332 𝜃113 0 𝜃313 0 0 𝜃323 0 0 𝜃333 ビンゴ１つビンゴルール(𝑑 = 3 の場合) 𝜃123 ● ● 𝒫 ത 𝒫 入力テンソル 𝐷𝐾𝐿 𝒫, ത 𝒫 𝑚射影モード1方向の2行目の𝜃が全て0の空間ℬ 1 ビンゴなしビンゴなしランク 2,3,3 38

Slide 39

Slide 39 text

STEP1 : ビンゴの場所を選ぶ．ビンゴビンゴビンゴ 𝜃がゼロ 39 𝜃が任意例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

Slide 40

Slide 40 text

STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない 𝜃がゼロ 𝜃が任意 40 例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

Slide 41

Slide 41 text

STEP1 : ビンゴの場所を選ぶ．赤枠の部分テンソルを最良ランク１近似公式を用いて置換 STEP2 : ビンゴの部分をランク１テンソルで置換する 𝜃がゼロ 𝜃が任意 41 例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

Slide 42

Slide 42 text

STEP1 : ビンゴの場所を選ぶ．赤枠の部分テンソルを最良ランク１近似公式を用いて置換 STEP2 : ビンゴの部分をランク１テンソルで置換する 𝜃がゼロ 𝜃が任意指定したビンゴ空間の中では最良のランク(5,8,3)テンソルが得られる 😄 最良のランク(5,8,3)近似になっている保証はない 😢 42 例：(8,8,3)のテンソルのランクを(5,8,3)以下にする．

Slide 43

Slide 43 text

STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない STEP2 : ビンゴの部分をランク１テンソルで置換する 𝜃がゼロ 𝜃が任意 43 例：(8,8,3)のテンソルのランクを(5,7,3)以下にする．

Slide 44

Slide 44 text

STEP1 : ビンゴの場所を選ぶ．網掛けの部分はm射影で値が変わらない STEP2 : ビンゴの部分をランク１テンソルで置換する ● ● 𝒫 ℬ 1 ℬ 2 ℬ 1 への射影後にℬ 2 へ射影してℬ 1 ∩ ℬ 2 に達する (5,8,3) 𝜃がゼロ 𝜃が任意 44 例：(8,8,3)のテンソルのランクを(5,7,3)以下にする．

Slide 45

Slide 45 text

45 実験結果(合成データ) 既存の手法と同程度の近似性能で，高速な低ランク近似を実現勾配法

Slide 46

Slide 46 text

46 既存の手法と同程度の近似性能で，高速な低ランク近似を実現 (92, 112, 400) (9, 9, 512, 512, 3) 実験結果(合成データ)

Slide 47

Slide 47 text

Chapter 4. A1GM github.com/gkazunii/A1GM 1.Ghalamkari, K., Sugiyama, M. AISTATS 2022 2.Ghalamkari, K., Sugiyama, M. Information Geometry Journal (Springer) ★ (前半) 複合行列因子分解(NMMF)の解の公式の導出 ★ (後半) 解の公式に基づく欠損値を含む行列の高速なランク１近似

Slide 48

Slide 48 text

49 欠損を含む行列のランク１分解の解法のアイデア □ 欠損値を右下に集めることで複合行列分解(NMMF)に帰着する. 49 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 要素積クロネッカー積

Slide 49

Slide 49 text

50 欠損を含む行列のランク１分解の解法のアイデア □ 欠損値を右下に集めることで複合行列分解(NMMF)に帰着する. 等価 50 NMMF (Takeuchi et al., 2013) 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 要素積クロネッカー積

Slide 50

Slide 50 text

51 欠損を含む行列のランク１分解の解法のアイデア □ 欠損値を右下に集めることで複合行列分解(NMMF)に帰着する. 等価 51 ランク１分解の解の公式が導出可能 →高速な分解が可能になる！ NMMF (Takeuchi et al., 2013) 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 要素積クロネッカー積

Slide 51

Slide 51 text

52 NMMF, 複合行列分解 (Takeuchi et al., 2013) 52 user artist tag user user tag artist user user artist

Slide 52

Slide 52 text

53 NMMF, 複合行列分解の最良ランク１近似最良ランク１分解公式 53 user artist tag user user tag artist user user artist 21:00

Slide 53

Slide 53 text

54 確率値は対応する行列の要素と一致する □ 例 54 メビウス反転公式

Slide 54

Slide 54 text

55 1体のパラメータと2体のパラメータ 𝑿, 𝒀, 𝒁 が同時ランク１分解可能. ⇔ 𝑿, 𝒀, 𝒁 が 𝒘 ⊗ 𝒉, 𝒂 ⊗ 𝒉, 𝒘 ⊗ 𝒃 とかける 55 １体のパラメータ多体のパラメータ

Slide 55

Slide 55 text

56 同時ランク１条件の自然パラメータ表示 56 １体のパラメータ多体のパラメータ 𝑿, 𝒀, 𝒁 が同時ランク１分解可能. ⇔ 𝑿, 𝒀, 𝒁 が 𝒘 ⊗ 𝒉, 𝒂 ⊗ 𝒉, 𝒘 ⊗ 𝒃 とかける全ての多体の𝜃-パラメータが0. 同時ランク１条件(𝜽-表示)

Slide 56

Slide 56 text

57 同時ランク１条件の自然パラメータ表示 57 １体のパラメータ多体のパラメータ 𝑿, 𝒀, 𝒁 が同時ランク１分解可能. ⇔ 𝑿, 𝒀, 𝒁 が 𝒘 ⊗ 𝒉, 𝒂 ⊗ 𝒉, 𝒘 ⊗ 𝒃 とかける全ての多体の𝜃-パラメータが0. 同時ランク１条件(𝜽-表示) は，e-平坦で射影先の点は一意．

Slide 57

Slide 57 text

58 同時ランク１条件の期待値パラメータ表示 58 １体のパラメータ多体のパラメータ 𝑿, 𝒀, 𝒁 が同時ランク１分解可能. ⇔ 𝑿, 𝒀, 𝒁 が 𝒘 ⊗ 𝒉, 𝒂 ⊗ 𝒉, 𝒘 ⊗ 𝒃 とかける全ての多体の𝜃-パラメータが0. 同時ランク１条件(𝜽-表示) 𝜂𝑖𝑗 = 𝜂𝑖1 𝜂1𝑗 同時ランク１条件(𝜼-表示)

Slide 58

Slide 58 text

59 最良ランク１近似公式の導出 59 𝜂𝑖𝑗 = 𝜂𝑖1 𝜂1𝑗 同時ランク１条件(𝜼-表示) 全ての多体の𝜃-パラメータが0. 同時ランク１条件(𝜽-表示) 𝑿, 𝒀, 𝒁 が同時ランク１分解可能. ⇔ 𝑿, 𝒀, 𝒁 が 𝒘 ⊗ 𝒉, 𝒂 ⊗ 𝒉, 𝒘 ⊗ 𝒃 とかける１体のパラメータ多体のパラメータ１体の𝜼-パラメータは𝑚-射影の前後で変化しない. Shun-ichi Amari, Information Geometry and Its Applications, 2008, Theorem 11.6

Slide 59

Slide 59 text

60 最良ランク１近似公式の導出メビウス反転公式射影後の全ての𝜼-パラメータが特定できた. 60 𝜂𝑖𝑗 = 𝜂𝑖1 𝜂1𝑗 同時ランク１条件(𝜼-表示) 全ての多体の𝜃-パラメータが0. 同時ランク１条件(𝜽-表示) 𝑿, 𝒀, 𝒁 が同時ランク１分解可能. ⇔ 𝑿, 𝒀, 𝒁 が 𝒘 ⊗ 𝒉, 𝒂 ⊗ 𝒉, 𝒘 ⊗ 𝒃 とかける１体のパラメータ多体のパラメータ１体の𝜼-パラメータは𝑚-射影の前後で変化しない. Shun-ichi Amari, Information Geometry and Its Applications, 2008, Theorem 11.6

Slide 60

Slide 60 text

61 欠損を含む行列のランク１分解 □ NMMFは欠損を含むNMFの特別な場合と等価. 等価 □ NMFは行置換と列置換に同変 61 24:15

Slide 61

Slide 61 text

62 A1GM: アルゴリズム Step 1 : 行置換と列置換で欠損を右下に集める． Step 2 : NMMFの最良ランク1近似公式を用いる． 62 Step 3 : Step1で施した行置換と列置換の逆置換を施す．欠損を含むNMFの厳密解が求まる？

Slide 62

Slide 62 text

63 A1GM: アルゴリズム Step 1 : 行置換と列置換で欠損を右下に集める． Step 2 : NMMFの最良ランク1近似公式を用いる． 63 Step 3 : Step1で施した行置換と列置換の逆置換を施す．欠損を含むNMFの厳密解が求まる？

Slide 63

Slide 63 text

64 行置換と列置換のみでNMMFに帰着できない例 64

Slide 64

Slide 64 text

65 行置換と列置換のみでNMMFに帰着できない例 65

Slide 65

Slide 65 text

66 行置換と列置換のみでNMMFに帰着できない例 66

Slide 66

Slide 66 text

67 欠損を増やしてNMMFに帰着させる 67

Slide 67

Slide 67 text

68 欠損を増やしてNMMFに帰着させる 68 再構成誤差は悪化？ 😢

Slide 68

Slide 68 text

69 欠損を増やしてNMMFに帰着させる 69 計算速度は向上！ 😀 再構成誤差は悪化？ 😢

Slide 69

Slide 69 text

70 🙆A1GMが得意なケースと苦手なケース🙅 70 実データでは，欠損が同じ行や列に集中しがち．例) アンケートフォーム, センサーの断線 🙅 各行・各列にまんべんなく欠損がある → 欠損値が増える 🙆 欠損が特定の行や列に集中している → 欠損値の増え方が小さい欠損数3 欠損数9 欠損数3 欠損数4 欠損数5 欠損数25

Slide 70

Slide 70 text

71 A1GM: アルゴリズム Step 1 : 欠損を増やす． Step 2 : 行置換と列置換で欠損を右下に集める． Step 3 : NMMFの最良ランク１近似公式を適用する. 71 Step 4 : Step 2で施した行置換と列置換の逆置換を施す．欠損を増やさずに済めば厳密解欠損を増やすと近似解が求まる

Slide 71

Slide 71 text

72 実データセットでの実験 □ 勾配法に基づくKL-WNMFとの比較 - 欠損増加率は，欠損が何倍になったかを意味する． - 相対誤差 > 1 は A1GM の再構成誤差が KL-WNMF よりも大きいことを意味する. - 相対実行時間 < 1 は A1GM が KL-WNMF よりも高速であることを意味する． 5～10倍高速! 72 欠損は増えない最良解欠損は増える解の精度が落ちる 28:00

Slide 72

Slide 72 text

73 拡張NMMFと欠損値を含むランク１NMFの厳密解拡張NMMFの最良ランク１分解公式 73

Slide 73

Slide 73 text

74 拡張NMMFと欠損値を含むランク１NMFの厳密解 74 等価 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 拡張NMMFの最良ランク１分解公式

Slide 74

Slide 74 text

75 拡張NMMFと欠損値を含むランク１NMFの厳密解 75 If rank(𝚽) ≦2, the matrix can be transformed into the form 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 置換等価拡張NMMFの最良ランク１分解公式

Slide 75

Slide 75 text

76 拡張NMMFと欠損値を含むランク１NMFの厳密解 76 If rank(𝚽) ≦2, the matrix can be transformed into the form 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 置換 rank(𝚽) ≦2 の欠損を含むランク１分解は厳密に解ける. 等価拡張NMMFの最良ランク１分解公式

Slide 76

Slide 76 text

77 拡張NMMFと欠損値を含むランク１NMFの厳密解 77 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 置換 rank(𝚽) ≦2 の欠損を含むランク１分解は厳密に解ける. 等価拡張NMMFの最良ランク１分解公式欠損を増やす

Slide 77

Slide 77 text

78 拡張NMMFと欠損値を含むランク１NMFの厳密解 78 𝚽𝑖𝑗 = ቊ 0 1 If 𝐗𝑖𝑗 is missing otherwise 置換 rank(𝚽) ≦2 の欠損を含むランク１分解は厳密に解ける. 等価拡張NMMFの最良ランク１分解公式欠損を増やす But, How? (Future Work)

Slide 78

Slide 78 text

Chapter 5. Many-body Approximation for Tensors 1.Ghalamkari, K., Sugiyama, M. ICML2023 (Under Review) ★ (前半) 多体近似の定式化 ★ (後半) 多体近似と従来の低ランク近似の関係性の指摘 30:00

Slide 79

Slide 79 text

80 80 ランクｒ近似の解空間全体は平坦でない全ての多体のθパラメータが0 (4次元テンソルを3次元テンソル3つで可視化)

Slide 80

Slide 80 text

81 81 ランクｒ近似の解空間全体は平坦でない全ての多体のθパラメータが0 ランク１の和(m結合)で表現力を向上【低ランク近似】 LTRでは，平坦でない解空間から平坦な部分空間を選択して凸問題として近似的に解いた． (4次元テンソルを3次元テンソル3つで可視化) 解空間が初めから平坦な新しい近似を新たに定義したら便利

Slide 81

Slide 81 text

82 テンソル多体近似のアイデア全ての多体のθパラメータが0 ランク１の和(m結合)で表現力を向上【低ランク近似】 (4次元テンソルを3次元テンソル3つで可視化)

Slide 82

Slide 82 text

83 テンソル多体近似のアイデア全ての多体のθパラメータが0 全ての三体，四体のθパラメータが0 ランク１の和(m結合)で表現力を向上【低ランク近似】一体のパラメータ二体のパラメータ三体のパラメータ四体のパラメータ (4次元テンソルを3次元テンソル3つで可視化)

Slide 83

Slide 83 text

84 多体のパラメータ 84 テンソル多体近似のアイデア全ての多体のθパラメータが0 全ての三体，四体のθパラメータが0 ランク１の和(m結合)で表現力を向上【低ランク近似】一体のパラメータ二体のパラメータ三体のパラメータ四体のパラメータ 𝜃𝑖111 , 𝜃1𝑗11 , 𝜃111𝑘 , 𝜃111𝑙 一体のパラメータ三体のパラメータ 𝜃𝑖𝑗11 , 𝜃𝑖1𝑘1 , … , 𝜃11𝑘𝑙 二体のパラメータ 𝜃𝑖𝑗𝑘1 , 𝜃𝑖1𝑘𝑙 , 𝜃𝑖𝑗1𝑙 , 𝜃𝑖𝑗𝑘1 四体のパラメータ 𝜃𝑖𝑗𝑘𝑙 (4次元テンソルを3次元テンソル3つで可視化)

Slide 84

Slide 84 text

85 テンソル多体近似

Slide 85

Slide 85 text

86 テンソル多体近似規格化因子

Slide 86

Slide 86 text

87 テンソル多体近似一体近似ランク１近似，平均場近似

Slide 87

Slide 87 text

88 テンソル多体近似一体近似ランク１近似，平均場近似二体近似

Slide 88

Slide 88 text

89 テンソル多体近似一体近似ランク１近似，平均場近似三体近似二体近似モデルの表現力大

Slide 89

Slide 89 text

90 テンソル多体近似一体近似ランク１近似，平均場近似三体近似二体近似自然パラメータの線形な条件で記述される部分空間への射影＝凸最適化で解ける！モデルの表現力大

Slide 90

Slide 90 text

91 テンソル多体近似の相互作用表示一体近似ランク１近似，平均場近似相互作用の有無を可視化するダイアグラムを導入三体近似二体近似モード(3,4)間の関係を制御

Slide 91

Slide 91 text

92 テンソル多体近似の相互作用表示一体近似ランク１近似，平均場近似相互作用の有無を可視化するダイアグラムを導入三体近似二体近似モード(3,4)間の関係を制御モード(2,3,4)間の関係を制御

Slide 92

Slide 92 text

93 テンソル多体近似の相互作用表示一体近似ランク１近似，平均場近似相互作用の有無を可視化するダイアグラムを導入三体近似二体近似モード(3,4)間の関係を制御モード(2,3,4)間の関係を制御

Slide 93

Slide 93 text

94 テンソル多体近似の相互作用表示一体近似ランク１近似，平均場近似相互作用の有無を可視化するダイアグラムを導入三体近似二体近似モード(3,4)間の関係を制御モード(2,3,4)間の関係を制御

Slide 94

Slide 94 text

95 テンソル多体近似の相互作用表示一体近似ランク１近似，平均場近似相互作用の有無を可視化するダイアグラムを導入三体近似二体近似

Slide 95

Slide 95 text

96 96 巡回二体近似

Slide 96

Slide 96 text

97 97 巡回二体近似

Slide 97

Slide 97 text

98 98 巡回二体近似巡回二体近似で0に拘束されないパラメータ (4次元テンソルを3次元テンソル3つで可視化)

Slide 98

Slide 98 text

99 99 巡回二体近似 n体のパラメータで，モード間のn体の相互作用を制御できる． (4次元テンソルを3次元テンソル3つで可視化) 34:30

Slide 99

Slide 99 text

100 巡回二体近似とリング分解巡回二体近似相互作用表示

Slide 100

Slide 100 text

101 巡回二体近似とリング分解巡回二体近似相互作用表示テンソルネットワーク = Ω𝑖𝑗𝑘 = 𝛿𝑖𝑗 𝛿𝑗𝑘 𝛿𝑖𝑘

Slide 101

Slide 101 text

102 巡回二体近似とリング分解巡回二体近似テンソルリング分解 Qibin Zhao, et al., 2016 相互作用表示テンソルネットワーク = Ω𝑖𝑗𝑘 = 𝛿𝑖𝑗 𝛿𝑗𝑘 𝛿𝑖𝑘

Slide 102

Slide 102 text

103 巡回二体近似とリング分解巡回二体近似テンソルリング分解 Qibin Zhao, et al., 2016 相互作用表示テンソルネットワーク = Ω𝑖𝑗𝑘 = 𝛿𝑖𝑗 𝛿𝑗𝑘 𝛿𝑖𝑘

Slide 103

Slide 103 text

104 巡回二体近似とリング分解巡回二体近似テンソルリング分解 Qibin Zhao, et al., 2016 巡回二体近似は拘束条件付きテンソルリング分解．相互作用表示テンソルネットワーク = Ω𝑖𝑗𝑘 = 𝛿𝑖𝑗 𝛿𝑗𝑘 𝛿𝑖𝑘 超対角テンソルを挟むと凸問題に帰着される．帰着

Slide 104

Slide 104 text

105 低ランク近似と多体近似の関係 □ 部分三体近似とテンソルツリー分解テンソルツリー分解テンソルリング分解 □ 巡回二体近似とテンソルリング分解

Slide 105

Slide 105 text

106 数値実験テンソルリング分解 VS. ・凸最適化・ランクのチューニング不要巡回二体近似・非凸最適化（初期値依存性）・ランクのチューニングが必要

Slide 106

Slide 106 text

107 107 実験結果初期値依存性があるので5回繰り返して，最もよい結果をプロット交点が提案手法の性能合成データ実データ YuYuan Yu, et al., 2021

Slide 107

Slide 107 text

108 本研究の適用限界 □ 入力テンソルの非負性 □ KL情報量での最適化 □ DAGは学習しない・情報幾何学（確率分布の幾何学）に基づく定式化のため，入力データと分解表現に非負性が課される．・テンソル分解の最も一般的なコスト関数はフロベニウスノルム． KL情報量の最適化がフロベニウスノルムをどの程度小さくするかの理論的保証はない．・入力データの構造に対応するDAGを手動で設計した．本研究では，入力データの構造が動的に変化する状況は扱えない．

Slide 108

Slide 108 text

113 まとめ ■ 多次元配列を離散分布とみなし，情報幾何学の双対平坦な座標系で次元削減を定式化した． ■ 解空間の平坦性 → 解の初期値依存性を取り除いた． ■ 双対平坦な座標系の性質 → 厳密解に基づく議論 → 学習率や停止問題の問題を取り除いた． ■ 平均場近似や相互作用など，物理学の諸概念から着想を得たユニークな研究になっている．

Slide 109

Slide 109 text

114 まとめ ■ 多次元配列を離散分布とみなし，情報幾何学の双対平坦な座標系で次元削減を定式化した． ■ 解空間の平坦性 → 解の初期値依存性を取り除いた． ■ 双対平坦な座標系の性質 → 厳密解に基づく議論 → 学習率や停止問題の問題を取り除いた． ■ 平均場近似や相互作用など，物理学の諸概念から着想を得たユニークな研究になっている． Chapter 3. Legendre Tucker Rank Reduction ・双対平坦な座標系でのテンソルランク１近似の公式と平均場近似の幾何的な関係を指摘．・勾配法に基づかないタッカーランク近似の高速な実装．

Slide 110

Slide 110 text

115 まとめ ■ 多次元配列を離散分布とみなし，情報幾何学の双対平坦な座標系で次元削減を定式化した． ■ 解空間の平坦性 → 解の初期値依存性を取り除いた． ■ 双対平坦な座標系の性質 → 厳密解に基づく議論 → 学習率や停止問題の問題を取り除いた． ■ 平均場近似や相互作用など，物理学の諸概念から着想を得たユニークな研究になっている． Chapter 3. Legendre Tucker Rank Reduction ・双対平坦な座標系でのテンソルランク１近似の公式と平均場近似の幾何的な関係を指摘．・勾配法に基づかないタッカーランク近似の高速な実装． Chapter 4. A1GM ・双対平坦な座標系の性質を用いてランク１複合行列分解の解の公式を閉形式で導出. ・欠損を含む行列分解への応用．欠損を増やすことで，勾配法に基づかない最適化．

Slide 111

Slide 111 text

116 まとめ ■ 多次元配列を離散分布とみなし，情報幾何学の双対平坦な座標系で次元削減を定式化した． ■ 解空間の平坦性 → 解の初期値依存性を取り除いた． ■ 双対平坦な座標系の性質 → 厳密解に基づく議論 → 学習率や停止問題の問題を取り除いた． ■ 平均場近似や相互作用など，物理学の諸概念から着想を得たユニークな研究になっている． Chapter 3. Legendre Tucker Rank Reduction ・双対平坦な座標系でのテンソルランク１近似の公式と平均場近似の幾何的な関係を指摘．・勾配法に基づかないタッカーランク近似の高速な実装． Chapter 4. A1GM ・双対平坦な座標系の性質を用いてランク１複合行列分解の解の公式を閉形式で導出. ・欠損を含む行列分解への応用．欠損を増やすことで，勾配法に基づかない最適化． Chapter 5. Many-body Approximation for Tensors ・自然パラメータを用いてモード間の相互作用が制御できることに注目．・低ランク構造に着目しない，ランクフリーな分解を実現．・相互作用表示をテンソルネットワークに書き直し，低ランク近似との関係も議論．・自然勾配法に基づいた高速な凸最適化による分解を実現．

Slide 112

Slide 112 text

118 １体近似は線，２体近似は面で近似する．

Slide 113

Slide 113 text

120 KL情報量での最適化・音響，音声，ノイズを含むデータに対するKL-NMFの頑健性は良く知られている．・データがポアソン分布に従う場合は，KL-NMFの誤差関数が最尤推定と一致して，自然な分解・多くの行列分解ライブラリでは，LS-NMFとKL-NMFの両方が実装されている． (e.g., sk-learn) ・誤りに対して，誤差の増加が緩やかで過学習しにくい．二乗誤差最適化よりもロバストな指標として頻繁に用いられる．

Slide 114

Slide 114 text

121 応用: 多体近似による画像復元 □ emアルゴリズムによる欠損値補完ができるモデル多様体が平坦でないモデル多様体がe平坦 m-平坦のデータ多様体と e-平坦なモデル多様体間の emアルゴリズムは大域解がが求まる😄 二体近似による画像の復元

Slide 115

Slide 115 text

122 0の扱い 𝜃11 𝜃21 𝜃12 𝜃22 𝜂11 𝜂21 𝜂12 𝜂22 𝒫22 = exp 𝜃11 + 𝜃12 + 𝜃21 + 𝜃22 𝒫11 = exp 𝜃11 𝒫12 = exp 𝜃11 + 𝜃12 𝒫21 = exp 𝜃11 + 𝜃21 𝒫22 = 𝜂22 𝒫11 = 𝜂11 − 𝜂21 − 𝜂12 + 𝜂22 𝒫12 = 𝜂12 − 𝜂22 𝒫21 = 𝜂21 − 𝜂22 数値計算では𝜂𝑖𝑗 = 0にして0を扱う． 𝜃表示だとexpの性質から0を扱えない．

Slide 116

Slide 116 text

123 KLエラーもLSエラーも小さくできている．実験結果(合成データ) 19:00

Slide 117

Slide 117 text

124 テンソル多体近似による動画再構成例一体近似三体近似二体近似モデルの表現力大入力

Slide 118

Slide 118 text

125 テンソル多体近似によるパターン抽出の例入力テンソル再構成テンソル ≃ ≃ ≃ = = =

Slide 119

Slide 119 text

126 テンソル多体近似によるパターン抽出の例入力テンソル再構成テンソル ≃ ≃ ≃ = = =