行列・テンソルの低ランク分解と多体分解

行列・テンソルの低ランク分解と多体分解物理屋のための機械学習講義 2024 @ 筑波大学東京キャンパス118教室ガラムカリ和理化学研究所革新知能統合研究センター @KazuGhalamkari
第 11 回

2 自己紹介東北大学理学研究科物理学専攻（修士課程）物質中の電子と光の角運動量の交換に関する理論的研究 2016.4. - 2018.3 日立製作所研究開発グループ一人称映像に基づく人行動認識の研究
2018.4. - 2020.3 2020.4. - 2023.3 国立情報学研究所 (総研大DC1，博士課程）情報幾何学に基づいたテンソル分解研究の興味機械学習，テンソル分解，低ランク近似，情報幾何学… 2020.11 – 2021.4 ETH 若手研究者交流事業 2023.4. - 現在理研AIP 構造的学習チーム 2023.9 – 2023.11 デンマーク工科大学混合テンソル分解法の開発ガラムカリ和 @ 理研AIP （基礎科学特別研究員）勤務地：大阪大学

3 講義の構成 [前半] 行列の低ランク分解入門 [後半] テンソルの低ランク分解と多体分解 ▪ 特異値分解 ▪ 非負行列因子分解
▪ 部分空間法に基づく行列分解の応用例分類，ノイズ除去，異常検知，欠損値推定 etc.. ▪ テンソル低ランク分解の困難 ▪ 相互作用で分解する多体分解 Basicな内容 100分 100分 𝐗 ≃ 𝐖 𝐇

実世界の様々なデータ ▪ 購買データ ▪ テーブルデータがく片長 [cm] がく片幅 [cm] 花びら長
[cm] 花びら幅 [cm] あやめの種類 5.1 3.5 1.4 0.2 setosa 7 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.3 3.3 4.7 1.6 versicolor 6.6 2.9 4.6 1.3 versicolor 4.9 3 1.4 0.2 setosa 5.2 2.7 3.9 1.4 versicolor ▪ 白黒画像データを行列とみなして，分解すると良いことがたくさんある． ▪ 周波数解析のデータ Image from https://sigview.com/help/Time-FFTSpectrogram.html Image from https://www.mathworks.com/help/images/image-types-in-the-toolbox_ja_JP.html Image from Mithy, S. A., et al. "Classification of Iris Flower Dataset using Different Algorithms." Int. J. Sci. Res. In (2022).

データの分解でデータから知見を得る[学習] パターンパターン

データの分解でデータから知見を得る[学習] 飲みものお菓子

得た知見を役立てる[推論] とを買うにをオススメ！飲みものお菓子１１

良い分解とは何だろう分解は分かりやすいだろうか？分解は高速にできるだろうか？分解は一意だろうか？分解は欠損値があってもできるだろうか？たくさんたくさん
状況や問題設定，実世界の様々な制約に合わせて適切な分解手法を選択することが大事 10:00

10 講義の構成 [後半] テンソルの低ランク分解と多体分解 ▪ 特異値分解（SVD）と低ランク近似 [前半] 行列の低ランク分解入門 ▪ 行列分解の応用例：部分空間法による分類，ノイズ除去，異常検知
▪ 行列分解の様々なバリエーション：非負行列分解，複合分解 ▪ 欠損値を含む場合の行列分解法 𝐗 ≃ 𝐖 𝐇

線形代数におけるランク（階数） 11

線形代数におけるランク（階数）この行列の各列は基底{ }の線形結合でかける．２つの線形独立なベクトルの線形結合がなす行列をランク２行列という． 6次元のベクトル空間列ベクトルの全てが，６次元ベクトル空間内の２次元平面内にある．が張る２次元平面 12

線形代数におけるランク（階数）行列Aの列ベクトルが基底の線形結合で書ける行列のランクをとかく線形独立な 𝑟 個のベクトル（基底）
最小の自然数 𝑟 を行列Ａのランクと呼ぶ．ランクが 𝑟 の行列をランク 𝑟 行列と呼ぶ．定義 13

行列ランクの性質基底ランクの性質の時，Aがフルランクであるという．の時，Aはランク落ちしているという． 15

基底は線形独立なベクトルの組なら何でもよかった．特異値分解 SVD ここまでの議論ではに正規直交性を課す．ここからの議論では 16

特異値分解 SVD 最も支配的なランク１因子最も重要でないランク１因子重要な項重要でない項に正規直交性を課す．ここからの議論では特異値直後のランク１行列の重み（重要性）を表す
17

特異値分解 SVD に正規直交性を課す．ここからの議論では特異値直後のランク１行列の重み（重要性）を表す 18

特異値分解 SVD ▪ 任意の行列Aは直交行列UとV，対角行列∑の積で分解できる．複素行列でも，非正則行列でも，非正方行列でもOK 19

特異値分解 SVD ▪ 任意の行列Aは直交行列UとV，対角行列∑の積で分解できる． 20 複素行列でも，非正則行列でも，非正方行列でもOK

特異値分解 SVD ▪ Aのランクがの場合不要 0 21

特異値分解 SVD ▪ Aのランクがの場合不要 0 22

特異値分解 SVD による低ランク近似あまり重要でないので0にして無視しよう重要な項重要でない項 ≒ 0 Aのランクをとする．
▪ 任意の行列Aは直交行列UとV，対角行列∑の積で分解できる．特異値直後のランク１行列の重要性を表す 23

Aのランクをとする．特異値分解 SVD による低ランク近似あまり重要でないので0にして無視しよう ≒ 0 ▪ 任意の行列Aは直交行列UとV，対角行列∑の積で分解できる．
特異値直後のランク１行列の重要性を表す行列をランクの小さい行列で近似すること．低ランク近似 (Low-rank approximation) 24

特異値分解 SVD による最良低ランク近似 ▪ SVDによる低ランク近似はフロベニウスノルムの意味で最も良い近似行列𝐀を特異値分解して， 𝑘 ≤ 𝑟 項目から先を切り捨てた行列を
とする．は𝐀をフロベニウスノルムの意味で近似する最良のランク𝑘行列である．フロベニウスノルムでどれくらい似ているかを評価フロベニウスノルム Eckart − Young 定理 (1936) 25

特異値分解 SVD による最良低ランク近似 ▪ SVDによる低ランク近似は任意のユニタリ不変ノルムの意味で最も良い近似行列𝐀を特異値分解して， 𝑘 ≤ 𝑟 項目から先を切り捨てた行列を
とする．は𝐀を任意のユニタリ不変ノルム・ ∗ で近似する最良のランク𝑘行列である．ユニタリ不変ノルムでどれくらい似ているかを評価 Eckart − Young − Mirsky 定理 (1960) * 任意の行列に関するあるノルム 𝐏 ∗ が，任意のユニタリ行列𝐗, 𝐘について 𝐏 ∗ = 𝐗𝐏𝒀 ∗ を満たすとき，・ ∗ をユニタリ不変ノルムとよぶ．

行列の低ランク近似でメモリを節約できる近似前の必要メモリ容量近似後の必要メモリ容量低ランク近似によって必要な記憶容量を削減できる例：だとがに比べて十分に小さいときに成立する不等式 27

SVD による画像の再構成この画像を低ランク近似する．再構成に必要なランクはいくつだろうか． 2000×1500 (2000+1500)×5 (2000+1500)×20 (2000+1500)×100 𝑘=100, 11.67% storage
𝑘=20, 2.33% storage 𝑘=5, 0.57% storage Image from Steven L. Brunton, J. Nathan Kutz, “Data-Driven Science and Engineering: Machine Learning, Dynamical Systems, and Control”

SVD におけるハイパーパラメータチューニング正確雑メモリ増大遅いメモリ節約高速 (2000+1500)×5 (2000+1500)×20
(2000+1500)×100 トレードオフ関係の中で適切なランクを自分で決めなければならない（試行錯誤が必要）典型的なハイパーパラメータチューニング問題 𝑘=100, 11.67% storage 𝑘=20, 2.33% storage 𝑘=5, 0.57% storage Image from Steven L. Brunton, J. Nathan Kutz, “Data-Driven Science and Engineering: Machine Learning, Dynamical Systems, and Control”

データは低ランク構造とノイズで表現できることが多いこの世界のデータの多くは低ランク構造を持つ．実世界のデータ低ランク行列ノイズ多くのデータは低ランク近似で十分に良く近似できる． ▪ 実世界のデータは低ランク近似で良く近似できる． 45:00

Python による SVD の例 PC で SVD は気軽に実行できる． Python なら
numpy.linalg.svd で SVD を行える． 35

特異値と固有値の関係 Aは実行列

特異値と固有値の関係

の固有値の固有ベクトル特異値と固有値の関係

の固有値特異値と固有値の関係の固有ベクトルの固有ベクトル

特異値分解と固有値分解の関係（左特異ベクトル）（右特異ベクトル）

44 まとめ：特異値分解と特異値分解による低ランク近似 ▪ 任意の行列が特異値分解（SVD)できる ▪ SVDはフロベニウスノルムを最小にする低ランク行列を求める．特異値は正規直交している．行列𝐀を特異値分解して， 𝑘
≤ 𝑟 項目から先を切り捨てた行列をとする． Eckart − Young 定理 ▪ 低ランク近似でデータのメモリ容量を削減できる．

▪ 行列分解の様々なバリエーション：非負行列分解，複合分解 ▪ 欠損値を含む場合の行列分解法 𝐗 ≃ 𝐖 𝐇 43:00

がく片長 [cm] がく片幅 [cm] 花びら長 [cm] 花びら幅 [cm] あやめの種類
5.1 3.5 1.4 0.2 setosa 7 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.3 3.3 4.7 1.6 versicolor 6.6 2.9 4.6 1.3 versicolor 4.9 3 1.4 0.2 setosa 5.2 2.7 3.9 1.4 versicolor 5.9 3 4.2 1.5 ??? 5.6 3 4.5 1.5 ??? 4.7 3.2 1.6 0.2 ??? あやめデータセットの分類がく片花びらがく片花びら ▪ Iris Dataset[1] (あやめデータセット） [1] Fisher, Ronald A. "The use of multiple measurements in taxonomic problems." Annals of eugenics 7.2 (1936): 179-188. あやめのがく片と花びらの長さの情報からあやめをしたい．分類 … … Image from Mithy, S. A., et al. "Classification of Iris Flower Dataset using Different Algorithms." Int. J. Sci. Res. In (2022).

部分空間法による分類クラスAの標本クラスBの標本各標本のクラスを当てる．分類訓練データがく片長
[cm] がく片幅 [cm] 花びら長 [cm] 花びら幅 [cm] あやめの種類 5.1 3.5 1.4 0.2 setosa 7 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.3 3.3 4.7 1.6 versicolor 6.6 2.9 4.6 1.3 versicolor 4.9 3 1.4 0.2 setosa 5.2 2.7 3.9 1.4 versicolor 5.9 3 4.2 1.5 ??? 5.6 3 4.5 1.5 ??? 4.7 3.2 1.6 0.2 ??? … … setosa versicolor

部分空間法による分類がく片長 [cm] がく片幅 [cm] 花びら長 [cm] のクラスを当てる．クラスAの標本クラスBの標本
各標本分類訓練データ

部分空間法による分類のクラスを当てる．クラスAの標本クラスBの標本各標本分類訓練データ

部分空間法による分類のクラスを当てる．クラスAの標本クラスBの標本各標本分類訓練データ（
便宜上，図中では二つの部分空間は通ってないが，本当はどちらの面も原点を通る）

部分空間法による分類直交基底直交基底：ハイパーパラメータのクラスを当てる．クラスAの標本クラスBの標本各標本分類
訓練データ（便宜上，図中では二つの部分空間は通ってないが，本当はどちらの面も原点を通る）

部分空間法による分類 ▪ 推論データが最も近い部分空間で分類． ▪ 学習クラスごとの標本で特異値分解をする．のクラスを当てる．クラスAの標本クラスBの標本
各標本分類訓練データ（便宜上，図中では二つの部分空間は通ってないが，本当はどちらの面も原点を通る）

1-近傍法とCLAFIC法の関係 1-NN 最近接の訓練データのクラスに分類最近接の部分空間に対応するクラスで分類 CLAFIC

57 まとめ：部分空間法による分類 ▪ 学習クラスごとの標本で特異値分解をする． ▪ 推論テストデータが最も近い部分空間で分類．（便宜上，図中では二つの部分空間は通ってないが，本当はどちらの面も原点を通る）
最近接の部分空間に対応するクラスで分類

線形分離できないデータセット ▪ 平面(直線)を引いても適切に次元削減ができない． ▪ 線形分離できないデータにCLAFICは非効果的． 2次元のデータ空間高次元の空間への射影により，データを線形分離可能にする．

Kernel CLAFIC【学習】 𝑀(≫ 𝐿)次元空間 𝐿次元のデータ空間特徴空間

Kernel CLAFIC【学習】 𝑀(≫ 𝐿)次元空間 𝐿次元のデータ空間

Kernel CLAFIC【学習】 𝑀(≫ 𝐿)次元空間 𝐿次元のデータ空間高次元空間に射影することで線形分離可能にする．

Kernel CLAFIC【学習】 𝑀(≫ 𝐿)次元空間 𝐿次元のデータ空間高次元空間でクラスごとにSVDを行う．

Kernel CLAFIC【推論】テストデータ𝒄も高次元空間に射影して，どちらの平面に近いかでクラスを判定する． 69 𝑀(≫ 𝐿)次元空間 𝐿次元のデータ空間

カーネルトリック 70 𝑀(≫ 𝐿)次元空間でかい部分空間までの距離はカーネル行列の固有値と固有ベクトルのみで求まる．内積の典型例(RBFカーネル) を陽に求める必要はない．
サンプル間の類似度さえあればよい．（内積） 01:05:00

PCAによるノイズ除去 [1] Mika, Sebastian, et al. "Kernel PCA and de-noising
in feature spaces." Advances in neural information processing systems 11 (1998). ▪ ノイズの乗ったデータからノイズを除去する [Denoising] … 画像に含むノイズを除去したい． 28 28 … 28×28=784

PCAによるノイズ除去 [1] Mika, Sebastian, et al. "Kernel PCA and de-noising
in feature spaces." Advances in neural information processing systems 11 (1998). 𝐿次元のデータ空間 (784)

PCAによるノイズ除去 𝐿次元のデータ空間 (784) [1] Mika, Sebastian, et al. "Kernel PCA
and de-noising in feature spaces." Advances in neural information processing systems 11 (1998). 𝑀(≫ 𝐿)次元空間

PCAによるノイズ除去 𝐿次元のデータ空間 (784) 𝑀(≫ 𝐿)次元空間 76

PCAによるノイズ除去 𝐿次元のデータ空間 (784) 𝑀(≫ 𝐿)次元空間 77

PCAによるノイズ除去 𝐿次元のデータ空間 (784) 𝑀(≫ 𝐿)次元空間ノイズを含むデータをに射影した後に，内の低次元空間に射影

内の低次元空間から特徴量空間に戻して，ノイズが除去された画像を得る． PCAによるノイズ除去 𝐿次元のデータ空間 (784) 𝑀(≫ 𝐿)次元空間 (閉形式で書けるとは限らない）

PCAによる異常検知 ▪ データに含まれる異常を自動的に検知したい．正常正常異常正常正常正常人間が見たら異常だとすぐに分かる．機械にも異常判定を自動的に行ってほしい．
正常 [2] Hoffmann, Heiko. "Kernel PCA for novelty detection." Pattern recognition 40.3 (2007): 863-874. 異常 80

PCAによる異常検知 [2] Hoffmann, Heiko. "Kernel PCA for novelty detection." Pattern
recognition 40.3 (2007): 863-874. ▪ 正常だと分かっている標本だけを集める（訓練データセット） ▪ 正常 or 異常の判定をまだしていない標本を集める（テストデータセット）異常正常正常正常正常正常正常異常正常 or 異常の判定をしたい 81

PCAによる異常検知 𝐿次元のデータ空間 (784) 正常なデータのみでPCAを行う． 82

PCAによる異常検知 𝐿次元のデータ空間 (784) 正常なデータのみでカーネルPCAを行う． 𝑀(≫ 𝐿)次元空間 84

PCAによる異常検知 𝐿次元のデータ空間 (784) 次に異常を含む標本の集合もに射影する． 𝑀(≫ 𝐿)次元空間 85

PCAによる異常検知 𝐿次元のデータ空間 (784) 𝑀(≫ 𝐿)次元空間次に異常を含む標本の集合もに射影する． 86

PCAによる異常検知 𝐿次元のデータ空間 (784) 𝑀(≫ 𝐿)次元空間：ハイパーパラメータ

88 まとめ：CLAFIC とその様々な応用 Kernel CLAFIC 高次元空間への射影でデータを線形分離応用例２異常検知でデータ空間に戻す．部分空間との距離で異常判定
応用例１ノイズ除去データ空間 RKHS

グラスマン学習 span 𝒖1 𝐴, … , 𝒖𝑟 𝐴 span 𝒖1
𝐵, … , 𝒖𝑟 𝐵 span 𝒖1 𝐶, … , 𝒖𝑟 𝐶 span 𝒖1 , … , 𝒖𝑟 部分空間同士の距離で部分空間を分類 Face images from Yale Face Database http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html 𝒀𝐴 𝒀𝐵 𝒀𝐶 𝑑 𝒀𝐴 , 𝒀𝐵 = 1 2 ||𝒀𝐴 𝒀𝐴 ⊤ − 𝒀𝐵 𝒀𝐵 ⊤||𝐹 グラスマンカーネル法推論に使うデータの数が動的であるときに便利 [例：複数画像毎の分類] 𝑑 𝒀𝐴 , 𝒀𝐵 = 1 − ς 𝑖 cos2𝜃𝑖 Projection Metric Binet-Cauchy Metric Principal angles, 部分空間同士の角度 𝒀𝐴 ⊤ 𝒀𝐵 のSVDで求まる = σ 𝑖 sin2𝜃𝑖 Hamm, Jihun, and Daniel D. Lee. "Grassmann discriminant analysis: a unifying view on subspace-based learning." ICML. 2008. 𝑘 𝒀𝐴 , 𝒀𝐵 = det 𝒀𝐴 ⊤𝒀𝐵 2 𝑘 𝒀𝐴 , 𝒀𝐵 = ||𝒀𝐴 𝒀𝐵 ⊤||𝐹 Projection kernel Binet-Cauchy kernel 𝒀𝐴 , 𝒀𝐵 , 𝒀𝐶 ∶ 訓練データ各点がℝ𝑁の線形部分空間． 𝑁は画像のサイズ． 01:20:00

非負制約を含む行列分解 ▪ SVDは分解表現に負の値を含む ▪ 分解表現に非負性を課すと解釈性が向上に直交性を課した． SVD ではに非負性を課す． NMFでは
91

非負行列因子分解の例 [3] Lee, Daniel D., and H. Sebastian Seung. "Learning
the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. … ：ハイパーパラメータこの実験では𝑘 = 49. 92 1 2 3 2429 19 19

非負行列因子分解の例 [3] Lee, Daniel D., and H. Sebastian Seung. "Learning
the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. … ：ハイパーパラメータこの実験では𝑘 = 49. 93 1 2 3 2429 19 19

これらのパーツの足し算で顔が再構成している． PCAとNMFの比較 [3] Lee, Daniel D., and H. Sebastian Seung.
"Learning the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. 非負行列因子分解による分解表現基底が，目や口，鼻など顔のパーツになっている．特異値分解（PCA）による分解表現（正値を黒，負値を赤で描画）基底が顔っぽくなっている．顔の足し算で顔を再構成している． 94

これらのパーツの足し算で顔が再構成している． PCAとNMFの比較 [3] Lee, Daniel D., and H. Sebastian Seung.
"Learning the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. 非負行列因子分解による分解表現基底が，目や口，鼻など顔のパーツになっている．特異値分解（PCA）による分解表現（正値を黒，負値を赤で描画）基底が顔っぽくなっている．顔の足し算で顔を再構成している． 95

NMFの課題最もよい分解を求めるのはNP困難 ※フロベニウスノルムを最小にする分解を求めるのがNP困難非凸関数を勾配法で最適化する． (最良解にたどり着けない，解が初期値に依存) ハイパーパラメータのチューニングが必要凸関数非凸関数
行列の非負値行列因子分解はこっち関数：ハイパーパラメータ 96

Python による NMF の例 97 Python なら sklearn で NMF
を行える． 01:30:00

非負複合行列因子分解[6] 98 ▪ NMFで音楽推薦システムのために再生記録のデータからパターンを抽出したい．ユーザー歌手ユーザータグ：誰がどの歌手の曲を聴いたのか：アーティストにどんなタグがついているか（Pop,
rock, Jazz…) ：ユーザー同士が友達関係にあるか． [6] Takeuchi, Koh, et al. "Non-negative multiple matrix factorization." Twenty-third international joint conference on artificial intelligence. 2013. ユーザー i とユーザー j が友達なら． KL情報量・カウントデータに対する自然な誤差・過学習を防ぎ，外れ値にロバスト補助情報をどれくらい重んじるか

非負複合行列因子分解[6] 99 ▪ NMFで音楽推薦システムのために再生記録のデータからパターンを抽出したい． [6] Takeuchi, Koh, et al. "Non-negative
multiple matrix factorization." Twenty-third international joint conference on artificial intelligence. 2013. ユーザー – 歌手間のパターンだけでなく，ユーザー – ジャンル間のパターンも同時に抽出できる．

100 まとめ：非負行列因子分解 ▪ 分解に非負性を課して，解釈性を向上 ▪ 様々なタスクに特化したNMFが数多く開発されてきた． ▪ SVDとは異なり最良解は得れない．最もよい分解を求めるのはNP困難 ※フロベニウスノルムを最小にする分解を求めるのがNP困難
非凸関数を勾配法で最適化する． (最良解にたどり着けない，解が初期置に依存) PCA NMF Group NMF NMMF Lee, Hyekyoung, and Seungjin Choi. "Group nonnegative matrix factorization for EEG classification." Artificial Intelligence and Statistics. PMLR, 2009.

欠損値を含む場合のNMF ▪ データは欠損値を含む平均値や0を代入するアプローチはあまりうまくいかない．データが低ランク構造を有する仮定から欠損値を推定する．：欠損値 ※ 簡単のために欠損数は１にした．実際はもっと沢山の欠損値を考える． 102

：欠損値欠損値を含む場合のNMF 各点が行列に対応する空間・部分空間の次元は欠損値の値と一致・欠損を含まないAはこの空間上に存在する・Aは低ランク構造＋ノイズでかけると仮定行列低ランク補完 EM-WNMF[4] ※ 簡単のために欠損数は１にした．
実際はもっと沢山の欠損値を考える． [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. 103

：欠損値欠損値を含む場合のNMF 各点が行列に対応する空間行列低ランク補完 EM-WNMF[4] ※ 簡単のために欠損数は１にした．実際はもっと沢山の欠損値を考える． [4] Zhang,
Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. ：ハイパーパラメータランク行列の集合 104

：欠損値欠損値を含む場合のNMF 各点が行列に対応する空間行列低ランク補完 EM-WNMF[4] 欠損値を適当に初期化してを得る． ※ 簡単のために欠損数は１にした．
実際はもっと沢山の欠損値を考える． [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. ：ハイパーパラメータランク行列の集合 105

：欠損値欠損値を含む場合のNMF 各点が行列に対応する空間行列低ランク補完 EM-WNMF[4] 欠損値を適当に初期化してを得る． M step
※ 簡単のために欠損数は１にした．実際はもっと沢山の欠損値を考える．をNMFしてランク行列を得る． [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. ：ハイパーパラメータランク行列の集合 106

：欠損値データが欠損値を含む場合の処方箋各点が行列に対応する空間行列低ランク補完 EM-WNMF[4] 欠損値を適当に初期化してを得る． M step
E step ※ 簡単のために欠損数は１にした．実際はもっと沢山の欠損値を考える．をNMFしてランク行列を得る．観測値を上書きしてを得る：観測された値の添字 [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. ：ハイパーパラメータランク行列の集合

データが欠損値を含む場合の処方箋 [4] Zhang, Sheng, et al. "Learning from incomplete ratings
using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. 行列低ランク補完 EM-WNMF[4] ：欠損値欠損値を適当に初期化してを得る． M step E step ※ 簡単のために欠損数は１にした．実際はもっと沢山の欠損値を考える．をNMFしてランク行列を得る．観測値を上書きしてを得る繰り返す各点が行列に対応する空間：観測された値の添字：ハイパーパラメータランク行列の集合

EM-WNMFの課題行列低ランク補完 EM-WNMF ハイパーパラメータを適切に選ぶ必要がある．各点が行列に対応する空間アルゴリズムに初期値依存性がある． [4] Zhang, Sheng, et
al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. ：ハイパーパラメータランク行列の集合データが低ランク構造を有する仮定から欠損値を推定する．

110 講義の構成 ▪ 特異値分解（SVD）と低ランク近似 [前半] 行列の低ランク分解入門 ▪ 行列分解の応用例：部分空間法による分類，ノイズ除去，異常検知 ▪ 行列分解の様々なバリエーション：非負行列分解，複合分解
▪ 欠損値を含む場合の行列分解法 𝐗 ≃ 𝐖 𝐇 ▪ 行列分解のその他の話題

行列分解の更なるトピック・確率的主成分分析 111 1×1 = 1 1＋1 = 1 の代数での分解
[Hashemi, Soheil, Hokchhay Tann, and Sherief Reda. "BLASYS: Approximate logic synthesis using Boolean matrix factorization." Proceedings of the 55th Annual Design Automation Conference. 2018.] 推薦システムなどで活躍信頼区間を出せる行列の各成分が確率分布からサンプルされる．適切に事前分布を導入する． Input Output ・バイナリ行列分解，Boolean分解・自己符号化器と主成分分析活性化関数を𝑓 𝑥 = 𝑥としてパラメター共有をした線形自己符号化器の誤差関数はPCAと等価．中間層の次元がランクに対応．同じになるように学習ランク 𝐖 𝐖⊤

行列分解の最近のトピック・深層行列分解 Fan, Jicong. "Multi-mode deep matrix and tensor factorization."
ICLR, 2021. 活性化関数・非負行列分解における二重降下現象 112 ≃ 𝐗 ∈ ℝ𝑛×𝑚 𝐖 ∈ ℝ𝑛×𝑟 𝐇 ∈ ℝ𝑟×𝑚 Kawakami, Y., et.al.,“Investigating Overparameterization for Non-Negative Matrix Factorization in Collaborative Filtering” RecSys 2021, Late-Breaking Results track, 2021. → Larger rank 𝑟 Over fitting

114 テンソル分解パターン抽出相互作用，エネルギー平均場近似タスクモデリング最適化情報幾何学情報・物理・数理の学際領域で研究中
テンソル分解による情報縮約やパターン抽出をしたい．モデルの最適化には情報幾何学という確率分布の幾何学に関する数理を用いる．テンソルを相互作用やエネルギー関数といった物理の言葉を使ってモデリング．

115 本講義でテンソルはただの多次元配列を意味します多重線形写像の表現の話ではありません．座標変換に対する共変性とかも考えません．例：

非負テンソルの低ランク分解と多体分解 Kazu Ghalamkari RIKEN AIP Mahito Sugiyama National institute of
informatics Kawahara Yoshinobu RIKEN AIP, Osaka Univ. https://arxiv.org/abs/2209.15338 "Many-body Approximation for Non-negative Tensors." Advances in Neural Information Processing Systems 36 (2024). "Non-negative low-rank approximations for multi-dimensional arrays on statistical manifold." Information Geometry 6, no. 1 (2023): 257-292.

様々なデータがテンソルとして計算機に格納される 117 NASA, https://sdo.gsfc.nasa.gov/data/ Microarray data RGB 画像 Hyperspectral Image
EEG Data = [M.Mørup, Data Mining and Knowledge Discovery 2011] [A.Cichocki, et al. Nonnegative Matrix and Tensor Factorizations 2009] [A.Cichocki, et al. Nonnegative Matrix and Tensor Factorizations 2009] 動画時系列データ・信号 [A.Cichocki, et al. Nonnegative Matrix and Tensor Factorizations 2009] [Kosmas Dimitropoulos, et al. Transactions on circuits and systems for video technology 2018]

最近の機械学習でも現れるテンソル 118 関係学習 A B C E D F G
？ [Nickel, Maximilian, Volker Tresp, and Hans-Peter Kriegel. “A three-way model for collective learning on multi-relational data.” ICML2011] 例：RESCAL Model によるグラフのリンク推定テンソルで表現 [T. Bezdan, N. Bačanin Džakula, International Scientific Conference on Information Technology and Data Related Research, 2019] 深層学習例：テンソル分解によるニューラルネットワークの軽量化 [Y. Liu et al., Tensor Computation for data analysis, 2022]

テンソルの階層性：テンソルのベクトルもテンソル数 [オーダー０のテンソル] ベクトル [オーダー１のテンソル] 行列 [オーダー２のテンソル] 𝑎 𝒂 =
𝑎1 𝑎2 ⋮ 𝑎𝑛 𝐗 = 𝑎11 ⋯ 𝑎1𝑛 ⋮ ⋱ ⋮ 𝑎𝑛1 ⋯ 𝑎𝑛𝑛 オーダー３のテンソル ⋯ 𝒯= オーダー４のテンソル ※ オーダーを階数と表現することもあるが，基底の数（ランク）と混乱するので注意が必要 𝑈= ⋯ ⋯ オーダーNのテンソルはオーダーN-1のテンソルのベクトル 𝒯 1 𝒯 2 𝒯 𝑛 00:10:00

データの解析，密度推定，圧縮，前処理，データマイニング，ノイズ除去などに応用テンソルからパターンや特徴を抽出したい 120 Who Shop ≃ = ത 𝒫
minmize 𝒫 − ത 𝒫 𝐹 + ⋯ + 𝒫 データからパターンや特徴を抽出したい ▪ テンソルを分解することでデータから特徴を抽出する mode-２ mode-１

テンソル分解の様々な課題 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫 ≃
タッカー分解テンソルネットワークを用いた分解 + ⋯ + テンソルトレイン分解テンソルリング分解 𝒫 テンソルネットワークノードがテンソルエッジがモード

タッカー分解テンソルネットワークを用いた分解 + ⋯ + テンソルトレイン分解テンソルリング分解 𝒫 テンソルネットワークノードがテンソルエッジがモード Wang, Wenqi, et al. CVPR. 2018. Zheng, Yu-Bang, et al. AAAI 2021. https://tensornetwork.org A. Cichocki, et al., Tensor Networks for Dimensionality Reduction and Large-scale Optimization, 2016

タッカー分解テンソルネットワークを用いた分解 + ⋯ + テンソルトレイン分解テンソルリング分解 𝒫 テンソルネットワークノードがテンソルエッジがモード Wang, Wenqi, et al. CVPR. 2018. Zheng, Yu-Bang, et al. AAAI 2021. https://tensornetwork.org A. Cichocki, et al., Tensor Networks for Dimensionality Reduction and Large-scale Optimization, 2016 ＝再構成に必要な基底の数

Hillar, Christopher J., and Lek-Heng Lim. "Most tensor problems are
NP-hard." Journal of the ACM (JACM) 60.6 (2013): 1-39. テンソル分解の様々な課題 124 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫 ▪ 最適化の困難さ・最良ランク１分解はNP困難 ≃ タッカー分解テンソルネットワークを用いた分解 + ⋯ + minmize 𝒫 − ത 𝒫 𝐹 ※ フロベニウスノルム最小化のランク１近似がNP困難テンソルトレイン分解テンソルリング分解 𝒫 ＝再構成に必要な基底の数行列分解ならSVDで多項式時間で最良低ランク近似が可能なのに！

テンソル分解の様々な課題 125 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫
▪ 最適化の困難さ・最良ランク１分解はNP困難 ≃ タッカー分解テンソルネットワークを用いた分解 + ⋯ + モデル選択が直感的で，最適化も安定しているテンソル分解を開発したい． minmize 𝒫 − ത 𝒫 𝐹 ※ フロベニウスノルム最小化のランク１近似がNP困難非凸関数 𝒫 − ത 𝒫 𝐹 （解が無限個 etc..） … ・解が不定になることも多い・誤差が非凸関数・解が初期置に依存（計算のたびに結果が異なる）・最良解かどうかが分からない最良解になっている保証なしテンソルトレイン分解テンソルリング分解 𝒫 ＝再構成に必要な基底の数 Gの最小サイズがタッカーランク（多重線形ランク） G 00:20:00

提案手法: 非負テンソルの多体分解 126 指数型分布族の自然パラメータエネルギー関数規格化定数

提案手法: 非負テンソルの多体分解 127 指数型分布族の自然パラメータエネルギー関数

提案手法: 非負テンソルの多体分解 128 モード k, l 間の関係を制御モード j,
k, l 間の関係を制御指数型分布族の自然パラメータエネルギー関数

提案手法: 非負テンソルの多体分解 129 一体近似ランク１近似（平均場近似） [NeurIPS 2021 Ghalamkari, K., Sugiyama,
M. ]

提案手法: 非負テンソルの多体分解 130 一体近似二体近似モード k, l 間の関係を制御
表現力大ランク１近似（平均場近似） [NeurIPS 2021 Ghalamkari, K., Sugiyama, M. ] 二体相互作用

提案手法: 非負テンソルの多体分解 131 一体近似二体近似二体相互作用三体近似表現力大モード
j, k, l 間の関係を制御モード k, l 間の関係を制御三体相互作用ランク１近似（平均場近似） [NeurIPS 2021 Ghalamkari, K., Sugiyama, M. ] 131 までまで

提案手法: 非負テンソルの多体分解 132 一体近似二体近似二体相互作用三体近似表現力大モード間の相互作用に着目した直感的なモデリングが可能
モード j, k, l 間の関係を制御モード k, l 間の関係を制御三体相互作用ランク１近似（平均場近似） [NeurIPS 2021 Ghalamkari, K., Sugiyama, M. ] をKL情報量の意味で最もよく近似するが凸最適化で一意に求まる！ 132 一体相互作用省略する

提案手法の背景にあるアイデア 133 規格化された非負テンソルを，添字集合が標本空間である同時離散確率分布とみなし，情報幾何学を転用する．添字が離散確率変数 𝜽-表現座標変換指数型分布族の自然パラメータで表現 𝜽-の幾何学
低ランク空間（非平坦）平坦な空間最適化が困難テンソルの分解条件を𝜽 -座標で記述することで，凸問題としての定式化が容易になる．モード間の相互作用に着目して平坦なモデル空間を構成 0:27:00

確率分布と非負テンソルの対応付け 134 3×3×3テンソルに対応する同時離散分布の標本空間

確率分布と非負テンソルの対応付け 135 3×3×3テンソルの標本空間に最小元を含む半順序構造を導入した空間

確率分布と非負テンソルの対応付け 136 3×3×3テンソルの標本空間に最小元を含む半順序構造を導入した空間確率変数標本空間確率値：テンソルの添字
𝑖, 𝑗, 𝑘 ：添字集合に半順序を導入した集合：テンソルの値 𝒫𝑖𝑗𝑘 半順序集合上の対数線形モデル確率分布と非負テンソルの対応

確率分布と非負テンソルの対応付け 137 3×3×3テンソルの標本空間に最小元を含む半順序構造を導入した空間確率変数標本空間確率値：テンソルの添字
𝑖, 𝑗, 𝑘 ：添字集合に半順序を導入した集合：テンソルの値 𝒫𝑖𝑗𝑘 半順序集合上の対数線形モデル確率分布と非負テンソルの対応

自然パラメータでの特徴づけ非負テンソルを指数型分布族の自然パラメータ θ で記述 138 最適化に関する便利な性質がある 3×3×3テンソルの標本空間に最小元を含む半順序構造を導入した空間
規格化規格化最小元は規格化を担う確率変数標本空間確率値：テンソルの添字 𝑖, 𝑗, 𝑘 ：添字集合に半順序を導入した集合：テンソルの値 𝒫𝑖𝑗𝑘 半順序集合上の対数線形モデル確率分布と非負テンソルの対応

パラメータ空間の一点が入力テンソルに対応 139

パラメター空間での拘束条件 140 （経験分布） θ の線形な条件で拘束される部分空間（モデル空間）は e-平坦 e-平坦なモデル空間

パラメター空間での拘束条件 141 射影後の分布が積の形で書けるようなモデル空間をθ の線形な条件で設計した．（経験分布） θ の線形な条件で拘束される部分空間（モデル空間）は e-平坦 e-平坦な空間へのKL情報量最小化の射影は凸で一意に実現
e-平坦なモデル空間指数型分布族の最尤推定は凸問題（テンソル） m-射影

非負テンソル多体分解 142 添字に“1”を含むθ-パラメータは，テンソルのモード間の関係を制御する．多体分解は，これらのθ-パラメータをm-射影によって削減する．凸最適化問題最適解の一意性エネルギー関数でも…，相互作用はどのように選択するの？自然勾配法による最適化経験分布の期待値
分布の期待値 Fisher情報行列 (コスト関数の二階微分)

適用例：テンソル多体近似によるカラー画像の再構成表現力大 Reconstruction for 40×40×3×10 tensor. (width, height, colors,
# images) 画像ごとに色が変化画像ごとの形を表現画像内で色は一定モード間の関連を捉えた直感的なモデル設計が可能画像内の場所（画素）ごとに色が変化三体近似 143 00:40:00

カラー画像をオブジェクトの形×色に分解近似

カラー画像をオブジェクトの形×色に分解 × ≃ = 画像ごとの形画像ごとの色 3×10
40×40×10

半順序構造の任意性について 146 上の対数線形モデル ▪ 元のデータに存在しない順序構造を標本空間に加えて，対数線形モデルとテンソルを対応付けた添字に“1”を含むθ-パラメータは，テンソルのモード間の関係を制御 θが非ゼロ θがゼロ

半順序構造の任意性について 147 上の対数線形モデル ▪ 元のデータに存在しない順序構造を標本空間に加えて，対数線形モデルとテンソルを対応付けた添字に“1”を含むθ-パラメータは，テンソルのモード間の関係を制御 θが非ゼロ θがゼロ

半順序構造の任意性について 148 上の対数線形モデル ▪ 元のデータに存在しない順序構造を標本空間に加えて，対数線形モデルとテンソルを対応付けた添字に“1”を含むθ-パラメータは，テンソルのモード間の関係を制御順序構造に加えてどのθを使うのかを適切に設計する順序構造の選び方で変わる θが非ゼロ θがゼロ

最良分解の階層性 ▪ 特異値分解最良ランク３分解最良ランク２分解最良ランク１分解 ▪ テンソル多体分解行列ランクr近似後のランクr-1近似
ランクr-1近似＝行列分解(SVD)の場合… 最良一体近似でない最良二体近似でない最良三体近似：n体近似の解空間 CP分解では成立しない 00:50:00

応用例 : em-アルゴリズムとテンソル多体分解による欠損データ推定 150

低ランク近似によるテンソルデータ補完 m-step 𝐏 ← 低ランク近似(𝐏) e-step 𝐏𝜏 ← 𝐓𝜏 𝜏
: 観測インデックス低ランクテンソル補完低ランク空間はe-平坦ではない． m-射影が一意ではない．どの低ランク構造で分解すべきか? ランクをどのように選択すべきか? 低ランク空間 151 𝑒-射影 𝑚-射影

多体近似によるテンソルデータ補完 m-step 𝐏 ← 低ランク近似(𝐏) e-step 𝐏𝜏 ← 𝐓𝜏 低ランクテンソル補完
𝑒-射影 Low-body many_body_approx 相互作用の削減された空間はe-平坦. m-射影の一意性が保証される．直感的なモデル設計が可能！ 𝑚-射影 152 低Body空間 (e-flat) 𝜏 : 観測インデックス

応用例：em-アルゴリズムによる欠損値推定の結果欠損正解推定値相関のあるモード間の相互作用を使う Fit: 0.90 153 欠損値を含む交通データ
28×24×12×4 の欠損値を観測値から推定 (days, hours, min, lanes)

応用例：em-アルゴリズムによる欠損値推定の結果欠損正解推定値相関のあるモード間の相互作用を使う Fit: 0.90 154 欠損値を含む交通データ
28×24×12×4 の欠損値を観測値から推定 (days, hours, min, lanes) 相関のないモード間の相互作用を使う Fit: 0.82 ランクのチューニングが不要で，モデルの設計が容易な欠損値補完法

テンソル多体分解とテンソルネットワークの関係 Kazu Ghalamkari RIKEN AIP Jesper Løve Hinrich Technical University
of Denmark Morten Mørup Technical University of Denmark https://arxiv.org/abs/2405.18220 155 ▪ 多体分解と低ランク分解の関係 ▪ EMアルゴリズムによる非負テンソルネットワークの最適化 ▪ 混合テンソル分解 ▪ カテゴリカルデータの密度推定

相互作用での分解と基底での分解多体分解テンソルネットワーク表現低ランク分解ノードがテンソル，エッジが添字少数の基底の線形結合でテンソルを近似相互作用表現ノードが添字，▪が相互作用関係？モード間の相互作用で分解
K.Ghalamkari, et.al., NeurIPS(2023) 大域最適解が必ず求まる凸問題相互作用による直感的モデリング非凸最適化問題ランクのチューニングが必要 [テンソル] 156 01:00:00

周辺化されて見えない“隠れモード”を仮定する 157

周辺化されて見えない“隠れモード”を仮定する隠れモード４次テンソルを３次テンソル複数で表現 158

隠れモードと可視モード間の二体相互作用を仮定隠れモード４次テンソルを３次テンソル複数で表現 159

隠れモード４次テンソルを３次テンソル複数で表現隠れモードと可視モード間の二体相互作用を仮定 160

隠れモードを仮定すると低ランク分解になる４次テンソルを３次テンソル複数で表現隠れモード CPランク-R分解 ≃ 一致 161

機械学習を知っている人向けに要約隠れモード CPランク-R分解 ≃ 一致隠れモードの自由度がランク周辺化離散確率変数潜在変数
４次テンソルを３次テンソル複数で表現 162

隠れモードを含む多体近似は既存のテンソルネットワーク！ 163 テンソルトレイン分解テンソルリング分解

テンソル多体分解と低ランク分解の関係多体分解はテンソルを可視変数のみで分解する． → モデル空間のe平坦性と目的関数の凸性が保証される．軸に沿う相互作用の解析に有利軸に沿っていない相互作用も見つけられる 01:06:00

巡回二体近似とテンソルリング分解 165 巡回二体近似（凸最適化問題）相互作用表示テンソルネットワークテンソルリング分解 Qibin Zhao, et al.,
2016 帰着巡回二体近似は拘束条件付きテンソルリング分解．超対角テンソルを挟むと凸問題に帰着される．

低ランク近似と多体近似の関係 166 □ 部分三体近似とテンソルツリー分解 □ 巡回二体近似とテンソルリング分解テンソルツリー分解テンソルリング分解

テンソル多体分解と低ランク分解の関係 167 ディラックテンソルでテンソルネットワークを多体分解に帰着できる．多体近似はテンソルを可視変数のみで分解する．（ことがある）隠れ変数を含む多体分解×EMアルゴリズムで，低ランク分解が近似的に解ける…？ ※ 多体分解も相互作用を増やせば任意の非負テンソルを表現可能 KL情報量を最適化する非負TNの
一般的な枠組みを提案できる

非負EMテンソルトレイン分解 Given Tensor Train-rank Tensor-Train Decomposition for D-th order tensor
E-Step M-Step M-Step is MBA for 2D-1th order tensor The closed-form for the MBA in the M-step Jensen's inequality Sparse O(N) O(R2) Sparse N: 入力テンソルの非ゼロ要素数 168 + const.

非負EMテンソル分解の情報幾何的な理解 2D-1th-order non-negative normalized tensors M-Step E-Step Given Tensor Train-rank
Tensor-Train Decomposition for D-th order tensor Sparse 169

非負EMテンソル分解の情報幾何的な理解 2D-1th-order non-negative normalized tensors m-flat e-flat M-Step E-Step Given
Tensor Train-rank Tensor-Train Decomposition for D-th order tensor Sparse 170

非負EMテンソル分解の情報幾何的な理解 2D-1th-order non-negative normalized tensors m-flat e-flat M-Step E-Step Given
Tensor Train-rank Tensor-Train Decomposition for D-th order tensor Sparse 171

非負EMテンソル分解の情報幾何的な理解 2D-1th-order non-negative normalized tensors m-flat e-flat M-Step e-平坦な部分空間とm-平坦な部分空間の往復(em-algorithm)は必ず収束 E-Step
Given Tensor Train-rank Tensor-Train Decomposition for D-th order tensor Sparse 01:25:00

非負EMタッカー分解 Given Tensor Tucker-rank Tensor-Tucker Decomposition for D-th order tensor
E-Step M-Step M-Step is MBA for 2Dth order tensor The closed-form for the MBA in the M-step Jensen's inequality Sparse Sparse O(N) O(RD) より複雑な低ランク構造での近似でもMステップは閉形式で解が求まるだろうか？ 173 多くの複雑な低ランク構造の M-step の更新も局所的なCP, Tucker, Train 分解の更新で実現する．

複雑な低ランク構造のMステップをデカップルする 174 可視変数4つ潜在変数6つ有するモデルのKL最適化 + const. + const.

複雑な低ランク構造のMステップをデカップルする Mステップの更新が閉形式で可能な部分にデカップルタッカー分解のMステップ閉形式で更新トレイン分解のMステップ閉形式で更新 175 + const. +
const.

非負テンソル分解の一般的枠組みの提案 176 Mステップが解けるパーツにデカップルして最適化局所的なSVDの繰り返しで最適化実テンソル・複素テンソルのテンソルネットワーク非負テンソルのテンソルネットワーク誤差関数を微分する必要はない．学習率の調整も不要． EMアルゴリズムによる一般論から必ず収束する

テンソル多体分解とテンソルネットワークの関係 Kazu Ghalamkari RIKEN AIP Jesper Løve Hinrich Technical University
of Denmark Morten Mørup Technical University of Denmark https://arxiv.org/abs/2405.18220 177 ▪ 多体分解と低ランク分解の関係 ▪ EMアルゴリズムによる非負テンソルネットワークの最適化 ▪ 混合テンソル分解 ▪ カテゴリカルデータの密度推定

非負混合低ランクテンソル ▪ EMアルゴリズムは混合分布の学習にも用いられる（確率分布の凸線形結合で経験分布を近似）多峰性のデータはガウス分布１つでは fitting できない 𝑥 Ƹ 𝑝
𝑥 頻度 𝑝 𝑥 = 𝒩(𝑥; 𝜇, 𝜎2) 𝑝 𝑥 178

非負混合低ランクテンソル ▪ EMアルゴリズムは混合分布の学習にも用いられる（確率分布の凸線形結合で経験分布を近似） 𝑥 頻度 Ƹ 𝑝 𝑥 𝑝
𝑥 多峰性のデータはガウス分布１つでは fitting できない平均や分散の異なる分布の混合モデルで学習する 𝑝 𝑥 = 𝑤𝒩(𝑥|𝜇1 , 𝜎1 2) + (1 − 𝑤)𝒩(𝑥|𝜇2 , 𝜎2 2) 𝑝 𝑥 = 𝒩(𝑥; 𝜇, 𝜎2) 179

非負混合低ランクテンソル ▪ EMアルゴリズムは混合分布の学習にも用いられる ▪ 低ランク構造の混合が定式化できるあらかじめ様々な低ランク構造を混合しておいて，データからどの構造が重要か自動的に学習する各低ランク構造の重みパラメータ（閉形式で更新可） Mステップで閉形式で更新 Mステップで
閉形式で更新 Mステップで閉形式で更新正則化や安定化のための項をモデルに加えることもできる全ての要素が同じ規格化されたテンソル Adaptive noise term （データのバックグランドを捉える） 180

182 カテゴリカルデータ非負テンソルネットワークによる離散確率分布の推定 e.g., 都道府県, 色, 性別…

183 カテゴリカルデータ規格化疎テンソル (経験分布) 混合低ランクテンソル (潜在変数を含む同時離散分布) ノイズ項同時離散分布
= テンソル非負テンソルネットワークによる離散確率分布の推定最尤推定 (KL最適化) 経験分布の混合低ランク近似で真の分布を推定する

非負テンソルネットワークによる離散確率分布の推定ボルンマシン行列積状態 Locally Purified States Baseline手法勾配法に基づく．学習率のチューニング等が必要 O :
Tensor modes reordering N : Adaptive noise term テンソルの全要素に𝒘𝐧𝐨𝐢𝐬𝐞が足される．（学習可能）モデルのパラメータ数モデルのパラメータ数負の対数尤度負の対数尤度負の対数尤度負の対数尤度安定化のために全要素に定数を足す方法は従来からある．その定数も学習可能にした．テストデータに対する負の対数尤度モデルのパラメータ数モデルのパラメータ数 184

まとめ：非負EMテンソル分解 ▪ テンソル低ランク分解は隠れ変数を含むテンソル多体分解 ▪ em-アルゴリズムでの最適化法を提案・ランク構造はm-stepが閉形式で更新できる部分にデカップル．・低ランク構造の混合や安定化項を加えても必ず収束する. ・混合低ランクテンソルが良い汎化性能を有することの理論的説明はまだこれから．・サイクリックな構造を有すると（多分）m-stepは closed-form
で更新できない．多体分解の解空間データ空間必ず収束学習率の調整が不要・コスト関数を微分して更新式を求める必要がない．今後の課題 ▪ e-混合で body (相互作用) を制御して，m-混合でランクを制御する． 185

187 講義の構成 [後半] テンソルの低ランク分解と多体分解 ▪ テンソル低ランク分解とその困難 ▪ テンソル多体分解 ▪ テンソル多体分解とテンソルネットワークの関係
▪ テンソル以外のデータ構造への応用 ▪ まとめ [前半] 行列の低ランク分解入門

188 NMMF, 複合非負行列分解 188 user artist tag user user tag
artist user user artist

artist user user artist (X,Y,Z)を離散分布と見なす半順序構造上の対数線形モデル

まとめ１：相互作用で分解する非負テンソル分解を提案ランクではなく https://arxiv.org/abs/2209.15338 ・提案手法ではランクのチューニングは不要一体近似三体近似二体近似テンソル多体分解・凸最適化で大域最適解が安定に求まる

三体近似二体近似テンソル多体分解バイアス重み添字が二値だと二体分解は全結合BMでの最尤推定と等価（バイアス項は省略）等価・提案手法ではランクのチューニングは不要
・凸最適化で大域最適解が安定に求まる・ボルツマンマシン(イジング模型)の多準位&高次の拡張によるテンソル分解 https://arxiv.org/abs/2209.15338 まとめ１：相互作用で分解する非負テンソル分解を提案ランクではなく

三体近似二体近似テンソル多体分解添字が二値だと二体分解は全結合BMでの最尤推定と等価（バイアス項は省略）等価潜在変数を増やして表現力を向上させると非凸最適化問題になる．まとめ１：相互作用で分解する非負テンソル分解を提案ランクではなく
Take home message https://arxiv.org/abs/2209.15338 可視変数間の高次の相互作用を取り入れることで，安定性を損なわずに表現力を得る． Accepted in NeurIPS 2023 バイアス重み

まとめ２：非負EMテンソル分解 ▪ テンソル低ランク分解は隠れ変数を含むテンソル多体分解 ▪ emアルゴリズムでの最適化法を提案・ランク構造はm-stepが閉形式で更新できる部分にデカップル．・低ランク構造の混合や安定化項を加えても必ず収束する. 多体分解の解空間データ空間必ず収束
学習率の調整が不要・コスト関数を微分して更新式を求める必要がない．

行列・テンソル分解に興味を持ってくれたら… ▪ 行列・テンソル分解の教科書 Steve Brunton 先生の連続講義・SVDの高速化・線形回帰への応用・顔画像識別への応用・ランクの選び方
▪ テンソル分解のライブラリ [iTensor] … SVDだけで43本の動画！

行列・テンソルの低ランク分解と多体分解

行列・テンソルの低ランク分解と多体分解

More Decks by Kazu Ghalamkari

Other Decks in Science

Featured

Transcript