Upgrade to Pro — share decks privately, control downloads, hide ads and more …

行列・テンソルの低ランク分解と多体分解

 行列・テンソルの低ランク分解と多体分解

物理屋のための機械学習講義
17 Jun. 2024, 1:00 pm – 5:00 pm, 筑波大学東京キャンパス118教室
第11回 行列・テンソルの低ランク分解と多体分解

Avatar for Kazu Ghalamkari

Kazu Ghalamkari

March 24, 2026
Tweet

More Decks by Kazu Ghalamkari

Other Decks in Science

Transcript

  1. 2 自己紹介 東北大学理学研究科物理学専攻(修士課程) 物質中の電子と光の角運動量の交換に関する理論的研究 2016.4. - 2018.3 日立製作所 研究開発グループ 一人称映像に基づく人行動認識の研究

    2018.4. - 2020.3 2020.4. - 2023.3 国立情報学研究所 (総研大DC1,博士課程) 情報幾何学に基づいたテンソル分解 研究の興味 機械学習,テンソル分解,低ランク近似,情報幾何学… 2020.11 – 2021.4 ETH 若手研究者交流事業 2023.4. - 現在 理研AIP 構造的学習チーム 2023.9 – 2023.11 デンマーク工科大学 混合テンソル分解法の開発 ガラムカリ和 @ 理研AIP (基礎科学特別研究員) 勤務地:大阪大学
  2. 3 講義の構成 [前半] 行列の低ランク分解入門 [後半] テンソルの低ランク分解と多体分解 ▪ 特異値分解 ▪ 非負行列因子分解

    ▪ 部分空間法に基づく行列分解の応用例 分類,ノイズ除去,異常検知,欠損値推定 etc.. ▪ テンソル低ランク分解の困難 ▪ 相互作用で分解する多体分解 Basicな内容 100分 100分 𝐗 ≃ 𝐖 𝐇
  3. 4 講義の構成 [前半] 行列の低ランク分解入門 [後半] テンソルの低ランク分解と多体分解 ▪ 特異値分解 ▪ 非負行列因子分解

    ▪ 部分空間法に基づく行列分解の応用例 分類,ノイズ除去,異常検知,欠損値推定 etc.. ▪ テンソル低ランク分解の困難 ▪ 相互作用で分解する多体分解 Basicな内容 100分 100分 𝐗 ≃ 𝐖 𝐇
  4. 実世界の様々なデータ ▪ 購買データ ▪ テーブルデータ がく片長 [cm] がく片幅 [cm] 花びら長

    [cm] 花びら幅 [cm] あやめの 種類 5.1 3.5 1.4 0.2 setosa 7 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.3 3.3 4.7 1.6 versicolor 6.6 2.9 4.6 1.3 versicolor 4.9 3 1.4 0.2 setosa 5.2 2.7 3.9 1.4 versicolor ▪ 白黒画像 データを行列とみなして,分解すると良いことがたくさんある. ▪ 周波数解析のデータ Image from https://sigview.com/help/Time-FFTSpectrogram.html Image from https://www.mathworks.com/help/images/image-types-in-the-toolbox_ja_JP.html Image from Mithy, S. A., et al. "Classification of Iris Flower Dataset using Different Algorithms." Int. J. Sci. Res. In (2022).
  5. 線形代数におけるランク(階数) 行列Aの列ベクトルが基底 の線形結合で書ける 行列 のランクを とかく 線形独立な 𝑟 個のベクトル (基底)

    最小の自然数 𝑟 を行列Aのランクと呼ぶ. ランクが 𝑟 の行列をランク 𝑟 行列と呼ぶ. 定義 13
  6. 特異値分解 SVD による低ランク近似 あまり重要でないので0にして無視しよう 重要な項 重要でない項 ≒ 0 Aのランクを とする.

    ▪ 任意の行列Aは直交行列UとV,対角行列∑の積で分解できる. 特異値 直後のランク1行列の重要性を表す 23
  7. Aのランクを とする. 特異値分解 SVD による低ランク近似 あまり重要でないので0にして無視しよう ≒ 0 ▪ 任意の行列Aは直交行列UとV,対角行列∑の積で分解できる.

    特異値 直後のランク1行列の重要性を表す 行列をランクの小さい行列で近似すること. 低ランク近似 (Low-rank approximation) 24
  8. 特異値分解 SVD による最良低ランク近似 ▪ SVDによる低ランク近似はフロベニウスノルムの意味で最も良い近似 行列𝐀を特異値分解して, 𝑘 ≤ 𝑟 項目から先を切り捨てた行列を

    とする. は𝐀をフロベニウスノルムの意味で近似する最良のランク𝑘行列である. フロベニウスノルムでどれくらい似ているかを評価 フロベニウスノルム Eckart − Young 定理 (1936) 25
  9. 特異値分解 SVD による最良低ランク近似 ▪ SVDによる低ランク近似は任意のユニタリ不変ノルムの意味で最も良い近似 行列𝐀を特異値分解して, 𝑘 ≤ 𝑟 項目から先を切り捨てた行列を

    とする. は𝐀を任意のユニタリ不変ノルム ・ ∗ で近似する最良のランク𝑘行列である. ユニタリ不変ノルムでどれくらい似ているかを評価 Eckart − Young − Mirsky 定理 (1960) * 任意の行列に 関するあるノルム 𝐏 ∗ が,任意のユニタリ行列𝐗, 𝐘について 𝐏 ∗ = 𝐗𝐏𝒀 ∗ を満たすとき, ・ ∗ をユニタリ不変ノルムとよぶ.
  10. SVD による画像の再構成 この画像を低ランク近似する.再構成に必要なランクはいくつだろうか. 2000×1500 (2000+1500)×5 (2000+1500)×20 (2000+1500)×100 𝑘=100, 11.67% storage

    𝑘=20, 2.33% storage 𝑘=5, 0.57% storage Image from Steven L. Brunton, J. Nathan Kutz, “Data-Driven Science and Engineering: Machine Learning, Dynamical Systems, and Control”
  11. SVD におけるハイパーパラメータチューニング 正確 雑 メモリ増大 遅い メモリ節約 高速 (2000+1500)×5 (2000+1500)×20

    (2000+1500)×100 トレードオフ関係の中で適切なランクを自分で決めなければならない(試行錯誤が必要) 典型的なハイパーパラメータチューニング問題 𝑘=100, 11.67% storage 𝑘=20, 2.33% storage 𝑘=5, 0.57% storage Image from Steven L. Brunton, J. Nathan Kutz, “Data-Driven Science and Engineering: Machine Learning, Dynamical Systems, and Control”
  12. がく片長 [cm] がく片幅 [cm] 花びら長 [cm] 花びら幅 [cm] あやめの 種類

    5.1 3.5 1.4 0.2 setosa 7 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.3 3.3 4.7 1.6 versicolor 6.6 2.9 4.6 1.3 versicolor 4.9 3 1.4 0.2 setosa 5.2 2.7 3.9 1.4 versicolor 5.9 3 4.2 1.5 ??? 5.6 3 4.5 1.5 ??? 4.7 3.2 1.6 0.2 ??? あやめデータセットの分類 がく片 花びら がく片 花びら ▪ Iris Dataset[1] (あやめデータセット) [1] Fisher, Ronald A. "The use of multiple measurements in taxonomic problems." Annals of eugenics 7.2 (1936): 179-188. あやめのがく片と花びらの長さの情報から あやめを したい. 分 類 … … Image from Mithy, S. A., et al. "Classification of Iris Flower Dataset using Different Algorithms." Int. J. Sci. Res. In (2022).
  13. 部分空間法による分類 クラスAの標本 クラスBの標本 各標本 のクラスを当てる. 分 類 訓練 データ がく片長

    [cm] がく片幅 [cm] 花びら長 [cm] 花びら幅 [cm] あやめの 種類 5.1 3.5 1.4 0.2 setosa 7 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 6.5 2.8 4.6 1.5 versicolor 6.3 3.3 4.7 1.6 versicolor 6.6 2.9 4.6 1.3 versicolor 4.9 3 1.4 0.2 setosa 5.2 2.7 3.9 1.4 versicolor 5.9 3 4.2 1.5 ??? 5.6 3 4.5 1.5 ??? 4.7 3.2 1.6 0.2 ??? … … setosa versicolor
  14. 部分空間法による分類 のクラスを当てる. クラスAの標本 クラスBの標本 各標本 分 類 訓練 データ (

    便宜上,図中では二つの部分空間は通ってないが,本当はどちらの面も原点を通る)
  15. 部分空間法による分類 直交基底 直交基底 :ハイパーパラメータ のクラスを当てる. クラスAの標本 クラスBの標本 各標本 分 類

    訓練 データ ( 便宜上,図中では二つの部分空間は通ってないが,本当はどちらの面も原点を通る)
  16. 部分空間法による分類 ▪ 推論 データが最も近い部分空間で分類. ▪ 学習 クラスごとの標本で特異値分解をする. のクラスを当てる. クラスAの標本 クラスBの標本

    各標本 分 類 訓練 データ ( 便宜上,図中では二つの部分空間は通ってないが,本当はどちらの面も原点を通る)
  17. PCAによるノイズ除去 [1] Mika, Sebastian, et al. "Kernel PCA and de-noising

    in feature spaces." Advances in neural information processing systems 11 (1998). ▪ ノイズの乗ったデータからノイズを除去する [Denoising] … 画像に含むノイズを除去したい. 28 28 … 28×28=784
  18. PCAによるノイズ除去 [1] Mika, Sebastian, et al. "Kernel PCA and de-noising

    in feature spaces." Advances in neural information processing systems 11 (1998). 𝐿次元のデータ空間 (784)
  19. PCAによるノイズ除去 𝐿次元のデータ空間 (784) [1] Mika, Sebastian, et al. "Kernel PCA

    and de-noising in feature spaces." Advances in neural information processing systems 11 (1998). 𝑀(≫ 𝐿)次元空間
  20. PCAによる異常検知 [2] Hoffmann, Heiko. "Kernel PCA for novelty detection." Pattern

    recognition 40.3 (2007): 863-874. ▪ 正常だと分かっている標本だけを集める(訓練データセット) ▪ 正常 or 異常の判定をまだしていない標本を集める(テストデータセット) 異常 正常 正常 正常 正常 正常 正常 異常 正常 or 異常の判定をしたい 81
  21. グラスマン学習 span 𝒖1 𝐴, … , 𝒖𝑟 𝐴 span 𝒖1

    𝐵, … , 𝒖𝑟 𝐵 span 𝒖1 𝐶, … , 𝒖𝑟 𝐶 span 𝒖1 , … , 𝒖𝑟 部分空間同士の距離で部分空間を分類 Face images from Yale Face Database http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html 𝒀𝐴 𝒀𝐵 𝒀𝐶 𝑑 𝒀𝐴 , 𝒀𝐵 = 1 2 ||𝒀𝐴 𝒀𝐴 ⊤ − 𝒀𝐵 𝒀𝐵 ⊤||𝐹 グラスマンカーネル法 推論に使うデータの数が動的であるときに便利 [例:複数画像毎の分類] 𝑑 𝒀𝐴 , 𝒀𝐵 = 1 − ς 𝑖 cos2𝜃𝑖 Projection Metric Binet-Cauchy Metric Principal angles, 部分空間同士の角度 𝒀𝐴 ⊤ 𝒀𝐵 のSVDで求まる = σ 𝑖 sin2𝜃𝑖 Hamm, Jihun, and Daniel D. Lee. "Grassmann discriminant analysis: a unifying view on subspace-based learning." ICML. 2008. 𝑘 𝒀𝐴 , 𝒀𝐵 = det 𝒀𝐴 ⊤𝒀𝐵 2 𝑘 𝒀𝐴 , 𝒀𝐵 = ||𝒀𝐴 𝒀𝐵 ⊤||𝐹 Projection kernel Binet-Cauchy kernel 𝒀𝐴 , 𝒀𝐵 , 𝒀𝐶 ∶ 訓練データ 各点がℝ𝑁の線形部分空間. 𝑁は画像のサイズ. 01:20:00
  22. 非負行列因子分解の例 [3] Lee, Daniel D., and H. Sebastian Seung. "Learning

    the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. … :ハイパーパラメータ この実験では𝑘 = 49. 92 1 2 3 2429 19 19
  23. 非負行列因子分解の例 [3] Lee, Daniel D., and H. Sebastian Seung. "Learning

    the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. … :ハイパーパラメータ この実験では𝑘 = 49. 93 1 2 3 2429 19 19
  24. これらのパーツの足し算で顔が再構成している. PCAとNMFの比較 [3] Lee, Daniel D., and H. Sebastian Seung.

    "Learning the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. 非負行列因子分解による分解表現 基底が,目や口,鼻など顔のパーツになっている. 特異値分解(PCA)による分解表現 (正値を黒,負値を赤で描画) 基底が顔っぽくなっている. 顔の足し算で顔を再構成している. 94
  25. これらのパーツの足し算で顔が再構成している. PCAとNMFの比較 [3] Lee, Daniel D., and H. Sebastian Seung.

    "Learning the parts of objects by non-negative matrix factorization." Nature 401.6755 (1999): 788-791. 非負行列因子分解による分解表現 基底が,目や口,鼻など顔のパーツになっている. 特異値分解(PCA)による分解表現 (正値を黒,負値を赤で描画) 基底が顔っぽくなっている. 顔の足し算で顔を再構成している. 95
  26. 非負複合行列因子分解[6] 98 ▪ NMFで音楽推薦システムのために再生記録のデータからパターンを抽出したい. ユーザー 歌手 ユーザー タグ :誰がどの歌手の曲を聴いたのか :アーティストにどんなタグがついているか(Pop,

    rock, Jazz…) :ユーザー同士が友達関係にあるか. [6] Takeuchi, Koh, et al. "Non-negative multiple matrix factorization." Twenty-third international joint conference on artificial intelligence. 2013. ユーザー i とユーザー j が友達なら . KL情報量 ・カウントデータに対する自然な誤差 ・過学習を防ぎ,外れ値にロバスト 補助情報をどれくらい重んじるか
  27. 非負複合行列因子分解[6] 99 ▪ NMFで音楽推薦システムのために再生記録のデータからパターンを抽出したい. [6] Takeuchi, Koh, et al. "Non-negative

    multiple matrix factorization." Twenty-third international joint conference on artificial intelligence. 2013. ユーザー – 歌手 間のパターンだけでなく, ユーザー – ジャンル 間のパターンも同時に抽出できる.
  28. 100 まとめ:非負行列因子分解 ▪ 分解に非負性を課して,解釈性を向上 ▪ 様々なタスクに特化したNMFが数多く開発されてきた. ▪ SVDとは異なり最良解は得れない. 最もよい分解を求めるのはNP困難 ※フロベニウスノルムを最小にする分解を求めるのがNP困難

    非凸関数を勾配法で最適化する. (最良解にたどり着けない,解が初期置に依存) PCA NMF Group NMF NMMF Lee, Hyekyoung, and Seungjin Choi. "Group nonnegative matrix factorization for EEG classification." Artificial Intelligence and Statistics. PMLR, 2009.
  29. :欠損値 欠損値を含む場合のNMF 各点が行列に対応する空間 ・部分空間の次元は欠損値の値と一致 ・欠損を含まないAはこの空間上に存在する ・Aは低ランク構造+ノイズでかけると仮定 行列低ランク補完 EM-WNMF[4] ※ 簡単のために欠損数は1にした.

    実際はもっと沢山の欠損値を考える. [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. 103
  30. :欠損値 欠損値を含む場合のNMF 各点が行列に対応する空間 行列低ランク補完 EM-WNMF[4] ※ 簡単のために欠損数は1にした. 実際はもっと沢山の欠損値を考える. [4] Zhang,

    Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. :ハイパーパラメータ ランク 行列の集合 104
  31. :欠損値 欠損値を含む場合のNMF 各点が行列に対応する空間 行列低ランク補完 EM-WNMF[4] 欠損値 を適当に初期化して を得る. ※ 簡単のために欠損数は1にした.

    実際はもっと沢山の欠損値を考える. [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. :ハイパーパラメータ ランク 行列の集合 105
  32. :欠損値 欠損値を含む場合のNMF 各点が行列に対応する空間 行列低ランク補完 EM-WNMF[4] 欠損値 を適当に初期化して を得る. M step

    ※ 簡単のために欠損数は1にした. 実際はもっと沢山の欠損値を考える. をNMFしてランク 行列 を得る. [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. :ハイパーパラメータ ランク 行列の集合 106
  33. :欠損値 データが欠損値を含む場合の処方箋 各点が行列に対応する空間 行列低ランク補完 EM-WNMF[4] 欠損値 を適当に初期化して を得る. M step

    E step ※ 簡単のために欠損数は1にした. 実際はもっと沢山の欠損値を考える. をNMFしてランク 行列 を得る. 観測値を上書きして を得る :観測された値の添字 [4] Zhang, Sheng, et al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. :ハイパーパラメータ ランク 行列の集合
  34. データが欠損値を含む場合の処方箋 [4] Zhang, Sheng, et al. "Learning from incomplete ratings

    using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. 行列低ランク補完 EM-WNMF[4] :欠損値 欠損値 を適当に初期化して を得る. M step E step ※ 簡単のために欠損数は1にした. 実際はもっと沢山の欠損値を考える. をNMFしてランク 行列 を得る. 観測値を上書きして を得る 繰り返す 各点が行列に対応する空間 :観測された値の添字 :ハイパーパラメータ ランク 行列の集合
  35. EM-WNMFの課題 行列低ランク補完 EM-WNMF ハイパーパラメータを適切に選ぶ必要がある. 各点が行列に対応する空間 アルゴリズムに初期値依存性がある. [4] Zhang, Sheng, et

    al. "Learning from incomplete ratings using non-negative matrix factorization." Proceedings of the 2006 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2006. :ハイパーパラメータ ランク 行列の集合 データが低ランク構造を有する仮定から欠損値を推定する.
  36. 行列分解の更なるトピック ・確率的主成分分析 111 1×1 = 1 1+1 = 1 の代数での分解

    [Hashemi, Soheil, Hokchhay Tann, and Sherief Reda. "BLASYS: Approximate logic synthesis using Boolean matrix factorization." Proceedings of the 55th Annual Design Automation Conference. 2018.] 推薦システムなどで活躍 信頼区間を出せる 行列の各成分が確率分布からサンプルされる. 適切に事前分布を導入する. Input Output ・バイナリ行列分解,Boolean分解 ・自己符号化器と主成分分析 活性化関数を𝑓 𝑥 = 𝑥としてパラメター共有をした 線形自己符号化器の誤差関数はPCAと等価. 中間層の次元がランクに対応. 同じになるように学習 ランク 𝐖 𝐖⊤
  37. 行列分解の最近のトピック ・深層行列分解 Fan, Jicong. "Multi-mode deep matrix and tensor factorization."

    ICLR, 2021. 活性化関数 ・非負行列分解における二重降下現象 112 ≃ 𝐗 ∈ ℝ𝑛×𝑚 𝐖 ∈ ℝ𝑛×𝑟 𝐇 ∈ ℝ𝑟×𝑚 Kawakami, Y., et.al.,“Investigating Overparameterization for Non-Negative Matrix Factorization in Collaborative Filtering” RecSys 2021, Late-Breaking Results track, 2021. → Larger rank 𝑟 Over fitting
  38. 113 講義の構成 [前半] 行列の低ランク分解入門 [後半] テンソルの低ランク分解と多体分解 ▪ 特異値分解 ▪ 非負行列因子分解

    ▪ 部分空間法に基づく行列分解の応用例 分類,ノイズ除去,異常検知,欠損値推定 etc.. ▪ テンソル低ランク分解の困難 ▪ 相互作用で分解する多体分解 Basicな内容 100分 100分 𝐗 ≃ 𝐖 𝐇
  39. 114 テンソル分解 パターン抽出 相互作用,エネルギー 平均場近似 タスク モデリング 最適化 情報幾何学 情報・物理・数理の学際領域で研究中

    テンソル分解による 情報縮約やパターン抽出をしたい. モデルの最適化には情報幾何学という確率分布の幾何学に関する 数理を用いる. テンソルを相互作用やエネルギー関数といった 物理の言葉を使ってモデリング.
  40. 非負テンソルの低ランク分解と多体分解 Kazu Ghalamkari RIKEN AIP Mahito Sugiyama National institute of

    informatics Kawahara Yoshinobu RIKEN AIP, Osaka Univ. https://arxiv.org/abs/2209.15338 "Many-body Approximation for Non-negative Tensors." Advances in Neural Information Processing Systems 36 (2024). "Non-negative low-rank approximations for multi-dimensional arrays on statistical manifold." Information Geometry 6, no. 1 (2023): 257-292.
  41. 様々なデータがテンソルとして計算機に格納される 117 NASA, https://sdo.gsfc.nasa.gov/data/ Microarray data RGB 画像 Hyperspectral Image

    EEG Data = [M.Mørup, Data Mining and Knowledge Discovery 2011] [A.Cichocki, et al. Nonnegative Matrix and Tensor Factorizations 2009] [A.Cichocki, et al. Nonnegative Matrix and Tensor Factorizations 2009] 動画 時系列データ・信号 [A.Cichocki, et al. Nonnegative Matrix and Tensor Factorizations 2009] [Kosmas Dimitropoulos, et al. Transactions on circuits and systems for video technology 2018]
  42. 最近の機械学習でも現れるテンソル 118 関係学習 A B C E D F G

    ? [Nickel, Maximilian, Volker Tresp, and Hans-Peter Kriegel. “A three-way model for collective learning on multi-relational data.” ICML2011] 例:RESCAL Model によるグラフのリンク推定 テンソルで表現 [T. Bezdan, N. Bačanin Džakula, International Scientific Conference on Information Technology and Data Related Research, 2019] 深層学習 例:テンソル分解によるニューラルネットワークの軽量化 [Y. Liu et al., Tensor Computation for data analysis, 2022]
  43. テンソルの階層性:テンソルのベクトルもテンソル 数 [オーダー0のテンソル] ベクトル [オーダー1のテンソル] 行列 [オーダー2のテンソル] 𝑎 𝒂 =

    𝑎1 𝑎2 ⋮ 𝑎𝑛 𝐗 = 𝑎11 ⋯ 𝑎1𝑛 ⋮ ⋱ ⋮ 𝑎𝑛1 ⋯ 𝑎𝑛𝑛 オーダー3のテンソル ⋯ 𝒯= オーダー4のテンソル ※ オーダーを階数と表現することもあるが,基底の数(ランク)と混乱するので注意が必要 𝑈= ⋯ ⋯ オーダーNのテンソルはオーダーN-1のテンソルのベクトル 𝒯 1 𝒯 2 𝒯 𝑛 00:10:00
  44. データの解析,密度推定,圧縮,前処理, データマイニング,ノイズ除去などに応用 テンソルからパターンや特徴を抽出したい 120 Who Shop ≃ = ത 𝒫

    minmize 𝒫 − ത 𝒫 𝐹 + ⋯ + 𝒫 データからパターンや特徴を抽出したい ▪ テンソルを分解することでデータから特徴を抽出する mode-2 mode-1
  45. テンソル分解の様々な課題 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫 ≃

    タッカー分解 テンソルネットワークを用いた分解 + ⋯ + テンソルトレイン分解 テンソルリング分解 𝒫 テンソルネットワーク ノードがテンソル エッジがモード
  46. テンソル分解の様々な課題 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫 ≃

    タッカー分解 テンソルネットワークを用いた分解 + ⋯ + テンソルトレイン分解 テンソルリング分解 𝒫 テンソルネットワーク ノードがテンソル エッジがモード Wang, Wenqi, et al. CVPR. 2018. Zheng, Yu-Bang, et al. AAAI 2021. https://tensornetwork.org A. Cichocki, et al., Tensor Networks for Dimensionality Reduction and Large-scale Optimization, 2016
  47. テンソル分解の様々な課題 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫 ≃

    タッカー分解 テンソルネットワークを用いた分解 + ⋯ + テンソルトレイン分解 テンソルリング分解 𝒫 テンソルネットワーク ノードがテンソル エッジがモード Wang, Wenqi, et al. CVPR. 2018. Zheng, Yu-Bang, et al. AAAI 2021. https://tensornetwork.org A. Cichocki, et al., Tensor Networks for Dimensionality Reduction and Large-scale Optimization, 2016 =再構成に必要な基底の数
  48. Hillar, Christopher J., and Lek-Heng Lim. "Most tensor problems are

    NP-hard." Journal of the ACM (JACM) 60.6 (2013): 1-39. テンソル分解の様々な課題 124 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫 ▪ 最適化の困難さ ・ 最良ランク1分解はNP困難 ≃ タッカー分解 テンソルネットワークを用いた分解 + ⋯ + minmize 𝒫 − ത 𝒫 𝐹 ※ フロベニウスノルム最小化のランク1近似がNP困難 テンソルトレイン分解 テンソルリング分解 𝒫 =再構成に必要な基底の数 行列分解ならSVDで多項式時間で 最良低ランク近似が可能なのに!
  49. テンソル分解の様々な課題 125 ▪ 分解の構造とランクをあらかじめ決める必要がある CP分解 ≃ = 𝒫 ത 𝒫

    ▪ 最適化の困難さ ・ 最良ランク1分解はNP困難 ≃ タッカー分解 テンソルネットワークを用いた分解 + ⋯ + モデル選択が直感的で,最適化も安定しているテンソル分解を開発したい. minmize 𝒫 − ത 𝒫 𝐹 ※ フロベニウスノルム最小化のランク1近似がNP困難 非凸関数 𝒫 − ത 𝒫 𝐹 (解が無限個 etc..) … ・ 解が不定になることも多い ・ 誤差が非凸関数 ・解が初期置に依存(計算のたびに結果が異なる) ・最良解かどうかが分からない 最良解になっている保証なし テンソルトレイン分解 テンソルリング分解 𝒫 =再構成に必要な基底の数 Gの最小サイズがタッカーランク (多重線形ランク) G 00:20:00
  50. 提案手法: 非負テンソルの多体分解 128 モード k, l 間の 関係を制御 モード j,

    k, l 間の 関係を制御 指数型分布族の自然パラメータ エネルギー関数
  51. 提案手法: 非負テンソルの多体分解 130 一体近似 二体近似 モード k, l 間の 関係を制御

    表現力 大 ランク1近似(平均場近似) [NeurIPS 2021 Ghalamkari, K., Sugiyama, M. ] 二体相互作用
  52. 提案手法: 非負テンソルの多体分解 131 一体近似 二体近似 二体相互作用 三体近似 表現力 大 モード

    j, k, l 間の 関係を制御 モード k, l 間の 関係を制御 三体相互作用 ランク1近似(平均場近似) [NeurIPS 2021 Ghalamkari, K., Sugiyama, M. ] 131 まで まで
  53. 提案手法: 非負テンソルの多体分解 132 一体近似 二体近似 二体相互作用 三体近似 表現力 大 モード間の相互作用に着目した直感的なモデリングが可能

    モード j, k, l 間の 関係を制御 モード k, l 間の 関係を制御 三体相互作用 ランク1近似(平均場近似) [NeurIPS 2021 Ghalamkari, K., Sugiyama, M. ] をKL情報量の意味で最もよく近似する が凸最適化で一意に求まる! 132 一体相互作用 省略する
  54. 提案手法の背景にあるアイデア 133 規格化された非負テンソル を,添字集合が標本空間である同時離散確率分布とみなし,情報幾何学を転用する. 添字が離散確率変数 𝜽-表現 座標 変換 指数型分布族の自然パラメータで表現 𝜽-の幾何学

    低ランク空間 (非平坦) 平坦な空間 最適化が困難 テンソルの分解条件を𝜽 -座標で記述することで,凸問題としての定式化が容易になる. モード間の相互作用に着目して 平坦なモデル空間を構成 0:27:00
  55. 確率分布と非負テンソルの対応付け 136 3×3×3テンソルの標本空間に 最小元 を含む半順序構造を導入した空間 確率変数 標本空間 確率値 : テンソルの添字

    𝑖, 𝑗, 𝑘 : 添字集合に半順序を導入した集合 : テンソルの値 𝒫𝑖𝑗𝑘 半順序集合 上の対数線形モデル 確率分布と非負テンソルの対応
  56. 確率分布と非負テンソルの対応付け 137 3×3×3テンソルの標本空間に 最小元 を含む半順序構造を導入した空間 確率変数 標本空間 確率値 : テンソルの添字

    𝑖, 𝑗, 𝑘 : 添字集合に半順序を導入した集合 : テンソルの値 𝒫𝑖𝑗𝑘 半順序集合 上の対数線形モデル 確率分布と非負テンソルの対応
  57. 自然パラメータでの特徴づけ 非負テンソル を指数型分布族の自然パラメータ θ で記述 138 最適化に関する便利な性質がある 3×3×3テンソルの標本空間に 最小元 を含む半順序構造を導入した空間

    規格化 規格化 最小元は規格化を担う 確率変数 標本空間 確率値 : テンソルの添字 𝑖, 𝑗, 𝑘 : 添字集合に半順序を導入した集合 : テンソルの値 𝒫𝑖𝑗𝑘 半順序集合 上の対数線形モデル 確率分布と非負テンソルの対応
  58. 適用例:テンソル多体近似によるカラー画像の再構成 表現力 大 Reconstruction for 40×40×3×10 tensor. (width, height, colors,

    # images) 画像ごとに 色が変化 画像ごとの形を表現 画像内で色は一定 モード間の関連を捉えた直感的なモデル設計が可能 画像内の場所(画素) ごとに色が変化 三体近似 143 00:40:00
  59. 最良分解の階層性 ▪ 特異値分解 最良ランク3分解 最良ランク2分解 最良ランク1分解 ▪ テンソル多体分解 行列 ランクr近似後のランクr-1近似

    ランクr-1近似 = 行列分解(SVD)の場合… 最良一体近似でない 最良二体近似でない 最良三体近似 :n体近似の解空間 CP分解では成立しない 00:50:00
  60. 低ランク近似によるテンソルデータ補完 m-step 𝐏 ← 低ランク近似(𝐏) e-step 𝐏𝜏 ← 𝐓𝜏 𝜏

    : 観測インデックス 低ランクテンソル補完 低ランク空間はe-平坦ではない. m-射影が一意ではない. どの低ランク構造で分解すべきか? ランクをどのように選択すべきか? 低ランク空間 151 𝑒-射影 𝑚-射影
  61. 多体近似によるテンソルデータ補完 m-step 𝐏 ← 低ランク近似(𝐏) e-step 𝐏𝜏 ← 𝐓𝜏 低ランクテンソル補完

    𝑒-射影 Low-body many_body_approx 相互作用の削減された空間はe-平坦. m-射影の一意性が保証される. 直感的なモデル設計が可能! 𝑚-射影 152 低Body空間 (e-flat) 𝜏 : 観測インデックス
  62. 応用例:em-アルゴリズムによる欠損値推定の結果 欠損 正解 推定値 相関のあるモード間 の相互作用を使う Fit: 0.90 154 欠損値を含む交通データ

    28×24×12×4 の欠損値を観測値から推定 (days, hours, min, lanes) 相関のないモード間 の相互作用を使う Fit: 0.82 ランクのチューニングが不要で,モデルの設計が容易な欠損値補完法
  63. テンソル多体分解とテンソルネットワークの関係 Kazu Ghalamkari RIKEN AIP Jesper Løve Hinrich Technical University

    of Denmark Morten Mørup Technical University of Denmark https://arxiv.org/abs/2405.18220 155 ▪ 多体分解と低ランク分解の関係 ▪ EMアルゴリズムによる非負テンソルネットワークの最適化 ▪ 混合テンソル分解 ▪ カテゴリカルデータの密度推定
  64. 相互作用での分解と基底での分解 多体分解 テンソルネットワーク表現 低ランク分解 ノードがテンソル,エッジが添字 少数の基底の線形結合でテンソルを近似 相互作用表現 ノードが添字,▪が相互作用 関係? モード間の相互作用で分解

    K.Ghalamkari, et.al., NeurIPS(2023) 大域最適解が必ず求まる凸問題 相互作用による直感的モデリング 非凸最適化問題 ランクのチューニングが必要 [テンソル] 156 01:00:00
  65. 巡回二体近似とテンソルリング分解 165 巡回二体近似(凸最適化問題) 相互作用表示 テンソルネットワーク テンソルリング分解 Qibin Zhao, et al.,

    2016 帰着 巡回二体近似は拘束条件付きテンソルリング分解.超対角テンソルを挟むと凸問題に帰着される.
  66. 非負EMテンソルトレイン分解 Given Tensor Train-rank Tensor-Train Decomposition for D-th order tensor

    E-Step M-Step M-Step is MBA for 2D-1th order tensor The closed-form for the MBA in the M-step Jensen's inequality Sparse O(N) O(R2) Sparse N: 入力テンソル の非ゼロ要素数 168 + const.
  67. 非負EMタッカー分解 Given Tensor Tucker-rank Tensor-Tucker Decomposition for D-th order tensor

    E-Step M-Step M-Step is MBA for 2Dth order tensor The closed-form for the MBA in the M-step Jensen's inequality Sparse Sparse O(N) O(RD) より複雑な低ランク構造での近似でもMステップは閉形式で解が求まるだろうか? 173 多くの複雑な低ランク構造の M-step の更新も 局所的なCP, Tucker, Train 分解の更新で実現する.
  68. テンソル多体分解とテンソルネットワークの関係 Kazu Ghalamkari RIKEN AIP Jesper Løve Hinrich Technical University

    of Denmark Morten Mørup Technical University of Denmark https://arxiv.org/abs/2405.18220 177 ▪ 多体分解と低ランク分解の関係 ▪ EMアルゴリズムによる非負テンソルネットワークの最適化 ▪ 混合テンソル分解 ▪ カテゴリカルデータの密度推定
  69. 非負混合低ランクテンソル ▪ EMアルゴリズムは混合分布の学習にも用いられる (確率分布の凸線形結合で経験分布を近似) 𝑥 頻度 Ƹ 𝑝 𝑥 𝑝

    𝑥 多峰性のデータはガウス分布1つでは fitting できない 平均や分散の異なる分布の混合モデルで学習する 𝑝 𝑥 = 𝑤𝒩(𝑥|𝜇1 , 𝜎1 2) + (1 − 𝑤)𝒩(𝑥|𝜇2 , 𝜎2 2) 𝑝 𝑥 = 𝒩(𝑥; 𝜇, 𝜎2) 179
  70. 183 カテゴリカル データ 規格化 疎テンソル (経験分布) 混合低ランクテンソル (潜在変数を含む同時離散分布) ノイズ項 同時離散分布

    = テンソル 非負テンソルネットワークによる離散確率分布の推定 最尤推定 (KL最適化) 経験分布の混合低ランク近似で真の分布を推定する
  71. 非負テンソルネットワークによる離散確率分布の推定 ボルンマシン 行列積状態 Locally Purified States Baseline手法 勾配法に基づく.学習率のチューニング等が必要 O :

    Tensor modes reordering N : Adaptive noise term テンソルの全要素に𝒘𝐧𝐨𝐢𝐬𝐞が足される. (学習可能) モデルのパラメータ数 モデルのパラメータ数 負の対数尤度 負の対数尤度 負の対数尤度 負の対数尤度 安定化のために全要素に定数を足す方法は従来からある. その定数も学習可能にした. テストデータに対する負の対数尤度 モデルのパラメータ数 モデルのパラメータ数 184
  72. 189 NMMF, 複合非負行列分解 189 user artist tag user user tag

    artist user user artist (X,Y,Z)を離散分布 と見なす 半順序構造 上の対数線形モデル
  73. 190 NMMF, 複合非負行列分解 190 user artist tag user user tag

    artist user user artist (X,Y,Z)を離散分布 と見なす 半順序構造 上の対数線形モデル
  74. 三体近似 二体近似 テンソル多体分解 バイアス 重み 添字が二値だと二体分解は 全結合BMでの最尤推定と等価 (バイアス項は省略) 等価 ・提案手法ではランクのチューニングは不要

    ・凸最適化で大域最適解が安定に求まる ・ボルツマンマシン(イジング模型)の多準位&高次の拡張によるテンソル分解 https://arxiv.org/abs/2209.15338 まとめ1:相互作用で分解する非負テンソル分解を提案 ランクではなく