拡散モデルの概要 −§2. スコアベースモデルについて−

Slide 1

Slide 1 text

0 2024-03-01 第80回NearMe技術勉強会 Futo Ueno 拡散モデルの概要 −§2. スコアベースモデルについて−

Slide 2

Slide 2 text

1 はじめに参考図書：「拡散モデル –– データ生成技術の数理」 https://amzn.asia/d/2anj2zE

Slide 3

Slide 3 text

2 復習 : 拡散モデルとは ‧⽣成モデル

Slide 4

Slide 4 text

3 復習 : 拡散モデルとは ‧⽣成モデル拡散モデルは⽣成モデルの⼀種

Slide 5

Slide 5 text

4 復習 : ２つのモデル ‧スコアベースモデル (SBM; Score Based Model) →

Slide 6

Slide 6 text

5 復習 : ２つのモデル ‧スコアベースモデル (SBM; Score Based Model) → ‧デノイジング拡散確率モデル (DDPM; Denoising Diffusion Probabilistic Model) →

Slide 7

Slide 7 text

6 復習 : ２つのモデル ‧スコアベースモデル (SBM; Score Based Model) → ‧デノイジング拡散確率モデル (DDPM; Denoising Diffusion Probabilistic Model) →

Slide 8

Slide 8 text

7 ⾒どころ ‧モデリングの対象 →確率分布そのものではなく, 不要な情報を削ぎ落とした「スコア」に着⽬ ‧問題のすり替え⽅ →素朴な定式化から, 解ける形に整えていく⼿順が巧妙 ‧ノイズを付与することによって享受できるメリット →「焼きなまし法」などに通ずる考え⽅

Slide 9

Slide 9 text

8 確率分布の学習 ‧⽣成モデル(再掲) パラメトリックなモデル → 最尤推定？？

Slide 10

Slide 10 text

9 確率分布の学習 ‧⽣成モデル(再掲) パラメトリックなモデル → 最尤推定？？ →

Slide 11

Slide 11 text

10 確率分布の学習ニューラルネットワークで確率分布を学習する場合, 以下の制約に気を配る必要がある：

Slide 12

Slide 12 text

11 確率分布の学習ニューラルネットワークで確率分布を学習する場合, 以下の制約に気を配る必要がある： ※「通常」の統計モデルでは, この制約は⾃然に満たされている (ex)

Slide 13

Slide 13 text

12 確率分布の学習ニューラルネットワークで確率分布を学習する場合, 以下の制約に気を配る必要がある： ※「通常」の統計モデルでは, この制約は⾃然に満たされている (ex)

Slide 14

Slide 14 text

13 確率分布の学習制約がつきまとうのは不便なので、以下のように定式化し直す：

Slide 15

Slide 15 text

14 確率分布の学習制約がつきまとうのは不便なので、以下のように定式化し直す：

Slide 16

Slide 16 text

15 確率分布の学習前⾴の定式化のもとで尤度関数を書き換えると以下のようになる：

Slide 17

Slide 17 text

16 確率分布の学習前⾴の定式化のもとで尤度関数を書き換えると以下のようになる：明らかに計算困難

Slide 18

Slide 18 text

17 確率分布の学習前⾴の定式化のもとで尤度関数を書き換えると以下のようになる： → 分配関数の表出を回避する⽅法はないだろうか‧‧‧？明らかに計算困難

Slide 19

Slide 19 text

18 スコアの導⼊定義

Slide 20

Slide 20 text

19 スコアの導⼊定義

Slide 21

Slide 21 text

20 スコアの導⼊定義 → 分配関数が消えてくれた

Slide 22

Slide 22 text

21 スコアの意味

Slide 23

Slide 23 text

22 スコアの意味 (ex)

Slide 24

Slide 24 text

23 スコアの意味 (ex)

Slide 25

Slide 25 text

24 スコアの意味 →確率分布の「局所的な構造」にすぎないスコアを考えたところで, 何が嬉しいのだろうか？🤔 (ex)

Slide 26

Slide 26 text

25 復習 : Langevin Monte-Carlo法離散化ノイズの影響を受けながら尤度が⾼い領域に進⾏する更新則 →局所峰にハマりそうになっても, ノイズのおかげで脱出し得る

Slide 27

Slide 27 text

26 復習 : Langevin Monte-Carlo法離散化

Slide 28

Slide 28 text

27 復習 : Langevin Monte-Carlo法離散化スコアさえあれば, Langevin Monte-Carlo法が回り, サンプリングできる

Slide 29

Slide 29 text

28 復習 : Langevin Monte-Carlo法離散化スコアさえあれば, Langevin Monte-Carlo法が回り, サンプリングできる →スコアを学習できればOK！

Slide 30

Slide 30 text

29 スコアの学習① 明⽰的スコアマッチング(ESM; Explicit Score Matching) スコアそのものモデル

Slide 31

Slide 31 text

30 スコアの学習① 明⽰的スコアマッチング(ESM; Explicit Score Matching) スコアそのものモデル ‧「スコアそのもの」と「モデル」の平均⼆乗誤差が最⼩になるように学習 →とても素朴でわかりやすい定式化

Slide 32

Slide 32 text

31 スコアの学習① 明⽰的スコアマッチング(ESM; Explicit Score Matching) スコアそのものモデル ‧「スコアそのもの」と「モデル」の平均⼆乗誤差が最⼩になるように学習 →とても素朴でわかりやすい定式化 →そもそもスコアを学習したかったのに, ⽬的関数にスコアが出てきてしまっている‧‧‧

Slide 33

Slide 33 text

32 スコアの学習② 暗黙的スコアマッチング(ISM; Implicit Score Matching)

Slide 34

Slide 34 text

33 スコアの学習② 暗黙的スコアマッチング(ISM; Implicit Score Matching) ‧「スコアそのもの」を使わない⽬的関数

Slide 35

Slide 35 text

34 スコアの学習② 暗黙的スコアマッチング(ISM; Implicit Score Matching) ‧「スコアそのもの」を使わない⽬的関数 ‧実は, 先ほどのESMと定数シフトを除いて等しい(即ち, 最適化問題として等価)

Slide 36

Slide 36 text

35 スコアの学習② 暗黙的スコアマッチング(ISM; Implicit Score Matching) ‧「スコアそのもの」を使わない⽬的関数 ‧実は, 先ほどのESMと定数シフトを除いて等しい(即ち, 最適化問題として等価) つまり, →これにより, ISMが正当化される

Slide 37

Slide 37 text

36 暗黙的スコアマッチングの問題点

Slide 38

Slide 38 text

37 過学習を抑えるアイディア過学習のイメージ

Slide 39

Slide 39 text

38 過学習を抑えるアイディア過学習のイメージ摂動

Slide 40

Slide 40 text

39 過学習を抑えるアイディア過学習のイメージ摂動摂動

Slide 41

Slide 41 text

40 過学習を抑えるアイディア過学習のイメージ →データに「摂動」を加えた分布を考えれば, 過学習を抑制できるのでは？摂動摂動

Slide 42

Slide 42 text

41 摂動後分布の導⼊

Slide 43

Slide 43 text

42 摂動後分布の導⼊ →この摂動後分布に関するスコアを当てにいく

Slide 44

Slide 44 text

43 スコアの学習①’, ②’ 摂動後分布に対する明⽰的スコアマッチング摂動後分布に対する暗黙的スコアマッチング

Slide 45

Slide 45 text

44 スコアの学習①’, ②’ 摂動後分布に対する明⽰的スコアマッチング →過学習は抑制される⾒込みがあるが, 依然として計算は厳しい‧‧‧ 摂動後分布に対する暗黙的スコアマッチング

Slide 46

Slide 46 text

45 スコアの学習③ デノイジングスコアマッチング(DSM; Denoising Score Matching)

Slide 47

Slide 47 text

46 スコアの学習③ デノイジングスコアマッチング(DSM; Denoising Score Matching)

Slide 48

Slide 48 text

47 スコアの学習③ デノイジングスコアマッチング(DSM; Denoising Score Matching)

Slide 49

Slide 49 text

48 スコアの学習③ デノイジングスコアマッチング(DSM; Denoising Score Matching) →計算が可能な形に書き換えられた！

Slide 50

Slide 50 text

49 スコアの学習③ デノイジングスコアマッチング(DSM; Denoising Score Matching) 求めたいスコアとは違うものを学習してしまうように⾒えるが, 本当にこれでうまくいくのか？ →実は,

Slide 51

Slide 51 text

50 なぜDSMでうまくいくのか？ ‧計算すれば⽰せるが, ここでは落書きを⽤いて直観的に解釈してみる

Slide 52

Slide 52 text

51 なぜDSMでうまくいくのか？ ‧計算すれば⽰せるが, ここでは落書きを⽤いて直観的に解釈してみる ‧

Slide 53

Slide 53 text

52 なぜDSMでうまくいくのか？ ‧計算すれば⽰せるが, ここでは落書きを⽤いて直観的に解釈してみる ‧ →学習の対象は、「ノイズ除去(デノイジング)」の⽅向であることに注⽬

Slide 54

Slide 54 text

53 なぜDSMでうまくいくのか？ ‧計算すれば⽰せるが, ここでは落書きを⽤いて直観的に解釈してみる ‧ →学習の対象は、「ノイズ除去(デノイジング)」の⽅向であることに注⽬

Slide 55

Slide 55 text

54 なぜDSMでうまくいくのか？ ‧計算すれば⽰せるが, ここでは落書きを⽤いて直観的に解釈してみる ‧ →学習の対象は、「ノイズ除去(デノイジング)」の⽅向であることに注⽬

Slide 56

Slide 56 text

55 なぜDSMでうまくいくのか？ ‧計算すれば⽰せるが, ここでは落書きを⽤いて直観的に解釈してみる ‧ →学習の対象は、「ノイズ除去(デノイジング)」の⽅向であることに注⽬おおよそスコアの⽅向を向いていそう(？)

Slide 57

Slide 57 text

56 サンプリング時の問題点 ‧性質の良い⽬的関数を設計することはできた→学習は可能！

Slide 58

Slide 58 text

57 サンプリング時の問題点 ‧性質の良い⽬的関数を設計することはできた→学習は可能！ ‧しかし, サンプリングを⾏うときに困ることがある

Slide 59

Slide 59 text

58 サンプリング時の問題点 ‧性質の良い⽬的関数を設計することはできた→学習は可能！ ‧しかし, サンプリングを⾏うときに困ることがある問題①：低確率なデータの近傍で推定されたスコアが不正確になってしまう問題②：場合によっては, 異なる局所峰への遷移が⾮常に⼤変

Slide 60

Slide 60 text

59 サンプリング時の問題点問題①：低確率なデータの近傍で推定されたスコアが不正確になってしまう

Slide 61

Slide 61 text

60 サンプリング時の問題点問題①：低確率なデータの近傍で推定されたスコアが不正確になってしまう

Slide 62

Slide 62 text

61 サンプリング時の問題点問題①：低確率なデータの近傍で推定されたスコアが不正確になってしまう混合正規分布 →Langevin Monte-Carlo法によるサンプリングでは, 確率が⼩さな領域も通過し得るので, そのような領域でのスコアの精度が低いと⼤きく影響を受ける

Slide 63

Slide 63 text

62 サンプリング時の問題点問題②：場合によっては, 異なる局所峰への遷移が⾮常に⼤変 →Langevin Monte-Carlo法におけるノイズ, 初期点, 分布に加える摂動のバランス次第では, 現実的な時間での局所峰間の遷移が絶望的な場合も‧‧‧

Slide 64

Slide 64 text

63 解決策 →ノイズをたくさん⽤意して, それぞれのノイズで攪乱した結果を次々に流⽤

Slide 65

Slide 65 text

64 解決策 →ノイズをたくさん⽤意して, それぞれのノイズで攪乱した結果を次々に流⽤・・・・・・・・・・・・・・・・

Slide 66

Slide 66 text

65 解決策 ※

Slide 67

Slide 67 text

66 解決策・・・・・・・・・・・・・・・・

Slide 68

Slide 68 text

67 解決策・・・・・・・・・・・・・・・・

Slide 69

Slide 69 text

68 解決策・・・・・・・・・・・・・・・・

Slide 70

Slide 70 text

69 解決策・・・・・・・・・・・・・・・・

Slide 71

Slide 71 text

70 解決策・・・・・・・・・・・・・・・・

Slide 72

Slide 72 text

71 解決策・・・・・・・・・・・・・・・・

Slide 73

Slide 73 text

72 おまけ(別の峰に到達するパターン) ・・・・・・・・・・・・・・・・

Slide 74

Slide 74 text

73 おまけ(別の峰に到達するパターン) ・・・・・・・・・・・・・・・・

Slide 75

Slide 75 text

74 おまけ(別の峰に到達するパターン) ・・・・・・・・・・・・・・・・

Slide 76

Slide 76 text

75 おまけ(別の峰に到達するパターン) ・・・・・・・・・・・・・・・・

Slide 77

Slide 77 text

76 おまけ(別の峰に到達するパターン) ・・・・・・・・・・・・・・・・

Slide 78

Slide 78 text

77 おまけ(別の峰に到達するパターン) ・・・・・・・・・・・・・・・・

Slide 79

Slide 79 text

78 参考⽂献 ‧岡野原大輔 : 「拡散モデル –– データ生成技術の数理」. 岩波書店, 2023. ・https://www.beam2d.net/blog/2023/04/26/dsm-derivation/ ・Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., and Manzagol, P.-A: Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research, 11(2010), pp. 3371–3408.

Slide 80

Slide 80 text

79 Thank you