教師なし学習の基礎

Slide 1

Slide 1 text

第21回医療健康データ科学Webセミナー “教師なし学習の基礎” 2025/01/30 梶野洸

Slide 2

Slide 2 text

教師なし学習の基本的なモデルとその学習手法を紹介する 2 機械学習の基礎 • 機械学習の目的 • 代表的な問題設定 • 定式化 • 解き方変分オートエンコーダと確率的勾配EMアルゴリズム • 変分オートエンコーダ • 再パラメタ化法 • 確率的勾配EM アルゴリズム混合正規分布モデルと EMアルゴリズム • 混合正規分布モデル • ELBOの導入 • EMアルゴリズム

Slide 3

Slide 3 text

機械学習＝ある概念を具体例から帰納的に獲得する技術 3 具体例複数の（画像，寿司か否か）の対獲得したい概念画像に寿司があるか否か寿司寿司寿司ではない

Slide 4

Slide 4 text

機械学習＝ある概念を具体例から帰納的に獲得する技術 4 具体例食べ物の画像獲得したい概念食べ物の画像

Slide 5

Slide 5 text

機械学習＝ある概念を具体例から帰納的に獲得する技術 5 具体例食べ物の画像獲得したい概念食べ物の画像のなんとなくの分類

Slide 6

Slide 6 text

教師あり学習と教師なし学習が代表的な問題設定である 6 教師あり学習入力 • データ 𝑥𝑛 (𝑛 = 1,2, … , 𝑁) • ラベル 𝑦𝑛 (𝑛 = 1,2, … , 𝑁) 出力未知のデータ 𝑥⋆ に対するラベル 𝑦⋆ を予測できる仕組み寿司寿司寿司ではないデータ 𝒙 ラベル 𝒚 ラベル 𝑦 を得るのは高コストだがデータ 𝑥 を得るのは低コスト

Slide 7

Slide 7 text

教師あり学習と教師なし学習が代表的な問題設定である 7 教師なし学習入力 • データ 𝑥𝑛 (𝑛 = 1,2, … , 𝑁) 出力未知のデータ 𝑥⋆ が従う法則データ 𝒙 • おおまかな分類 • 新たな事例の創出

Slide 8

Slide 8 text

ラベル付きデータがない場合でも教師なし学習により知見が得られる可能性がある 8 教師あり学習教師なし学習入力データとラベルの対 𝑥𝑛 , 𝑦𝑛 𝑛=1 𝑁 データ 𝑥𝑛 𝑛=1 𝑁 出力未知の 𝑥⋆ に対するラベル 𝑦 を予測する仕組み未知のデータ 𝑥⋆ が従う規則利点使いやすい • ラベルなしでも知見が得られる • 教師あり学習のための特徴量学習

Slide 9

Slide 9 text

機械学習の問題の多くは，確率分布の推定に帰着される 9 教師あり学習未知の事例 𝑥⋆ に対するラベル 𝑦⋆ を予測できる仕組み 𝑝 𝑦 𝑥 入力: 𝒟 = 𝑥𝑛 , 𝑦𝑛 𝑛=1 𝑁 出力: 𝒟 の従う確率分布 𝑝 𝑦 𝑥 教師なし学習未知の事例 𝑥⋆ が従う法則 𝑝(𝑥) 入力: 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力: 𝒟 の従う確率分布 𝑝 𝑥 = =

Slide 10

Slide 10 text

データから確率分布を推定するには最尤推定法を用いる 10 最尤推定法入力: • パラメトリックモデル 𝑝𝜃 𝑥 𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 独立同一分布に従うと仮定出力: 最尤推定量 𝜃⋆ ∈ Θ 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 モデルで表現できる範囲内でサンプルを最もよく説明できる

Slide 11

Slide 11 text

モデルとして正規分布を選ぶと，最尤推定量は解析的に求まる 11 例: 分散固定の正規分布での最尤推定確率密度関数 𝑝𝜇 𝑥 = 1 2𝜋 exp − 𝑥 − 𝜇 2 2 (𝑥, 𝜇 ∈ ℝ) サンプル 𝒟 = 𝑥𝑛 ∈ ℝ 𝑛=1 𝑁 1. 対数尤度を書き下す 𝐿 𝜇 = ෍ 𝑛=1 𝑁 log 𝑝𝜇 𝑥𝑛 = − ෍ 𝑛=1 𝑁 𝑥𝑛 − 𝜇 2 2 + 𝐶 2. 対数尤度をパラメタについて最大化 𝐿 𝜇 は 𝜇 に関する2次関数なので停留点を求めればよい 𝑑𝐿 𝑑𝜇 𝜇 = − σ𝑛=1 𝑁 𝜇 − 𝑥𝑛 = ȁ 0 𝜇=𝜇⋆ より 𝜇⋆ = 1 𝑁 ෍ 𝑛=1 𝑁 𝑥𝑛

Slide 12

Slide 12 text

本セミナーでは3つのモデルとその学習手法を紹介する 12 正規分布混合正規分布変分オートエンコーダ表現力小中大最尤推定解析解あり EMアルゴリズム確率的勾配変分EMアルゴリズム用途数値データのフィッティング • フィッティング • クラスタリング • 生成モデル • 事前学習

Slide 13

Slide 13 text

混合分布モデルを用いるとクラスタリングができる 13 混合正規分布モデル複数の分布を混ぜ合わせて複雑な分布を表現するモデル応用例 1. 多峰の分布へのフィッティング • 基本的な分布は単峰のことが多い • データが多峰の場合 2. 教師なしの分類（クラスタリング）事例がどの分布から発生したか推測

Slide 14

Slide 14 text

変分オートエンコーダを用いるとデータの生成や表現学習が可能になる 14 変分オートエンコーダ確率モデルに基づくオートエンコーダ応用例 1. デコーダを用いたデータ生成 2. エンコーダを用いた表現学習 𝑥 𝑥′ 𝒛 ∈ ℝ𝐻 なるべく近くなるように学習 𝑥′ 𝒩(0, 𝐼) 𝑥 𝑦 学習済みのエンコーダを用いる

Slide 15

Slide 15 text

多くのモデルでは，最尤推定量を解析的に計算できない 15 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 16

Slide 16 text

もっとも基本的な手法である勾配法を紹介する 16 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 17

Slide 17 text

対数尤度関数が「微分可能」であればほぼ自動的に勾配法が適用できる 17 勾配法による学習の手順 1. 対数尤度関数𝐿 𝜃 を微分可能な計算手続きで記述する 2. 自動微分により勾配を計算しパラメタを更新 𝜃 ← 𝜃 + 𝛼 ⋅ 𝜕𝐿 𝜕𝜃 𝜃 機械学習における「微分可能」とは • 定義域全体で勾配が定義できる • 定義域の多くで勾配が0ではない（勾配が0だと情報が伝わらない） ※微分可能な演算で書けるモデル ≒ 自動微分＋勾配法で学習可能 ≒ NN 微分可能でない微分可能最も対数尤度関数を大きくする方向

Slide 18

Slide 18 text

18 混合正規分布モデルと EMアルゴリズム※ ※本講演では通常とは異なる導出を行うが，アルゴリズムの手続きは通常と同様である Dempster, Arthur P., Nan M. Laird, and Donald B. Rubin. "Maximum likelihood from incomplete data via the EM algorithm." Journal of the royal statistical society: series B (methodological)39.1 (1977): 1-22.

Slide 19

Slide 19 text

多くのモデルでは，最尤推定量を解析的に計算できない 19 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 20

Slide 20 text

混合分布モデルは，複数の確率分布を混ぜることで複雑な確率分布を表現できる 20 混合分布モデル確率密度関数 𝑝 𝑥 = ෍ 𝑘=1 𝐾 𝑝 𝑥 𝑧 = 𝑘 𝑝 𝑧 = 𝑘 確率変数 • 𝑋: 観測変数 • 𝑍: 潜在変数（観測されない） 𝑋 の従う分布が正規分布のとき混合ガウスモデルとよぶ（Gaussian Mixture Model; GMM）生成モデルとしての説明 𝐾 面さいころを振って 𝑍 = 𝑘 を得る 𝑝(𝑥 ∣ 𝑧 = 𝑘)にしたがって事例 𝑥 を生成

Slide 21

Slide 21 text

潜在変数の推論により教師なしの分類ができる 21 データの教師なし分類（クラスタリング）各事例 𝑥𝑛 の背後にある潜在変数 𝑧𝑛 は事例がどの山から生成されたかを示す 𝑝 𝑧𝑛 𝑥𝑛 = 𝑝 𝑥𝑛 𝑧𝑛 𝑝(𝑧𝑛 ) 𝑝(𝑥𝑛 )

Slide 22

Slide 22 text

手もとのサンプルでモデルを学習したのち事後分布を計算する 22 混合ガウスモデルを用いた解析のながれ 1. 混合ガウスモデルの最尤推定入力 • モデル 𝑝𝜃 𝑥 𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力最尤推定量 𝜃⋆ 2. 各事例に対する事後分布の計算 𝑝𝜃⋆ 𝑧𝑛 𝑥𝑛 = 𝑝𝜃⋆ 𝑥𝑛 𝑧𝑛 𝑝𝜃⋆(𝑧𝑛 ) 𝑝𝜃⋆ (𝑥𝑛 ) 各事例の分類が得られる

Slide 23

Slide 23 text

最尤推定の手順を適用する 23 混合ガウスモデルを用いた解析のながれ 1. 混合ガウスモデルの最尤推定入力 • モデル 𝑝𝜃 𝑥 𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力最尤推定量 𝜃⋆ 2. 各事例に対する事後分布の計算 𝑝𝜃⋆ 𝑧𝑛 𝑥𝑛 = 𝑝𝜃⋆ 𝑥𝑛 𝑧𝑛 𝑝𝜃⋆(𝑧𝑛 ) 𝑝𝜃⋆ (𝑥𝑛 ) 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃

Slide 24

Slide 24 text

GMMのpdfはK面さいころと正規分布を組み合わせて書ける 24 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデル (GMM) 𝑝𝜃 𝑥 = ෍ 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥; 𝜇𝑘 , Σ𝑘 学習するパラメタ𝜃 • 𝜇𝑘 , Σ𝑘 𝑘=1 𝐾 : 正規分布のパラメタ • 𝜋𝑘 𝑘=1 𝐾 : K面さいころのパラメタ ෍ 𝑘=1 𝐾 𝜋𝑘 = 1 𝑝(𝑧 = 𝑘) 正規分布の pdf

Slide 25

Slide 25 text

GMMのpdfはK面さいころと正規分布を組み合わせて書ける 25 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデルの対数尤度 𝐿 𝜃 = ෍ 𝑛=1 𝑁 log ෍ 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥𝑛 ; 𝜇𝑘 , Σ𝑘 学習するパラメタ𝜃 • 𝜇𝑘 , Σ𝑘 𝑘=1 𝐾 : 正規分布のパラメタ • 𝜋𝑘 𝑘=1 𝐾 : K面さいころのパラメタ ෍ 𝐾 𝜋𝑘 = 1 さきほどのpdf

Slide 26

Slide 26 text

最尤推定量を解析的に求めることはできない 26 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデルの対数尤度 𝐿 𝜃 = ෍ 𝑛=1 𝑁 log ෍ 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥𝑛 ; 𝜇𝑘 , Σ𝑘 logの中に足し算があるので解析的に解けなさそう 

Slide 27

Slide 27 text

混合ガウスモデルでは勾配法での最適化も可能 27 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 28

Slide 28 text

使いやすさからEMアルゴリズムが適用されることが多い 28 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 29

Slide 29 text

EMアルゴリズムは，ハイパーパラメタの設定が不要な点で使いやすい 29 勾配法 EMアルゴリズム手続き勾配にしたがってパラメタを更新しつづける E-step/M-stepを繰り返す利点実装が簡単 • ハイパーパラメタが不要 • 尤度が単調非減少性欠点学習率などハイパーパラメタの設定が必要モデル個別の実装が必要

Slide 30

Slide 30 text

最も基本的なEMアルゴリズムを紹介する 30 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 31

Slide 31 text

対数関数は凹関数だから期待値と入れ替えて下界を導出できる 31 EMアルゴリズム変分分布 𝑞(𝑧) を用いて対数尤度の下界（ELBO）を設定する 𝐿 𝜃 = ෍ 𝑛=1 𝑁 log ෍ 𝑘=1 𝐾 𝑝 𝑥𝑛 , 𝑧𝑛 = 𝑘 = ෍ 𝑛=1 𝑁 log 𝔼𝑍𝑛∼𝑞 𝑝 𝑥𝑛 , 𝑍𝑛 𝑞 𝑍𝑛 ≥ ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝 𝑥𝑛 , 𝑍𝑛 𝑞(𝑍𝑛 )

Slide 32

Slide 32 text

任意の変分分布について，ELBOは対数尤度の下界となる 32 変分下界 (Evidence Lower Bound; ELBO) 任意の変分分布 𝑞 𝑧 について以下が成立 𝐿 𝜃 ≥ ෍ 𝑛=1 𝑁 𝔼𝑍∼𝑞 log 𝑝𝜃 𝑥, 𝑍 𝑞 𝑍 =: ELBO(𝜃, 𝑞) • 𝜃を学習するのに対数尤度の代わりにその下界を最大化してもよさそう • 𝑞によって下界の良さが変わるので良い 𝑞 に更新しつづける必要あり 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞1 ELBO 𝜃, 𝑞2

Slide 33

Slide 33 text

33 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞1 ELBO 𝜃, 𝑞2 𝜃(1) 𝜃 1 でのELBOの値が最大になるように変分分布を選ぶ

Slide 34

Slide 34 text

34 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞2 𝜃(1) ELBOを最大にするように𝜃を更新 𝜃(2)

Slide 35

Slide 35 text

35 𝜃 𝐿 𝜃 𝜃(2) 𝜃 2 でのELBOの値が最大になるように変分分布を選ぶ

Slide 36

Slide 36 text

36 𝜃 𝐿 𝜃 𝜃(2) 𝜃(3) ELBOを最大にするように𝜃を更新

Slide 37

Slide 37 text

変分分布は，現状のモデルでの事後分布に設定するのがベスト 37 Eステップ 𝑞を動かして最良のELBOを求める ELBO 𝜃, 𝑞 = ෍ 𝑛=1 𝑁 𝔼𝑍∼𝑞 log 𝑝𝜃 𝑥, 𝑍 𝑞 𝑍 𝜕 𝜕𝑞 𝑧𝑛 = 𝑧 ELBO 𝜃, 𝑞 + 𝜆 1 − ෍ 𝑘=1 𝐾 𝑞 𝑧𝑛 = 𝑘 = log 𝑝𝜃 (𝑥𝑛 , 𝑧) − log 𝑞 𝑧 − 1 + 𝜆 ቚ = 0 𝑞 𝑧 =𝑞⋆ 𝑧 を解くと 𝑞⋆ 𝑧 = 𝑝𝜃 𝑧 𝑥𝑛 「𝑞は確率分布」という制約 GMMの場合計算可能

Slide 38

Slide 38 text

各分布について重み付き最尤推定を解けばよい 38 Mステップ (1/2) 𝑞を固定して下界を𝜃（のうち各コンポーネントのパラメタ）について最大化 𝜕 𝜕𝜃 ELBO 𝜃, 𝑞 = 𝜕 𝜕𝜃 ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝𝜃 𝑥𝑛 𝑍𝑛 = 𝜕 𝜕𝜃 ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝑞(𝑧𝑛 = 𝑘) log 𝑝𝜃 𝑥𝑛 𝑧𝑛 = 𝑘 𝑘番目の分布のパラメタは重み付き最尤推定で求まる

Slide 39

Slide 39 text

K面さいころのパラメタ推定も重み付き最尤推定となる 39 Mステップ (2/2) 𝑞を固定して下界を𝜃（のうちK面さいころのパラメタ𝜋）について最大化 𝜕 𝜕𝜋𝑘 ELBO 𝜃, 𝑞 = 𝜕 𝜕𝜋𝑘 ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝𝜃 𝑍𝑛 + 𝜆 1 − ෍ 𝑘=1 𝐾 𝜋𝑘 = 𝜕 𝜕𝜋𝑘 ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 log 𝜋𝑘 − 𝜆 ෍ 𝑘=1 𝐾 𝜋𝑘 = ෍ 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 𝜋𝑘 − 𝜆 ቚ = 0 𝜋𝑘=𝜋𝑘 ⋆ より 𝜋𝑘 ⋆ = 1 𝑁 ෍ 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 ソフトな割り当てを元にした最尤推定「𝜋は確率分布」という制約

Slide 40

Slide 40 text

EステップとMステップを交互に繰返すと局所最適解が求まる 40 EMアルゴリズムの全体 1. パラメタ𝜃を適当に初期化 2. 適当な終了条件を満たすまで繰返す 1. Eステップ（事後分布の計算） 2. Mステップ（重み付き最尤推定） EMアルゴリズムの特長 • 各ステップとも解析的に書ける Eステップを解析的に計算できない場合，変分EMアルゴリズム（変分ベイズ）と呼ばれる • 各繰返しで尤度が単調非減少 • 局所最適解が求まる

Slide 41

Slide 41 text

41 変分オートエンコーダと確率的勾配EMアルゴリズム※ ※確率的勾配変分ベイズ推定（Stochastic gradient variational Bayes estimator）と呼ばれているが，こちらの名称の方がおそらく適当 Kingma, Diederik P. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).

Slide 42

Slide 42 text

変分オートエンコーダおよびその学習で用いられるアルゴリズムを紹介する 42 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

Slide 43

Slide 43 text

変分オートエンコーダはNNを用いた生成モデルの1つ 43 変分オートエンコーダ目的: NNを使って生成モデルを作る 𝑝 𝑥 = න 𝑝 𝑥 𝑧 𝑝 𝑧 d𝑧 利点 • NNの表現力を活かせる • （副産物として）データ𝑥の潜在表現zを計算できる学習の方針 𝐿 𝜃 ≥ ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) EMアルゴリズムにしたがう • 変分分布を動かしてELBO最大化 • 変分分布を固定してパラメタについて最大化特徴 • 変分分布は 𝑥 で条件付けてNNを用いる • NN部分は勾配法で学習したいサンプリングが簡単な確率分布 NNで 𝑧 を 𝑥 に変換

Slide 44

Slide 44 text

データとその潜在表現を行き来するためのエンコーダ・デコーダを学習できる 44 変分オートエンコーダの構造 • 事前分布 𝑝(𝒛) 平均𝟎，分散共分散行列𝐼の正規分布 • デコーダ 𝑝𝜃 (𝒙 ∣ 𝒛) • エンコーダ（変分分布） 𝑞𝜙 (𝒛 ∣ 𝒙) • ニューラルネット部分はデータ𝑥 に応じて適切なものを用いる 𝒛 NN 何らかの確率分布 𝒙 𝒙 NN 何らかの確率分布 𝒛

Slide 45

Slide 45 text

データ 𝑥𝑛 とその潜在表現 𝑧𝑛 が与えられたもとで ELBOは計算可能で微分可能 45 𝒙𝒏 , 𝒛𝒏 を与えたもとでのELBOの計算手順 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 ∣ 𝑍𝑛 𝑝 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) ⋅ の計算 • log 𝑝 𝑧𝑛 : できる • log 𝑝𝜃 𝑥𝑛 𝑧𝑛 : できる/微分可能 • log 𝑞𝜙 𝑧𝑛 𝑥𝑛 : できる/微分可能 𝒛𝑛 NN 正規分布 𝒙𝑛 正規分布の平均・分散 𝒙𝑛 NN 正規分布 𝒛𝑛 正規分布の平均・分散正規分布の実現値正規分布の実現値

Slide 46

Slide 46 text

確率変数の実現値を微分する必要がある 46 𝒙𝒏 を与えたもとでのELBOの計算手順 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 ∣ 𝑍𝑛 𝑝 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 期待値は平均で近似すると計算可能: 1 𝑆 ෍ 𝑠=1 𝑆 log 𝑝𝜃 𝑥𝑛 ∣ 𝑧𝑛 (𝑠) 𝑝 𝑧𝑛 (𝑠) 𝑞𝜙 (𝑧 𝑛 (𝑠) ∣ 𝑥𝑛 ) ELBO計算の課題実現値𝑧𝑛 𝑠 は𝜙に依存するが， 𝜙に関して微分可能にできるか？ →自明ではない例: 𝑞𝜙 𝑧 𝑥 = 𝒩 𝑧; 𝜇𝜙 𝑥 , Σ𝜙 𝑥 としたとき，上記の正規分布の実現値は微分できない気がする

Slide 47

Slide 47 text

確率変数を適切に分解することで実現値の微分が計算できる 47 再パラメタ化法 (reparameterization trick) 𝑞𝜙 𝑧 𝑥 = 𝒩 𝑧; 𝜇𝜙 𝑥 , Σ𝜙 𝑥 のとき 𝝐 ∼ 𝒩(⋅; 𝟎, 𝐼) を用いて 𝒁 = 𝝁𝜙 𝑥 + Σ𝜙 𝑥 1 2 𝝐 ポイント • 𝑍 ∼ 𝑞𝜙 ⋅ 𝑥 は 𝜙 に依存する確率変数だった • 確率変数を以下の2つに分離すると自動微分できる • パラメタに依存するが決定的に計算できる項 • パラメタに依存しない確率変数 • 適用可能例 • 正規分布 • カテゴリカル分布（Gumbel softmax）パラメタに依存しない確率変数

Slide 48

Slide 48 text

全事例でELBOを計算するのは大変なのでミニバッチで計算 48 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 𝑁′個の事例からなるミニバッチ 𝑥𝑛 𝑛=1 𝑁 を取得

Slide 49

Slide 49 text

期待値は再パラメタ化法に基づきモンテカルロ近似する 49 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 各事例𝑥𝑛 に対して 𝑧𝑛 𝑠 𝑠=1 𝑆 を再パラメタ化法で計算

Slide 50

Slide 50 text

変分オートエンコーダの各コンポーネントを使って計算 50 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 各 𝑥𝑛 , 𝑧𝑛 𝑠 に対してエンコーダ・デコーダを用いて計算

Slide 51

Slide 51 text

ELBOの近似値を微分可能な形で計算できたので確率的勾配降下法で最適化可能 51 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 全体を計算したら自動微分で𝜃, 𝜙について勾配を計算し確率的勾配降下法にしたがって 𝜃, 𝜙を更新

Slide 52

Slide 52 text

EMアルゴリズムの一族は，ELBOを最適化する点で共通しているが最適化の方法が異なる 52 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20%

Slide 53

Slide 53 text

教師なし学習の基本的なモデルとその学習手法を紹介した 53 教師なし学習のモデルを紹介した • 混合分布モデル用途: • フィッティング • クラスタリング • 変分オートエンコーダ用途: • 生成モデル • 事前学習教師なし学習のアルゴリズムを紹介した • EMアルゴリズム • 確率的勾配変分EMアルゴリズムより発展的な話題 • 拡散モデル ELBOの導出＋マルコフ性の利用＋正規分布まわりの公式 • 実装 https://github.com/kanojikajino/lecture Luo, Calvin. "Understanding diffusion models: A unified perspective." arXiv preprint arXiv:2208.11970 (2022).