論文紹介: Semi-Supervised Learning with Normalizing Flows

Slide 1

Slide 1 text

論文紹介 yusumi

Slide 2

Slide 2 text

Abstract 2 論文の概要 ⚫ 正規化フローの新モデル FlowGMM を提案 ➢ 半教師あり学習を適用可能 • ラベル付き/無しデータを同時に扱える ➢ 潜在分布に混合ガウス分布を利用 ➢ 多様なドメインに適用可能 • 画像，テキスト，テーブル ➢ 学習時間が短い Semi-supervised learning with normalizing flows ICLR 2020 OpenReview Reviewer1: 1 Reject Reviewer2: 1 Reject Reviewer3: 6 Weakly accept Overall: Reject ICML 2020 Accept PMLR Accept

Slide 3

Slide 3 text

1. Introduction Semi-supervised learning with normalizing flows 3 DISCRIMINATIVE VS GENERATIVE 2 値ラベルのデータ点が以下のように観測されている ⚫ データ点を 𝒙，ラベルを 𝑦 とする

Slide 4

Slide 4 text

1. Introduction Semi-supervised learning with normalizing flows 4 DISCRIMINATIVE VS GENERATIVE ⚫ 確率 𝑝 𝑦 𝒙) をモデル化する ⚫ クラス決定境界を訓練識別モデルの性質

Slide 5

Slide 5 text

1. Introduction Semi-supervised learning with normalizing flows 5 DISCRIMINATIVE VS GENERATIVE ⚫ 確率 𝑝 𝒙 𝑦) をモデル化する (e.g. 混合ガウス分布の推定) ⚫ 新データのラベルはベイズの定理から分類できる: 生成モデルの性質 𝑝 𝑦 𝑥∗ = 𝑝 𝑥∗ 𝑦 𝑝(𝑦) 𝑝(𝑥∗)

Slide 6

Slide 6 text

1. Introduction Semi-supervised learning with normalizing flows 6 DISCRIMINATIVE VS GENERATIVE 生成モデルを用いて各クラス分布からサンプリングできる各分布の重心間の二等分線以降は混合ガウス分布 (GMM) を用いる

Slide 7

Slide 7 text

1. Introduction Semi-supervised learning with normalizing flows 7 WHAT IF WE HAVE UNLABELED DATA? 半教師あり学習への拡張ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 が与えられる場合を想定ラベル無し

Slide 8

Slide 8 text

1. Introduction Semi-supervised learning with normalizing flows 8 WHAT IF WE HAVE UNLABELED DATA? 半教師あり学習への拡張ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 が与えられる場合を想定各データ集合の結合尤度: 結合尤度が分かれば，半教師あり学習でも GMM を推定できる (後述)

Slide 9

Slide 9 text

1. Introduction Semi-supervised learning with normalizing flows 9 WHAT IF THE DATA DOESN’T LOOK GAUSSIAN? GMM に Flow を導入する動機 → FlowGMM の提案

Slide 10

Slide 10 text

2. Related work Semi-supervised learning with normalizing flows 10 半教師あり学習の利用 (Kingma, et al. 2014) : ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 を用いて両者の結合尤度を最大化する確率密度モデルの学習 (Dinh, et al. 2016): 逆変換可能な関数 𝑓 のパラメータ 𝜃 を通して，ベイズ分類器の密度モデルを学習する予測分布: テストデータ点 𝑥∗ に対するモデルの予測分布は，学習した確率密度モデルに基づいて与えられる

Slide 11

Slide 11 text

3. BACKGROUND: NORMALIZING FLOWS Semi-supervised learning with normalizing flows 11 ⚫ 本論文で用いられた 𝑓 : ➢ RealNVP [Dinh et al. 2017] ➢ 他のモデルも利用可能 (Glow，iResNet，ICNN，MintNet，…) ⚫ 逆変換可能な深層生成モデル 𝑓 を用いてデータを生成する ⚫ 潜在空間の分布は標準ガウス分布が用いられることが一般的 ⚫ データ空間の確率密度は変換式から求めることができる:

Slide 12

Slide 12 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 12 FLOWGMM IDEA 特定クラスに属するデータ点を，対応する混合ガウス成分に写像する ⚫ 写像に Normalizing flow を用いる ⚫ クラス 𝑖 からラベル付けされたデータは 𝑖 番目のガウス分布に対応させる ⚫ ラベル無しデータは混合成分の周辺化に対応させる Classification Sampling

Slide 13

Slide 13 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 13 FLOWGMM IDEA ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度:

Slide 14

Slide 14 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 14 GOING THE OTHER WAY ⚫ クラス条件下に応じた分布をデータをサンプリングできる

Slide 15

Slide 15 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 15 TRAINING FLOW GMM ⚫ flow 𝒇 と潜在空間の混合ガウス分布 𝝁𝒌 ，𝚺𝒌 を初期化する ⚫ 各イテレーションにおいて ➢ ラベル付きとラベル無しデータのミニバッチをサンプリング ➢ 結合尤度を求める: ➢ 結合尤度が最大となるように flow のパラメータを SGD で更新 ∝ |

Slide 16

Slide 16 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 16 TRAINING FLOW GMM ⚫ flow 𝒇 と潜在空間の混合ガウス分布 𝝁𝒌 ，𝚺𝒌 を初期化する ⚫ 各イテレーションにおいて ➢ ラベル付きとラベル無しデータのミニバッチをサンプリング ➢ 結合尤度を求める: ➢ 結合尤度が最大となるように flow のパラメータを SGD で更新 ➢ flow のみを学習することに注意！！ (𝝁𝒌 ，𝚺𝒌 は学習しない) ∝ |

Slide 17

Slide 17 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 17 JOINT LIKELIHOOD ∝ | ⚫ 結合尤度: ※ 𝑝𝒳 𝑦𝑖 はクラス 𝑖 に属するデータ点の割合で求まるため， flowのパラメータを含まない ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度: 復習

Slide 18

Slide 18 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 18 JOINT LIKELIHOOD ∝ | ⚫ 結合尤度: ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度: 復習学習時は負の対数尤度に変換

Slide 19

Slide 19 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 19 PREDICTING WITH FLOWGMM 新しいデータ点 𝒙∗ の生成とクラス予測 * * ⚫ 各クラスの尤度を計算 ⚫ ベイズの定理から各クラスの確率を計算 𝑝 𝑦 = 𝑘 𝑥∗ = 𝑝 𝒙∗ 𝑦 = 𝑘 𝑝(𝑦 = 𝑘) 𝑝(𝒙∗) ∝ 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) σ 𝑘=1 𝐶 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 )

Slide 20

Slide 20 text

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows 20 PREDICTING WITH FLOWGMM ⚫ ベイズの定理から各クラスの確率を計算 𝑝 𝑦 = 𝑘 𝑥∗ = 𝑝 𝒙∗ 𝑦 = 𝑘 𝑝(𝑦 = 𝑘) 𝑝(𝒙∗) ∝ 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) σ 𝑘=1 𝐶 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) ⚫ 各クラス確率の argmax から予測される *

Slide 21

Slide 21 text

5. Experiments Semi-supervised learning with normalizing flows 21 SYNTHETIC DATA

Slide 22

Slide 22 text

5. Experiments Semi-supervised learning with normalizing flows 22 TEXT AND TABULAR DATA テキストテーブル ⚫ (𝑛𝑙 /𝑛𝑢 , classes): (ラベル付きデータ数/ラベル無しデータ数，クラス数) ⚫ テキスト (AG-News，Yahoo Answers) は BERT の埋め込みベクトルを用いる

Slide 23

Slide 23 text

5. Experiments Semi-supervised learning with normalizing flows 23 TRANSFER LEARNING ON IMAGE DATA ⚫ CIFIR-10 データセットから EfficientNet で中間特徴を抽出して比較 ⚫ EfficientNet は ImageNet データセットを用いて事前学習済み ⚫ ラベル付きデータのみで学習

Slide 24

Slide 24 text

5. Experiments Semi-supervised learning with normalizing flows 24 CONSISTENCY REGULARIZATION ⚫ 入力に微小な摂動を加えたデータ同士は近い関係にあってほしい 𝒙′，𝒙′′ は入力にランダムな摂動を加えたデータ点 𝑔(⋅) は各クラス確率を要素とするベクトルを返す ⚫ 一貫性に関する以下の正則化項を損失関数に追加する 𝑦′′ は 𝒙′′ によって予測されたラベル (前ページの argmax)

Slide 25

Slide 25 text

5. Experiments Semi-supervised learning with normalizing flows 25 CONSISTENCY REGULARIZATION ⚫ 入力に微小な摂動を加えたデータ同士は近い関係にあってほしい 𝒙′，𝒙′′ は入力にランダムな摂動を加えたデータ点 𝑔(⋅) は各クラス確率を要素とするベクトルを返す ⚫ 一貫性に関する以下の正則化項を損失関数に追加する摂動させたクラスとデータ点の尤度は高くなるべき

Slide 26

Slide 26 text

5. Experiments Semi-supervised learning with normalizing flows 26 IMAGE CLASSIFICATION ⚫ FlowGMM Sup はラベル無しデータを含めずに学習させた FlowGMM

Slide 27

Slide 27 text

5. Experiments Semi-supervised learning with normalizing flows 27 IMAGE CLASSIFICATION ⚫ FlowGMM-cons は consistency loss を追加した FlowGMM

Slide 28

Slide 28 text

5. Experiments Semi-supervised learning with normalizing flows 28 IMAGE CLASSIFICATION ⚫ SOTA モデルと比べて劣った ➢ RealNVP をより最新モデルに置き換えることで精度向上？

Slide 29

Slide 29 text

5. Experiments Semi-supervised learning with normalizing flows 29 Flow vs VAE ⚫ FlowGMM-cons と VAE ベースの既存手法を比較 ⚫ MNIST データセットのラベル付きデータ数を変えて実験

Slide 30

Slide 30 text

6. Model Analysis Semi-supervised learning with normalizing flows 30 Uncertainty and Calibration ⚫ データの次元数が増加するほど予測の確信度も増加してしまう ➢ 真の確率を表現できなくなる ➢ 証明は次ページ真の確率 (経験的な確率) を表現できるようなキャリブレーションが必要

Slide 31

Slide 31 text

6. Model Analysis Semi-supervised learning with normalizing flows 31 Uncertainty and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: ※ 𝐸 𝑋2 = 𝑉 𝑋 + 𝐸 𝑋 2 を使う

Slide 32

Slide 32 text

6. Model Analysis Semi-supervised learning with normalizing flows 32 Uncertainty and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: データの次元数が 𝐷 の時，同じガウスサンプルでは平均距離 𝐷，異なるガウスサンプルでは平均距離 3𝐷 !! → 𝐷 が大きいほど確信度が高まる

Slide 33

Slide 33 text

6. Model Analysis Semi-supervised learning with normalizing flows 33 Uncertainty and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: データの次元数が 𝐷 の時，同じガウスサンプルでは平均距離 𝐷，異なるガウスサンプルでは平均距離 3𝐷 !! → 𝐷 が大きいほど確信度が高まるである確率:

Slide 34

Slide 34 text

6. Model Analysis Semi-supervised learning with normalizing flows 34 Uncertainty and Calibration ⚫ 次元による乖離を調整するためのスケールパラメータ 𝜎2 を導入するキャリブレーションの方法 ⚫ 温度パラメータを分散に乗算するのと同じらしい (Guo, et al. 2017)

Slide 35

Slide 35 text

6. Model Analysis Semi-supervised learning with normalizing flows 35 Uncertainty and Calibration ⚫ 次元による乖離を調整するためのスケールパラメータ 𝜎2 を導入するキャリブレーションの方法 FlowGMM に 𝜎2 を導入し，検証データで最適化したものが FlowGMM-temp NLL とキャリブレーション平均誤差 (ECE) が共に向上した (小さいほど良い)

Slide 36

Slide 36 text

6. Model Analysis Semi-supervised learning with normalizing flows 36 LEARNED LATENT REPRESENTATIONS クラス間の補完 Same class Different class

Slide 37

Slide 37 text

6. Model Analysis Semi-supervised learning with normalizing flows 37 DISTANCE TO DECISION BOUNDARY 決定境界からの距離を比較 2クラスの混合ガウス分布の平均からの距離を用いて測る ➢ 決定境界に近いほど 𝑑 ∙ は小さい ➢ FlowGMM-cons (赤) と FlowGMM-Sup (青) で比較 FlowGMM-cons の方が決定境界から遠い傾向が確認できる

Slide 38

Slide 38 text

6. Model Analysis Semi-supervised learning with normalizing flows 38 FEATURE VISUALIZATION ⚫ FlowGMM の可逆性を活用した特徴量の可視化 ➢ 𝑎𝑙 𝑐, 𝑖, 𝑗 : Flows の 𝑙 層目のピクセル 𝑖, 𝑗 ，チャネル 𝑐 における活性化関数 ➢ 𝑥 𝛼 : Flows の 𝑙 層目の活性化関数に摂動 𝛼𝜎𝑐 𝛿𝑐 を加え逆変換した画像各ピクセル値を活性化関数に通して得られたヒストグラム (チャネル 𝑐 は固定) 赤線は 𝛼 の値層 𝑙 で非活性な領域 (ピクセル値が 0) が分かる

Slide 39

Slide 39 text

7. Discussion Semi-supervised learning with normalizing flows 39 CONCLUSION ⚫ 混合ガウス分布を用いて半教師あり学習可能な FlowGMM を提案 ➢ 未知ラベルを学習に含めることが可能 ➢ 画像，テキスト，テーブルデータで評価 ➢ 画像以外は既存手法に勝った ➢ VAEs に比べて高い性能を発揮した ⚫ Consistency loss に関する効果検証 ⚫ キャリブレーションに関する性能評価 ⚫ 特徴解析器への応用可能性