Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Semi-Supervised Learning with Normalizing...

yusumi
November 22, 2023

論文紹介: Semi-Supervised Learning with Normalizing Flows

These are the slides I compiled for a Japanese reading group discussion on the paper 'Semi-Supervised Learning with Normalizing Flows,' which was accepted at ICML 2020.
Reference: https://slideslive.com/38928073/semisupervised-learning-with-normalizing-flows

yusumi

November 22, 2023
Tweet

More Decks by yusumi

Other Decks in Research

Transcript

  1. Abstract 2 論文の概要 ⚫ 正規化フローの新モデル FlowGMM を提案 ➢ 半教師あり学習を適用可能 •

    ラベル付き/無しデータを同時に扱える ➢ 潜在分布に混合ガウス分布を利用 ➢ 多様なドメインに適用可能 • 画像,テキスト,テーブル ➢ 学習時間が短い Semi-supervised learning with normalizing flows ICLR 2020 OpenReview Reviewer1: 1 Reject Reviewer2: 1 Reject Reviewer3: 6 Weakly accept Overall: Reject ICML 2020 Accept PMLR Accept
  2. 1. Introduction Semi-supervised learning with normalizing flows 3 DISCRIMINATIVE VS

    GENERATIVE 2 値ラベルのデータ点が以下のように観測されている ⚫ データ点を 𝒙,ラベルを 𝑦 とする
  3. 1. Introduction Semi-supervised learning with normalizing flows 4 DISCRIMINATIVE VS

    GENERATIVE ⚫ 確率 𝑝 𝑦 𝒙) をモデル化する ⚫ クラス決定境界を訓練 識別モデルの性質
  4. 1. Introduction Semi-supervised learning with normalizing flows 5 DISCRIMINATIVE VS

    GENERATIVE ⚫ 確率 𝑝 𝒙 𝑦) をモデル化する (e.g. 混合ガウス分布の推定) ⚫ 新データのラベルはベイズの定理から分類できる: 生成モデルの性質 𝑝 𝑦 𝑥∗ = 𝑝 𝑥∗ 𝑦 𝑝(𝑦) 𝑝(𝑥∗)
  5. 1. Introduction Semi-supervised learning with normalizing flows 6 DISCRIMINATIVE VS

    GENERATIVE 生成モデルを用いて各クラス分布からサンプリングできる 各分布の重心間の二等分線 以降は混合ガウス分布 (GMM) を用いる
  6. 1. Introduction Semi-supervised learning with normalizing flows 7 WHAT IF

    WE HAVE UNLABELED DATA? 半教師あり学習への拡張 ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 が与えられる場合を想定 ラベル無し
  7. 1. Introduction Semi-supervised learning with normalizing flows 8 WHAT IF

    WE HAVE UNLABELED DATA? 半教師あり学習への拡張 ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 が与えられる場合を想定 各データ集合の結合尤度: 結合尤度が分かれば,半教師あり学習でも GMM を推定できる (後述)
  8. 1. Introduction Semi-supervised learning with normalizing flows 9 WHAT IF

    THE DATA DOESN’T LOOK GAUSSIAN? GMM に Flow を導入する動機 → FlowGMM の提案
  9. 2. Related work Semi-supervised learning with normalizing flows 10 半教師あり学習の利用

    (Kingma, et al. 2014) : ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 を用いて両者の 結合尤度を最大化する 確率密度モデルの学習 (Dinh, et al. 2016): 逆変換可能な関数 𝑓 のパラメータ 𝜃 を通して,ベイズ分類器の密度モデル を学習する 予測分布: テストデータ点 𝑥∗ に対するモデルの予測分布は,学習した確率密度モデルに 基づいて与えられる
  10. 3. BACKGROUND: NORMALIZING FLOWS Semi-supervised learning with normalizing flows 11

    ⚫ 本論文で用いられた 𝑓 : ➢ RealNVP [Dinh et al. 2017] ➢ 他のモデルも利用可能 (Glow,iResNet,ICNN,MintNet,…) ⚫ 逆変換可能な深層生成モデル 𝑓 を用いてデータを生成する ⚫ 潜在空間の分布 は標準ガウス分布が用いられることが一般的 ⚫ データ空間の確率密度は変換式から求めることができる:
  11. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    12 FLOWGMM IDEA 特定クラスに属するデータ点を,対応する混合ガウス成分に写像する ⚫ 写像に Normalizing flow を用いる ⚫ クラス 𝑖 からラベル付けされたデータは 𝑖 番目のガウス分布に対応させる ⚫ ラベル無しデータは混合成分の周辺化に対応させる Classification Sampling
  12. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    13 FLOWGMM IDEA ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度:
  13. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    14 GOING THE OTHER WAY ⚫ クラス条件下に応じた分布をデータをサンプリングできる
  14. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    15 TRAINING FLOW GMM ⚫ flow 𝒇 と潜在空間の混合ガウス分布 𝝁𝒌 ,𝚺𝒌 を初期化する ⚫ 各イテレーションにおいて ➢ ラベル付きとラベル無しデータのミニバッチをサンプリング ➢ 結合尤度を求める: ➢ 結合尤度が最大となるように flow のパラメータを SGD で更新 ∝ |
  15. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    16 TRAINING FLOW GMM ⚫ flow 𝒇 と潜在空間の混合ガウス分布 𝝁𝒌 ,𝚺𝒌 を初期化する ⚫ 各イテレーションにおいて ➢ ラベル付きとラベル無しデータのミニバッチをサンプリング ➢ 結合尤度を求める: ➢ 結合尤度が最大となるように flow のパラメータを SGD で更新 ➢ flow のみを学習することに注意!! (𝝁𝒌 ,𝚺𝒌 は学習しない) ∝ |
  16. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    17 JOINT LIKELIHOOD ∝ | ⚫ 結合尤度: ※ 𝑝𝒳 𝑦𝑖 はクラス 𝑖 に属するデータ点の割合で求まるため, flowのパラメータを含まない ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度: 復習
  17. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    18 JOINT LIKELIHOOD ∝ | ⚫ 結合尤度: ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度: 復習 学習時は負の対数尤度に変換
  18. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    19 PREDICTING WITH FLOWGMM 新しいデータ点 𝒙∗ の生成とクラス予測 * * ⚫ 各クラスの尤度を計算 ⚫ ベイズの定理から各クラスの確率を計算 𝑝 𝑦 = 𝑘 𝑥∗ = 𝑝 𝒙∗ 𝑦 = 𝑘 𝑝(𝑦 = 𝑘) 𝑝(𝒙∗) ∝ 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) σ 𝑘=1 𝐶 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 )
  19. 4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows

    20 PREDICTING WITH FLOWGMM ⚫ ベイズの定理から各クラスの確率を計算 𝑝 𝑦 = 𝑘 𝑥∗ = 𝑝 𝒙∗ 𝑦 = 𝑘 𝑝(𝑦 = 𝑘) 𝑝(𝒙∗) ∝ 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) σ 𝑘=1 𝐶 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) ⚫ 各クラス確率の argmax から予測される *
  20. 5. Experiments Semi-supervised learning with normalizing flows 22 TEXT AND

    TABULAR DATA テキスト テーブル ⚫ (𝑛𝑙 /𝑛𝑢 , classes): (ラベル付きデータ数/ラベル無しデータ数,クラス数) ⚫ テキスト (AG-News,Yahoo Answers) は BERT の埋め込みベクトルを用いる
  21. 5. Experiments Semi-supervised learning with normalizing flows 23 TRANSFER LEARNING

    ON IMAGE DATA ⚫ CIFIR-10 データセットから EfficientNet で中間特徴を抽出して比較 ⚫ EfficientNet は ImageNet データセットを用いて事前学習済み ⚫ ラベル付きデータのみで学習
  22. 5. Experiments Semi-supervised learning with normalizing flows 24 CONSISTENCY REGULARIZATION

    ⚫ 入力に微小な摂動を加えたデータ同士は近い関係にあってほしい 𝒙′,𝒙′′ は入力にランダムな摂動を加えたデータ点 𝑔(⋅) は各クラス確率を要素とするベクトルを返す ⚫ 一貫性に関する以下の正則化項を損失関数に追加する 𝑦′′ は 𝒙′′ によって予測されたラベル (前ページの argmax)
  23. 5. Experiments Semi-supervised learning with normalizing flows 25 CONSISTENCY REGULARIZATION

    ⚫ 入力に微小な摂動を加えたデータ同士は近い関係にあってほしい 𝒙′,𝒙′′ は入力にランダムな摂動を加えたデータ点 𝑔(⋅) は各クラス確率を要素とするベクトルを返す ⚫ 一貫性に関する以下の正則化項を損失関数に追加する 摂動させたクラスとデータ点の尤度は高くなるべき
  24. 5. Experiments Semi-supervised learning with normalizing flows 26 IMAGE CLASSIFICATION

    ⚫ FlowGMM Sup はラベル無しデータを含めずに学習させた FlowGMM
  25. 5. Experiments Semi-supervised learning with normalizing flows 27 IMAGE CLASSIFICATION

    ⚫ FlowGMM-cons は consistency loss を追加した FlowGMM
  26. 5. Experiments Semi-supervised learning with normalizing flows 28 IMAGE CLASSIFICATION

    ⚫ SOTA モデルと比べて劣った ➢ RealNVP をより最新モデルに置き換えることで精度向上?
  27. 5. Experiments Semi-supervised learning with normalizing flows 29 Flow vs

    VAE ⚫ FlowGMM-cons と VAE ベースの既存手法を比較 ⚫ MNIST データセットのラベル付きデータ数を変えて実験
  28. 6. Model Analysis Semi-supervised learning with normalizing flows 30 Uncertainty

    and Calibration ⚫ データの次元数が増加するほど予測の確信度も増加してしまう ➢ 真の確率を表現できなくなる ➢ 証明は次ページ 真の確率 (経験的な確率) を表現できるような キャリブレーションが必要
  29. 6. Model Analysis Semi-supervised learning with normalizing flows 31 Uncertainty

    and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: ※ 𝐸 𝑋2 = 𝑉 𝑋 + 𝐸 𝑋 2 を使う
  30. 6. Model Analysis Semi-supervised learning with normalizing flows 32 Uncertainty

    and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: データの次元数が 𝐷 の時,同じガウスサンプルでは平均距離 𝐷, 異なるガウスサンプルでは平均距離 3𝐷 !! → 𝐷 が大きいほど確信度が高まる
  31. 6. Model Analysis Semi-supervised learning with normalizing flows 33 Uncertainty

    and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: データの次元数が 𝐷 の時,同じガウスサンプルでは平均距離 𝐷, 異なるガウスサンプルでは平均距離 3𝐷 !! → 𝐷 が大きいほど確信度が高まる である確率:
  32. 6. Model Analysis Semi-supervised learning with normalizing flows 34 Uncertainty

    and Calibration ⚫ 次元による乖離を調整するためのスケールパラメータ 𝜎2 を導入する キャリブレーションの方法 ⚫ 温度パラメータを分散に乗算するのと同じらしい (Guo, et al. 2017)
  33. 6. Model Analysis Semi-supervised learning with normalizing flows 35 Uncertainty

    and Calibration ⚫ 次元による乖離を調整するためのスケールパラメータ 𝜎2 を導入する キャリブレーションの方法 FlowGMM に 𝜎2 を導入し,検証データで最適化したものが FlowGMM-temp NLL とキャリブレーション平均誤差 (ECE) が共に向上した (小さいほど良い)
  34. 6. Model Analysis Semi-supervised learning with normalizing flows 36 LEARNED

    LATENT REPRESENTATIONS クラス間の補完 Same class Different class
  35. 6. Model Analysis Semi-supervised learning with normalizing flows 37 DISTANCE

    TO DECISION BOUNDARY 決定境界からの距離を比較 2クラスの混合ガウス分布の 平均からの距離を用いて測る ➢ 決定境界に近いほど 𝑑 ∙ は小さい ➢ FlowGMM-cons (赤) と FlowGMM-Sup (青) で比較 FlowGMM-cons の方が決定境界 から遠い傾向が確認できる
  36. 6. Model Analysis Semi-supervised learning with normalizing flows 38 FEATURE

    VISUALIZATION ⚫ FlowGMM の可逆性を活用した特徴量の可視化 ➢ 𝑎𝑙 𝑐, 𝑖, 𝑗 : Flows の 𝑙 層目のピクセル 𝑖, 𝑗 ,チャネル 𝑐 における活性化関数 ➢ 𝑥 𝛼 : Flows の 𝑙 層目の活性化関数に摂動 𝛼𝜎𝑐 𝛿𝑐 を加え逆変換した画像 各ピクセル値を 活性化関数に通して 得られたヒストグラム (チャネル 𝑐 は固定) 赤線は 𝛼 の値 層 𝑙 で非活性な領域 (ピクセル値が 0) が分かる
  37. 7. Discussion Semi-supervised learning with normalizing flows 39 CONCLUSION ⚫

    混合ガウス分布を用いて半教師あり学習可能な FlowGMM を提案 ➢ 未知ラベルを学習に含めることが可能 ➢ 画像,テキスト,テーブルデータで評価 ➢ 画像以外は既存手法に勝った ➢ VAEs に比べて高い性能を発揮した ⚫ Consistency loss に関する効果検証 ⚫ キャリブレーションに関する性能評価 ⚫ 特徴解析器への応用可能性