論文紹介: Semi-Supervised Learning with Normalizing Flows

論文紹介 yusumi

Abstract 2 論文の概要 ⚫ 正規化フローの新モデル FlowGMM を提案 ➢ 半教師あり学習を適用可能 •
ラベル付き/無しデータを同時に扱える ➢ 潜在分布に混合ガウス分布を利用 ➢ 多様なドメインに適用可能 • 画像，テキスト，テーブル ➢ 学習時間が短い Semi-supervised learning with normalizing flows ICLR 2020 OpenReview Reviewer1: 1 Reject Reviewer2: 1 Reject Reviewer3: 6 Weakly accept Overall: Reject ICML 2020 Accept PMLR Accept

1. Introduction Semi-supervised learning with normalizing flows 3 DISCRIMINATIVE VS
GENERATIVE 2 値ラベルのデータ点が以下のように観測されている ⚫ データ点を 𝒙，ラベルを 𝑦 とする

GENERATIVE ⚫ 確率 𝑝 𝑦 𝒙) をモデル化する ⚫ クラス決定境界を訓練識別モデルの性質

GENERATIVE ⚫ 確率 𝑝 𝒙 𝑦) をモデル化する (e.g. 混合ガウス分布の推定) ⚫ 新データのラベルはベイズの定理から分類できる: 生成モデルの性質 𝑝 𝑦 𝑥∗ = 𝑝 𝑥∗ 𝑦 𝑝(𝑦) 𝑝(𝑥∗)

GENERATIVE 生成モデルを用いて各クラス分布からサンプリングできる各分布の重心間の二等分線以降は混合ガウス分布 (GMM) を用いる

1. Introduction Semi-supervised learning with normalizing flows 7 WHAT IF
WE HAVE UNLABELED DATA? 半教師あり学習への拡張ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 が与えられる場合を想定ラベル無し

WE HAVE UNLABELED DATA? 半教師あり学習への拡張ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 が与えられる場合を想定各データ集合の結合尤度: 結合尤度が分かれば，半教師あり学習でも GMM を推定できる (後述)

THE DATA DOESN’T LOOK GAUSSIAN? GMM に Flow を導入する動機 → FlowGMM の提案

2. Related work Semi-supervised learning with normalizing flows 10 半教師あり学習の利用
(Kingma, et al. 2014) : ラベル付きデータ集合 𝒟𝑙 とラベル無しデータ集合 𝒟𝑢 を用いて両者の結合尤度を最大化する確率密度モデルの学習 (Dinh, et al. 2016): 逆変換可能な関数 𝑓 のパラメータ 𝜃 を通して，ベイズ分類器の密度モデルを学習する予測分布: テストデータ点 𝑥∗ に対するモデルの予測分布は，学習した確率密度モデルに基づいて与えられる

3. BACKGROUND: NORMALIZING FLOWS Semi-supervised learning with normalizing flows 11
⚫ 本論文で用いられた 𝑓 : ➢ RealNVP [Dinh et al. 2017] ➢ 他のモデルも利用可能 (Glow，iResNet，ICNN，MintNet，…) ⚫ 逆変換可能な深層生成モデル 𝑓 を用いてデータを生成する ⚫ 潜在空間の分布は標準ガウス分布が用いられることが一般的 ⚫ データ空間の確率密度は変換式から求めることができる:

4. Flow Gaussian Mixture Model Semi-supervised learning with normalizing flows
12 FLOWGMM IDEA 特定クラスに属するデータ点を，対応する混合ガウス成分に写像する ⚫ 写像に Normalizing flow を用いる ⚫ クラス 𝑖 からラベル付けされたデータは 𝑖 番目のガウス分布に対応させる ⚫ ラベル無しデータは混合成分の周辺化に対応させる Classification Sampling

13 FLOWGMM IDEA ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度:

14 GOING THE OTHER WAY ⚫ クラス条件下に応じた分布をデータをサンプリングできる

15 TRAINING FLOW GMM ⚫ flow 𝒇 と潜在空間の混合ガウス分布 𝝁𝒌 ，𝚺𝒌 を初期化する ⚫ 各イテレーションにおいて ➢ ラベル付きとラベル無しデータのミニバッチをサンプリング ➢ 結合尤度を求める: ➢ 結合尤度が最大となるように flow のパラメータを SGD で更新 ∝ |

16 TRAINING FLOW GMM ⚫ flow 𝒇 と潜在空間の混合ガウス分布 𝝁𝒌 ，𝚺𝒌 を初期化する ⚫ 各イテレーションにおいて ➢ ラベル付きとラベル無しデータのミニバッチをサンプリング ➢ 結合尤度を求める: ➢ 結合尤度が最大となるように flow のパラメータを SGD で更新 ➢ flow のみを学習することに注意！！ (𝝁𝒌 ，𝚺𝒌 は学習しない) ∝ |

17 JOINT LIKELIHOOD ∝ | ⚫ 結合尤度: ※ 𝑝𝒳 𝑦𝑖 はクラス 𝑖 に属するデータ点の割合で求まるため， flowのパラメータを含まない ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度: 復習

18 JOINT LIKELIHOOD ∝ | ⚫ 結合尤度: ⚫ ラベル付きデータの尤度: ⚫ ラベル無しデータの尤度: 復習学習時は負の対数尤度に変換

19 PREDICTING WITH FLOWGMM 新しいデータ点 𝒙∗ の生成とクラス予測 * * ⚫ 各クラスの尤度を計算 ⚫ ベイズの定理から各クラスの確率を計算 𝑝 𝑦 = 𝑘 𝑥∗ = 𝑝 𝒙∗ 𝑦 = 𝑘 𝑝(𝑦 = 𝑘) 𝑝(𝒙∗) ∝ 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) σ 𝑘=1 𝐶 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 )

20 PREDICTING WITH FLOWGMM ⚫ ベイズの定理から各クラスの確率を計算 𝑝 𝑦 = 𝑘 𝑥∗ = 𝑝 𝒙∗ 𝑦 = 𝑘 𝑝(𝑦 = 𝑘) 𝑝(𝒙∗) ∝ 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) σ 𝑘=1 𝐶 𝒩 𝑓 𝒙∗ 𝝁𝒌 , 𝚺𝒌 ) ⚫ 各クラス確率の argmax から予測される *

5. Experiments Semi-supervised learning with normalizing flows 21 SYNTHETIC DATA

5. Experiments Semi-supervised learning with normalizing flows 22 TEXT AND
TABULAR DATA テキストテーブル ⚫ (𝑛𝑙 /𝑛𝑢 , classes): (ラベル付きデータ数/ラベル無しデータ数，クラス数) ⚫ テキスト (AG-News，Yahoo Answers) は BERT の埋め込みベクトルを用いる

5. Experiments Semi-supervised learning with normalizing flows 23 TRANSFER LEARNING
ON IMAGE DATA ⚫ CIFIR-10 データセットから EfficientNet で中間特徴を抽出して比較 ⚫ EfficientNet は ImageNet データセットを用いて事前学習済み ⚫ ラベル付きデータのみで学習

5. Experiments Semi-supervised learning with normalizing flows 24 CONSISTENCY REGULARIZATION
⚫ 入力に微小な摂動を加えたデータ同士は近い関係にあってほしい 𝒙′，𝒙′′ は入力にランダムな摂動を加えたデータ点 𝑔(⋅) は各クラス確率を要素とするベクトルを返す ⚫ 一貫性に関する以下の正則化項を損失関数に追加する 𝑦′′ は 𝒙′′ によって予測されたラベル (前ページの argmax)

5. Experiments Semi-supervised learning with normalizing flows 25 CONSISTENCY REGULARIZATION
⚫ 入力に微小な摂動を加えたデータ同士は近い関係にあってほしい 𝒙′，𝒙′′ は入力にランダムな摂動を加えたデータ点 𝑔(⋅) は各クラス確率を要素とするベクトルを返す ⚫ 一貫性に関する以下の正則化項を損失関数に追加する摂動させたクラスとデータ点の尤度は高くなるべき

5. Experiments Semi-supervised learning with normalizing flows 26 IMAGE CLASSIFICATION
⚫ FlowGMM Sup はラベル無しデータを含めずに学習させた FlowGMM

⚫ FlowGMM-cons は consistency loss を追加した FlowGMM

⚫ SOTA モデルと比べて劣った ➢ RealNVP をより最新モデルに置き換えることで精度向上？

5. Experiments Semi-supervised learning with normalizing flows 29 Flow vs
VAE ⚫ FlowGMM-cons と VAE ベースの既存手法を比較 ⚫ MNIST データセットのラベル付きデータ数を変えて実験

6. Model Analysis Semi-supervised learning with normalizing flows 30 Uncertainty
and Calibration ⚫ データの次元数が増加するほど予測の確信度も増加してしまう ➢ 真の確率を表現できなくなる ➢ 証明は次ページ真の確率 (経験的な確率) を表現できるようなキャリブレーションが必要

and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: ※ 𝐸 𝑋2 = 𝑉 𝑋 + 𝐸 𝑋 2 を使う

and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: データの次元数が 𝐷 の時，同じガウスサンプルでは平均距離 𝐷，異なるガウスサンプルでは平均距離 3𝐷 !! → 𝐷 が大きいほど確信度が高まる

and Calibration ⚫ 潜在空間の混合ガウスの平均が標準正規分布のサンプルで初期化される時: データの次元数が 𝐷 の時，同じガウスサンプルでは平均距離 𝐷，異なるガウスサンプルでは平均距離 3𝐷 !! → 𝐷 が大きいほど確信度が高まるである確率:

and Calibration ⚫ 次元による乖離を調整するためのスケールパラメータ 𝜎2 を導入するキャリブレーションの方法 ⚫ 温度パラメータを分散に乗算するのと同じらしい (Guo, et al. 2017)

and Calibration ⚫ 次元による乖離を調整するためのスケールパラメータ 𝜎2 を導入するキャリブレーションの方法 FlowGMM に 𝜎2 を導入し，検証データで最適化したものが FlowGMM-temp NLL とキャリブレーション平均誤差 (ECE) が共に向上した (小さいほど良い)

6. Model Analysis Semi-supervised learning with normalizing flows 36 LEARNED
LATENT REPRESENTATIONS クラス間の補完 Same class Different class

6. Model Analysis Semi-supervised learning with normalizing flows 37 DISTANCE
TO DECISION BOUNDARY 決定境界からの距離を比較 2クラスの混合ガウス分布の平均からの距離を用いて測る ➢ 決定境界に近いほど 𝑑 ∙ は小さい ➢ FlowGMM-cons (赤) と FlowGMM-Sup (青) で比較 FlowGMM-cons の方が決定境界から遠い傾向が確認できる

6. Model Analysis Semi-supervised learning with normalizing flows 38 FEATURE
VISUALIZATION ⚫ FlowGMM の可逆性を活用した特徴量の可視化 ➢ 𝑎𝑙 𝑐, 𝑖, 𝑗 : Flows の 𝑙 層目のピクセル 𝑖, 𝑗 ，チャネル 𝑐 における活性化関数 ➢ 𝑥 𝛼 : Flows の 𝑙 層目の活性化関数に摂動 𝛼𝜎𝑐 𝛿𝑐 を加え逆変換した画像各ピクセル値を活性化関数に通して得られたヒストグラム (チャネル 𝑐 は固定) 赤線は 𝛼 の値層 𝑙 で非活性な領域 (ピクセル値が 0) が分かる

7. Discussion Semi-supervised learning with normalizing flows 39 CONCLUSION ⚫
混合ガウス分布を用いて半教師あり学習可能な FlowGMM を提案 ➢ 未知ラベルを学習に含めることが可能 ➢ 画像，テキスト，テーブルデータで評価 ➢ 画像以外は既存手法に勝った ➢ VAEs に比べて高い性能を発揮した ⚫ Consistency loss に関する効果検証 ⚫ キャリブレーションに関する性能評価 ⚫ 特徴解析器への応用可能性

論文紹介: Semi-Supervised Learning with Normalizing...

論文紹介: Semi-Supervised Learning with Normalizing Flows

More Decks by yusumi

Other Decks in Research

Featured

Transcript