Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Your_Classifier_is_Secretly_an_Energy_Based_Mod...

 Your_Classifier_is_Secretly_an_Energy_Based_Model_and_You_Should_Treat_It_Like_One.pdf

Daigo HIROOKA

June 14, 2020
Tweet

More Decks by Daigo HIROOKA

Other Decks in Research

Transcript

  1. Your Classifier is Secretly an Energy Based Model and You

    Should Treat It Like One (ICLR 2020) Will Grathwohl1,2, Jackson Wang1, Jörn Jacobsen1, David Duvenaud1 Mohammad Norouzi2, Kevin Swersky2 1. University of Toronto & Vector Institute 2. Google Research Conference page:https://iclr.cc/virtual_2020/poster_Hkxzx0NtDB.html ICLR2020読み会@オンライン Presenter:廣岡大吾(@daigo_hirooka)
  2. 自己紹介:廣岡大吾(@daigo_hirooka) • 機械学習エンジニア @ブレインパッド • 関心 ◦ 確率推論、Bayesian NN ◦

    修士の頃はGAN、ドメイン適応など • その他 ◦ 白金鉱業.FM(@shirokane_fm) podcastで配信中 2
  3. Summary 識別モデルをもとに energy-based model(EBM)を定義 通常のクラス分類と並行してデータの生成分布を学習する =JEM:Joint Energy-based Model • (ほぼ)どんな識別モデルでも適用可能

    • 生成モデルに由来するメリットを保持 ◦ 予測確率のキャリブレーション ◦ 分布外検知 ◦ 敵対的サンプルに対するロバスト性 3
  4. Why generative model? • メリット ◦ 高次元データの潜在的な構造を抽出できる ◦ 教師なしデータを活用できる ◦

    半教師あり学習、欠損値の補完、不確実性の キャリブレーションに有用 • 最近の動向 ◦ 生成サンプルの品質や尤度を目標とした研究が多い ◦ 一方で応用(downstream applications)に対する 関心は比較的少ない 4
  5. Hand-tailored solutions work/scale better 生成モデルの使いどころ • 分布外検知 • ロバスト分類 •

    半教師あり学習 実際はそれぞれ特化したアプローチが広く利用さ れている • 分布外検知用の分類モデルを構築 • 敵対的学習 • データ拡張+正則化 5 Why? • 深層生成モデルのアーキテクチャが識別モデルに比べて乱立している • 深層生成モデルが識別タスクを意識して設計されていない
  6. Experiments: Calibration • 運用上は予測確率( predictive uncertainty)と 正解率の整合性が重要 • ECE(Expected Calibration

    Error) ◦ 予測確率と正解率の整合性を評価 • JEMによって予測確率がキャリブレーションされ ることを確認 19
  7. Experiments: Out-of-distribution detection • ああを用いた分布外検知が可能 ◦ 学習データ:CIFAR-10 ◦ 分布外(OOD)データ:SVHN、CIFAR-100、 CelebA

    • ああああのヒストグラム ◦ CIFAR-10が→(尤度大) ◦ OODデータが←(尤度小)だと良い • GlowよりもOODデータを分離できている ◦ 定量評価も論文に掲載 20
  8. Experiments: Adversarial robustness • Distal adversarials ◦ ランダムな初期値から分類確率が高くなる サンプルを生成する •

    各モデルであああああああああ  となるサンプル ◦ CNN:ほぼノイズ ◦ ADV(ResNet+敵対的学習) :車らしい構造はあるがノイズが多い ◦ JEM:他モデルよりも自然な画像が出現 22
  9. Limitations & Discussions • 正規化尤度が計算できないので学習が適切に進んでいるかを確かめづらい • EBMの学習が不安定 ◦ MCMCサンプリングのパラメータチューニングが必要 ◦

    正則化の導入によって学習を安定化できるかもしれない • MCMCを用いるため学習・評価が面倒になりやすい • Follow-up work ◦ “Cutting out the Middle-Man: Training and Evaluating Energy-Based Models without Sampling” ◦ EBMの学習・評価に関する問題に言及 23
  10. References • 内容に関する図は全て論文・公開スライドから引用 ◦ 論文:https://openreview.net/pdf?id=Hkxzx0NtDB ◦ スライド:https://iclr.cc/virtual_2020/poster_Hkxzx0NtDB.html • EBMの学習、MCMCベースの学習法 ◦

    Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016. • 確率的ランジュバン動力学法( SGLD) ◦ 須山敦志. ベイズ深層学習. 講談社, 2019 24