Upgrade to Pro — share decks privately, control downloads, hide ads and more …

深層密度比推定

MasaKat0
June 27, 2021

 深層密度比推定

深層学習を用いる密度比推定.

MasaKat0

June 27, 2021
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 非負ブレグマン距離による深層密度比推定
    ICML 2021
    Masahiro Kato, Cyberagent Inc.
    Takeshi Teshima, The University of Tokyo.
    1

    View Slide

  2. n できるようになったこと: 深層学習を用いる密度比推定.
    • 今までは学習の過程で損失が発散するため難しかった.
    n 深層学習を用いる密度比推定ができると
    • 異常検知;
    • 因果推論;
    • 敵対的生成モデル;
    • 変分ベイズ;
    などの研究が発展する(?)
    n 理論的貢献:弱い.深層密度比モデルのエラーレートを出した.
    n おまけ: PU学習という研究分野が密度比推定の特殊な場合だと判明.
    非負ブレグマン距離による深層密度比推定 2

    View Slide

  3. n ゴール: 深層学習による密度比推定.
    n 問題: 深層学習を行うと学習の目的関数が発散しやすい.
    n 貢献:
    • 学習の目的関数が発散する原因を突き止めた;
    • 問題を緩和するために目的関数(経験リスク)に非負化修正を加えた;
    • 提案手法が異常検知で優れたパフォーマンスを示すことを実証した.
    問題設定 3

    View Slide

  4. n 密度比
    𝑟∗ 𝑥 =
    𝑝 𝑥
    𝑞 𝑥
    • 二つの確率密度𝑝 𝑥 と𝑞(𝑥)の
    比.
    n 密度比は機械学習の様々なタ
    スクで現れる
    • 異常検知;
    • ドメイン適応;
    • 因果推論;
    • 変分ベイズ.
    密度比推定 4
    ー Pdf of dataset 𝐴: 𝑝 𝑥 ー Pdf of dataset 𝐵: 𝑞(𝑥)
    𝑝(𝑥) 𝑞(𝑥)
    Density ratio 𝑟 𝑥 = 𝑝(𝑥)/𝑞(𝑥)

    View Slide

  5. n どのように密度比を推定するのか?
    n 二つのデータセットがあるとする:
    𝑥"
    #$
    "%&
    '!"
    ∼ 𝑝 𝑥
    𝑥(
    )*
    (%&
    '#$
    ∼ 𝑞(𝑥)
    n ナイーブな密度比推定の方法は二つの確率密度をそれぞれ推定すること.
    • そして,二つの密度関数の推定量を使って密度比を推定する.
    ̂
    𝑟 𝑥 =
    ̂
    𝑝 𝑥
    *
    𝑞 𝑥
    .
    • しかし,確率密度関数の推定はそれ自体が難しい(カーネル密度推定).
    密度比推定 5

    View Slide

  6. n 密度比推定のために別の難しさ(密度関数の推定)を被りたくない.
    → 密度比を密度の推定を介せずに直接推定する方法が提案されている.
    これを直接的な密度推定(Density Ratio Estimation; DRE).
    様々な手法が直接的なDREのために提案されている.
    • ロジスティック回帰 (Hastie et al., 2001)
    • カーネル平均マッチング (Gretton et al., 2009)
    • 最小二乗法 (Kanamori et al., 2009)
    … etc.
    Ø Sugiyama et al. (2011)はこれらの手法をブレグマン距離(Bregman
    Divergence; BD)最小化の枠組みで一般化・統合した.
    直接密度比推定 6

    View Slide

  7. n サンプル近似された(経験)BDを用いることで, 直接的なDREの目的関数
    を以下の形で書くことができる:
    ,
    BD+ 𝑟 : = 0
    𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋" .
    ここで,
    • 0
    𝔼)*
    は 𝑥(
    )*
    (%&
    '#$
    ∼ 𝑞(𝑥)を用いるサンプル平均.
    • 0
    𝔼#$
    は 𝑥"
    #$
    "%&
    '#$
    ∼ 𝑝(𝑥)を用いるサンプル平均.
    • 𝑓(𝑡)は2階連続的微分可能な凸関数.
    n 関数𝑓 𝑡 を変えることで,様々な直接的なDREの手法の目的関数を得るこ
    とができる.
    ブレグマン距離最小化による直接密度比推定 7

    View Slide

  8. n 密度比𝑟∗は
    ̂
    𝑟 = argmin
    ,∈ℋ
    ,
    BD+ 𝑟
    = argmin
    ,∈ℋ
    0
    𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋"
    のように経験BDを最小化することで推定される.
    ブレグマン距離最小化による直接密度比推定 8

    View Slide

  9. n 既存研究では,密度比𝑟∗は線形モデルを用いて推定されてきた.
    ↔ 近年では,ニューラルネットワークがCVやNLPなどの多くのタスクで有用で
    あると報告されている.
    密度比をニューラルネットワークを用いて推定したい.
    n ニューラルネットワークを経験BD最小化に用いる.
    → − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋"
    が存在するため,訓練損失が−∞になってしまう.
    min
    ,∈ℋ
    0
    𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋" .
    ブレグマン距離最小化による直接密度比推定 9
    −∞

    View Slide

  10. n この現象をtrain loss hackingと呼ぶことにする.
    この現象の原因は
    • (i) モデルが非常に柔軟であること,(ii) サンプルが有限であること.
    → 柔軟なモデルが過学習し,損失関数を−∞にする.
    Train Loss Hacking 10
    - 第1項:!
    𝔼!"
    𝜕𝑓 𝑟 𝑋#
    𝑟 𝑋#
    − 𝑓 𝑟 𝑋#
    → 0に近い値を取る.
    - 第2項: !
    𝔼$%
    𝜕𝑓 𝑟 𝑋&
    .
    → −∞に発散する.
    −∞
    0

    View Slide

  11. n もう一度損失関数
    min
    ,∈ℋ
    0
    𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋" .
    を見てみる.
    n 𝑟 𝑋"
    にバウンドがない場合:
    • − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋"
    が無限小に発散していく.
    n 𝑟 𝑋"
    にバウンドがある場合:
    • 𝜕𝑓 𝑟 𝑋"
    が単調増加関数なので天井に引っ付く.
    なぜTrain Loss Hackingが起こるのか 11

    View Slide

  12. n − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋"
    が無限小になる⇔ 密度比𝑟 𝑋"
    が無限に大きくなる.
    → あるデータに対して密度比が無限に大きくなるのを防ぎたい.
    n ある正の定数𝑅 > 0が存在して,全ての𝑥と密度比𝑟∗(𝑥)に対して,
    𝑟∗ 𝑥 < 𝑅であることを仮定する.
    n 𝑟∗ 𝑥 < 𝑅であるようにモデルを工夫する?
    • 例:シグモイド関数𝑟 𝑥 = /
    &0*12 3+ 4

    天井に引っ付く問題を回避できない.
    n なんらかの制約つき最適化問題を解く?
    → 深層学習と制約つき最適化問題を合わせるのは難しい.
    どうやって防ぐ? 12

    View Slide

  13. n 𝐶は𝐶 > 1/𝑅であるような正の定数.
    n 損失関数を
    0
    𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0
    𝔼#$ 𝜕𝑓 𝑟 𝑋"
    = F
    G
    0
    𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋(
    − 𝐶0
    𝔼#$ 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( + 0
    𝔼#$ ℓ5 𝑟 𝑋"
    = 0
    𝔼)* ℓ&(𝑟(𝑋()) − 𝐶0
    𝔼#$ ℓ&(𝑟(𝑋()) + 0
    𝔼#$ ℓ5 𝑟 𝑋" .
    として分解する.
    • ℓ5 𝑟 𝑋"
    はもとの目的関数に整合的になるように設定される関数
    どうやって防ぐ? 13

    View Slide

  14. n 引き続き,𝑟∗ 𝑥 < 𝑅であることは知っているものとする.
    n 𝑟∗ 𝑥 < 𝑅であるなら,
    𝔼)* ℓ&(𝑟(𝑋()) − 𝐶𝔼#$ ℓ&(𝑟(𝑋())
    は必ず正の値を取る(𝐶 = 1/𝑅).
    n なぜなら,
    𝔼)* ℓ&(𝑟(𝑋()) − 𝐶𝔼#$ ℓ& 𝑟 𝑋( = ∫ ℓ& 𝑟 𝑋( 𝑞 𝑥 −
    𝑝 𝑥
    𝑅
    d𝑥
    で, 𝑟∗ 𝑥 < 𝑅より𝑞 𝑥 − 6 4
    /
    = 𝑞 𝑥 1 − ,∗ 4
    /
    > 0となる.
    n 制約つき最適化を介せず,モデルの挙動を制限するような制約を入れる.
    非負化修正 14

    View Slide

  15. → この観察に基づいて, 𝑟 𝑋"
    が無限に大きくならないように, 𝑅を用いて以
    下のような非負化修正を行う.
    L
    nnBD+ 𝑟 = 0
    𝔼)* ℓ&(𝑟(𝑋() − 𝐶0
    𝔼#$ ℓ&(𝑟(𝑋")
    0
    + 0
    𝔼#$ ℓ5 𝑟 𝑋" .
    n 密度比𝑟 𝑋"
    が無限に大きくなることはない?
    • 非負制約に引っかかる.
    n 天井に張り付く?
    • 0
    𝔼#$ ℓ5 𝑟 𝑋"
    は(一般的には)単調な関数ではない.
    n この修正された経験BDを非負BD (nonnegative BD, nnBD) と呼ぶ.
    n 理論的に裏付けられた解決策ではない.
    • 解決策はこれ以外にもありうる?
    非負化修正 15

    View Slide

  16. 非負ブレグマン距離の例 16
    n 右のような目的関数を用いて密度
    比を推定することができる.
    • 上からそれぞれ,既存の直接DRE
    の手法であるLSIF・UKL・BKL・PU
    に対応.
    • このように既存の手法を非負化修
    正を加えたものに変換できる.

    View Slide

  17. nnBD最小化による深層直接DRE
    n nnBD最小化による直接的なを深層直接DRE (D3RE) と呼ぶ.
    ̂
    𝑟 = argmin
    ,∈ℋ
    L
    nnBD+ 𝑟
    Ø D3REはtrain loss hacking問題を大きく緩和することができる.
    17
    AUC
    Epoch

    View Slide

  18. nnBD最小化による深層直接DRE 18
    AUC
    Epoch

    View Slide

  19. n Inlier-based outlier detection︓異常検知の問題設定の一種
    • Hido, Tsuboi, Kashima, Sugiyama, and Kanamori 2010.
    “Statistical outlier detection using direct density ratio estimation”
    • 使えるデータ:正常データと正常と異常が混じったテストデータ.
    • 半教師あり異常検知ともいえる?
    • Hidoらの論文では線形モデルによって密度比を推定していた.
    Inlier-based Outlier Detection 19

    View Slide

  20. 20
    正常なデータ 正常と異常が混じったデータ
    正常なデータを犬,異常なデータを猫とする.
    正常なデータと正常と異常が混じったデータを使って密度比を推定.
    正常と異常が混じったデータから異常なデータ(猫)を見つける.
    Inlier-based Outlier Detection

    View Slide

  21. Inlier-based Outlier Detection 21

    View Slide

  22. Inlier-based Outlier Detection 22
    n MNISTとCIFAR-10とFMNIST
    で実験.
    n AUCで評価.
    n GTはテストデータのない通常
    の異常検知の手法.
    n この設定なら提案手法を使え
    ば圧倒的な性能.
    n nnBD-PUは実質Kiryo et al.
    2018のnnPU.

    View Slide

  23. n 深層学習によるDREのために非負化修正を提案.
    n 提案されたD3RE performed well in anomaly detection.
    n We expect that D3RE is applicable to other applications, such as
    • 因果推論;
    • 変分ベイズ法;
    • 敵対的生成ネットワーク.
    n 推薦システムにも応用できて,すでにThe Web conferenceに採択.
    n ノンパラメトリック操作変数を,深層密度比推定を用いて行った.
    • 近日中にarXivに公開.
    結論 23

    View Slide

  24. n Gretton, A., Smola, A., Huang, J., Schmittfull, M., Borgwardt, K., and Schölkopf, B. Covariate shift by
    kernel mean matching. Dataset Shift in Machine Learning, 131-160 (2009), 01 2009.
    n Hastie, T., Tibshirani, R., and Friedman, J. The elements of statistical learning: data mining, inference and
    prediction. Springer, 2001.
    n Kanamori, T., Hido, S., and Sugiyama, M. A least-squares approach to direct importance estimation.
    Journal of Machine Learning Research, 10(Jul.):1391–1445, 2009.
    n Kiryo, R., Niu, G., du Plessis, M. C., and Sugiyama, M. Positive-unlabeled learning with non-negative risk
    estimator. In NeurIPS, 2017.
    n Sugiyama, M., Suzuki, T., and Kanamori, T. Density ratio matching under the bregman divergence: A
    unified frame-work of density ratio estimation. Annals of the Institute of Statistical Mathematics, 64, 10
    2011b
    Reference 24

    View Slide