深層密度比推定

非負ブレグマン距離による深層密度比推定 ICML 2021 Masahiro Kato, Cyberagent Inc. Takeshi Teshima, The
University of Tokyo. 1

n できるようになったこと：深層学習を用いる密度比推定． • 今までは学習の過程で損失が発散するため難しかった． n 深層学習を用いる密度比推定ができると • 異常検知； •
因果推論； • 敵対的生成モデル； • 変分ベイズ；などの研究が発展する（？） n 理論的貢献：弱い．深層密度比モデルのエラーレートを出した． n おまけ： PU学習という研究分野が密度比推定の特殊な場合だと判明．非負ブレグマン距離による深層密度比推定 2

n ゴール: 深層学習による密度比推定． n 問題: 深層学習を行うと学習の目的関数が発散しやすい． n 貢献: • 学習の目的関数が発散する原因を突き止めた；
• 問題を緩和するために目的関数（経験リスク）に非負化修正を加えた； • 提案手法が異常検知で優れたパフォーマンスを示すことを実証した．問題設定 3

n 密度比 𝑟∗ 𝑥 = 𝑝 𝑥 𝑞 𝑥 •
二つの確率密度𝑝 𝑥 と𝑞(𝑥)の比. n 密度比は機械学習の様々なタスクで現れる • 異常検知； • ドメイン適応； • 因果推論； • 変分ベイズ．密度比推定 4 ー Pdf of dataset 𝐴: 𝑝 𝑥 ー Pdf of dataset 𝐵: 𝑞(𝑥) 𝑝(𝑥) 𝑞(𝑥) Density ratio 𝑟 𝑥 = 𝑝(𝑥)/𝑞(𝑥)

n どのように密度比を推定するのか？ n 二つのデータセットがあるとする： 𝑥" #$ "%& '!" ∼ 𝑝
𝑥 𝑥( )* (%& '#$ ∼ 𝑞(𝑥) n ナイーブな密度比推定の方法は二つの確率密度をそれぞれ推定すること． • そして，二つの密度関数の推定量を使って密度比を推定する． ̂ 𝑟 𝑥 = ̂ 𝑝 𝑥 * 𝑞 𝑥 . • しかし，確率密度関数の推定はそれ自体が難しい（カーネル密度推定）．密度比推定 5

n 密度比推定のために別の難しさ（密度関数の推定）を被りたくない． → 密度比を密度の推定を介せずに直接推定する方法が提案されている．これを直接的な密度推定（Density Ratio Estimation; DRE）．様々な手法が直接的なDREのために提案されている． •
ロジスティック回帰 (Hastie et al., 2001) • カーネル平均マッチング (Gretton et al., 2009) • 最小二乗法 (Kanamori et al., 2009) … etc. Ø Sugiyama et al. (2011)はこれらの手法をブレグマン距離（Bregman Divergence; BD）最小化の枠組みで一般化・統合した. 直接密度比推定 6

n サンプル近似された（経験）BDを用いることで，直接的なDREの目的関数を以下の形で書くことができる: , BD+ 𝑟 : = 0
𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" . ここで， • 0 𝔼)* は 𝑥( )* (%& '#$ ∼ 𝑞(𝑥)を用いるサンプル平均． • 0 𝔼#$ は 𝑥" #$ "%& '#$ ∼ 𝑝(𝑥)を用いるサンプル平均． • 𝑓(𝑡)は２階連続的微分可能な凸関数． n 関数𝑓 𝑡 を変えることで，様々な直接的なDREの手法の目的関数を得ることができる．ブレグマン距離最小化による直接密度比推定 7

n 密度比𝑟∗は ̂ 𝑟 = argmin ,∈ℋ , BD+ 𝑟
= argmin ,∈ℋ 0 𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" のように経験BDを最小化することで推定される．ブレグマン距離最小化による直接密度比推定 8

n 既存研究では，密度比𝑟∗は線形モデルを用いて推定されてきた． ↔ 近年では，ニューラルネットワークがCVやNLPなどの多くのタスクで有用であると報告されている．密度比をニューラルネットワークを用いて推定したい． n ニューラルネットワークを経験BD最小化に用いる． → −
0 𝔼#$ 𝜕𝑓 𝑟 𝑋" が存在するため，訓練損失が−∞になってしまう． min ,∈ℋ 0 𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" . ブレグマン距離最小化による直接密度比推定 9 −∞

n この現象をtrain loss hackingと呼ぶことにする．この現象の原因は • (i) モデルが非常に柔軟であること，(ii) サンプルが有限であること． →
柔軟なモデルが過学習し，損失関数を−∞にする． Train Loss Hacking 10 - 第１項：! 𝔼!" 𝜕𝑓 𝑟 𝑋# 𝑟 𝑋# − 𝑓 𝑟 𝑋# → 0に近い値を取る． - 第２項： ! 𝔼$% 𝜕𝑓 𝑟 𝑋& . → −∞に発散する． −∞ 0

n もう一度損失関数 min ,∈ℋ 0 𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟
𝑋( − 𝑓 𝑟 𝑋( − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" . を見てみる． n 𝑟 𝑋" にバウンドがない場合： • − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" が無限小に発散していく． n 𝑟 𝑋" にバウンドがある場合： • 𝜕𝑓 𝑟 𝑋" が単調増加関数なので天井に引っ付く．なぜTrain Loss Hackingが起こるのか 11

n − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" が無限小になる⇔ 密度比𝑟 𝑋"
が無限に大きくなる． → あるデータに対して密度比が無限に大きくなるのを防ぎたい． n ある正の定数𝑅 > 0が存在して，全ての𝑥と密度比𝑟∗(𝑥)に対して， 𝑟∗ 𝑥 < 𝑅であることを仮定する． n 𝑟∗ 𝑥 < 𝑅であるようにモデルを工夫する？ • 例：シグモイド関数𝑟 𝑥 = / &0*12 3+ 4 ．天井に引っ付く問題を回避できない． n なんらかの制約つき最適化問題を解く？ → 深層学習と制約つき最適化問題を合わせるのは難しい．どうやって防ぐ？ 12

n 𝐶は𝐶 > 1/𝑅であるような正の定数． n 損失関数を 0 𝔼)* 𝜕𝑓 𝑟
𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" = F G 0 𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( − 𝐶0 𝔼#$ 𝜕𝑓 𝑟 𝑋( 𝑟 𝑋( − 𝑓 𝑟 𝑋( + 0 𝔼#$ ℓ5 𝑟 𝑋" = 0 𝔼)* ℓ&(𝑟(𝑋()) − 𝐶0 𝔼#$ ℓ&(𝑟(𝑋()) + 0 𝔼#$ ℓ5 𝑟 𝑋" . として分解する． • ℓ5 𝑟 𝑋" はもとの目的関数に整合的になるように設定される関数どうやって防ぐ？ 13

n 引き続き，𝑟∗ 𝑥 < 𝑅であることは知っているものとする． n 𝑟∗ 𝑥 < 𝑅であるなら，
𝔼)* ℓ&(𝑟(𝑋()) − 𝐶𝔼#$ ℓ&(𝑟(𝑋()) は必ず正の値を取る（𝐶 = 1/𝑅）． n なぜなら， 𝔼)* ℓ&(𝑟(𝑋()) − 𝐶𝔼#$ ℓ& 𝑟 𝑋( = ∫ ℓ& 𝑟 𝑋( 𝑞 𝑥 − 𝑝 𝑥 𝑅 d𝑥 で， 𝑟∗ 𝑥 < 𝑅より𝑞 𝑥 − 6 4 / = 𝑞 𝑥 1 − ,∗ 4 / > 0となる． n 制約つき最適化を介せず，モデルの挙動を制限するような制約を入れる．非負化修正 14

→ この観察に基づいて， 𝑟 𝑋" が無限に大きくならないように， 𝑅を用いて以下のような非負化修正を行う． L nnBD+ 𝑟
= 0 𝔼)* ℓ&(𝑟(𝑋() − 𝐶0 𝔼#$ ℓ&(𝑟(𝑋") 0 + 0 𝔼#$ ℓ5 𝑟 𝑋" . n 密度比𝑟 𝑋" が無限に大きくなることはない？ • 非負制約に引っかかる． n 天井に張り付く？ • 0 𝔼#$ ℓ5 𝑟 𝑋" は（一般的には）単調な関数ではない． n この修正された経験BDを非負BD (nonnegative BD, nnBD) と呼ぶ． n 理論的に裏付けられた解決策ではない． • 解決策はこれ以外にもありうる？非負化修正 15

非負ブレグマン距離の例 16 n 右のような目的関数を用いて密度比を推定することができる． • 上からそれぞれ，既存の直接DRE の手法であるLSIF・UKL・BKL・PU に対応． •
このように既存の手法を非負化修正を加えたものに変換できる．

nnBD最小化による深層直接DRE n nnBD最小化による直接的なを深層直接DRE (D3RE) と呼ぶ. ̂ 𝑟 = argmin ,∈ℋ
L nnBD+ 𝑟 Ø D3REはtrain loss hacking問題を大きく緩和することができる. 17 AUC Epoch

nnBD最小化による深層直接DRE 18 AUC Epoch

n Inlier-based outlier detection︓異常検知の問題設定の一種 • Hido, Tsuboi, Kashima, Sugiyama, and
Kanamori 2010. “Statistical outlier detection using direct density ratio estimation” • 使えるデータ：正常データと正常と異常が混じったテストデータ． • 半教師あり異常検知ともいえる？ • Hidoらの論文では線形モデルによって密度比を推定していた． Inlier-based Outlier Detection 19

20 正常なデータ正常と異常が混じったデータ正常なデータを犬，異常なデータを猫とする．正常なデータと正常と異常が混じったデータを使って密度比を推定．正常と異常が混じったデータから異常なデータ（猫）を見つける． Inlier-based Outlier Detection

Inlier-based Outlier Detection 21

Inlier-based Outlier Detection 22 n MNISTとCIFAR-10とFMNIST で実験． n AUCで評価． n
GTはテストデータのない通常の異常検知の手法． n この設定なら提案手法を使えば圧倒的な性能． n nnBD-PUは実質Kiryo et al. 2018のnnPU．

n 深層学習によるDREのために非負化修正を提案． n 提案されたD3RE performed well in anomaly detection. n
We expect that D3RE is applicable to other applications, such as • 因果推論; • 変分ベイズ法; • 敵対的生成ネットワーク． n 推薦システムにも応用できて，すでにThe Web conferenceに採択． n ノンパラメトリック操作変数を，深層密度比推定を用いて行った． • 近日中にarXivに公開．結論 23

n Gretton, A., Smola, A., Huang, J., Schmittfull, M., Borgwardt,
K., and Schölkopf, B. Covariate shift by kernel mean matching. Dataset Shift in Machine Learning, 131-160 (2009), 01 2009. n Hastie, T., Tibshirani, R., and Friedman, J. The elements of statistical learning: data mining, inference and prediction. Springer, 2001. n Kanamori, T., Hido, S., and Sugiyama, M. A least-squares approach to direct importance estimation. Journal of Machine Learning Research, 10(Jul.):1391–1445, 2009. n Kiryo, R., Niu, G., du Plessis, M. C., and Sugiyama, M. Positive-unlabeled learning with non-negative risk estimator. In NeurIPS, 2017. n Sugiyama, M., Suzuki, T., and Kanamori, T. Density ratio matching under the bregman divergence: A unified frame-work of density ratio estimation. Annals of the Institute of Statistical Mathematics, 64, 10 2011b Reference 24

深層密度比推定

深層密度比推定

MasaKat0

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

非負ブレグマン距離による深層密度比推定 ICML 2021 Masahiro Kato, Cyberagent Inc. Takeshi Teshima, The

n できるようになったこと：深層学習を用いる密度比推定． • 今までは学習の過程で損失が発散するため難しかった． n 深層学習を用いる密度比推定ができると • 異常検知； •

n ゴール: 深層学習による密度比推定． n 問題: 深層学習を行うと学習の目的関数が発散しやすい． n 貢献: • 学習の目的関数が発散する原因を突き止めた；

n 密度比 𝑟∗ 𝑥 = 𝑝 𝑥 𝑞 𝑥 •

n どのように密度比を推定するのか？ n 二つのデータセットがあるとする： 𝑥" #$ "%& '!" ∼ 𝑝

n サンプル近似された（経験）BDを用いることで，直接的なDREの目的関数を以下の形で書くことができる: , BD+ 𝑟 : = 0

n 密度比𝑟∗は ̂ 𝑟 = argmin ,∈ℋ , BD+ 𝑟

n この現象をtrain loss hackingと呼ぶことにする．この現象の原因は • (i) モデルが非常に柔軟であること，(ii) サンプルが有限であること． →

n もう一度損失関数 min ,∈ℋ 0 𝔼)* 𝜕𝑓 𝑟 𝑋( 𝑟

n − 0 𝔼#$ 𝜕𝑓 𝑟 𝑋" が無限小になる⇔ 密度比𝑟 𝑋"

n 𝐶は𝐶 > 1/𝑅であるような正の定数． n 損失関数を 0 𝔼)* 𝜕𝑓 𝑟

n 引き続き，𝑟∗ 𝑥 < 𝑅であることは知っているものとする． n 𝑟∗ 𝑥 < 𝑅であるなら，

→ この観察に基づいて， 𝑟 𝑋" が無限に大きくならないように， 𝑅を用いて以下のような非負化修正を行う． L nnBD+ 𝑟

非負ブレグマン距離の例 16 n 右のような目的関数を用いて密度比を推定することができる． • 上からそれぞれ，既存の直接DRE の手法であるLSIF・UKL・BKL・PU に対応． •

nnBD最小化による深層直接DRE n nnBD最小化による直接的なを深層直接DRE (D3RE) と呼ぶ. ̂ 𝑟 = argmin ,∈ℋ

nnBD最小化による深層直接DRE 18 AUC Epoch

n Inlier-based outlier detection︓異常検知の問題設定の一種 • Hido, Tsuboi, Kashima, Sugiyama, and

Inlier-based Outlier Detection 21

Inlier-based Outlier Detection 22 n MNISTとCIFAR-10とFMNIST で実験． n AUCで評価． n

n 深層学習によるDREのために非負化修正を提案． n 提案されたD3RE performed well in anomaly detection. n

n Gretton, A., Smola, A., Huang, J., Schmittfull, M., Borgwardt,