Slide 1

Slide 1 text

Netadashi Meetup #7 Oct 19, 2018 異常検知の評価指標って何を使えばいいの?

Slide 2

Slide 2 text

Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 - ) ● Researcher ● Data Science & Infrastructure Technologies ● System Research & Development Center ● Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps

Slide 3

Slide 3 text

学習を終えたらモデルの性能を評価しなければならない Chapman, P., et al., "CRISP-DM 1.0 Step-by-step data mining guides," 2000. 3

Slide 4

Slide 4 text

不均衡データの場合,評価指標に F 値を使う事が多い 適合率(precision)と 再現率(recall)の調和平均で表される評価指標 実ラベル Y 混同行列 (confusion matrix) 正常 pos: +1 異常 neg: -1 予測ラベル f(X) 正常 pos: +1 true positive (tp) false positive (fp) 異常 neg: -1 false negative (fn) true negative (tn) 4

Slide 5

Slide 5 text

新規性検知の評価指標は F 値を使えばいいの? 新規性検知の場合,異常標本を一つも入手できない事がある このとき,F 値(正確に言うと適合率)は算出できない いいえ 5

Slide 6

Slide 6 text

F 値に似た Lee-Liu metric と呼ばれる評価指標がある 適合率と再現率の幾何平均の二乗の定数倍で表される 評価指標 実ラベル Y 混同行列 (confusion matrix) 正常 pos: +1 異常 neg: -1 予測ラベル f(X) 正常 pos: +1 true positive (tp) false positive (fp) 異常 neg: -1 false negative (fn) true negative (tn) Lee, W. S, and Liu, B., "Learning with positive and unlabeled examples using weighted Logistic Regression," In Proceedings of ICML, pp. 448-455, 2003. 6

Slide 7

Slide 7 text

新規性検知の評価指標は Lee-Liu metric を使えばいいの? ベイズの定理より式変形することで適合率が消える したがって,明示的に適合率を求めることなく算出できる https://stats.stackexchange.com/questions/192530/metrics-for-one-class-classification はい 7