ディープじゃない異常検知の話

by masa-ita

Slide 1

Slide 1 text

ディープじゃない異常検知の話板垣正敏＠Python機械学習勉強会in新潟 2019/6/1

Slide 2

Slide 2 text

⾃⼰紹介板垣正敏（いたがきまさとし） 1955年新潟県村上市⽣まれ株式会社BSNアイネット技術顧問中⼩企業診断⼠ NPO法⼈新潟オープンソース協会理事⽇本Rubyの会会員 Python機械学習勉強会 in 新潟世話⼈

Slide 3

Slide 3 text

本⽇のお話はじめに異常検知とは︖ 時系列ではないデータの異常検知異常検知の性能評価時系列データの異常検知

Slide 4

Slide 4 text

はじめに今⽇のネタ本はこれです「⼊⾨機械学習による異常検知―Rによる実践ガイド」井⼿剛著コロナ社 http://www.coronasha.co.jp/np/isbn/97 84339024913/ 異常検知に関する⽇本語の書籍はいくつかありますが、コード例を⽰した本ということで参考にしました

Slide 5

Slide 5 text

異常検知とは︖ 異常検知とは「正常ではない状態を検出すること」それでは、「正常な状態」とは何︖ 「正常な状態」の定義によって、様々な検出⼿法が⽣まれてくる

Slide 6

Slide 6 text

時系列ではないデータの異常検知

Slide 7

Slide 7 text

距離を基にした異常検知「正常な状態は互いに似通っている」という仮説に基づく考え⽅「正常なデータ」はかたまっているはずその「かたまり」から遠く離れたデータは「異常」（外れ値）データが数値ベクトルであれば、距離の定義は簡単⼀般的な距離の定義は「ユークリッド距離」 , = & '() * (' − ' ).

Slide 8

Slide 8 text

距離を基にした異常検知の⼿順データの準備距離の定義距離の計算閾値（どれくらい離れていたら異常とするか）閾値は相対的な判断しかできない︖

Slide 9

Slide 9 text

確率分布を基にした異常検知「距離」を基にした異常検知でも、実はデータの分布についての仮定を⾏っていた「正常なデータ」はかたまっているはず分布に関する仮定がないと閾値の設定が難しい分布にはいろいろあり、データの性質に基づいた分布を仮定するのが正しいやり⽅ただし、「⼤数の法則」があるため、「正規分布」を仮定することが多い「異常」とは「めったに起こらないことが起きた」という定義正規分布での「正常なデータのかたまりからの距離」すなわち「異常度」は、次の式で定義される 1 = 1 − 2 2 . ′ は新たな観測値、 2 は標本平均、 2 は標本標準偏差

Slide 10

Slide 10 text

正規分布の異常度と確率全スライドの異常度は「分散で調整された平均からの距離の2 乗」平均からどれくらい離れたら異常とするかの「閾値」は、「どれくらい稀なことなのか」という確率から求める「信頼区間」から決める scipy.stats.norm.interval(alpha, loc=0, scale=1)

Slide 11

Slide 11 text

ホテリング理論 1次元の観測データN個が正規分布に従う時、同じ正規分布に独⽴に従う観測値の異常度の整数倍は、⾃由度（1, N-1）のF分布に従う特にNが1より⼗分に⼤きい場合、異常度は⾃由度１，スケール因⼦１のカイ⼆乗分布に従う⾃由度のカイ⼆乗分布︓ ; = ) .9/;< =/. =/.>) >@/.

Slide 12

Slide 12 text

ホテリングのT2法準備︓異常が含まれていないか、含まれていてもごく少数と思われるデータセットを⽤意する閾値の設定︓異常度を確率として捉え、カイ⼆乗分布から異常度の閾値を定める分布推定︓標本平均と標本分散（標本標準偏差）を計算する異常度の計算︓確率密度関数から異常度を計算する閾値判定︓異常度を閾値と⽐較する

Slide 13

Slide 13 text

マハラノビス距離︓多次元正規分布の場合多次元の場合、正常値でもばらつきの多い次元とばらつきの⼩さい次元があることが想定されるこのため距離（異常度）の定義も、ばらつき⼤⼩を補正するために「マハラノビス距離」を⽤いるマハラノビス距離（の⼆乗）の定義 1 = 1 − 2 A B Σ>)(1 − 2 ) ′ は観測値ベクトル、2 は標本平均ベクトル、B Σ は標本共分散⾏列

Slide 14

Slide 14 text

多変数の場合のホテリング理論 M次元の観測データN個がM次元正規分布に従う時、同じM次元正規分布に独⽴に従う観測値の異常度は、⾃由度（N, N-M）のF分布に⽐例する特にNがMより⼗分に⼤きい場合、異常度は⾃由度M，スケール因⼦１のカイ⼆乗分布に従う Scipy.stats/NumPyを使った実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/01_hotelling_method.ipynb

Slide 15

Slide 15 text

マハラノビス-タグチ法（MT法）品質⼯学（タグチメソッド）の提唱者である⽥⼝⽞⼀博⼠が考案したマハラノビス距離と直交法を使ったばらつきの測定法多変数のホテリング理論では、ばらつきは定義できるが、どの変数がそのばらつきの原因かは計算できない MT法では変数集合に対してSN⽐という概念を導⼊し、ばらつきの原因となった変数を特定することが可能 NumPyのみでの実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/02_mt_method.ipynb

Slide 16

Slide 16 text

ガンマ分布による異常検知「ひと⼭」ではあるが「正の値しかとらない」「左右対称でない」分布を持つデータに対しての異常検知 Ex. 体重などガンマ分布のパラメータ推定法にはモーメント法や最尤法が使われる異常度の定義は負の対数尤度を使うが、分布は容易に求めることができないため、閾値は分位点で定めるのが現実的 Scipy.stats/NumPyによる実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/03_gamma_dist.ipynb

Slide 17

Slide 17 text

異常データが混⼊した訓練データ分布推定による異常検知では、訓練データに異常データが混じっていないか、混じっていても無視できるくらいに少ないことが前提訓練データに異常データが混じっている場合の対応策の⼀つが、正規分布の線型結合モデルを仮定して、期待値最⼤化法（EM法）でパラメータを推定する⼿法

Slide 18

Slide 18 text

k-近傍法 M次元からなるデータの異常判定法でデータの分布を仮定しない⼿法 M次元データN個からなるデータ空間で、新たな観測データ ′ に対して ′ を中⼼としたM次元球体を考える基準︓球の半径を決めた時、その中に⼊る標本の数がある基準値以下なら ′ は異常基準︓観測値 ′ に近い個の標本を選んだ時、それらを囲む球の半径 ∈= がある基準値以上なら ′ は異常

Slide 19

Slide 19 text

カーネル密度推定データの分布から、データ空間の点のデータの存在確率を推定したモデルを構築する⽅法点と点の間の「類似度」を定義する関数（カーネル関数）を使⽤するが、カーネル関数には正規分布がよく使われる statsmodelsによる実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/04_kde_statsmodels.ipynb

Slide 20

Slide 20 text

クラスタリングによる⽅法データをクラスタリングによって「塊（クラスター）の集合」ととらえ、どの塊にも属さないデータを異常と考える⼿法クラスタリングの⼿法として次のようなものが使われる k-means法クラスターの中⼼からの距離を使って、あるデータ点がどのクラスターに属するかを決め、中⼼を更新しながら繰り返す⼿法混合正規分布モデルクラスターを正規分布と仮定して、データ点を最も所属する確率の⾼いクラスターに分類していく⼿法 scikit-learnによる実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/05_gaussian_mixture.ipynb

Slide 21

Slide 21 text

時系列ではないデータの異常検知⼿法分布⼀⼭正規分布ホテリングT2法マハラノビスタグチ法⾮対称ガンマ分布を利⽤異常データ混⼊線型結合モデル複数の⼭近傍距離 k -近傍法カーネル密度推定クラスタリング k-means法混合正規分布

Slide 22

Slide 22 text

One-Class Support Vector Machine データのほぼ全体を囲む球を考え、その球に⼊り切らなかったものを異常と考える異常度（距離）の計算において、線形計算である内積を⾮線形計算に置換する⼿法（カーネル法）の採⽤により、⾮線形データについても扱うことが可能となる scikit-learnによる実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/06_one_class_svm.ipynb

Slide 23

Slide 23 text

次元削減による異常検知︓主成分分析多変量データで変数間に関係がある場合、逆⾏列計算を前提とするホテリング理論のような⼿法は使えなくなる逆⾏列が求められない「特異⾏列」になりやすい M次元のデータをM>NとなるN次元に写像し、その中でデータの分布する「正常部分空間」を求め、そこからどれくらい離れているかで異常か正常かを判定する確率的主成分分析や、⾮線形変換を伴うカーネル主成分分析などの⼿法もある pyod PCA による実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/07_pca.ipynb

Slide 24

Slide 24 text

⼊⼒と出⼒のあるモデルの異常検知あるシステムへの⼊⼒と出⼒が観測されている場合の異常検知このシステムを回帰モデルと仮定し、⼊⼒から得られるであろう出⼒と実際の出⼒の観測値の差から異常を判断する⽅法線形回帰モデルリッジ回帰モデル scikit-learnによる実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/08_ridge.ipynb 正準相関分析による異常検知

Slide 25

Slide 25 text

異常検知の性能評価

Slide 26

Slide 26 text

異常検知の性能評価異常検知の性能特性は閾値によって変化する異常標本の数は正常標本より著しく少ないことが多いため、異常検知の性能評価に正解率を使うことは不適切異常判定の閾値異常標本精度正常標本精度 1 分岐点閾値分岐点精度

Slide 27

Slide 27 text

異常検知の性能評価適合率（Precision） = AN ANOPQ 再現率（Recall） = AQ AQOPU 調和平均である F値 = .×適合率×再現率適合率O 再現率 = .AQ .AQOPUOPQ を使って評価することが多い（井⼿さんの書籍の定義は⼀般的な定義と異なっている︖）

Slide 28

Slide 28 text

異常検知の性能評価閾値との関係は ROC （Receiver Operator Characteristic）曲線と AUC （Area Under Curve）を使って評価される AUC=1に近いほど理想的

Slide 29

Slide 29 text

時系列データの異常検知

Slide 30

Slide 30 text

時系列データの異常とは︖ 時系列データでは前後のデータ間の関係が無視できないため、これまで⾒てきた「値としてかけ離れたいわゆる『外れ値』検出」以外の考え⽅が必要となる右図の（ｂ）のように、値そのものは異常ではないが、規則性から逸脱したものや、（ｃ）のように周期あるいはスペクトルの変化を検出する必要が出てくる

Slide 31

Slide 31 text

スライディングウィンドウと異常部位検出スライディングウィンドウ法時系列データについて、ある⼀定の⻑さの「窓」を想定し、窓をスライドしながら、窓から⾒える複数の観測値（部分時系列）をベクトルとして取り出す⽅法異常部位検出スライディングウィンドウ法で得られた部分時系列の集合をベクトルデータセットとして扱い、異常な部分時系列を検出する部分時系列どうしの「距離」や「類似度」を使って判定する pyod KNN を使った実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/09_knn_pyod.ipynb

Slide 32

Slide 32 text

変化点検知と特異スペクトル変換法変化点検知「外れ値」ではないが他と違っているというような異常を検知する⼿法特異スペクトル変換法主成分分析のように部分空間法を⽤いてノイズを除去しながら、時系列データの特徴パターンを抽出する具体的にはスラディングウィンドウ法で得られた部分時系列ベクトルを並べた⾏列を作り、この⾏列を特異値分解することで特徴パターンを抽出する特異値分解で得られた左特異ベクトルどうしの距離を⾏列ノルムを使って定義し、その⼤きさで異常度を計算する

Slide 33

Slide 33 text

特異スペクトル変換法のイメージ出典特異スペクトル変換法による時系列データの異常検知（Python） - Fire Engine https://blog.tsurubee.tech/entry/20 17/10/11/221255 NumPyによる実装例 https://github.com/masa- ita/anomaly-detection-with- python/blob/master/11_sst_1.ipyn b https://github.com/masa- ita/anomaly-detection-with- python/blob/master/12_sst_2.i pynb

Slide 34

Slide 34 text

⾃⼰回帰モデルによる異常検知時系列を⾃⼰回帰モデルとしてフィッティングし、予測値と観測値の間の距離を異常度とする次数 r の⾃⼰回帰モデル X = & '() Y X>' X>' + \ 次数 r の決定には、AIC（⾚池情報量基準）が使われることが多い statsmodelsによる実装例 https://github.com/masa-ita/anomaly-detection-with- python/blob/master/13_ar_model.ipynb

Slide 35

Slide 35 text

⾃⼰回帰型モデルのバリエーション AR（Autoregressive model︓⾃⼰回帰モデル）基本となる⾃⼰回帰モデル ARMA（Autoregressive and Moving Average model︓⾃⼰回帰移動平均モデル） ARモデルに過去の変動の影響を加えたモデル ARIMA（Autoregressive, Integrated and Moving Average model︓⾃⼰回帰和分移動平均モデル） ARMAモデルに和分要素（トレンド）を加えた⾮定常モデル SARIMA（Seasonal, Autoregressive, Integrated and Moving Average model︓季節変動⾃⼰回帰和分移動平均モデル） ARIMAモデルに季節変動要素を加えたモデル

Slide 36

Slide 36 text

状態空間モデルによる異常検知観測対象が持つ内部状態 z と観測で得られる観測値をモデル化したもので、⼀時点前の内部状態 z ^>) から現時点の内部状態 X を得るための関数と、内部状態 X から観測値 X を得る関数を想定し、それぞれにノイズがあると考える X>. X>) X XO) XO. X>. X>) X XO) XO.

Slide 37

Slide 37 text

状態空間モデルによる異常検知状態空間モデルを定義する関数が線形関数であるものを線形状態空間モデルと呼ぶ X ≈ X X ≈ X>) ≈ は確率的ノイズを別にすれば等しいという意味線形状態空間モデルのパラメータ推定法部分空間同定法カルマンフィルタを⽤いた⽅法

Slide 38

Slide 38 text

よくある疑問データの前処理はどうする︖ 中央化（平均値を引いてゼロに）標準化（中央化に加えて分散を１に）対数変換（⽐率などのデータを扱いやすく） Box-Cox変換（スパイクなどの影響を軽減） = e − 1 分類モデルで異常検知はできないか︖ 異常サンプルは正常サンプルに⽐較して⾮常に少ないことが多いため、「⾮均衡データ」の取扱いをする必要があるダウンサンプリング、アップサンプリング、重み付き損失（尤度）関数等

Slide 39

Slide 39 text

まとめ異常検知には、対象となるデータによって異なる⼿法が必要対象となるデータが同じでも、異なる⼿法による検知があり得る異常検知に使われるRのライブラリの代替となるPythonのライブラリはだいたいある様々な⼿法の異常検知を同⼀のAPIでラッピングしたPyODは便利かもしれない異常検知には「⼀般解」はない︖ 背景となる統計モデルや数式の導出に興味のある⽅は、本を読んでください

Slide 40

Slide 40 text

参考ページ教師なし学習による異常値検知: マハラノビス距離 (実装編) https://qiita.com/shopetan/items/30f6e0932485c976a946 Robust covariance estimation and Mahalanobis distances relevance https://scikit-learn.org/stable/auto_examples/covariance/plot_mahalanobis_distances.html Pythonとカーネル密度推定(KDE)について調べたまとめ https://vaaaaaanquish.hatenablog.com/entry/2017/10/29/181949 Kernel Density Estimation in Python https://jakevdp.github.io/blog/2013/12/01/kernel-density-estimation/ Rで計量時系列分析︓AR, MA, ARMA, ARIMAモデル, 予測 https://tjo.hatenablog.com/entry/2013/07/12/184704

Slide 41

Slide 41 text

参考ページ Pythonによる時系列データの異常検知 https://blog.brains-tech.co.jp/entry/2017/10/17/170140 Time Series Analysis by State Space Methods https://www.statsmodels.org/stable/statespace.html#module- statsmodels.tsa.statespace Understanding Kalman Filters https://www.youtube.com/playlist?list=PLn8PRpmsu08pzi6EMiYnR-076Mh-q3tWr PyOD https://github.com/yzhao062/pyod

Slide 42

Slide 42 text

サンプルプログラムとデータ GitHub https://github.com/masa-ita/anomaly-detection-with-python Rdatasets https://vincentarelbundock.github.io/Rdatasets/