Slide 1

Slide 1 text

ストリーミング時系列データの 効率的なディスコードモニタリングアルゴリズム 加藤 慎也,天方 大地,西尾 俊哉,原 隆浩 大阪大学 大学院情報科学研究科 マルチメディア工学専攻 原研究室 D5-4 DEIM2019

Slide 2

Slide 2 text

研究背景(1/2) ⚫近年,多くのストリーミング時系列データが生成 1 家電の消費電力 温室効果ガスの排出量 心電図 異常検知 環境モニタリング 不整脈の発見 分析

Slide 3

Slide 3 text

研究背景(2/2) ⚫ディスコード [Keogh ’06] - 時系列データを分析する最も重要な技術の一つ - 時系列データの中に現れる通常と異なるパターン 2 [Keogh ’06] E. Keogh, “HOT SAX: Efficiently finding the most unusual time series subsequence,” ICDM-2006 心電図の時系列データ ディスコード ストリーミング時系列データに対してディスコードの モニタリングを行うことでリアルタイムに異常検知が可能

Slide 4

Slide 4 text

問題定義 ⚫スライディングウィンドウ上で ストリーミング時系列データのディスコードをモニタリング - ウィンドウがスライドするたび最も古い値が削除,最新の値が挿入 - 最新の𝑤個の値のみを考慮 3 時間 最新の𝑤個の値 古い値は 考慮しない. ウィンドウ

Slide 5

Slide 5 text

予備知識(1/2) ⚫ディスコードの定義 - 最近傍のサブシーケンスとの距離が最大となるサブシーケンス 4 𝑡 𝑙 ⋱ 𝑤 − 𝑙 + 1 最近傍を計算 ディスコード ⁞ ⁞ 2.88 0.90 1.61 6.04 1.23 1.40

Slide 6

Slide 6 text

予備知識(2/2) ⚫説明の都合上, 長さ𝑙のサブシーケンスを𝑙次元上の点として表現 - このとき,最近傍点との距離が最大となる点がディスコード 5 𝑡 𝑙 ⋱ 𝑤 − 𝑙 + 1 ディスコード 𝑙次元空間 𝑙次元上の点 として表現

Slide 7

Slide 7 text

単純手法 ⚫ウィンドウがスライドするたび, ウィンドウ内の全サブシーケンスに対して最近傍探索を実行 - ウィンドウのスライドにより最近傍が変化したサブシーケンスを把握 6 ディスコード ウィンドウのスライド により削除 最近傍が変化 多大な時間がかかりリアルタイム性を保証できない. ウィンドウのスライド により生成 最近傍が変化

Slide 8

Slide 8 text

⚫サブシーケンスの生成 - ウィンドウ内の各サブシーケンスが最近傍の情報(NN)を 保持することで最近傍が変化するサブシーケンスを特定 ⚫サブシーケンスの削除 - ウィンドウ内の各サブシーケンスが逆最近傍のリスト(RL)を 保持することで最近傍が変化するサブシーケンスを特定 提案アルゴリズム - 概要 7 𝑠1 𝑠2 𝑠3 2.5 5.0 𝑁𝑁 = 2, 5.0 𝑁𝑁 = 2, 2.5 𝑁𝑁 = 3, 2.5 𝑠1 𝑠2 𝑠3 2.5 5.0 𝑅𝐿 = {2} 𝑅𝐿 = {1, 3}

Slide 9

Slide 9 text

id NN 1 2, 1.0 2 1, 1.0 3 1, 1.1 4 1, 1.7 5 8, 3.3 6 4, 3.1 7 8, 5.2 8 5, 3.5 9 提案アルゴリズム - サブシーケンスの生成 ⚫ウィンドウ内の各サブシーケンスが最近傍の情報(NN)を 保持することで最近傍が変化するサブシーケンスを特定 8 id NN 1 2, 1.0 2 1, 1.0 3 1, 1.1 4 1, 1.7 5 8, 3.3 6 4, 3.1 7 8, 5.2 8 5, 3.5 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 𝑠9 に対して最近傍探索 𝑑 𝑠1 , 𝑠9 = 8.8 𝑑 𝑠2 , 𝑠9 = 9.8 𝑑 𝑠3 , 𝑠9 = 8.2 𝑑 𝑠4 , 𝑠9 = 8.9 𝑑 𝑠5 , 𝑠9 = 0.9 𝑑 𝑠6 , 𝑠9 = 4.5 𝑑 𝑠7 , 𝑠9 = 2.8 𝑑 𝑠8 , 𝑠9 = 2.2 9, 0.9 9, 2.8 5, 0.9 9, 2.2 NNにより最近傍が変化するサブシーケンスを効率的に特定

Slide 10

Slide 10 text

提案アルゴリズム - サブシーケンスの削除 ⚫ウィンドウ内の各サブシーケンスが逆最近傍のリスト(RL)を 保持することで最近傍が変化するサブシーケンスを特定 9 id NN RL 1 2, 1.0 2, 3, 4 2 1, 1.0 3 1, 2.1 4 1, 1.7 6 5 9, 0.9 9 6 4, 3.1 7 9, 2.8 8 9, 2.2 9 5, 0.9 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 RLにより最近傍が変化するサブシーケンスを効率的に特定 4, 1.8 2, 4.0 2, 1.8

Slide 11

Slide 11 text

提案アルゴリズム(拡張) - 概要 ⚫提案アルゴリズムではRLのサイズが大きいとき, 最近傍探索の実行回数が増加し更新時間も増加 ⚫より効率的に最近傍の情報を保持するため, 最近傍を自身より前に生成されたもの(NNolder )と 自身より後に生成されたもの(NNyounger )に分けて保持 10 𝑠1 𝑠2 𝑠4 𝑠3 𝑠8 𝑠7 𝑠5 𝑠6 𝑁𝑁𝑜𝑙𝑑𝑒𝑟 = 1, 3.0 𝑁𝑁𝑦𝑜𝑢𝑛𝑔𝑒𝑟 = 6, 5.8

Slide 12

Slide 12 text

id NNolder NNyounger NN RL 1 2, 1.0 2, 1.0 2, 3, 4 2 1, 1.0 4, 1.8 1, 1.0 3 1, 1.1 6, 2.9 1, 1.1 4 1, 1.7 6, 3.0 1, 1.7 6 5 4, 8.2 8, 3.3 8, 3.3 9 6 4, 3.1 7, 5.3 4, 3.1 7 6, 7.4 8, 5.2 8, 5.2 8 5, 3.5 5, 3.5 9 提案アルゴリズム(拡張) - サブシーケンスの生成 ⚫最近傍を自身より前に生成されたもの(NNolder )と 自身より後に生成されたもの(NNyounger )に分けて保持 11 id NNolder NNyounger NN RL 1 2, 1.0 2, 1.0 2, 3, 4 2 1, 1.0 4, 1.8 1, 1.0 3 1, 1.1 6, 2.9 1, 1.1 4 1, 1.7 6, 3.0 1, 1.7 6 5 4, 8.2 8, 3.3 8, 3.3 9 6 4, 3.1 7, 5.3 4, 3.1 7 6, 7.4 8, 5.2 8, 5.2 8 5, 3.5 5, 3.5 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 NNyounger を常に正確に保持可能 9, 0.9 9, 2.8 9, 2.2 9, 0.9 9, 2.8 9, 2.2 5, 0.9 5, 0.9

Slide 13

Slide 13 text

id NNolder NNyounger NN RL 1 2, 1.0 2, 1.0 2, 3, 4 2 1, 1.0 4, 1.6 1, 1.0 3 1, 1.1 6, 4.2 1, 1.1 4 1, 1.7 6, 3.0 1, 1.7 6 5 4, 8.2 9, 0.9 9, 0.9 9 6 4, 3.1 7, 5.8 4, 3.1 7 6, 7.4 9, 2.8 9, 2.8 8 5, 3.5 9, 2.2 9, 2.2 9 5, 0.9 5, 0.9 提案アルゴリズム(拡張) - サブシーケンスの削除 ⚫最近傍を自身より前に生成されたもの(NNolder )と 自身より後に生成されたもの(NNyounger )に分けて保持 12 𝑠1 𝑠2 𝑠4 𝑠6 𝑠5 𝑠7 𝑠8 𝑠9 𝑠3 2, 4.0 2, 4.0 最近傍探索の実行回数を削減

Slide 14

Slide 14 text

評価 ⚫データセット - GoogleMemory Googleのデータセンタのメモリ使用率の時系列データ ⚫パラメータ ⚫評価手法 - 提案アルゴリズム :NNとRLを保持 - 提案アルゴリズム(拡張) :NNyounger とNNolder とRLを保持 ⚫評価指標 - ウィンドウ1スライド当たりの平均更新時間 - ウィンドウ1スライド当たりの最悪更新時間 13 ウィンドウサイズ𝑤 [× 103] 5, 10, 15, 20 ディスコード長𝑙 50, 100, 150, 200

Slide 15

Slide 15 text

0 50 100 150 50 100 150 200 平均更新時間 [msec] ディスコード長𝑙 提案アルゴリズム 提案アルゴリズム(拡張) 0 1000 2000 3000 50 100 150 200 最悪更新時間 [msec] ディスコード長𝑙 提案アルゴリズム 提案アルゴリズム(拡張) 結果 – ディスコード長𝑙の影響 14 平均・最悪ともに提案アルゴリズム(拡張)が高速

Slide 16

Slide 16 text

0 50 100 150 5 10 15 20 平均更新時間 [msec] ウィンドウサイズ𝑤 [×103] 提案アルゴリズム 提案アルゴリズム(拡張) 0 1000 2000 3000 5 10 15 20 最悪更新時間 [msec] ウィンドウサイズ𝑤 [×103] 提案アルゴリズム 提案アルゴリズム(拡張) 結果 – ウィンドウサイズ𝒘の影響 15 平均・最悪ともに提案アルゴリズム(拡張)が高速

Slide 17

Slide 17 text

まとめ ⚫ストリーミング時系列データの 効率的なディスコードモニタリングアルゴリズムの提案 - 最近傍および逆最近傍のリストを保持することで 最近傍が変化するサブシーケンスを効率的に特定 - 評価実験から提案アルゴリズムの有効性を確認 ⚫今後の予定 - 近似手法によるさらなる高速化 16