ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring Range Motif on Streaming Time-Series, presented at DICOMO 2018

ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム加藤慎也，天方大地，西尾俊哉，原隆浩大阪大学大学院情報科学研究科

研究背景（1/2） ◼近年，多くの時系列データが収集 1 家電の消費電力温室効果ガスの排出量心電図異常検知環境モニタリング不整脈の発見分析

研究背景（2/2） ◼モチーフ時系列データの中に繰り返し現れるパターン 2 予測異常モチーフを用いて時系列データを分析

予備知識 ◼類似サブシーケンス 𝑑(𝑠𝑖 , 𝑠𝑗 ) ≤ 𝑅 ⇔ 𝑠𝑖
と𝑠𝑗 は類似サブシーケンス ◼スコア類似サブシーケンスの数 ◼モチーフスコアが最大のサブシーケンス[1] 3 ≤ 𝑅 ≤ 𝑅 ≤ 𝑅 スコア = 𝟑 [1] Patel, P., Keogh, E., Lin, J. and Lonardi, S.: Mining motifs in massive time series databases (2002)

問題定義 ◼スライディングウィンドウ上でストリーミング時系列データのモチーフをモニタリングデータが発生するたびウィンドウをスライド最新の𝑤個の値のみを考慮 4 ウィンドウ古い値は考慮しない．ウィンドウ
ウィンドウウィンドウデータ発生データ発生データ発生ウィンドウ

◼ウィンドウのスライドにより削除されるサブシーケンス挿入されるサブシーケンスと全サブシーケンスとの距離計算することによりスコア更新ベースラインアルゴリズム 5 ウィンドウデータ発生データ削除
⋯ 削除されるサブシーケンス挿入されるサブシーケンス距離計算距離計算 ⋯ 【研究目的】ウィンドウがスライドした際のスコアの更新を高速化し，モチーフを効率的にモニタリングする．

提案アルゴリズムSRMM(Streaming Range Motif Monitoring) つまり，挿入されるサブシーケンスを𝑠𝑛 とすると 𝒔𝒏 のスコア<モチーフのスコアがわかれば，モチーフが更新されないことがわかる． ◼SRMMの流れ
6 モチーフ（スコア最大のサブシーケンス）をモニタリングが問題定義 PAA 𝒌𝒅木に挿入 ⋮ 距離𝑅以上のサブシーケンスを高速に特定スコアの上界値を高速に計算

SRMM - PAA ◼PAA[2]によりサブシーケンスを長さ𝑙から𝜙に圧縮 7 𝑙 𝜙 𝑠𝑖 𝑠 𝑖
𝜙 𝑠𝑗 𝑠 𝑗 𝜙 𝑑(𝑠𝑖 , 𝑠𝑗 ) 𝑑(𝑠 𝑖 𝜙, 𝑠 𝑗 𝜙) PAA ≥ ≥ 𝑅 𝒔𝒊 と𝒔𝒋 は類似サブシーケンスでない！ 𝑂(𝑙) 𝑂(𝜙) [2] Keogh, E.: Dimensionality reduction for fast similarity search in large time series databases (2001)

SRMM – 範囲検索 ◼𝑠 𝑖 𝜙 = (𝑡 𝑖 𝜙,
𝑡 𝑖+1 𝜙 , ⋯ , 𝑡 𝑖+𝜙−1 𝜙 )は𝜙次元上の点として表現 ◼距離𝑅以内のサブシーケンスの数=スコアの上界値 8 𝜙次元 𝑠𝑛 𝜙 全計算 𝑂(𝜙) × 𝑤 = 𝑂(𝜙𝑤) 𝒌𝒅木による範囲検索 𝑶 𝝓 𝐥𝐨𝐠 𝒘 𝜙次元 𝑠𝑛 𝜙 スコアの上界値5

SRMM – モチーフ更新の例 ◼𝑠𝑛 のスコアの上界値2 < モチーフのスコア3 𝑠𝑛 はモチーフにならない． ◼𝑠𝑛
のスコアの上界値5 > モチーフのスコア3 𝑠𝑛 はモチーフになり得るため，正確なスコアの計算を行う． 9 𝑠𝑛 𝜙 𝑠𝑎 𝜙 𝑠𝑐 𝜙 𝑠 𝑑 𝜙 𝑠𝑒 𝜙 𝑠 𝑏 𝜙 𝑑(𝑠𝑛 , 𝑠𝑎 ) 𝑑(𝑠𝑛 , 𝑠𝑑 ) 𝑑(𝑠𝑛 , 𝑠𝑒 ) 𝑑(𝑠𝑛 , 𝑠𝑏 ) 𝑑(𝑠𝑛 , 𝑠𝑐 ) < 𝑅 > 𝑅 𝑑(𝑠𝑛 , 𝑠𝑒 ) 𝑑(𝑠𝑛 , 𝑠𝑎 ) 𝑑(𝑠𝑛 , 𝑠𝑑 ) 𝑑(𝑠𝑛 , 𝑠𝑏 ) 𝑑(𝑠𝑛 , 𝑠𝑐 ) 𝒔𝒏 のスコアは1 ⇒モチーフは更新されない．

SRMM – サブシーケンスの削除 ◼削除されるサブシーケンス𝑠𝑒 と類似するサブシーケンスのスコアの上界値が1減少 ◼各サブシーケンスが類似サブシーケンスのリストを保持サブシーケンス挿入時に作成 10 𝑠𝑒
𝜙 𝑠𝑝 𝜙 𝑠𝑞 𝜙 𝑠𝑟 𝜙 𝑠𝑒 : 𝑠𝑝 , 𝑠𝑞 , 𝑠𝑟 𝑠𝑝 : 𝑠𝑒 , ⋯ 𝑠𝑞 : 𝑠𝑒 , ⋯ 𝑠𝑟 : 𝑠𝑒 , ⋯ 𝒔𝒆 を𝒔𝒑 , 𝒔𝒒 , 𝒔𝒓 のリストから削除しスコアの上界値を1減少削除削除削除

評価 ◼データセット GreenHouseGas, RefrigerationDevices ◼パラメータ ◼比較手法ベースラインアルゴリズム ◼評価指標更新時間 11
ウィンドウサイズ𝑤 [× 103] 5, 10, 15, 20 モチーフ長𝑙 50, 100, 150, 200 ピアソン相関の閾値𝜃 0.75, 0.8, 0.85, 0.9, 0.95 Rは以下の式で計算 𝑅 = 2𝑙(1 − 𝜃)

ウィンドウサイズ𝑤の影響 12 0 20 40 60 80 5 10 15
20 更新時間[msec] ウィンドウサイズ[×103] ベースライン SRMM 0 20 40 60 80 5 10 15 20 更新時間[msec] ウィンドウサイズ[×103] ベースライン SRMM SRMMはベースラインよりも高速 GreenHouseGas RefrigerationDevices

0 20 40 60 80 50 100 150 200 更新時間[msec]
モチーフ長ベースライン SRMM 0 20 40 60 80 50 100 150 200 更新時間[msec] モチーフ長ベースライン SRMM モチーフ長𝑙の影響 13 SRMMはモチーフ長によらず高速 GreenHouseGas RefrigerationDevices

0 20 40 60 0.75 0.8 0.85 0.9 0.95 更新時間[msec]
閾値θ ベースライン SRMM 0 20 40 0.75 0.8 0.85 0.9 0.95 更新時間[msec] 閾値θ ベースライン SRMM 閾値𝜃の影響 14 SRMMは閾値が大きいほど高速 GreenHouseGas RefrigerationDevices Rは以下の式で計算 𝑅 = 2𝑙(1 − 𝜃)

まとめ ◼ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズムSRMMの提案 PAAおよび範囲検索を用いることにより，不要なスコアの計算を削減類似サブシーケンスのリストを保持することにより，スコアの減少するサブシーケンスを高速に特定 ◼評価実験からSRMMの有効性を確認 ◼今後の課題多次元時系列データへの対応
15

ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring...

ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring Range Motif on Streaming Time-Series, presented at DICOMO 2018

Shinya Kato

More Decks by Shinya Kato

Other Decks in Research

Featured

Transcript

ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム加藤慎也，天方大地，西尾俊哉，原隆浩大阪大学大学院情報科学研究科

研究背景（1/2） ◼近年，多くの時系列データが収集 1 家電の消費電力温室効果ガスの排出量心電図異常検知環境モニタリング不整脈の発見分析

研究背景（2/2） ◼モチーフ時系列データの中に繰り返し現れるパターン 2 予測異常モチーフを用いて時系列データを分析

予備知識 ◼類似サブシーケンス 𝑑(𝑠𝑖 , 𝑠𝑗 ) ≤ 𝑅 ⇔ 𝑠𝑖

問題定義 ◼スライディングウィンドウ上でストリーミング時系列データのモチーフをモニタリングデータが発生するたびウィンドウをスライド最新の𝑤個の値のみを考慮 4 ウィンドウ古い値は考慮しない．ウィンドウ

◼ウィンドウのスライドにより削除されるサブシーケンス挿入されるサブシーケンスと全サブシーケンスとの距離計算することによりスコア更新ベースラインアルゴリズム 5 ウィンドウデータ発生データ削除

提案アルゴリズムSRMM(Streaming Range Motif Monitoring) つまり，挿入されるサブシーケンスを𝑠𝑛 とすると 𝒔𝒏 のスコア<モチーフのスコアがわかれば，モチーフが更新されないことがわかる． ◼SRMMの流れ

SRMM - PAA ◼PAA[2]によりサブシーケンスを長さ𝑙から𝜙に圧縮 7 𝑙 𝜙 𝑠𝑖 𝑠 𝑖

SRMM – 範囲検索 ◼𝑠 𝑖 𝜙 = (𝑡 𝑖 𝜙,

SRMM – モチーフ更新の例 ◼𝑠𝑛 のスコアの上界値2 < モチーフのスコア3 𝑠𝑛 はモチーフにならない． ◼𝑠𝑛

SRMM – サブシーケンスの削除 ◼削除されるサブシーケンス𝑠𝑒 と類似するサブシーケンスのスコアの上界値が1減少 ◼各サブシーケンスが類似サブシーケンスのリストを保持サブシーケンス挿入時に作成 10 𝑠𝑒

評価 ◼データセット GreenHouseGas, RefrigerationDevices ◼パラメータ ◼比較手法ベースラインアルゴリズム ◼評価指標更新時間 11

ウィンドウサイズ𝑤の影響 12 0 20 40 60 80 5 10 15

0 20 40 60 80 50 100 150 200 更新時間[msec]

0 20 40 60 0.75 0.8 0.85 0.9 0.95 更新時間[msec]