Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring...
Search
Shinya Kato
July 06, 2018
Research
0
160
ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring Range Motif on Streaming Time-Series, presented at DICOMO 2018
Shinya Kato
July 06, 2018
Tweet
Share
More Decks by Shinya Kato
See All by Shinya Kato
PostgreSQLのVisibilityの仕組み
shinyakato_
2
630
pg_bigmをRustで実装する(第50回PostgreSQLアンカンファレンス@オンライン 発表資料)
shinyakato_
0
260
多次元ストリーミング時系列データの効率的なモチーフモニタリングアルゴリズム / Monitoring Motif on Multi-dimensional Streaming Time-series, presented at DPSWS 2019
shinyakato_
0
29
Discord Monitoring for Streaming Time-series, presented at DEXA 2019
shinyakato_
0
29
ストリーミング時系列データの効率的なディスコードモニタリングアルゴリズム / Discord Monitoringfor Streaming Time-series, presented at DEIM 2019
shinyakato_
0
27
Monitoring Range Motif on Streaming Time-Series, presented at DEXA 2018
shinyakato_
0
17
Other Decks in Research
See All in Research
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
3
1.2k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
160
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
3
1.3k
Submeter-level land cover mapping of Japan
satai
3
420
ip71_contraflow_reconfiguration
stkmsd
0
110
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
250
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
390
多言語カスタマーインタビューの“壁”を越える~PMと生成AIの共創~ 株式会社ジグザグ 松野 亘
watarumatsuno
0
130
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
120
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
130
超高速データサイエンス
matsui_528
1
150
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
730
Featured
See All Featured
It's Worth the Effort
3n
187
28k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
Scaling GitHub
holman
463
140k
Done Done
chrislema
185
16k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
53k
Speed Design
sergeychernyshev
32
1.2k
Statistics for Hackers
jakevdp
799
220k
Transcript
ストリーミング時系列データの 効率的なモチーフモニタリングアルゴリズム 加藤 慎也,天方 大地,西尾 俊哉,原 隆浩 大阪大学 大学院情報科学研究科
研究背景(1/2) ◼近年,多くの時系列データが収集 1 家電の消費電力 温室効果ガスの排出量 心電図 異常検知 環境モニタリング 不整脈の発見 分析
研究背景(2/2) ◼モチーフ 時系列データの中に繰り返し現れるパターン 2 予測 異常 モチーフを用いて時系列データを分析
予備知識 ◼類似サブシーケンス 𝑑(𝑠𝑖 , 𝑠𝑗 ) ≤ 𝑅 ⇔ 𝑠𝑖
と𝑠𝑗 は類似サブシーケンス ◼スコア 類似サブシーケンスの数 ◼モチーフ スコアが最大のサブシーケンス[1] 3 ≤ 𝑅 ≤ 𝑅 ≤ 𝑅 スコア = 𝟑 [1] Patel, P., Keogh, E., Lin, J. and Lonardi, S.: Mining motifs in massive time series databases (2002)
問題定義 ◼スライディングウィンドウ上で ストリーミング時系列データのモチーフをモニタリング データが発生するたびウィンドウをスライド 最新の𝑤個の値のみを考慮 4 ウィンドウ 古い値は 考慮しない. ウィンドウ
ウィンドウ ウィンドウ データ発生 データ発生 データ発生 ウィンドウ
◼ウィンドウのスライドにより 削除されるサブシーケンス 挿入されるサブシーケンス と 全サブシーケンスとの距離計算することによりスコア更新 ベースラインアルゴリズム 5 ウィンドウ データ発生 データ削除
⋯ 削除される サブシーケンス 挿入される サブシーケンス 距離計算 距離計算 ⋯ 【研究目的】 ウィンドウがスライドした際の スコアの更新を高速化し, モチーフを効率的にモニタリングする.
提案アルゴリズムSRMM(Streaming Range Motif Monitoring) つまり,挿入されるサブシーケンスを𝑠𝑛 とすると 𝒔𝒏 のスコア<モチーフのスコア がわかれば,モチーフが更新されないことがわかる. ◼SRMMの流れ
6 モチーフ(スコア最大のサブシーケンス)をモニタリングが 問題定義 PAA 𝒌𝒅木に 挿入 ⋮ 距離𝑅以上のサブシーケンス を高速に特定 スコアの上界値を高速に計算
SRMM - PAA ◼PAA[2]によりサブシーケンスを長さ𝑙から𝜙に圧縮 7 𝑙 𝜙 𝑠𝑖 𝑠 𝑖
𝜙 𝑠𝑗 𝑠 𝑗 𝜙 𝑑(𝑠𝑖 , 𝑠𝑗 ) 𝑑(𝑠 𝑖 𝜙, 𝑠 𝑗 𝜙) PAA ≥ ≥ 𝑅 𝒔𝒊 と𝒔𝒋 は類似サブシーケンスでない! 𝑂(𝑙) 𝑂(𝜙) [2] Keogh, E.: Dimensionality reduction for fast similarity search in large time series databases (2001)
SRMM – 範囲検索 ◼𝑠 𝑖 𝜙 = (𝑡 𝑖 𝜙,
𝑡 𝑖+1 𝜙 , ⋯ , 𝑡 𝑖+𝜙−1 𝜙 )は𝜙次元上の点として表現 ◼距離𝑅以内のサブシーケンスの数=スコアの上界値 8 𝜙次元 𝑠𝑛 𝜙 全計算 𝑂(𝜙) × 𝑤 = 𝑂(𝜙𝑤) 𝒌𝒅木による範囲検索 𝑶 𝝓 𝐥𝐨𝐠 𝒘 𝜙次元 𝑠𝑛 𝜙 スコアの上界値5
SRMM – モチーフ更新の例 ◼𝑠𝑛 のスコアの上界値2 < モチーフのスコア3 𝑠𝑛 はモチーフにならない. ◼𝑠𝑛
のスコアの上界値5 > モチーフのスコア3 𝑠𝑛 はモチーフになり得るため,正確なスコアの計算を行う. 9 𝑠𝑛 𝜙 𝑠𝑎 𝜙 𝑠𝑐 𝜙 𝑠 𝑑 𝜙 𝑠𝑒 𝜙 𝑠 𝑏 𝜙 𝑑(𝑠𝑛 , 𝑠𝑎 ) 𝑑(𝑠𝑛 , 𝑠𝑑 ) 𝑑(𝑠𝑛 , 𝑠𝑒 ) 𝑑(𝑠𝑛 , 𝑠𝑏 ) 𝑑(𝑠𝑛 , 𝑠𝑐 ) < 𝑅 > 𝑅 𝑑(𝑠𝑛 , 𝑠𝑒 ) 𝑑(𝑠𝑛 , 𝑠𝑎 ) 𝑑(𝑠𝑛 , 𝑠𝑑 ) 𝑑(𝑠𝑛 , 𝑠𝑏 ) 𝑑(𝑠𝑛 , 𝑠𝑐 ) 𝒔𝒏 のスコアは1 ⇒モチーフは更新されない.
SRMM – サブシーケンスの削除 ◼削除されるサブシーケンス𝑠𝑒 と 類似するサブシーケンスのスコアの上界値が1減少 ◼各サブシーケンスが類似サブシーケンスのリストを保持 サブシーケンス挿入時に作成 10 𝑠𝑒
𝜙 𝑠𝑝 𝜙 𝑠𝑞 𝜙 𝑠𝑟 𝜙 𝑠𝑒 : 𝑠𝑝 , 𝑠𝑞 , 𝑠𝑟 𝑠𝑝 : 𝑠𝑒 , ⋯ 𝑠𝑞 : 𝑠𝑒 , ⋯ 𝑠𝑟 : 𝑠𝑒 , ⋯ 𝒔𝒆 を𝒔𝒑 , 𝒔𝒒 , 𝒔𝒓 のリストから削除し スコアの上界値を1減少 削除 削除 削除
評価 ◼データセット GreenHouseGas, RefrigerationDevices ◼パラメータ ◼比較手法 ベースラインアルゴリズム ◼評価指標 更新時間 11
ウィンドウサイズ𝑤 [× 103] 5, 10, 15, 20 モチーフ長𝑙 50, 100, 150, 200 ピアソン相関の閾値𝜃 0.75, 0.8, 0.85, 0.9, 0.95 Rは以下の式で計算 𝑅 = 2𝑙(1 − 𝜃)
ウィンドウサイズ𝑤の影響 12 0 20 40 60 80 5 10 15
20 更新時間[msec] ウィンドウサイズ[×103] ベースライン SRMM 0 20 40 60 80 5 10 15 20 更新時間[msec] ウィンドウサイズ[×103] ベースライン SRMM SRMMはベースラインよりも高速 GreenHouseGas RefrigerationDevices
0 20 40 60 80 50 100 150 200 更新時間[msec]
モチーフ長 ベースライン SRMM 0 20 40 60 80 50 100 150 200 更新時間[msec] モチーフ長 ベースライン SRMM モチーフ長𝑙の影響 13 SRMMはモチーフ長によらず高速 GreenHouseGas RefrigerationDevices
0 20 40 60 0.75 0.8 0.85 0.9 0.95 更新時間[msec]
閾値θ ベースライン SRMM 0 20 40 0.75 0.8 0.85 0.9 0.95 更新時間[msec] 閾値θ ベースライン SRMM 閾値𝜃の影響 14 SRMMは閾値が大きいほど高速 GreenHouseGas RefrigerationDevices Rは以下の式で計算 𝑅 = 2𝑙(1 − 𝜃)
まとめ ◼ストリーミング時系列データの 効率的なモチーフモニタリングアルゴリズムSRMMの提案 PAAおよび範囲検索を用いることにより, 不要なスコアの計算を削減 類似サブシーケンスのリストを保持することにより, スコアの減少するサブシーケンスを高速に特定 ◼評価実験からSRMMの有効性を確認 ◼今後の課題 多次元時系列データへの対応
15