Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時...

MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時系列データの特徴量削減 / FIT 2024

FIT 2024トップコンファレンスセッション
https://www.ipsj.or.jp/event/fit/fit2024/abstract/data/html/event/event_TCS7-3.html

【タイトル邦題】 MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時系列データの特徴量削減
坪内 佑樹(さくらインターネット株式会社 さくらインターネット研究所 上級研究員)
【原発表の書誌情報】 Tsubouchi, Y., Tsuruta, H.: MetricSifter: Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications, IEEE Access, Vol.12, pp.37398-37417 (2024).
【概要】 大規模クラウドアプリケーションにおける機械学習を用いた故障特定の研究が盛んである。本研究では、故障関連の監視メトリクスを正確に特定するための時系列データの特徴量削減フレームワークMetricSifterを提案する。本手法は、監視メトリクスの故障起因変化点の時間的近接性に注目し、既存の故障特定法を高精度かつ高効率化する。

Yuuki Tsubouchi (yuuk1)

September 06, 2024
Tweet

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Transcript

  1. 2 1. Introduction 2. Failure-oriented Feature Reduction Framework 3. Evaluation

    4. Conclusion ໨࣍ Tsubouchi, Y., Tsuruta, H.: MetricSifter: Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications, IEEE Access, Vol.12, pp.37398-37417 (2024). ʲݪൃදͷॻࢽ৘ใʳ Ҏ߱ɺ[Tsubouchi+,ACCESS24]ͱදه
  2. ςϨϝτϦγεςϜ ϝτϦΫε ࣌ܥྻͷ ਺஋σʔλ ΦϖϨʔλʔ 4 Ϋϥ΢υͷނোಛఆͷδϨϯϚ Ϋϥ΢υ Πϯλʔωοτ ΞϓϦέʔγϣϯ

    ෼ࢄγεςϜͱͯ͠ෳࡶԽ ো֐ͷ਍அͷͨΊͷ ςϨϝτϦ͕ॏཁͱͳ͍ͬͯΔ ࣗಈނোಛఆ[9-24] ಛఆࣗಈԽ ᶃ ϝτϦΫε਺͕૿େ ෆཁσʔλࠞೖʹΑΔ ಛఆਫ਼౓ͱ଎౓௿Լ δϨϯϚ ᶄ [25]
  3. 6 ࣌ܥྻதͷҟৗͷ༗ແʹண໨ طଘͷಛ௃࡟ݮͱͦͷ՝୊ ࣌ܥྻͷྨࣅੑ΍ؔ࿈ੑʹண໨ [14,23,26] [9,12,16,25] ୯Ұͷάϩʔόϧͳʮো֐ʯ ΁ͷؔ࿈ੑΛଊ͍͑ͨ ҟৗੑʹجͮ͘࡟ݮ ৑௕ੑʹجͮ͘࡟ݮ

    ো֐࣌ؒ֎ͷҟৗΛ࡟ ݮͰ͖ͳ͍ʢِӄੑʣ ো֐ؔ࿈ϝτϦΫεؒͰྨ ࣅ͢Δͱޡ࡟আʢِཅੑʣ ϝτϦΫεϩʔΧϧͷ ҟৗੑ΍৑௕ੑʹىҼ
  4. 7 ؍࡯ͱԾఆ [Tsubouchi+,ACCESS24] FIGURE 1. ΑΓసࡌ ԣ࣠160͕ো֐ൃੜ࣌ࠁ ނোىҼͷมԽ఺͸ ͍ۙ࣌ؒʹݱΕΔ ؍࡯

    ϩʔΧϧΠϕϯτ มԽ఺͕࠷΋ภΔ࣌ؒൣғ͕ɺো֐ظؒͱͳΔ Ծఆ άϩʔόϧΠϕϯτ
  5. 10 MetricSifter͸ͲͷΑ͏ʹಈ࡞͢Δ͔ʁ [Tsubouchi+,ACCESS24] FIGURE 5. ΑΓసࡌ STEP 2:มԽ఺࣌ؒͷ෼෍ ΛجʹηάϝϯτΛ෼ׂ STEP

    1:࣌ܥྻ͝ͱʹɺ ނো༝དྷͷมԽ఺ީิ Λݕग़ STEP3: ࠷େີ౓ͷηά ϝϯτΛબ୒
  6. 11 STEP 1: ୯มྔ࣌ܥྻͷมԽ఺ݕग़ ᶃ ίετؔ਺ɿݕग़͢ΔมԽͷछྨΛબ୒ ઃܭํ਑ɿυϝΠϯʹదͨ͠ɺมԽ఺ݕग़ͷطଘख๏[48]Λબ୒͢Δ ᶄ ୳ࡧ๏ɿมԽ఺Λ୳ͨ͢ΊͷΞϧΰϦζϜ ᶅ

    ϖφϧςΟ߲ɿݕग़͢ΔมԽ఺ͷ਺ʹ੍໿Λ͔͚Δ L2 ʢฏۉγϑτʣ PeltɿݫີղΛٻΊΔ͕৚݅෇͖ͰࢬמΓߴ଎ԽՄ BICʹج͖ͮώϡʔϦεςΟοΫʹܾఆɻͨͩ͠ಠࣗͷዞҙతͳ܎਺ Λ௥Ճɻ ω
  7. 12 ᶃ ີ౓෼෍ͷਪఆ Χʔωϧີ౓ਪఆ๏ʢKDEʣΛ༻͍ͯ ཭ࢄܕͷ෼෍ີ౓Λੜ੒ STEP 2: มԽ఺ͷີ౓෼෍ਪఆͱηάϝϯςʔγϣϯ [Tsubouchi+,ACCESS24] FIGURE

    6. ΑΓసࡌ STEP 3: ࠷େͷηάϝϯτ ͱͯ͠બ୒ ᶄ ηάϝϯςʔγϣϯ ہॴ࠷খ఺ʹڥքઢΛҾ͘ ʢFig.6͸10ݸͷηάϝϯτʹ෼ׂʣ
  8. 15 σʔληοτ [Tsubouchi+,ACCESS24] TABLE 4. Λվม ߹੒σʔλ [58]Λ༻͍ͯো֐ΛγϛϡϨʔτ͠ ͨଟมྔ࣌ܥྻͱDAGΛੜ੒ɻ ࣮ূσʔλ

    ΞϓϦ αʔϏε਺ ނো਺ ϝτϦΫε਺ SS-small Sock Shop(SS) 7 90 64 SS-medium 184 SS-large 1312 TT-small Train Ticket(TT) 41 42 383 TT-medium 1349 TT-large 9458 ఆ൪ͷϕϯνϚʔ ΫΞϓϦʹɺCPU ·ͨ͸ϝϞϦͷա ৒࢖༻ނোΛ஫ೖ ͯ͠࠾औɻ ϊʔυ਺ Τοδ਺ 50 100 200 100 500 700 D50,100 sim D50,200 sim D200,500 sim D200,700 sim
  9. 16 Q1: ಛ௃ྔ࡟ݮਫ਼౓͸Ͳͷఔ౓ྑ͍ͷ͔ʁ (c) Balanced accuracy [Tsubouchi+,ACCESS24] FIGURE 7. (c)

    ΑΓసࡌ MetricSifterͷฏۉਫ਼౓0.981Ͱ ࠷ྑ஋Λࣔͨ͠ɻ ৑௕࡟ݮάϧʔϓ͸ɺ૯ͯ͡ ௿είΞͱͳͬͨɻ ಺Ͱ࣌ܥྻ͕ྨࣅɾ૬ؔ ͢Δ΋ͷ͕࡟আ͞ΕΔͨΊɻ MA ∪ MB
  10. PC+HT ϥϯμϜબ୒ 17 Q2: ނোಛఆੑೳΛͲͷఔ౓޲্ͤ͞Δ͔ʁ Ұ෦ൈਮ ૯߹ධՁɹ MetricSifter͕ ཧ૝ख๏ʹ ͍ۙਫ਼౓Λୡ੒

    ख๏ ਫ਼౓ උߟ Ideal 0.344 ཧ૝஋ MetricSifter 0.299 ࠷ྑ NSigma 0.241 ࣍఺ None 0.175 w /o ಛ௃࡟ݮ શނোಛఆ๏ͱͷ૊Έ߹ͤʹ ର͢Δtop-5ਫ਼౓ͷฏۉ஋
  11. 18 Q2: ࣮ূσʔληοτ [Tsubouchi+,ACCESS24] FIGURE 11. (a) ΑΓҰ෦ൈਮͯ͠సࡌ -small SS

    64 metrics όʔ͕ਫ਼౓ ંΕઢ͕࣮ߦ࣌ؒ - top-5ਫ਼౓͸MetricSifter͕࠷ྑͰɺ࣮ߦޮ཰͸ҟৗੑ࡟ݮΑΓ΋ߴ͍ - ࣮ߦ࣌ؒ͸৑௕ੑ࡟ݮʢHDBS-SBD/HDBS-Rʣ͕࠷ྑ͕ͩਫ਼౓͸࠷΋௿͍
  12. 19 Q2: ࣮ূσʔλৄࡉʢେن໛ >100 metricsʣ -medium SS -large SS -small

    TT -medium TT 184 metrics 1312 383 1349 [Tsubouchi+,ACCESS24] FIGURE 11. (b) ΑΓҰ෦ൈਮͯ͠సࡌ RCDͷΈ͕ݱ࣮తͳ࣌ؒ಺ʢ3600ඵҎ಺ʣͰॲཧΛऴ͑ͨ - ଞ͸ɺނোಛఆΞϧΰϦζϜʹฒྻੑ͕ͳ͍ͨΊ ϝτϦΫε਺>1000Ͱ͸ɺಛ௃࡟ݮͷ༗ແʹ͔͔ΘΒͣɺ ඇৗʹ௿͍ਫ਼౓ͱͳͬͨ
  13. 26 ධՁࢦඪ ಛ௃࡟ݮ๏ ނোಛఆ๏ Specificity Recall Balanced Accuracy (BA) =

    (Specificity + Recall)/2 ຊυϝΠϯͷ ఆ൪ධՁࢦඪ AC@k AVG@5 top-kʹਖ਼ղؚ͕·ΕΔ͔ͷਫ਼౓ ( ) ͷࢉज़ฏۉ AC@k 1 ≤ j ≤ 5 ޡ࡟আ͍ͯ͠ͳ͍͔ʁ ա৒࡟ݮ͍ͯ͠ͳ͍͔ʁ ෼ྨ໰୊ҰൠͷධՁࢦඪ
  14. 27 ɾਖ਼ৗੑ࡟ݮɿNSigma, BIRCH, K-S test, FluxInfer-AD ɾ৑௕ੑ࡟ݮɿHDBSCAN + SBD, HDBSCAN

    + ϐΞιϯ૬ؔ ɾཧ૝ख๏ɿIdealʢਖ਼ղ཰Balanced Accuracy͕100%ʣ ϕʔεϥΠϯ ಛ௃࡟ݮ๏ ނো ಛఆ๏ ɾϥϯμϜબ୒ʢRSʣ ɾҟৗ౓ϕʔεɿ -Diagnosis ɾҟৗ఻ൖϕʔεɿҼՌάϥϑߏங+είΞϦϯά ɾPC+PageRank, PC+HT, LiNGAM+PageRank, LinGAM + HT, RCD ϵ
  15. 28 Q3: ύϥϝʔλʹͲͷఔ౓හײ͔ʁʢParameter Sensitivity) [Tsubouchi+,ACCESS24] FIGURE 9. ΑΓసࡌ : มԽ఺ݕ஌ͷϖφϧςΟ߲ͷ

    ॏΈ܎਺ʢSTEP 1ʣ ω 2.5ۙ๣ͰϐʔΫΛͱΓ஋ͷݮগ ʹහײͰ͋Δ ਫ਼౓΁ͷӨڹ͸௿͍ : ਪఆີ౓ؔ਺ͷฏ׈Խ܎਺ ʢSTEP 2ʣ h
  16. 29 Q4: ఏҊ๏ͷ෦Ґ͕Ͳͷఔ౓ੑೳʹد༩͢Δ͔ʁ [Tsubouchi+,ACCESS24] FIGURE 10. ΑΓసࡌ ద੾ͳύϥϝʔλʔͰ͋Ε ͹ɺਫ਼౓ࠩ͸খ͍͞ STEP1ʢมԽ఺ݕग़ʣͷύϥ

    ϝʔλ ͕௿͍ͱਫ਼౓͕௿Լ ω ͔͠͠ɺSTEP2/3ʹΑΓਫ਼౓ Λճ෮Ͱ͖͍ͯΔ ߹੒ͷ͖Ε͍ͳσʔλͰ ͸ɺมԽ఺ݕग़ਫ਼౓͕ߴ͢ ͗ΔͨΊ