Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Anomaly detection using correlations of load
Search
Yoshihiro Iwanaga
November 19, 2010
Technology
58
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Anomaly detection using correlations of load
Yoshihiro Iwanaga
November 19, 2010
More Decks by Yoshihiro Iwanaga
See All by Yoshihiro Iwanaga
HTTP2 最速実装v2
yoshi
0
130
JavaScript と Arduino でオリジナルデバイスを作ろう
yoshi
0
90
Anomaly Detection by Mean and Standard Deviation
yoshi
0
180
WebComponents LT at AQ
yoshi
0
66
MHTML LT at AQ
yoshi
2
57
HOTATE (Developers Summit 2012)
yoshi
0
36
Other Decks in Technology
See All in Technology
フロンティアAIのゲート化と地政学リスク
nagatsu
0
140
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
450
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1k
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
150
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
140
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.9k
RAG を使わないという選択肢
tatsutaka
1
230
20260619 私の日常業務での生成 AI 活用
masaruogura
1
200
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
110
新しいVibe Codingと”自走”について
watany
6
320
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
1k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
300
Featured
See All Featured
The Spectacular Lies of Maps
axbom
PRO
1
810
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
What's in a price? How to price your products and services
michaelherold
247
13k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
570
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
620
It's Worth the Effort
3n
188
29k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
1
1.7k
Discover your Explorer Soul
emna__ayadi
2
1.1k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
610
Transcript
2010/11/19 1 アプリケーションサービス部 岩永 義弘 相関関係を用いた新監視システム
背景 • 近年の傾向 – システムの大規模化による管理ホスト数の増大 – 仮想化による複雑化 • その影響 –
障害発生件数が増加 – 障害の原因調査にかかる時間が増加 – 監視システムのターゲット追加作業が増加 • 将来、障害対応に要するコストは大きくなる 2
新監視システムが目指すもの 3 障害件数の減少 原因調査の時間短縮 運用負荷の低減 • 障害の兆候を事前に検知できれば・・・ – 事前対策を施す →
障害の発生を予防 • 障害発生時にシステムが原因を提示してくれたら・・・ – 調査の手間が省ける • 設定作業が不要になれば・・・ – ホスト追加の度に発生する閾値の設定が不要 – 運用中の閾値変更も不要
着眼点 • 連動して機能するリソース同士には相関がある – 例えば • 「前段ホストのトラフィック」と「後段ホストのCPU使用率」 • 並列に負荷分散された機器同士のリソース 4
前段ホストのトラフィック 後段ホストのCPU使用率 相関がある状態 相関が崩れた状態
検知の仕組み 5 • 負荷の相関関係に着目 平常時に成立する 負荷の相関関係を抽出 負荷の散布図 ⇒ 線形関係になっている 問題が発生したホスト名、リソースを知ることができる 障害が起きると
学習した分布から外れる 赤:平常時 青:障害発生時
モデル化と異常の判定 • 学習対象 – 全てのリソースの組合わせで相関関係を抽出 – 相関のあるものだけを選び出し、モデル化 • 検知の方法 –
学習したモデルから大きく外れていたら異常と判定 – 通知しないケース • 一瞬だけ相関が崩れた場合(スパイク) • 相関の崩れた箇所が少ない場合 • 学習期間 – 2週間 – 平日と休日を分ける必要は無い 6
検知しないケース 7
モデル化と異常の判定 • 学習対象 – 全てのリソースの組合わせで相関関係を抽出 – 相関のあるものだけを選び出し、モデル化 • 検知の方法 –
学習したモデルから大きく外れていたら異常と判定 – 通知しないケース • 一瞬だけ相関が崩れた場合(スパイク) • 相関の崩れた箇所が少ない場合 • 学習期間 – 2週間 – 平日と休日を分ける必要は無い 8
障害検出事例(1) • ホストが再起動を起こしたケース – 該当ホストのCPU使用率に相関の崩れが集中 • そのホストのCPU負荷だけが徐々に増加し、相関が崩れた – 兆候を事前に検出 •
予防が可能な障害だった 9 送信サーバ群 前段サーバ群 再起動! 相関の崩れ を検知
• メールサービスの配送遅延障害 – 暗号化サーバのロードアベレージに相関の異常 – 大サイズファイルが添付されたメールを大量に受信 • 全体の負荷が上昇し、フル稼働状態 • 一方、暗号化処理が追いつかずロードアベレージだけが上がり続け
相関が崩れた – サービスレベルの低下を検出 • 影響を最小限にできていたはず 障害検出事例(2) 10 送信サーバ 添付ファイル 暗号化サーバ MTA、フィルタ 100Mbps CPU使用率100% 際限なく上昇!!
うまくいかないケース • 相関が大きく崩れていても障害になっていない – 従来の閾値監視では、サービススペックに関わるデータ を直接監視 – 必ずしも「相関の崩れた=障害発生」となるわけではない – 現在対策を検討中
11
今後の取り組み • 障害原因の提示 – 現段階では相関が崩れた場所を知らせるのみ – 障害原因を推測するシステムに • 「相関の崩れ方」と「障害原因」をセットで学習 • パターンマッチによって障害原因を提示 •
誤検知抑制にも効果が期待できる 12
まとめ • 負荷の相関関係を用いる – 個々のリソースを監視するのではない – データの組み合わせから不変関係をモデル化 • 障害の検知に成功 – 過負荷による再起動の兆候 – 局所的な負荷増加によるメール配送遅延 •
課題 – 誤判定の抑制 • 今後の取り組み – 障害原因の学習と提示 13
14 ご清聴ありがとうございました お問い合わせ先 IIJインフォメーションセンター TEL:03-5205-4466 (9:30~17:30 土/日/祝日除く)
[email protected]
http://www.iij.ad.jp/
15 backup slides
障害検知事例(3) 16 • ファイアウォールログ解析システム • CPU、トラフィックに相関の異常発生 – 特定顧客のログが急増 • 中継サーバの一部が局所的に過負荷になったケース
• その他にも、新規顧客投入による負荷の変化も検知している 中継サーバ 解析サーバ FWログ受けサーバ ファイア ウォール DB ファイア ウォール
誤検知対策 • 一瞬だけ相関が崩れたケース(スパイク) – アラートは不要 – アラートの条件:一定時間、異常が継続すること • 相関の崩れ方が少ないケース –
例:一カ所のみ、わずかに相関関係が崩れている – サービスへの影響が小さいので通知しない 17
検知の仕組み • 相関の有無を判定 – ピアソンの積率相関係数 18 一般に、 | r | >
0.8 のときに強い相関を持つ ⇒ この条件を使って、相関を持ったデータの組合わせを選び出す
相関係数 • 強い相関を持つデータペアを選び出す – fabs(相関係数) > 0.8
相関係数
検知の仕組み • データの規格化 – データによって取り得る値の散らばりが違う • ロードアベレージ : 0 ~
10 程度の値をとる • トラフィック : 0 ~ 10,000 の値をとる – スケールの違うデータを公平に扱いたい • 標準偏差で割る • フィッティング – Y = a X + b でフィッティング • データペアの関係を表す – a, b を学習する • 学習期間:二週間 21
フィッティング • 最小二乗法 22 を データ集合 でフィッティングするとき、 フィッティングパラメータ a, b
は下記の通り
フィッティング • フィッティングの良し悪しを判定 – 上手くフィッティングできているものだけを選ぶ ∑ = ⎟ ⎟ ⎠ ⎞
⎜ ⎜ ⎝ ⎛ − = N i i i x x 1 2 2 σ χ NDF = 点の数 - パラメータ数
検知の仕組み • 異常度を計算 – 部分異常度 • マハラノビス距離と等価 – 総合異常度 •
部分異常の平均値 • 10 σ を閾値に設定 – 異常の継続時間 • 「一瞬だけ相関が崩れたが直ちに元の正常な状態に戻る」 • この場合、アラートは不必要 • アラート送信条件:「相関の異常が15分以上継続している」 24 データ i データ j dij フィッティングで 得た直線
None