Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Anomaly detection using correlations of load
Search
Yoshihiro Iwanaga
November 19, 2010
Technology
0
52
Anomaly detection using correlations of load
Yoshihiro Iwanaga
November 19, 2010
Tweet
Share
More Decks by Yoshihiro Iwanaga
See All by Yoshihiro Iwanaga
HTTP2 最速実装v2
yoshi
0
110
JavaScript と Arduino でオリジナルデバイスを作ろう
yoshi
0
80
Anomaly Detection by Mean and Standard Deviation
yoshi
0
160
WebComponents LT at AQ
yoshi
0
58
MHTML LT at AQ
yoshi
2
51
HOTATE (Developers Summit 2012)
yoshi
0
31
Other Decks in Technology
See All in Technology
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
1
470
The Future of SEO: The Impact of AI on Search
badams
0
260
IAMポリシーのAllow/Denyについて、改めて理解する
smt7174
2
180
Active Directory攻防
cryptopeg
PRO
8
4.9k
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
300
クラウドサービス事業者におけるOSS
tagomoris
3
970
1行のコードから社会課題の解決へ: EMの探究、事業・技術・組織を紡ぐ実践知 / EM Conf 2025
9ma3r
6
1.9k
Exadata Database Service on Cloud@Customer セキュリティ、ネットワーク、および管理について
oracle4engineer
PRO
2
1.5k
わたしがEMとして入社した「最初の100日」の過ごし方 / EMConfJp2025
daiksy
13
3.6k
JavaにおけるNull非許容性
skrb
1
350
AIエージェント入門
minorun365
PRO
7
2.6k
コンピュータビジョンの社会実装について考えていたらゲームを作っていた話
takmin
1
550
Featured
See All Featured
Navigating Team Friction
lara
183
15k
Why Our Code Smells
bkeepers
PRO
336
57k
Scaling GitHub
holman
459
140k
The Language of Interfaces
destraynor
156
24k
Speed Design
sergeychernyshev
27
800
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Bootstrapping a Software Product
garrettdimon
PRO
306
110k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Building a Scalable Design System with Sketch
lauravandoore
461
33k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.1k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.6k
Transcript
2010/11/19 1 アプリケーションサービス部 岩永 義弘 相関関係を用いた新監視システム
背景 • 近年の傾向 – システムの大規模化による管理ホスト数の増大 – 仮想化による複雑化 • その影響 –
障害発生件数が増加 – 障害の原因調査にかかる時間が増加 – 監視システムのターゲット追加作業が増加 • 将来、障害対応に要するコストは大きくなる 2
新監視システムが目指すもの 3 障害件数の減少 原因調査の時間短縮 運用負荷の低減 • 障害の兆候を事前に検知できれば・・・ – 事前対策を施す →
障害の発生を予防 • 障害発生時にシステムが原因を提示してくれたら・・・ – 調査の手間が省ける • 設定作業が不要になれば・・・ – ホスト追加の度に発生する閾値の設定が不要 – 運用中の閾値変更も不要
着眼点 • 連動して機能するリソース同士には相関がある – 例えば • 「前段ホストのトラフィック」と「後段ホストのCPU使用率」 • 並列に負荷分散された機器同士のリソース 4
前段ホストのトラフィック 後段ホストのCPU使用率 相関がある状態 相関が崩れた状態
検知の仕組み 5 • 負荷の相関関係に着目 平常時に成立する 負荷の相関関係を抽出 負荷の散布図 ⇒ 線形関係になっている 問題が発生したホスト名、リソースを知ることができる 障害が起きると
学習した分布から外れる 赤:平常時 青:障害発生時
モデル化と異常の判定 • 学習対象 – 全てのリソースの組合わせで相関関係を抽出 – 相関のあるものだけを選び出し、モデル化 • 検知の方法 –
学習したモデルから大きく外れていたら異常と判定 – 通知しないケース • 一瞬だけ相関が崩れた場合(スパイク) • 相関の崩れた箇所が少ない場合 • 学習期間 – 2週間 – 平日と休日を分ける必要は無い 6
検知しないケース 7
モデル化と異常の判定 • 学習対象 – 全てのリソースの組合わせで相関関係を抽出 – 相関のあるものだけを選び出し、モデル化 • 検知の方法 –
学習したモデルから大きく外れていたら異常と判定 – 通知しないケース • 一瞬だけ相関が崩れた場合(スパイク) • 相関の崩れた箇所が少ない場合 • 学習期間 – 2週間 – 平日と休日を分ける必要は無い 8
障害検出事例(1) • ホストが再起動を起こしたケース – 該当ホストのCPU使用率に相関の崩れが集中 • そのホストのCPU負荷だけが徐々に増加し、相関が崩れた – 兆候を事前に検出 •
予防が可能な障害だった 9 送信サーバ群 前段サーバ群 再起動! 相関の崩れ を検知
• メールサービスの配送遅延障害 – 暗号化サーバのロードアベレージに相関の異常 – 大サイズファイルが添付されたメールを大量に受信 • 全体の負荷が上昇し、フル稼働状態 • 一方、暗号化処理が追いつかずロードアベレージだけが上がり続け
相関が崩れた – サービスレベルの低下を検出 • 影響を最小限にできていたはず 障害検出事例(2) 10 送信サーバ 添付ファイル 暗号化サーバ MTA、フィルタ 100Mbps CPU使用率100% 際限なく上昇!!
うまくいかないケース • 相関が大きく崩れていても障害になっていない – 従来の閾値監視では、サービススペックに関わるデータ を直接監視 – 必ずしも「相関の崩れた=障害発生」となるわけではない – 現在対策を検討中
11
今後の取り組み • 障害原因の提示 – 現段階では相関が崩れた場所を知らせるのみ – 障害原因を推測するシステムに • 「相関の崩れ方」と「障害原因」をセットで学習 • パターンマッチによって障害原因を提示 •
誤検知抑制にも効果が期待できる 12
まとめ • 負荷の相関関係を用いる – 個々のリソースを監視するのではない – データの組み合わせから不変関係をモデル化 • 障害の検知に成功 – 過負荷による再起動の兆候 – 局所的な負荷増加によるメール配送遅延 •
課題 – 誤判定の抑制 • 今後の取り組み – 障害原因の学習と提示 13
14 ご清聴ありがとうございました お問い合わせ先 IIJインフォメーションセンター TEL:03-5205-4466 (9:30~17:30 土/日/祝日除く)
[email protected]
http://www.iij.ad.jp/
15 backup slides
障害検知事例(3) 16 • ファイアウォールログ解析システム • CPU、トラフィックに相関の異常発生 – 特定顧客のログが急増 • 中継サーバの一部が局所的に過負荷になったケース
• その他にも、新規顧客投入による負荷の変化も検知している 中継サーバ 解析サーバ FWログ受けサーバ ファイア ウォール DB ファイア ウォール
誤検知対策 • 一瞬だけ相関が崩れたケース(スパイク) – アラートは不要 – アラートの条件:一定時間、異常が継続すること • 相関の崩れ方が少ないケース –
例:一カ所のみ、わずかに相関関係が崩れている – サービスへの影響が小さいので通知しない 17
検知の仕組み • 相関の有無を判定 – ピアソンの積率相関係数 18 一般に、 | r | >
0.8 のときに強い相関を持つ ⇒ この条件を使って、相関を持ったデータの組合わせを選び出す
相関係数 • 強い相関を持つデータペアを選び出す – fabs(相関係数) > 0.8
相関係数
検知の仕組み • データの規格化 – データによって取り得る値の散らばりが違う • ロードアベレージ : 0 ~
10 程度の値をとる • トラフィック : 0 ~ 10,000 の値をとる – スケールの違うデータを公平に扱いたい • 標準偏差で割る • フィッティング – Y = a X + b でフィッティング • データペアの関係を表す – a, b を学習する • 学習期間:二週間 21
フィッティング • 最小二乗法 22 を データ集合 でフィッティングするとき、 フィッティングパラメータ a, b
は下記の通り
フィッティング • フィッティングの良し悪しを判定 – 上手くフィッティングできているものだけを選ぶ ∑ = ⎟ ⎟ ⎠ ⎞
⎜ ⎜ ⎝ ⎛ − = N i i i x x 1 2 2 σ χ NDF = 点の数 - パラメータ数
検知の仕組み • 異常度を計算 – 部分異常度 • マハラノビス距離と等価 – 総合異常度 •
部分異常の平均値 • 10 σ を閾値に設定 – 異常の継続時間 • 「一瞬だけ相関が崩れたが直ちに元の正常な状態に戻る」 • この場合、アラートは不必要 • アラート送信条件:「相関の異常が15分以上継続している」 24 データ i データ j dij フィッティングで 得た直線
None