Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Anomaly detection using correlations of load
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Yoshihiro Iwanaga
November 19, 2010
Technology
0
54
Anomaly detection using correlations of load
Yoshihiro Iwanaga
November 19, 2010
Tweet
Share
More Decks by Yoshihiro Iwanaga
See All by Yoshihiro Iwanaga
HTTP2 最速実装v2
yoshi
0
130
JavaScript と Arduino でオリジナルデバイスを作ろう
yoshi
0
83
Anomaly Detection by Mean and Standard Deviation
yoshi
0
170
WebComponents LT at AQ
yoshi
0
61
MHTML LT at AQ
yoshi
2
54
HOTATE (Developers Summit 2012)
yoshi
0
34
Other Decks in Technology
See All in Technology
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
120
セキュリティについて学ぶ会 / 2026 01 25 Takamatsu WordPress Meetup
rocketmartue
1
310
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
2
210
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
2k
Greatest Disaster Hits in Web Performance
guaca
0
260
Agile Leadership Summit Keynote 2026
m_seki
1
640
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
130
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
1.4k
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
590
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
260
Agent Skils
dip_tech
PRO
0
110
コスト削減から「セキュリティと利便性」を担うプラットフォームへ
sansantech
PRO
3
1.5k
Featured
See All Featured
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
150
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Writing Fast Ruby
sferik
630
62k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
110
Tell your own story through comics
letsgokoyo
1
810
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
410
Product Roadmaps are Hard
iamctodd
PRO
55
12k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
The Language of Interfaces
destraynor
162
26k
Transcript
2010/11/19 1 アプリケーションサービス部 岩永 義弘 相関関係を用いた新監視システム
背景 • 近年の傾向 – システムの大規模化による管理ホスト数の増大 – 仮想化による複雑化 • その影響 –
障害発生件数が増加 – 障害の原因調査にかかる時間が増加 – 監視システムのターゲット追加作業が増加 • 将来、障害対応に要するコストは大きくなる 2
新監視システムが目指すもの 3 障害件数の減少 原因調査の時間短縮 運用負荷の低減 • 障害の兆候を事前に検知できれば・・・ – 事前対策を施す →
障害の発生を予防 • 障害発生時にシステムが原因を提示してくれたら・・・ – 調査の手間が省ける • 設定作業が不要になれば・・・ – ホスト追加の度に発生する閾値の設定が不要 – 運用中の閾値変更も不要
着眼点 • 連動して機能するリソース同士には相関がある – 例えば • 「前段ホストのトラフィック」と「後段ホストのCPU使用率」 • 並列に負荷分散された機器同士のリソース 4
前段ホストのトラフィック 後段ホストのCPU使用率 相関がある状態 相関が崩れた状態
検知の仕組み 5 • 負荷の相関関係に着目 平常時に成立する 負荷の相関関係を抽出 負荷の散布図 ⇒ 線形関係になっている 問題が発生したホスト名、リソースを知ることができる 障害が起きると
学習した分布から外れる 赤:平常時 青:障害発生時
モデル化と異常の判定 • 学習対象 – 全てのリソースの組合わせで相関関係を抽出 – 相関のあるものだけを選び出し、モデル化 • 検知の方法 –
学習したモデルから大きく外れていたら異常と判定 – 通知しないケース • 一瞬だけ相関が崩れた場合(スパイク) • 相関の崩れた箇所が少ない場合 • 学習期間 – 2週間 – 平日と休日を分ける必要は無い 6
検知しないケース 7
モデル化と異常の判定 • 学習対象 – 全てのリソースの組合わせで相関関係を抽出 – 相関のあるものだけを選び出し、モデル化 • 検知の方法 –
学習したモデルから大きく外れていたら異常と判定 – 通知しないケース • 一瞬だけ相関が崩れた場合(スパイク) • 相関の崩れた箇所が少ない場合 • 学習期間 – 2週間 – 平日と休日を分ける必要は無い 8
障害検出事例(1) • ホストが再起動を起こしたケース – 該当ホストのCPU使用率に相関の崩れが集中 • そのホストのCPU負荷だけが徐々に増加し、相関が崩れた – 兆候を事前に検出 •
予防が可能な障害だった 9 送信サーバ群 前段サーバ群 再起動! 相関の崩れ を検知
• メールサービスの配送遅延障害 – 暗号化サーバのロードアベレージに相関の異常 – 大サイズファイルが添付されたメールを大量に受信 • 全体の負荷が上昇し、フル稼働状態 • 一方、暗号化処理が追いつかずロードアベレージだけが上がり続け
相関が崩れた – サービスレベルの低下を検出 • 影響を最小限にできていたはず 障害検出事例(2) 10 送信サーバ 添付ファイル 暗号化サーバ MTA、フィルタ 100Mbps CPU使用率100% 際限なく上昇!!
うまくいかないケース • 相関が大きく崩れていても障害になっていない – 従来の閾値監視では、サービススペックに関わるデータ を直接監視 – 必ずしも「相関の崩れた=障害発生」となるわけではない – 現在対策を検討中
11
今後の取り組み • 障害原因の提示 – 現段階では相関が崩れた場所を知らせるのみ – 障害原因を推測するシステムに • 「相関の崩れ方」と「障害原因」をセットで学習 • パターンマッチによって障害原因を提示 •
誤検知抑制にも効果が期待できる 12
まとめ • 負荷の相関関係を用いる – 個々のリソースを監視するのではない – データの組み合わせから不変関係をモデル化 • 障害の検知に成功 – 過負荷による再起動の兆候 – 局所的な負荷増加によるメール配送遅延 •
課題 – 誤判定の抑制 • 今後の取り組み – 障害原因の学習と提示 13
14 ご清聴ありがとうございました お問い合わせ先 IIJインフォメーションセンター TEL:03-5205-4466 (9:30~17:30 土/日/祝日除く)
[email protected]
http://www.iij.ad.jp/
15 backup slides
障害検知事例(3) 16 • ファイアウォールログ解析システム • CPU、トラフィックに相関の異常発生 – 特定顧客のログが急増 • 中継サーバの一部が局所的に過負荷になったケース
• その他にも、新規顧客投入による負荷の変化も検知している 中継サーバ 解析サーバ FWログ受けサーバ ファイア ウォール DB ファイア ウォール
誤検知対策 • 一瞬だけ相関が崩れたケース(スパイク) – アラートは不要 – アラートの条件:一定時間、異常が継続すること • 相関の崩れ方が少ないケース –
例:一カ所のみ、わずかに相関関係が崩れている – サービスへの影響が小さいので通知しない 17
検知の仕組み • 相関の有無を判定 – ピアソンの積率相関係数 18 一般に、 | r | >
0.8 のときに強い相関を持つ ⇒ この条件を使って、相関を持ったデータの組合わせを選び出す
相関係数 • 強い相関を持つデータペアを選び出す – fabs(相関係数) > 0.8
相関係数
検知の仕組み • データの規格化 – データによって取り得る値の散らばりが違う • ロードアベレージ : 0 ~
10 程度の値をとる • トラフィック : 0 ~ 10,000 の値をとる – スケールの違うデータを公平に扱いたい • 標準偏差で割る • フィッティング – Y = a X + b でフィッティング • データペアの関係を表す – a, b を学習する • 学習期間:二週間 21
フィッティング • 最小二乗法 22 を データ集合 でフィッティングするとき、 フィッティングパラメータ a, b
は下記の通り
フィッティング • フィッティングの良し悪しを判定 – 上手くフィッティングできているものだけを選ぶ ∑ = ⎟ ⎟ ⎠ ⎞
⎜ ⎜ ⎝ ⎛ − = N i i i x x 1 2 2 σ χ NDF = 点の数 - パラメータ数
検知の仕組み • 異常度を計算 – 部分異常度 • マハラノビス距離と等価 – 総合異常度 •
部分異常の平均値 • 10 σ を閾値に設定 – 異常の継続時間 • 「一瞬だけ相関が崩れたが直ちに元の正常な状態に戻る」 • この場合、アラートは不必要 • アラート送信条件:「相関の異常が15分以上継続している」 24 データ i データ j dij フィッティングで 得た直線
None