Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラート対応で疲弊してるチームがいまできること
Search
pypypyo14
June 25, 2021
3
4.3k
アラート対応で疲弊してるチームがいまできること
2021/06/25 AKIBA.AWS Online #4
pypypyo14
June 25, 2021
Tweet
Share
More Decks by pypypyo14
See All by pypypyo14
タツノコハイツ DockerHandsOn
pypypyo14
0
130
SSHハニーポット(Cowrie) つくってあそぼのススメ
pypypyo14
0
53
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
111
20k
The Language of Interfaces
destraynor
161
25k
Practical Orchestrator
shlominoach
190
11k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
840
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
Gamification - CAS2011
davidbonilla
81
5.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
A designer walks into a library…
pauljervisheath
207
24k
Unsuck your backbone
ammeep
671
58k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Transcript
アラート対応で疲弊してるチームが 今できること AWS事業本部オペレーション部 加藤早織
自己紹介 加藤早織 クラスメソッド AWS事業本部オペレーションチーム 2020年1月入社、2021年5月に産育休から復帰 - クラスメソッドメンバーズのテクニカルサポート - 業務改善ツール開発 ユーザ系SIer→ネトゲ会社→
(フラフラ) → クラスメソッド
ブログ企画の宣伝 弊社メンバーに沢山いい記事書いてもらいました アクセスキー運用、ぜひ一度確認を https://dev.classmethod.jp/referencecat/accesskey-secure-comitee/
発表タイトル アラート対応で疲弊してるチー ムが今できること
Amazon CloudWatch AWS Systems Manager お話するサービス
いやだ アラート疲れ
つかれちゃう4選 定形作業で復旧するアラート ・毎晩プロセス再起動のために起こされるマン 対応の必要がないアラート ・月末はいつも負荷かかってアラートがくるけど、この程度なら毎月のことだから静観で大丈夫 ・なんとなくしきい値低めの Warning 対応する必要あるかどうかわからないアラート ・CPU使用率98%です。で?問題はでているの? →
わかりません
1. 定形作業で復旧するアラート 「このアラートが出たら プロセス再起動しておいて!」 (夜中にくるアラート) (目処のつかない根本対応)
AWS Systems Manager Automation - EC2インスタンスなどの操作を自動化(RunBookの作成) - AWSのAPIを操作したり、OS内でのコマンド実行もできる
AWS Systems Manager Automation 例えば… - CloudWatchアラームをトリガーに 予め設定したランブックを呼び出し アラート検知 RunBook実行
アラート復旧 プロセス再起動 (Runbook) 調子悪い…
AWS Systems Manager 2021/05 素敵なアップデート
AWS Systems Manager Incident Manager
AWS Systems Manager Incident Manager インシデント管理機能と 進化した自動化フロー - CloudWatch Alarmをトリガーにして、
- SSM Automationのランブックを実行 - インシデントの管理ページを作成(事象サマリ、時系列、振返り etc) - アラート発生から一定時間解決しない場合、電話やSMSなどの通知設定可能 - 一定時間担当者が対応開始しなければ 別の担当者へエスカレ電話するようなフローも組める
AWS Systems Manager Incident Manager
AWS Systems Manager Incident Manager ClooudWatch Alermのアクション設定画面から連携可能
AWS Systems Manager すぐパソコン開けないけど とりあえず復旧はしてるみたい アラート発生! アラート復旧 自動処理の進捗 (Runbook成否など) ※
左のチャットの図はイメージです。ちょっと異なります
1. 定形作業で復旧するアラート 「このアラートが出たら プロセス再起動しておいて!」 「はい、自動化しておきました!」✅
2. 対応の必要がないアラート その1 「月末はいつも負荷かかって アラートがくるけど、 この程度なら毎月のことだから静観でヨシ」
CloudWatch Anomaly Detection(異常検出) - メトリクスの履歴を機械学習で分析 - 分析結果に応じてしきい値パターンが変化
CloudWatch Anomaly Detection(異常検出) 学習がこなれるまでは こんな取り入れ方もオススメ - 従来型のアラートと並行して運用 - 最初は予測のバンドを狭く(敏感に)設定→ 徐々に広くしていく
敏感 鈍感気味
向き不向きはある 傾向がある程度読めるメトリクス向き - 月初に多い - 土日に少ない - 朝のバッチ処理時間中は多い など 突発的なイベントの予測はできない -
ブラックフライデー - 超人気商品の発売日 など
2. 対応の必要がないアラート その1 「月末はいつも負荷かかって アラートがくるけど、 この程度なら毎月のことだから静観でヨシ」 「対応が必要な通知だけ飛ばしましょ」✅
3. 対応の必要がないアラート その2 「なんとなく様子を見たいから Warningのしきい値は低めにしておこう」
SPAMとまではいわんが Warning → Recover(自然復旧) Warning → Recover(自然復旧) Warning → Recover(自然復旧)
Warning → Recover(自然復旧) Warning → Recover(自然復旧) Warning → Recover(自然復旧) 以下略 何で使用率XX%程度でWarning飛ばしてるんだろ? 答:なんとなく不安だから
CloudWatch ダッシュボード - システムのメトリクス傾向が知りたいなら、 アラートではなくダッシュボードでモニタリングしよう - 朝に5分眺める習慣から 普段の利用率この程度なら、 このくらいの値になったら 通知が欲しいかな
あれ? しきい値は超えてないけど , 明らかに今日は何かが起こっ てるぞ…!?
3. 対応の必要がないアラート その2 「なんとなく様子を見たいから Warningのしきい値は低めにしておこう」 「様子はダッシュボードで観察して 通知に適切なしきい値を設定しましょ」✅
4. 対応する必要あるかどうかわからないアラート 「CPU使用率が98%です!」 「で?なにか問題はでているの?」 「…確認します!」
AWS Systems Manager Automation ふたたび CPU使用率の例 - アラート発生時、topコマンドを実行する 等のRunbookを作っておく -
どのプロセスが暴れていたのか特定するために、ログを記録しておく
CloudWatch Syncetics 合成監視サービス - URLを監視して、 ユーザの体験(可用性、レイテンシー)のメトリクスを取る - 4XX、5XXエラーが返ってこないか? - レスポンスが一定時間内に返ってくるか?
- 前述の異常検出との組合わせも可能(”いつもより遅い”がわかる)
CloudWatch Syncetics - 主なメトリクス - レスポンスタイム(ms) - レスポンスコード 2xx, 4xx,
5xx, レスポンス無し の数 など - Webサービスの死活監視にも - Webサーバの健全性だけでなく DBアクセスに失敗したら5xxを返す ようなURLを監視するのがよさそう
向き不向きはある - WebサービスのようにURLがないと利用できない
4. 対応する必要あるかどうかわからないアラート 「CPU使用率が98%です!」 「で?なにか問題はでているの?」 「…確認します!」 「顧客へ提供しているAPIは生きていそう」 「調査に必要な情報は記録取れていたので 落ち着いて調査を進めます」✅
まとめ - 脱・オオカミ少年 - どんどん自動化 - AWSの便利サービスを活用して 自分たち好みの監視/障害対応に ブラッシュアップ
None