Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アラート対応で疲弊してるチームがいまできること

Avatar for pypypyo14 pypypyo14
June 25, 2021
4.3k

 アラート対応で疲弊してるチームがいまできること

2021/06/25 AKIBA.AWS Online #4

Avatar for pypypyo14

pypypyo14

June 25, 2021
Tweet

Transcript

  1. AWS Systems Manager Incident Manager インシデント管理機能と 進化した自動化フロー - CloudWatch Alarmをトリガーにして、

    - SSM Automationのランブックを実行 - インシデントの管理ページを作成(事象サマリ、時系列、振返り etc) - アラート発生から一定時間解決しない場合、電話やSMSなどの通知設定可能 - 一定時間担当者が対応開始しなければ 別の担当者へエスカレ電話するようなフローも組める
  2. SPAMとまではいわんが Warning → Recover(自然復旧) Warning → Recover(自然復旧) Warning → Recover(自然復旧)

    Warning → Recover(自然復旧) Warning → Recover(自然復旧) Warning → Recover(自然復旧) 以下略 何で使用率XX%程度でWarning飛ばしてるんだろ? 答:なんとなく不安だから
  3. CloudWatch Syncetics - 主なメトリクス - レスポンスタイム(ms) - レスポンスコード 2xx, 4xx,

    5xx, レスポンス無し の数 など - Webサービスの死活監視にも - Webサーバの健全性だけでなく DBアクセスに失敗したら5xxを返す ようなURLを監視するのがよさそう