Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Incident Manager触ってみた

Incident Manager触ってみた

JAWS-UG初心者支部#55 LT大会の登壇資料です。

コムコム

May 09, 2023
Tweet

Other Decks in Technology

Transcript

  1. 2 自己紹介 ▪自己紹介 • 小向 由宇希(こむかい ゆうき) • 所属:MDIS 社会人4年目

    (クラウドセントリック社 出向中) • 経験した業務: 証券様向けのセキュリティ機器運用 ※プロキシのフィルタリング設定等 • AWS経験: なし(入社時CLF取得したのみ)
  2. 3 クラウドセントリック株式会社ご紹介 Cloud Centric Corporation(略称C3) 会社設立: 2023年4月7日 資本金: 1億5000万円(資本準備金を含む) 株主:

    三菱電機インフォメーションシステムズ(66.6%)スカイアーチネットワークス(33.4%) エンジニア個人と組織の相互発展のもと、 最先端のクラウド技術で、お客様のビジネスを変革します。
  3. 5 AWS Summitで聴いたセッションの話 「インシデントを起点に考える、 システム運用のユースケースご紹介」 どんな話だったか、、 インシデント(障害)の対応は 「AWS Systems Manager

    Incident Manager」 が使える。 ▪すごいと感じた機能 ・インシデント発生時、自動で担当者に連絡がいく ・あらかじめ定義した「Runbook」にて 対応手順を確認でき、(可能であれば)自動処理で復旧作業してくれる AWS Systems Manager Incident Manager
  4. 6 「エスカレーションプラン」を元に 担当者に自動で連絡(出なかったら、 リストの上から連絡していく) 保守担当① 保守担当② 保守担当 ・・・ 出た人が対応!! 自動復旧可能なものは自動で処理

    Incident Managerでのアラート検知フロー Incident Manager アラート 検知 CloudWatch アラート 検知 24/365監視担当 リストを元に担当者に連絡 (出なかったら、 リストの上から連絡していく) 保守担当① 保守担当② 保守担当 ・・・ 出た人が対応!! 報告、原因調査、人員調整、作業 従来の人によるアラート検知フロー Systems Manager Automation AWS Summitで聴いたセッションの話
  5. 7 検証(目標) ❏ 本当に簡単に連絡フローの設定できるのか?。。 実際にやってみた! ☆やりたいこと・目標 1. EC2のCPU使用率が50%以上超えるとアラートを出す。 2. アラート発砲時、担当者に自動で電話連絡がいくようにし、

    またサーバ再起動を自動で実行する。 監視 アラート連携 電話連絡 再起動 CloudWatch EC2 Systems Manager Automation ~設定の流れ~ ①EC2を立てる ②CloudWatchにてCPUを監視し、 閾値を超えたらアラートを出す設定を入れる ③Incident Managerにて 「エスカレーションプラン」を設定 ④Automationにて実行する機能(再起動)を Runbookで定義
  6. 8 検証 ❏ CPU使用率をあげて、再起動されるか検証! ・yesコマンドで負荷をあげる(CPU使用率が50%超えてアラート発砲!) ⇒サーバ再起動は失敗。。 1つ目の連絡先に登録した携帯に 電話がきた! ⇒無視。 1分後、2つ目の連絡先に登録した

    電話がきた! ⇒連絡フローは成功!!! Automation Step Execution fail when it is verifying the instance(s) have reached desired state. Get Exception from DescribeInstance Status API of ec2 Service. Stop fails when it is validating and resolving the step input. com.amazonaws.amiaserviceworker.exception.ActionInputsResolvingException: Input InstanceIds String pattern validation fails. 〇エラーメッセージ
  7. 9 検証 ❏ エラーの修正 ・エラー修正① Automation Step Execution fail when

    it is verifying the instance(s) have reached desired state. Get Exception from DescribeInstance Status API of ec2 Service. EC2のインスタンスのステータスをチェックするAPIが失敗していた。 Automationを実行する権限(IAMポリシー)が足りていない。 〇対応内容 ランブック実行時のSSM用IAMロールに Action「”ec2:DescribeInstanceStatus”,」を加える エラーメッセージはしっかり読む。。(AWSの処理を理解して原因を見る)
  8. 10 〇対応内容 Runbookのステップに、「arn:ec2:ap-north~/i-XXXXX」から後ろの 「i-XXXXX」を抜き出す処理を加える。 検証 ❏ エラーの修正 Stop fails when

    it is validating and resolving the step input. com.amazonaws.amiaserviceworker.exception.ActionInputsResolvingException: Input InstanceIds String pattern validation fails. ・エラー修正② CloudWatchアラームから連携される「InstanceId」の文字列パターンが 異なっていた。(arn:ec2:ap-north~/i-XXXXX) 環境構築には、pythonを書けるようにならないといけない。。