Slide 1

Slide 1 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager Incident Manager で実現するインシデント管理 上野 涼平 ソリューションアーキテクト アマゾン ウェブ サービス ジャパン 合同会社 OpsJAWS Meetup #25 2023/09/04

Slide 2

Slide 2 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. アジェンダ 2 • インシデントとは? • AWS Systems Manager Incident Manager とは • Incident Manager 活用例 • まとめ

Slide 3

Slide 3 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントとは? 3

Slide 4

Slide 4 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントとは? 4 インシデントとは サービスにおける計画外の中断や サービス品質の低下をもたらすもの AWS 公式ドキュメント: AWS Systems Manager Incident Manager とは?より抜粋 https://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/what-is-incident-manager.html

Slide 5

Slide 5 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントとは? - もう少し具体的に - 5 サーバーダウンによる サービス停止 大量アクセスによる 予期せぬレスポンス遅延 不正アクセスによる 情報流出

Slide 6

Slide 6 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントとは? - もう少し具体的に - 6 サーバーダウンによる サービス停止 大量アクセスによる 予期せぬレスポンス遅延 不正アクセスによる 情報流出 とにかく早く復旧させたい、影響を軽減させたい

Slide 7

Slide 7 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントのハンドリング 7 インシデントの検知と エンゲージメント 調査と対応 インシデント後の分析

Slide 8

Slide 8 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントのハンドリング 8 インシデントの検知と エンゲージメント 調査と対応 インシデント後の分析 • 適切な担当者への連絡および応答状況 の確認 • エスカレーションフローの整備 • 調査に必要にな情報の一元化 • 作業の効率化、自動化 • 関係者間のコミュニケーション円滑化 • インシデント対応の改善 • 根本原因の理解

Slide 9

Slide 9 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager Incident Manager とは 9

Slide 10

Slide 10 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager Incident Manager とは 10 インシデントの解決、影響を軽減するまで の時間を短縮させるための機能

Slide 11

Slide 11 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager の機能 11 運用管理 アプリケーション管理 変更管理 ノード管理 Explorer OpsCenter Application Manager AppConfig Parameter Store Change Manager Automation Change Calendar Fleet Manager Inventory Run Command Patch Manager Distributor State Manager Session Manager Incident Manager Quick Setup Maintenance Windows

Slide 12

Slide 12 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager の機能 12 運用管理 アプリケーション管理 変更管理 ノード管理 Explorer OpsCenter Application Manager AppConfig Parameter Store Change Manager Automation Change Calendar Fleet Manager Inventory Run Command Patch Manager Distributor State Manager Session Manager Incident Manager Quick Setup Maintenance Windows

Slide 13

Slide 13 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager 全体図 13 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook 実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams

Slide 14

Slide 14 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager 全体図 14 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams インシデントの検知と エンゲージメント • 適切な担当者への連絡および 応答状況の確認 • エスカレーションフローの整備

Slide 15

Slide 15 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager 全体図 15 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook 実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams 調査と対応 関係者間の コミュニケーション円滑化 調査に必要にな情報の一元化 作業の効率化、自動化

Slide 16

Slide 16 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager 全体図 16 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams インシデント後の分析 • インシデント対応の改善 • 根本原因の理解

Slide 17

Slide 17 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager を構成する要素 17 エスカレーションプラン チャットチャネル Runbook 対応プラン 連絡先 • インシデント発生時の連絡先 • E メール、SMS、音声(電話)による 連絡が可能 • エスカレーションパス • 輪番コールのように連絡先の応答有無 に応じて次の連絡先へ連絡を行う • インシデントの更新と通知をチャット チャネルに連携可能 • Slack、Teams、Amazon Chimeに 対応 • インシデント対応に必要な手順書の 役割を持つ(手動ステップ) • アプリケーションおよびインフラス トラクチャタスクを自動化すること も可能 • 連絡先、エスカレーションプラン、 オンコールスケジュール、チャット チャネル、Runbook をまとめたもの • インシデント発生時は関連する対応 プランが呼び出される オンコールスケジュール • インシデント時の連絡先ローテーショ ンや連絡を行うスケジュールの設定 • 日、週、月の単位でローテーションが 可能

Slide 18

Slide 18 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 連絡先 18 • E メール、SMS、音声(電話) から選択可能 • 一つの連絡先に複数の連絡先 チャネルを設定可能

Slide 19

Slide 19 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 連絡先 - エンゲージメント例 - 19 • E メール SMS 音声(電話) AWS Systems Manager Incident Manager … https://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/contacts.html#contacts-details-file Incident Manager からの SMS 通知または音声通知において、通知元が Incident Manager であることを確認するために、 vcf ファイルが公開されております。

Slide 20

Slide 20 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. エスカレーションプラン 20 • インシデント発生時のエスカレーションフローを定義 n分後 n分後 Stage:1 Stage:2 Stage:3 連絡先A 連絡先B 連絡先C Next Stage 連絡に応答した場合は、次の ステージへのエスカレーション は停止します 指定した時間内に応答がない 場合、次のステージへ 遷移します

Slide 21

Slide 21 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. オンコールスケジュール 21 • オンコール担当者のグループ内で、ローテーションを設定可能 • ローテーションの頻度は、日、週、月から選択可能 • 設定したスケジュールに対して例外の設定も可能 9/4~9/10 9/11~9/17 9/18~9/24 第1連絡者 第2連絡者 Aさん Bさん Aさん Bさん Aさん Bさん (9/20 だけ第1連絡者)

Slide 22

Slide 22 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. オンコールスケジュールの設定 22 オンコールスケジュールを有効にする曜日を指定 可能。こちらは平日のみオンコールを行う設定例 オンコールを行う連絡先(コンタクト)を追加し、 順番を設定する ローテーションを行う単位を日、週、月で設定

Slide 23

Slide 23 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. オンコールスケジュールのカレンダー 23

Slide 24

Slide 24 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. チャットチャネル 24 • インシデントの更新や通知、エンゲージ結果をチャットチャネルにプッシュ • チャットチャネルから、コマンドでインシデント情報の取得、更新が可能※ Incident Manager Slack Amazon SNS AWS Chatbot Amazon Chime Slackの通知例 Teams ※Slack および Teams のみ対応 https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html#chat-interact

Slide 25

Slide 25 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Runbook 25 • インシデント発生時に、AWS Systems Manager Automation の Runbook を呼び出し可能 • インシデント対応に必要な手順や処理をステップとして定義することで、インシデント対応 時間の短縮に役立つ • インシデント対応用の Runbook テンプレートが提供されている https://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/runbooks.html#runbooks-template

Slide 26

Slide 26 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Runbook についてもう少し補足 26 Runbook の説明欄 Markdown で記載 ステップごとにアクションを定義する アクション内容も補足として記載できる アクションの一例 • aws:executeAutomation • aws:executeScript • aws:runCommand https://docs.aws.amazon.com/ja_jp/systems-manager/latest/userguide/automation-actions.html

Slide 27

Slide 27 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWSIncidents-CriticalIncidentRunbookTemplate 27 • インシデント対応の一般的なステップが定義されており、各ステップで行うべきアクション が記載されている。手順書のような扱いで利用することが可能。 影響判断 診断 緩和 リカバリー

Slide 28

Slide 28 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 対応プラン 28 インシデントの対応に必要な設定をまとめたもので、以下の項目を設定 • インシデントのデフォルト • タイトル • 影響 • 概要 • Runbook • チャットチャネル • エンゲージメント • 連絡先 • エスカレーションプラン • オンコールスケジュール

Slide 29

Slide 29 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントの作成 29 以下からインシデントの作成が可能 • マネジメントコンソール • API • CloudWatch アラーム • EventBridge イベントによる作成が可能 マネジメントコンソール CloudWatch アラーム

Slide 30

Slide 30 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントの確認 30 • ステータス、影響、チャットチャネル、インシデントが発生している期間、 Runbook の進行状況、エンゲージメント(連絡・応答)状況の概要を確認できる • 関連メトリクス、タイムライン等の詳細については、各タブから確認可能

Slide 31

Slide 31 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントの確認 - タイムラインの詳細 31

Slide 32

Slide 32 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデント対応 32 • インシデント対応に利用する Runbook を Incident Manager のコンソール から操作可能

Slide 33

Slide 33 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデント対応 - メモの追加 - 33 • インシデント対応状況をメモ機能で残すことができ て、追加したメモはタイムラインにも反映される

Slide 34

Slide 34 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデント後の分析 34 項目 入力内容 概要 インシデントの概要 影響 インシデントの影響 インシデントの検出に関する質問 インシデントの検出にかかる時間を短縮するために 改善できることはあるか インシデントの診断に関する質問 インシデントの診断にかかる時間の短縮や担当者へ の連絡に関して改善の余地があるか インシデントの緩和・軽減に関する質問 インシデントによる影響の緩和・軽減や対応完了ま での時間を短縮するために改善できることはあるか インシデントの防止に関する質問 なぜ問題が発生したか、得られた教訓 分析の詳細 correction of error (COE) を開発すべき理由 https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html#analysis-details https://aws.amazon.com/jp/blogs/news/why-you-should-develop-a-correction-of-error-coe/ テンプレート:AWSIncidents-PostIncidentAnalysisTemplate

Slide 35

Slide 35 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager 活用例 35

Slide 36

Slide 36 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Case1: CloudWatch アラームトリガーのインシデント 36 Incident Manager CloudWatch Runbook Stage1 エスカレーションプラン Stage2 zzz Slack Step1: (自動実行) 対象アプリケーションのリソース情報を 取得するシェルスクリプトが実行 Step2: (手動実行) Step1 で取得されたリソース情報の確認 調査に必要な情報が揃っていることを確認 Step3: (手動実行) アプリケーションサーバの〇〇を調査 ・ ・ ・ チャットチャネル CloudWatch のアラームを トリガーにインシデント作成 Stage1 のメンバーに 連絡が来るが、応答なし Stage2 のメンバーが連絡に 応答し、対応を開始 チームメンバーは Slack で インシデントステータスを確認 調査に必要な情報取得は、スクリプトが自動実行され、 詳細な調査は Runbook 記載の手順に沿って対応を進める 1 2 3 4 サービス停止やレスポンス遅延などを検知

Slide 37

Slide 37 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Case2: セキュリティインシデント 37 AWS Security Hub Amazon EventBridge Incident Manager Amazon GuardDuty Amazon Inspector その他 セキュリティサービス … Security Hub に集約される情報の中から Criticalなものを EventBridge に連携 不正アクセスだと…!?

Slide 38

Slide 38 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Case3: インシデントの連絡・対応のみにIncident Managerを利用 38 モニタリングサービス Incident Manager Webhook Amazon API Gateway AWS Lambda strat-incident API

Slide 39

Slide 39 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Case4: ユーザー問い合わせで発覚したインシデント 39 AWS Chatbot インシデント報告用 Webページ Incident Manager https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html#chat-interact Incident Manager チャットチャネルを通じたやりとり 〇〇の機能が 使えないっぽい strat-incident API strat-incident API • システム的に検知できなかったトラブルの対応は、バタつくことが多い • イレギュラーな事象でも、いつも通りの連絡経路、コミュニケーション基盤を使い対応記録が残るようにする

Slide 40

Slide 40 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 番外編: とにかく何かあったら電話連絡だけ受けたい 40 • 一人情シスで、すべての連絡は自分で受けるしかない・・・! • インシデントごとに対応手順や自動処理を整備する時間がない。Runbook作る暇なし! • とにかく問題あれば早く知らせてくれさえすればまずはOK! 対応プラン Runbook Chat チャネル エンゲージメント すべてのアラーム Runbook 設定は省略可

Slide 41

Slide 41 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. まとめ 41

Slide 42

Slide 42 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. まとめ 42 • インシデントとは • サービスにおける計画外の中断やサービス品質の低下をもたらすもの • 素早い復旧、影響軽減が求められる • Incident Manager とは • インシデントの解決、影響を軽減するまでの時間を短縮させるための機能 • インシデント発生時に適切なメンバーアサイン、連絡、エスカレーション、関係者間の コミュニケーション円滑化に役立つ • Incident Manager 活用例 • Runbook、チャットチャネル、エンゲージメントをフル活用したインシデント対応 • エンゲージメントの機能だけを使い電話連絡を簡単に実現することも可能

Slide 43

Slide 43 text

© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.