Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWS Systems Manager Incident Manager で実現するインシデント管理
Search
Ryo Yoshii
September 05, 2023
Technology
0
1.5k
AWS Systems Manager Incident Manager で実現するインシデント管理
2023年9月4日(月) 開催 Ops JAWS Meetup#25 に登壇されたアマゾン ウェブ サービス ジャパン合同会社 上野 涼平 様の資料です。
Ryo Yoshii
September 05, 2023
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
65
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.1k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
370
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
150
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
1.3k
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
2
2.3k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
yoshiiryo1
0
1.1k
インシデント対応の成熟度とベストプラクティス
yoshiiryo1
0
1.7k
OpsJAWS Meetup24 静的安定性を考える、依存しないアーキテクチャ
yoshiiryo1
0
920
Other Decks in Technology
See All in Technology
信頼性に挑む中で拡張できる・得られる1人のスキルセットとは?
ken5scal
2
530
隣接領域をBeyondするFinatextのエンジニア組織設計 / beyond-engineering-areas
stajima
1
270
Why does continuous profiling matter to developers? #appdevelopercon
salaboy
0
190
AWS Lambda のトラブルシュートをしていて思うこと
kazzpapa3
2
170
社内で最大の技術的負債のリファクタリングに取り組んだお話し
kidooonn
1
550
Application Development WG Intro at AppDeveloperCon
salaboy
0
190
Lambda10周年!Lambdaは何をもたらしたか
smt7174
2
110
[FOSS4G 2024 Japan LT] LLMを使ってGISデータ解析を自動化したい!
nssv
1
210
なぜ今 AI Agent なのか _近藤憲児
kenjikondobai
4
1.4k
IBC 2024 動画技術関連レポート / IBC 2024 Report
cyberagentdevelopers
PRO
0
110
Lambdaと地方とコミュニティ
miu_crescent
2
370
ISUCONに強くなるかもしれない日々の過ごしかた/Findy ISUCON 2024-11-14
fujiwara3
8
870
Featured
See All Featured
A Tale of Four Properties
chriscoyier
156
23k
How GitHub (no longer) Works
holman
310
140k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Writing Fast Ruby
sferik
627
61k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
KATA
mclloyd
29
14k
RailsConf 2023
tenderlove
29
900
Art, The Web, and Tiny UX
lynnandtonic
297
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
Transcript
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager Incident Manager で実現するインシデント管理 上野 涼平 ソリューションアーキテクト アマゾン ウェブ サービス ジャパン 合同会社 OpsJAWS Meetup #25 2023/09/04
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. アジェンダ 2 • インシデントとは? • AWS Systems Manager Incident Manager とは • Incident Manager 活用例 • まとめ
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. インシデントとは? 3
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントとは? 4 インシデントとは サービスにおける計画外の中断や サービス品質の低下をもたらすもの AWS 公式ドキュメント: AWS Systems Manager Incident Manager とは?より抜粋 https://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/what-is-incident-manager.html
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントとは? - もう少し具体的に - 5 サーバーダウンによる サービス停止 大量アクセスによる 予期せぬレスポンス遅延 不正アクセスによる 情報流出
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントとは? - もう少し具体的に - 6 サーバーダウンによる サービス停止 大量アクセスによる 予期せぬレスポンス遅延 不正アクセスによる 情報流出 とにかく早く復旧させたい、影響を軽減させたい
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントのハンドリング 7 インシデントの検知と エンゲージメント 調査と対応 インシデント後の分析
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントのハンドリング 8 インシデントの検知と エンゲージメント 調査と対応 インシデント後の分析 • 適切な担当者への連絡および応答状況 の確認 • エスカレーションフローの整備 • 調査に必要にな情報の一元化 • 作業の効率化、自動化 • 関係者間のコミュニケーション円滑化 • インシデント対応の改善 • 根本原因の理解
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Systems Manager Incident Manager とは 9
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS Systems Manager Incident Manager とは 10 インシデントの解決、影響を軽減するまで の時間を短縮させるための機能
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS Systems Manager の機能 11 運用管理 アプリケーション管理 変更管理 ノード管理 Explorer OpsCenter Application Manager AppConfig Parameter Store Change Manager Automation Change Calendar Fleet Manager Inventory Run Command Patch Manager Distributor State Manager Session Manager Incident Manager Quick Setup Maintenance Windows
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWS Systems Manager の機能 12 運用管理 アプリケーション管理 変更管理 ノード管理 Explorer OpsCenter Application Manager AppConfig Parameter Store Change Manager Automation Change Calendar Fleet Manager Inventory Run Command Patch Manager Distributor State Manager Session Manager Incident Manager Quick Setup Maintenance Windows
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Incident Manager 全体図 13 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook 実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Incident Manager 全体図 14 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams インシデントの検知と エンゲージメント • 適切な担当者への連絡および 応答状況の確認 • エスカレーションフローの整備
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Incident Manager 全体図 15 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook 実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams 調査と対応 関係者間の コミュニケーション円滑化 調査に必要にな情報の一元化 作業の効率化、自動化
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Incident Manager 全体図 16 n分後 n分後 対応プラン エスカレーションプラン SMS 電話 Stage:1 ! Incident Manager Amazon EventBridge (ルールターゲット) Amazon CloudWatch (Alarmアクション) Runbook Chat チャネル エンゲージメント メール インシデント タイムライン 関連メトリクス 影響/状態 Runbook実行状況 エンゲージメント状況 関連項目 Systems Manager Automation 分析 Stage:2 Stage:3 運用担当者 インシデント 自動呼出し 手動呼出し AWS Chatbot Amazon Chime Slack Teams インシデント後の分析 • インシデント対応の改善 • 根本原因の理解
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Incident Manager を構成する要素 17 エスカレーションプラン チャットチャネル Runbook 対応プラン 連絡先 • インシデント発生時の連絡先 • E メール、SMS、音声(電話)による 連絡が可能 • エスカレーションパス • 輪番コールのように連絡先の応答有無 に応じて次の連絡先へ連絡を行う • インシデントの更新と通知をチャット チャネルに連携可能 • Slack、Teams、Amazon Chimeに 対応 • インシデント対応に必要な手順書の 役割を持つ(手動ステップ) • アプリケーションおよびインフラス トラクチャタスクを自動化すること も可能 • 連絡先、エスカレーションプラン、 オンコールスケジュール、チャット チャネル、Runbook をまとめたもの • インシデント発生時は関連する対応 プランが呼び出される オンコールスケジュール • インシデント時の連絡先ローテーショ ンや連絡を行うスケジュールの設定 • 日、週、月の単位でローテーションが 可能
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 連絡先 18 • E メール、SMS、音声(電話) から選択可能 • 一つの連絡先に複数の連絡先 チャネルを設定可能
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 連絡先 - エンゲージメント例 - 19 • E メール SMS 音声(電話) AWS Systems Manager Incident Manager … https://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/contacts.html#contacts-details-file Incident Manager からの SMS 通知または音声通知において、通知元が Incident Manager であることを確認するために、 vcf ファイルが公開されております。
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. エスカレーションプラン 20 • インシデント発生時のエスカレーションフローを定義 n分後 n分後 Stage:1 Stage:2 Stage:3 連絡先A 連絡先B 連絡先C Next Stage 連絡に応答した場合は、次の ステージへのエスカレーション は停止します 指定した時間内に応答がない 場合、次のステージへ 遷移します
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. オンコールスケジュール 21 • オンコール担当者のグループ内で、ローテーションを設定可能 • ローテーションの頻度は、日、週、月から選択可能 • 設定したスケジュールに対して例外の設定も可能 9/4~9/10 9/11~9/17 9/18~9/24 第1連絡者 第2連絡者 Aさん Bさん Aさん Bさん Aさん Bさん (9/20 だけ第1連絡者)
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. オンコールスケジュールの設定 22 オンコールスケジュールを有効にする曜日を指定 可能。こちらは平日のみオンコールを行う設定例 オンコールを行う連絡先(コンタクト)を追加し、 順番を設定する ローテーションを行う単位を日、週、月で設定
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. オンコールスケジュールのカレンダー 23
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. チャットチャネル 24 • インシデントの更新や通知、エンゲージ結果をチャットチャネルにプッシュ • チャットチャネルから、コマンドでインシデント情報の取得、更新が可能※ Incident Manager Slack Amazon SNS AWS Chatbot Amazon Chime Slackの通知例 Teams ※Slack および Teams のみ対応 https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html#chat-interact
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Runbook 25 • インシデント発生時に、AWS Systems Manager Automation の Runbook を呼び出し可能 • インシデント対応に必要な手順や処理をステップとして定義することで、インシデント対応 時間の短縮に役立つ • インシデント対応用の Runbook テンプレートが提供されている https://docs.aws.amazon.com/ja_jp/incident-manager/latest/userguide/runbooks.html#runbooks-template
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Runbook についてもう少し補足 26 Runbook の説明欄 Markdown で記載 ステップごとにアクションを定義する アクション内容も補足として記載できる アクションの一例 • aws:executeAutomation • aws:executeScript • aws:runCommand https://docs.aws.amazon.com/ja_jp/systems-manager/latest/userguide/automation-actions.html
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. AWSIncidents-CriticalIncidentRunbookTemplate 27 • インシデント対応の一般的なステップが定義されており、各ステップで行うべきアクション が記載されている。手順書のような扱いで利用することが可能。 影響判断 診断 緩和 リカバリー
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 対応プラン 28 インシデントの対応に必要な設定をまとめたもので、以下の項目を設定 • インシデントのデフォルト • タイトル • 影響 • 概要 • Runbook • チャットチャネル • エンゲージメント • 連絡先 • エスカレーションプラン • オンコールスケジュール
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントの作成 29 以下からインシデントの作成が可能 • マネジメントコンソール • API • CloudWatch アラーム • EventBridge イベントによる作成が可能 マネジメントコンソール CloudWatch アラーム
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントの確認 30 • ステータス、影響、チャットチャネル、インシデントが発生している期間、 Runbook の進行状況、エンゲージメント(連絡・応答)状況の概要を確認できる • 関連メトリクス、タイムライン等の詳細については、各タブから確認可能
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデントの確認 - タイムラインの詳細 31
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデント対応 32 • インシデント対応に利用する Runbook を Incident Manager のコンソール から操作可能
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデント対応 - メモの追加 - 33 • インシデント対応状況をメモ機能で残すことができ て、追加したメモはタイムラインにも反映される
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. インシデント後の分析 34 項目 入力内容 概要 インシデントの概要 影響 インシデントの影響 インシデントの検出に関する質問 インシデントの検出にかかる時間を短縮するために 改善できることはあるか インシデントの診断に関する質問 インシデントの診断にかかる時間の短縮や担当者へ の連絡に関して改善の余地があるか インシデントの緩和・軽減に関する質問 インシデントによる影響の緩和・軽減や対応完了ま での時間を短縮するために改善できることはあるか インシデントの防止に関する質問 なぜ問題が発生したか、得られた教訓 分析の詳細 correction of error (COE) を開発すべき理由 https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html#analysis-details https://aws.amazon.com/jp/blogs/news/why-you-should-develop-a-correction-of-error-coe/ テンプレート:AWSIncidents-PostIncidentAnalysisTemplate
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Incident Manager 活用例 35
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Case1: CloudWatch アラームトリガーのインシデント 36 Incident Manager CloudWatch Runbook Stage1 エスカレーションプラン Stage2 zzz Slack Step1: (自動実行) 対象アプリケーションのリソース情報を 取得するシェルスクリプトが実行 Step2: (手動実行) Step1 で取得されたリソース情報の確認 調査に必要な情報が揃っていることを確認 Step3: (手動実行) アプリケーションサーバの〇〇を調査 ・ ・ ・ チャットチャネル CloudWatch のアラームを トリガーにインシデント作成 Stage1 のメンバーに 連絡が来るが、応答なし Stage2 のメンバーが連絡に 応答し、対応を開始 チームメンバーは Slack で インシデントステータスを確認 調査に必要な情報取得は、スクリプトが自動実行され、 詳細な調査は Runbook 記載の手順に沿って対応を進める 1 2 3 4 サービス停止やレスポンス遅延などを検知
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Case2: セキュリティインシデント 37 AWS Security Hub Amazon EventBridge Incident Manager Amazon GuardDuty Amazon Inspector その他 セキュリティサービス … Security Hub に集約される情報の中から Criticalなものを EventBridge に連携 不正アクセスだと…!?
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Case3: インシデントの連絡・対応のみにIncident Managerを利用 38 モニタリングサービス Incident Manager Webhook Amazon API Gateway AWS Lambda strat-incident API
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Case4: ユーザー問い合わせで発覚したインシデント 39 AWS Chatbot インシデント報告用 Webページ Incident Manager https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html#chat-interact Incident Manager チャットチャネルを通じたやりとり 〇〇の機能が 使えないっぽい strat-incident API strat-incident API • システム的に検知できなかったトラブルの対応は、バタつくことが多い • イレギュラーな事象でも、いつも通りの連絡経路、コミュニケーション基盤を使い対応記録が残るようにする
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. 番外編: とにかく何かあったら電話連絡だけ受けたい 40 • 一人情シスで、すべての連絡は自分で受けるしかない・・・! • インシデントごとに対応手順や自動処理を整備する時間がない。Runbook作る暇なし! • とにかく問題あれば早く知らせてくれさえすればまずはOK! 対応プラン Runbook Chat チャネル エンゲージメント すべてのアラーム Runbook 設定は省略可
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. まとめ 41
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. まとめ 42 • インシデントとは • サービスにおける計画外の中断やサービス品質の低下をもたらすもの • 素早い復旧、影響軽減が求められる • Incident Manager とは • インシデントの解決、影響を軽減するまでの時間を短縮させるための機能 • インシデント発生時に適切なメンバーアサイン、連絡、エスカレーション、関係者間の コミュニケーション円滑化に役立つ • Incident Manager 活用例 • Runbook、チャットチャネル、エンゲージメントをフル活用したインシデント対応 • エンゲージメントの機能だけを使い電話連絡を簡単に実現することも可能
© 2023, Amazon Web Services, Inc. or its affiliates. All
rights reserved. Thank you! © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.