Slide 1

Slide 1 text

JAWS-UG初心者支部#55 LT大会 ~AWS Summit Tokyoで学んだこと~ Incident Manager触ってみた 2023年5月6日

Slide 2

Slide 2 text

2 自己紹介 ■自己紹介 ● 小向 由宇希(こむかい ゆうき) ● 所属:MDIS 社会人4年目 (クラウドセントリック社 出向中) ● 経験した業務: 証券様向けのセキュリティ機器運用 ※プロキシのフィルタリング設定等 ● AWS経験: なし(入社時CLF取得したのみ)

Slide 3

Slide 3 text

3 クラウドセントリック株式会社ご紹介 Cloud Centric Corporation(略称C3) 会社設立: 2023年4月7日 資本金: 1億5000万円(資本準備金を含む) 株主: 三菱電機インフォメーションシステムズ(66.6%)スカイアーチネットワークス(33.4%) エンジニア個人と組織の相互発展のもと、 最先端のクラウド技術で、お客様のビジネスを変革します。

Slide 4

Slide 4 text

4 目次 1. AWS Summitで聴いたセッションの話 2. Incident Managerの検証 3. まとめ

Slide 5

Slide 5 text

5 AWS Summitで聴いたセッションの話 「インシデントを起点に考える、 システム運用のユースケースご紹介」 どんな話だったか、、 インシデント(障害)の対応は 「AWS Systems Manager Incident Manager」 が使える。 ■すごいと感じた機能 ・インシデント発生時、自動で担当者に連絡がいく ・あらかじめ定義した「Runbook」にて 対応手順を確認でき、(可能であれば)自動処理で復旧作業してくれる AWS Systems Manager Incident Manager

Slide 6

Slide 6 text

6 「エスカレーションプラン」を元に 担当者に自動で連絡(出なかったら、 リストの上から連絡していく) 保守担当① 保守担当② 保守担当 ・・・ 出た人が対応!! 自動復旧可能なものは自動で処理 Incident Managerでのアラート検知フロー Incident Manager アラート 検知 CloudWatch アラート 検知 24/365監視担当 リストを元に担当者に連絡 (出なかったら、 リストの上から連絡していく) 保守担当① 保守担当② 保守担当 ・・・ 出た人が対応!! 報告、原因調査、人員調整、作業 従来の人によるアラート検知フロー Systems Manager Automation AWS Summitで聴いたセッションの話

Slide 7

Slide 7 text

7 検証(目標) ❏ 本当に簡単に連絡フローの設定できるのか?。。 実際にやってみた! ☆やりたいこと・目標 1. EC2のCPU使用率が50%以上超えるとアラートを出す。 2. アラート発砲時、担当者に自動で電話連絡がいくようにし、 またサーバ再起動を自動で実行する。 監視 アラート連携 電話連絡 再起動 CloudWatch EC2 Systems Manager Automation ~設定の流れ~ ①EC2を立てる ②CloudWatchにてCPUを監視し、 閾値を超えたらアラートを出す設定を入れる ③Incident Managerにて 「エスカレーションプラン」を設定 ④Automationにて実行する機能(再起動)を Runbookで定義

Slide 8

Slide 8 text

8 検証 ❏ CPU使用率をあげて、再起動されるか検証! ・yesコマンドで負荷をあげる(CPU使用率が50%超えてアラート発砲!) ⇒サーバ再起動は失敗。。 1つ目の連絡先に登録した携帯に 電話がきた! ⇒無視。 1分後、2つ目の連絡先に登録した 電話がきた! ⇒連絡フローは成功!!! Automation Step Execution fail when it is verifying the instance(s) have reached desired state. Get Exception from DescribeInstance Status API of ec2 Service. Stop fails when it is validating and resolving the step input. com.amazonaws.amiaserviceworker.exception.ActionInputsResolvingException: Input InstanceIds String pattern validation fails. 〇エラーメッセージ

Slide 9

Slide 9 text

9 検証 ❏ エラーの修正 ・エラー修正① Automation Step Execution fail when it is verifying the instance(s) have reached desired state. Get Exception from DescribeInstance Status API of ec2 Service. EC2のインスタンスのステータスをチェックするAPIが失敗していた。 Automationを実行する権限(IAMポリシー)が足りていない。 〇対応内容 ランブック実行時のSSM用IAMロールに Action「”ec2:DescribeInstanceStatus”,」を加える エラーメッセージはしっかり読む。。(AWSの処理を理解して原因を見る)

Slide 10

Slide 10 text

10 〇対応内容 Runbookのステップに、「arn:ec2:ap-north~/i-XXXXX」から後ろの 「i-XXXXX」を抜き出す処理を加える。 検証 ❏ エラーの修正 Stop fails when it is validating and resolving the step input. com.amazonaws.amiaserviceworker.exception.ActionInputsResolvingException: Input InstanceIds String pattern validation fails. ・エラー修正② CloudWatchアラームから連携される「InstanceId」の文字列パターンが 異なっていた。(arn:ec2:ap-north~/i-XXXXX) 環境構築には、pythonを書けるようにならないといけない。。

Slide 11

Slide 11 text

11 再度検証 ❏ CPU使用率をあげて、再起動されるか検証! ・yesコマンドで負荷をあげる ⇒サーバ再起動も成功!! ・・・

Slide 12

Slide 12 text

12 まとめ ■今回検証実施したことによる気づき 1.やってみようと思ったら簡単に検証の実施ができる! 今まで、新しいサービスを仕事で使おう、勉強しよう とした時は、以下しかなかった ・サービス提供者やベンダーのトレーニングを受講 ・HW、SWを購入して自社内で環境構築して検証 ⇒ ・AWSが公式で初心者向けハンズオンを提供している ・HWを購入する必要がない(初期投資が大きくない) 会社でも個人でもやろうと思えば、すぐ学べる!

Slide 13

Slide 13 text

13 まとめ ■今回検証実施したことによる気づき 2.参考となるサイトが充実していて、 サービスの概要や簡単な設定手順は、調べればわかる ・Quiita、BLACK BELTなどでサービス・手順の把握可能 ・細かい部分はAWSの公式ドキュメントで網羅できる ⇒ ・公式ドキュメントを正確に読むために英語の勉強が必要だが 調べればなんとかなると思えるくらい情報がたくさんある

Slide 14

Slide 14 text

14 まとめ ■まとめ ・AWSを学ぶ環境、情報は揃っている ⇒ AWSを学ぶことが、自身のコンプレックスであり、 欲しいものである「技術力」を得ることができる近道! ・実際に動くものを作れるのはおもしろい! ⇒ AWSを学んでいく中で、気になったらまずは触る できることを増やして、 自身が構築した基盤を稼働させたい!