Upgrade to Pro — share decks privately, control downloads, hide ads and more …

僕は運用を好きになる v0.0.1 ~毎日AWS Health Eventを手動確認してられな...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

僕は運用を好きになる v0.0.1 ~毎日AWS Health Eventを手動確認してられない:序~

2026/06/11(木) Fusic × KINTO Technologies Meetupにて発表した登壇資料。
https://fusic.connpass.com/event/394330/
#FusicKINTOMeetup

Avatar for Takumi Abe

Takumi Abe

June 11, 2026

More Decks by Takumi Abe

Other Decks in Technology

Transcript

  1. 1 KDDI Agile Development Center Corporation $ whoami あべたく @east_takumi

    {  "普段" : {   "会社": "KDDIアジャイル開発センター株式会社(KAG)",   "職種": "Webバックエンドエンジニア",   "最近のお仕事": "暗躍",   "最近の推しごと": "おひさま⼤根やぐらを申し込んだ"    },  "コミュニティ活動": [   "JAWS-UG おおいた&福岡",   "福岡クラウドUG",   "AWS Community Builder(Serverless)"  ] }
  2. 2 KDDI Agile Development Center Corporation AWS Health とは? AWS

    のサービスおよびリソースの変更をタイムリーに可視化するサービス AWS Health イベントを使用して、サービスおよびリソースの変更がAWS で実行され ているアプリケーションにどのように影響するかを確認できる
  3. 4 KDDI Agile Development Center Corporation 某プロジェクトでのHealth Eventチェック • AWS

    Health EventをAW Chatbot経由でSlackに通知 • Dev / Fut / Stg / Prdの4環境から通知が来る (Organaizationマスターアカウントにはアクセス不可) • 通知内容 ◦ 「この環境で〜このイベントがきたよ〜」くらい ◦ AWS自体の障害の通知もあるが、多くはEOLやサービスアプデについて • 通知内容はMiro付箋管理
  4. 5 KDDI Agile Development Center Corporation 問題のキャッチアップがしにくい泣 • 通知を追いきれない ◦

    →4環境×同様の通知×Slackは流れやすい ◦ →最近はスレッドに流してくる(確認しずらい) • 確認/対応が必要か?が判断できない ◦ →影響あるリソースがわからない(都度コンソールで確認) ◦ →PBIに紐づいてないので、ステータスがわからない(手動チェック中) ◦ →Miro付箋で都度消してしまうので、スルーして問題ないかが不明になる  
  5. 6 KDDI Agile Development Center Corporation もっと重要なことに時間をかけたい!(切望)そのために 👀 • イベント内容精査するツール

    ◦ AWS Health APIでイベントを取得 ◦ 既に対応中かどうかを判定し、差分(新規分)だけを毎朝通知  →朝会で「これだけ見ればOK 」な状態を作る!
  6. 8 KDDI Agile Development Center Corporation • AWS Health APIで下記の情報を取得する

    ◦ Health Eventを取得する • Category:「scheduledChange」と「accountNotification」 • Status: 「open」と「upcoming」 ◦ 取得したEventの影響を受けるリソースを取得する • Status: 「IMPAIRED」「UNIMPAIRED」「UNKNOWN」「PENDING」 • 上記をまとめて対象リソース数を算出する(CLIベース) 今回のMVP
  7. 9 KDDI Agile Development Center Corporation • Event Category ◦

    issue:リージョン障害、サービス影響(AWS起因) ◦ scheduledChange:EC2インスタンスEOL、RDSメンテ etc. ◦ accountNotification:アカウント固有のお知らせ、ACM更新 etc. • AffectedEntity Status ◦ IMPAIRED:影響が出ている・受けている ◦ UNIMPAIRED:イベントに紐づくけど、現時点では影響がない ◦ UNKNOWN:状況不明 ◦ PENDING:影響・対応等が保留 or 今後発生予定 ◦ RESOLVED:解決済み Health Eventのステータス解説
  8. 10 KDDI Agile Development Center Corporation • AWS Health APIで下記の情報を取得する

    ◦ Health Eventを取得する • Category:「scheduledChange」と「accountNotification」 • Status: 「open」と「upcoming」 ◦ 取得したEventの影響を受けるリソースを取得する • Status: 「IMPAIRED」「UNIMPAIRED」「UNKNOWN」「PENDING」 • 上記をまとめて対象リソース数を算出する(CLIベース)  Health Eventの仕分けできた!! 今回のMVP
  9. 11 KDDI Agile Development Center Corporation 今後の課題 • PBI(JIRAチケット)との突合をどうするか? ◦

    Health Eventのイベント種別/リソースとJIRAチケットをどう紐付けるか? ◦ データ構成の検討 • Health Event側: eventTypeCode / サービス名 / リソースID など • JIRA側: ラベルやカスタムフィールドで対応イベントを持たせる? • 突合キーを何にするかの設計がキモ • 差分通知の自動化 ◦ Lambda + EventBridge Scheduler など ◦ StepFunctionsでもできそう? • 4環境分の情報を1箇所に集約する仕組み