Upgrade to Pro — share decks privately, control downloads, hide ads and more …

reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prep...

yayoi_dd
January 29, 2025

reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prepare for BadDay in Web System Operations Learned at reInvent

弥生株式会社 もくテク
AWS re:Invent 2024 参加報告会(2025/01/29)
https://mokuteku.connpass.com/event/340760/

yayoi_dd

January 29, 2025
Tweet

More Decks by yayoi_dd

Other Decks in Technology

Transcript

  1. AWS re:Invent初参加の感想  とにかく楽しくて毎日が充実 ➢ 国際カンファレンスならではのスケールの大きさに感動 ➢ 参加したいセッションが多くて迷う  英語でのやり取りはやっぱり大変

    ➢ 雑談が一番難しい ➢ 準備しておいて良かったフレーズ ◼ セッション会場までの行き方を尋ねる ◼ ワークショップ中にわからない箇所を質問
  2. 参加したセッションの紹介①  セッション形式:Chalk Talk  内容: ➢ レジリエンスの担保 ➢ 発生しうる障害にどう対処するか

    ◼ ビジネス損失の定量化 ◼ 障害発生のシナリオと対策検討の流れ ◼ 障害への備えと対処  参加した理由: ➢ セッションタイトルに惹かれて ➢ 自分が担当してきた業務と関連しそう
  3. 障害への備えと対処  アクションの種類 ➢ 探知(Detective) ➢ 予防(Preventive) ➢ 復旧(Recovery) ➢

    テスト(Testing)  アーキテクチャ図だけでは備えが十分か判断できない ➢ 安全にデプロイされる仕組みがあるか ➢ 障害復旧のプロセスは整備されているか etc. 現状で不足しているものがないか?
  4. 担当サービスの状況を確認してみる  シナリオ①関連システムの停止により処理が行えない エラー発生時のCloudWatch Alarm→Slack通知 SQSを使用し、リトライ/再実行可能に 上記の処理が正しく動作するかの検証  シナリオ②災害発生によるシステムダウン マルチAZ対応

    データバックアップおよび別リージョンへのコピー バックアップデータから復元できることの検証 探知 復旧 テスト 予防 復旧 テスト この他にも、社内ガイドラインに従ってチームで対応を継続中