Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BCPを踏まえたインシデント対応演習

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for tossy tossy
March 15, 2026
450

 BCPを踏まえたインシデント対応演習

AWS入門のためのAWS体験話。だから私はAWS。
https://nishinomiya.connpass.com/event/383249/

Avatar for tossy

tossy

March 15, 2026
Tweet

Transcript

  1. 2 自己紹介 & 今日話すこと tossy / GMOペパボ SUZURI・ minne事業部 minneグループ

    ハンドメイドマーケット「minne」 のWebアプリケーションエンジニア BCPを踏まえたAmazon RDS for MySQLのインシデント対応演習を実 施した話をします
  2. 5 なぜ、DB障害の演習をやるのか AWSのAZ障害により、DBへ影響を受けた時の対応に備える ランサムウェアによるDB暗号化の被害が増加(2024年上半期で 114件) IPA「情報セキュリティ10大脅威 2025 」で組織向け脅威 第1位 に選出

    実際に過去、AZ障害でEC2インスタンスに影響が出たことがある 2025/4/15 AWS東京リージョンのAZで障害 [2] [3] 15日午後4:40~5:43 (日本時間)の間、AP-NORTHEAST-1 リージョンの単一のアベイラビリティーゾ ーン (apne1-az4) において、一部のEC2インスタンスへの接続の問題が発生した [2] IPA 情報セキュリティ10大脅威 2025 https://www.ipa.go.jp/security/10threats/10threats2025.html [3] Amazon Elastic Compute Cloud (Tokyo) - April 15, 2025 | AWS Health Dashboard https://health.aws.amazon.com/health/status?eventID=arn:aws:health:ap-northeast- 1::event/EC2/AWS_EC2_OPERATIONAL_ISSUE/AWS_EC2_OPERATIONAL_ISSUE_F82D3_02AD2D67316
  3. 7 インシデント対応演習の全体像 実際の障害を想定した机上訓練と手を動かす実機演習に分け、対応を実施 時間 内容 70分 説明・机上訓練(インシデント対応のシミュレーション) 10分 休憩 15分

    実機演習1 スナップショット作成/復元/削除 20分 実機演習2 マルチAZフェイルオーバ検証 25分 実機演習3 クロスリージョンリードレプリカ検証 20分 チームでの振り返り(KPT)
  4. 11 チェックポイント1:サービス影響範囲の特定 事務局「チェックポイント① AWSのリージョンXXXに障害が発生しているようです。 データベースへの影響を報告してください」 DBが マルチAZ構成 であることを確認 AZ障害でプライマリが利用不可となる →

    狙い:自動フェイルオーバにより サービス全体への影響は限定的 というこ とを答えてもらいたい [4] [4] Multi-AZ 配備のレプリケーションは、完全に管理されています。Amazon RDS では DB インスタンスの障害条件やアベ イラビリティーゾーンの障害が自動的に監視され、機能停止が発生すると、スタンバイ (Amazon Aurora の場合はリードレ プリカ) への自動フェイルオーバーが開始されます。https://aws.amazon.com/jp/rds/faqs/
  5. 13 チェックポイント3:異常箇所の報告 事務局「チェックポイント3 異常が起きていた部分を報告してください」 フェイルオーバに伴う影響を洗い出し エンドポイント → 変わらないため影響なし ログ転送(CloudWatch) →

    変わらないため影響なし アラーム → 切り替え時に一時的に発報する可能性あり レプリケーション遅延 → 一時的に発生する可能性あり 狙い:「何が影響を受けるか」だけでなく「何が影響を受けないか」の状況把握も 重要
  6. 14 机上訓練での振り返り 良かった点 各演習者が協力することでスムーズな対応ができた → 事前の役割分担 が大事 本番に近い状態でのAWSのAZ障害のシミュレーションができた (事務局)用意したシナリオに対して想定外の展開 チェックポイント1にて、サービス影響ありとの報告

    → 演習者へ気づきを与えることができた 反省点 チェックポイントを通過できない場面 → 次回以降、AZ障害への備え ができた (事務局)どの役割でメンションされているかの対応が難しかった
  7. 17 実機演習1: 手動スナップショット作成、削除 やったこと Staging DBの 手動スナップショット作成 スナップショットから インスタンス復元(シングルAZ) スナップショットの

    削除 学び スナップショット作成は 数分で完了 復元は 新しいインスタンスとして作成 される → DB障害時にスナップショットを用いたDB復旧を行うための確認ができた
  8. 18 実機演習2: マルチAZフェイルオーバ やったこと インスタンスを手動でシングルAZ → マルチAZに変更 フェイルオーバの手動実行 と AZ切り替わりの確認

    学び マルチAZフェイルオーバは 自動で数分で切り替わる エンドポイントは変わらず、瞬断のみ マルチAZは 同期レプリケーション しているため → データ差分復旧不要 [5] [5] Multi-AZ 配備が使うレプリケーションは同期しています。つまり、すべてのデータベース書込みはプライマリとスタンバ イで同時に行われます。このように最新のデータベース更新を保護することで、イベントのフェイルオーバー発生時にスタン バイ状態にすることができます。 https://aws.amazon.com/jp/rds/faqs/
  9. 19 実機演習3: クロスリージョンリードレプリカ やったこと 東京 → 大阪リージョン へクロスリージョンリードレプリカ作成 大阪リージョンのリードレプリカの 昇格

    昇格後のインスタンス間の関係性を確認 学び 事前に VPC / サブネット / VPCピアリング の準備が必要 昇格後はレプリケーション関係が 切断 される リージョンに障害が発生しても、別リージョンでサービス継続できる ただし、別リージョンにもリードレプリカが必要となりコスト増
  10. 21 データベース障害への備えまとめ マルチAZ クロスリージョンリードレプリカ レプリケーション 同期的 非同期的 切り替え 自動 手動(昇格操作)

    ダウンタイム 数分 数分〜数十分 エンドポイント 変わらない 変わる(アプリ側変更必要) 対応範囲 AZ障害 リージョン障害 事前準備 少ない VPC/サブネット/VPCピアリング等が必要 コスト 中 高 復旧時間目安 数分 〜数時間程度 [7] [8] [7] スタンバイ分が追加となる [8] スタンバイ + リージョン間転送量がかかってくる