Upgrade to Pro — share decks privately, control downloads, hide ads and more …

小さく始めるBCP ― 多プロダクト環境で始める最初の一歩

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for kekke-n kekke-n
January 31, 2026

小さく始めるBCP ― 多プロダクト環境で始める最初の一歩

Avatar for kekke-n

kekke-n

January 31, 2026
Tweet

More Decks by kekke-n

Other Decks in Technology

Transcript

  1. © SmartHR, Inc. ⼩さく始めるBCP 多プロダクト環境で始める最初の⼀歩 中間 啓介 株式会社SmartHR / SRE

    2026/01/31 2026.1.31 SRE Kaigi 2026@中野セントラルパークカンファレンス
  2. 引⽤元: AWS - 事業継続計画 (BCP) https://docs.aws.amazon.com/ja_jp/whit epapers/latest/disaster-recovery-workloa ds-on-aws/business-continuity-plan-bcp. html 復旧⽬標とは

    • RPO(Recovery Point Objective:⽬標復旧時点) ◦ 「いつまでのデータを復旧させるか」の⽬標 ◦ 例)RPO=1⽇の場合、障害発⽣の1⽇前までのデータを復旧できる必要がある • RTO(Recovery Time Objective:⽬標復旧時間) ◦ 「いつまでにシステムを復旧させるか」の⽬標 ◦ 例)RTO=12時間の場合、障害発⽣から12時間以内に復旧させる必要がある 9
  3. DRの実装パターン 10 実装パターン 説明 実現できる RPO/RTO※ コスト ホットスタンバイ 本番環境と同等の予備環境を稼働させ、障害時 に即座に切り替える

    数秒〜数分 高い ウォームスタンバイ 予備環境を最小限のリソースで稼働させ、障害時 に切り替える 数分〜数十 分 やや高い コールドスタンバイ 予備環境を停止状態にして、障害時に起動・構築 する 数時間 低い ※目安の時間です
  4. 復旧⽬標とコストの関係 11 • 即時で復旧できるようにしたい ◦ ウォームスタンバイ‧ホットスタンバイ ◦ インフラコストが⾼くなる • 復旧対策のコストを抑えたい

    • コールドスタンバイ • 復旧時間、復旧時点が遅くなる 理想的な復旧⽬標とコストにはトレードオフの関係がある 復旧⽬標を決めるのは⼀概に簡単ではない
  5. SmartHRの経験を振り返ると...🤔 23 「⼩さく始めて、フィードバックを受けながら、軌道修正していく」やり⽅を取 ることが多かった • プロダクト開発の場合 ◦ ⼩さな機能を少しずつリリースしユーザーの反応を⾒ながら次の開発 アイテムを決めていく •

    SLI(サービスレベル指標)/SLO(サービスレベル⽬標)の運⽤の場合 ◦ まずSLIを可視化し、得られたデータをもとに少しずつ最適なSLOを⾒ つけていく BCPでも「⼩さく始める」ことに挑戦💪
  6. 業務の影響度 30 影響度 基準 プロダクト例 大 災害時に業務に支障がでる可能性が高い 勤怠・給与計算等... 中 災害時に業務に支障がでる可能性が高いが、代替

    案が考えられる xxxx 小 災害時に業務に支障がでない可能性が低い タレントマネジメント関 連のプロダクト • そのプロダクトがダウンすると業務に影響がでる度合い • 影響度が⾼いプロダクトは復旧優先度を⾼くする
  7. # 東京リージョン用 resource "google_cloud_run_v2_service" "tokyo" { location = "asia-northeast1" #

    東京 cpu = "2" memory = "1024M" } # 大阪リージョン用 resource "google_cloud_run_v2_service" "osaka" { location = "asia-northeast2" # 大阪 cpu = "2" memory = "1024M" } Terraformを活⽤する • 障害発⽣時に東京⽤のコードをコピーし て、⼤阪⽤のコードを追加する • 平時は予め⼤阪⽤のコードは準備しない ◦ 普段の開発時に意識する必要がな くなる ⼤阪リージョンのインフラ構築⽅法 37 擬似コード ⼤阪リージョンに変更 東京⽤のコードをコピー それ以外の値はそのまま
  8. 訓練の実施要領 • 参加者 ◦ 復旧対象のプロダクトに所属する開発者5⼈ ◦ ただし、東京23区に住んでいない⼈ • 実施内容 ◦

    参加者が実際に⼿を動かして、インフラの修正箇所を確認する ▪ 例)Terraformの修正箇所をローカルのエディターで確認 ◦ 訓練中に⼿順の改善点があれば参加者からフィードバックをもらう • やらないこと ◦ 実際にインフラを壊したり、作ったりすること 46
  9. 訓練の振り返り • 良かったこと ◦ ⼿を動かすことで、復旧作業のイメージができた ◦ ⼿順書を読むだけより理解を深められた • 改善点 ◦

    インフラの最適化が⾏われていないので、⼿順が煩雑だった 47 最⼩限のコストで、復旧できる⼈を増やすことができた!