Slide 1

Slide 1 text

SLAチェックしてみたら...マルチAZ未対応!? その改善プロセス ENECHANGE株式会社 杉田 青哉 2025.2.21 ゆるSRE勉強会 #9 〜最近始めた取り組み共有大会〜 https://yuru-sre.connpass.com/event/342085/

Slide 2

Slide 2 text

自己紹介 名前: 杉田 青哉 所属: ENECHANGE株式会社 業務内容: テックリード、バックエンド /インフラ 技術スタック: Ruby、AWS 趣味: ウイスキー X: @Mnbvc124

Slide 3

Slide 3 text

アジェンダ 01 02 03 04 05 現在のチーム体制 運用強化したこと 運用強化したことで見つけた問題 マルチ AZ対応の実施プロセス まとめ

Slide 4

Slide 4 text

現在のチーム体制 SREチームはなく、開発と運用を兼務している そのため色々な問題が ... ● 開発に手を取られて運用・監視はほとんどできていない ● 運用状況を把握していないため障害対応が遅れる

Slide 5

Slide 5 text

運用強化したこと 安定稼働のためにできる取り組みを初めてみた!! ● 稼働状況・パフォーマンス・リソース使用状況などを継続的に監視 ● 死活監視の導入 ● インフラリソースのコスト最適化

Slide 6

Slide 6 text

運用強化したことで見つけた問題 監視している中で、 NAT Gatewayが単一AZにしか 存在しないことを発見

Slide 7

Slide 7 text

運用強化したことで見つけた問題 SLAには... データセンターレベルの大規模災害の発生に備え、2つの地理的に異なる場所に設備が構築されること

Slide 8

Slide 8 text

運用強化したことで見つけた問題 マルチAZ必須なので早速対応!!

Slide 9

Slide 9 text

マルチAZ対応の実施プロセス 【新ECS構築】 ● ALB、ECS新規構築 ○ RDSは共通 【補足】 ● コスト観点でNAT Gateway廃止

Slide 10

Slide 10 text

マルチAZ対応の実施プロセス 【新旧ECS同時稼働】 ● 新しいECSにトラフィックを向ける ● DNSキャッシュが残ってる間は新旧同時稼 働

Slide 11

Slide 11 text

マルチAZ対応の実施プロセス 【旧ECS停止】 ● 旧ECS停止して新ECSのみ稼働

Slide 12

Slide 12 text

まとめ 運用強化したことから問題を発見し、マルチ AZ対応で可用性を向上させることができた。 しかし、運用の課題は依然として残るため「チームで運用を回せる体制づくり」を作っていく必要がある