Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prep...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
yayoi_dd
January 29, 2025
Technology
130
0
Share
reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prepare for BadDay in Web System Operations Learned at reInvent
弥生株式会社 もくテク
AWS re:Invent 2024 参加報告会(2025/01/29)
https://mokuteku.connpass.com/event/340760/
yayoi_dd
January 29, 2025
More Decks by yayoi_dd
See All by yayoi_dd
AWS re:Invent 2025 参加報告 / AWS re:Invent 2025 Participation Report
yayoi_dd
0
25
re:Inventの学びを最大化するためにしたこと / What I Did to Maximize Learning at re:Invent
yayoi_dd
0
25
Werner Vogelsが語った”T型人材” / "T-Shaped Talent" as Discussed by Werner Vogels
yayoi_dd
0
25
AI駆動開発のさらにその先へ / Beyond AI-Driven Development
yayoi_dd
0
29
AWS DevOps Agentで見えた運用の未来 / The Future of Operations with AWS DevOps Agent
yayoi_dd
0
25
OpenSearch Warm Tier設計の実践 / Practical Implementation of OpenSearch Warm Tier Design
yayoi_dd
0
50
なぜ私たちは「生成AI-LT大会」を終了するのか / Why we are ending the Generative AI-LT competition
yayoi_dd
0
76
AIと働く / Working with AI
yayoi_dd
0
85
AIで未経験タスクの心理的ハードルが下がった話 / How AI has lowered the psychological barrier to unfamiliar tasks
yayoi_dd
0
54
Other Decks in Technology
See All in Technology
Diagnosing performance problems without the guesswork
elenatanasoiu
0
160
Databricks における 生成AIガバナンスの実践
taka_aki
1
300
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
140
JJUG CCC 2026 Spring AI時代の開発こそ標準化を武器に! ― 方式・プロセス・プラットフォームの標準化
s27watanabe
2
710
美味しいスイスチーズを作ろう🧀🐭
taigamikami
1
230
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.8k
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
50k
Mastering Ruby Box
tagomoris
3
150
Dynamic Workersについて
yusukebe
2
580
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
180
AI Adaptable なテストを整える工夫 / Ways to Make Your Tests AI-Adaptable
bitkey
PRO
2
210
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
350
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
Ethics towards AI in product and experience design
skipperchong
2
300
Believing is Seeing
oripsolob
1
140
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
360
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
300
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Transcript
re:Inventで学んだ Webシステム運用のBad Dayへの備え方
自己紹介 宮崎 怜美(みやざき さとみ) 入社時期:2022年5月(中途) 担当サービス:スマート証憑管理 AWS経験:1年弱
休日の過ごし方:楽器演奏(クラリネット)、散歩
AWS re:Invent初参加の感想 とにかく楽しくて毎日が充実 ➢ 国際カンファレンスならではのスケールの大きさに感動 ➢ 参加したいセッションが多くて迷う 英語でのやり取りはやっぱり大変
➢ 雑談が一番難しい ➢ 準備しておいて良かったフレーズ ◼ セッション会場までの行き方を尋ねる ◼ ワークショップ中にわからない箇所を質問
参加したセッションの紹介① セッション形式:Chalk Talk 内容: ➢ レジリエンスの担保 ➢ 発生しうる障害にどう対処するか
◼ ビジネス損失の定量化 ◼ 障害発生のシナリオと対策検討の流れ ◼ 障害への備えと対処 参加した理由: ➢ セッションタイトルに惹かれて ➢ 自分が担当してきた業務と関連しそう
参加したセッションの紹介② 参加者からも多くの意見や質問が出る ➢ 発言するとステッカーがもらえる Speaker⇔参加者のやり取りでケーススタディを進めていく EC2をECSに置き換えると レジリエンスは変化する? YES!
NO! Depends!
ビジネス損失の定量化 障害発生時のビジネス損失を正確にとらえる ➢ 収益損失(違約金等も含む) ➢ ブランドイメージの低下 ➢ 障害に対処するエンジニアの生産性の低下
対応が必要かの判断 ➢ 見積もった損失が対応コスト下回る場合は許容もあり
障害発生のシナリオと対策検討の流れ ビジネス損失を想定する 例)インターネット通販で商品を購入できない 損失を発生させうる障害の種類を挙げる 例)商品購入時のログインに失敗する 障害発生のシナリオを洗い出す 例)認証システムがダウン 各シナリオへの備え(または対処)を検討する 例)マルチAZ、エラー検知の仕組みを導入 etc.
障害への備えと対処 アクションの種類 ➢ 探知(Detective) ➢ 予防(Preventive) ➢ 復旧(Recovery) ➢
テスト(Testing) アーキテクチャ図だけでは備えが十分か判断できない ➢ 安全にデプロイされる仕組みがあるか ➢ 障害復旧のプロセスは整備されているか etc. 現状で不足しているものがないか?
実際のセッションで議論した内容
担当サービスの状況を確認してみる シナリオ①関連システムの停止により処理が行えない エラー発生時のCloudWatch Alarm→Slack通知 SQSを使用し、リトライ/再実行可能に 上記の処理が正しく動作するかの検証 シナリオ②災害発生によるシステムダウン マルチAZ対応
データバックアップおよび別リージョンへのコピー バックアップデータから復元できることの検証 探知 復旧 テスト 予防 復旧 テスト この他にも、社内ガイドラインに従ってチームで対応を継続中
まとめ 議論を楽しめるのも現地参加のメリット ➢ エンジニア同士の白熱したやり取りから刺激をもらった ➢ 自分も発言できるとより楽しい(はず) これまでの運用業務をふりかえるきっかけになった ➢
自分の担当タスクの意義を再確認 ➢ 社内ガイドラインや相談に乗ってくれる有識者に改めて感謝 Thank you!