Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JAWS-UG 栃木 #2]AWS FISはドSなのか?システムに試練を与えて強くする!
Search
sh_fk2
May 24, 2025
Technology
510
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[JAWS-UG 栃木 #2]AWS FISはドSなのか?システムに試練を与えて強くする!
sh_fk2
May 24, 2025
More Decks by sh_fk2
See All by sh_fk2
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
2
420
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
400
[JAWS-UG彩の国埼玉#6]混乱しました。AWS MCP ServersとAWS MCP Serverの違いを5分で解説
sh_fk2
0
170
[トレノケ雲の会 超re:Cap LT大会]re:Invent2025 5分で読み解くAWSサポート大変革
sh_fk2
2
78
[JAWS-UG初心者支部#72]re:Invent2025で見つけたコミュニティに参加する意味
sh_fk2
1
87
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
2
410
[クラウド食堂 #5]見える化✖️自動監視=CloudWatchSynthetics
sh_fk2
0
76
[JAWS-UG 横浜支部 #89]CloudWatch 2025年の軌跡から”勝手に”予測する「運用の未来」
sh_fk2
0
110
[re:Inent2025事前勉強会(有志で開催)] re:Inventで見つけた人生をちょっと変えるコツ
sh_fk2
4
2.9k
Other Decks in Technology
See All in Technology
MySQL & MySQL HeatWave Report - June 2026
freshdaz
0
170
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
900
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
520
「ビジネスがわかるエンジニア」とは何か?
ryooob
0
330
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
320
OTel × Datadog で 「AI活用」を計測し、改善に繋げる
shihochan
2
940
週末にループ・エンジニアリングの理解を深めるためのスライド
nagatsu
0
400
元銀行員がAIだけでアプリを量産!「バイブコーディング実演セミナー 」
tatsuya1970
0
110
AIに障害切り分けを全部やってもらった。 。 。 。
estie
0
180
元・セキュリティ学習経験0大学生による業務紹介 / An Introduction to the Job by a Former College Student with Zero Security Training Experience
nttcom
0
410
データレイクの「見えない問題」を可視化する
sansantech
PRO
1
210
AIエージェントとPhysical AIが拓く製造業の変革(ハノーバーメッセリキャップ)
iotcomjpadmin
0
130
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
107
250k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
How to train your dragon (web standard)
notwaldorf
97
6.7k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
310
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
300
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
310
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Transcript
2025年5月24日 #jawsug_tochigi JAWS-UG 栃木 # 2 オフライン開催! AWS FISはドSなのか? システムに試練を与えて強くする!
自己紹介 >深津 新太郎 PM @ 事業会社の情報システム子会社 オンプレシステムの運用・開発・リプレイスを担当 >AWS利用 2019- >好きなサービス
S3、Cloudwatch、FIS
2025/4/15AWS障害 影響ありましたか? EC2インスタンスへの主電源と二次電源が遮断されたことが原因 (https://health.aws.amazon.com/health/status?eventID=arn:aws:health:ap-northeast- 1::event/EC2/AWS_EC2_OPERATIONAL_ISSUE/AWS_EC2_OPERATIONAL_ISSUE_F82D3_02AD2D67316)
Everything fails, all the time. 全てのものはいつでも壊れうる Dr. Werner Vogels
Well-Architected Framework 信頼性の柱 Reliability 目標となる信頼性を確保するため オートスケール、マルチAZ、マルチリージョン... 要件定義段階から検討して、設計、構築 作ったものはテスト!
AWS Fault Injection Service (AWS FIS) ・マネコンから実行できる障害注入ツール ・ターゲットとアクション(障害内容)を指定 ・意図的に障害を発生させ、挙動や耐性を確認 ・回復後の処理確認も可能
今回のターゲット AWS Cloud Virtual private cloud (VPC) Front End Task
Amazon Aurora (Writer) Internet gateway Private subnet Public subnet Private subnet Fargate Back End Task Fargate Availability Zone Back End Task Front End Task Amazon Aurora (Reader) ALB ALB
2025/4/15 AWS障害 特定AZ、EC2の電源遮断 影響を受けた (15 サービス) AWS CodeCommit AWS Lambda
AWS NAT Gateway AWS Network Firewall AWS Systems Manager AWS Transit Gateway AWS VPCE PrivateLink Amazon CloudWatch Amazon Elastic Container Service Amazon Elastic Load Balancing Amazon Location Service Amazon Redshift Amazon Relational Database Service Amazon Simple Storage Service Amazon WorkSpaces
Fault Injection Service
None
このシナリオでうまくいった? No...
全部で10個のアクション(障害) リソースID、タグで指定されたターゲットに 続々と試練が課されていく
EC2障害が多い アクション(障害内容) ターゲット(障害対象)
NW一時遮断、RDSフェイルオーバー アクション(障害内容) ターゲット(障害対象)
ECS関連がない 更に試練を与えたい シナリオにアクションを追加
追加試練(ECS) ESC on EC2 :EC2障害でAZ障害が再現可能 ECS on Fargate :AZ障害が難しい ECS単体のアクション
stop-task → 同じAZで再度起動... task-network-blackhole-port (ssm-agentサイドカー必要) → タスク起動したまま...
ECS on Fargate AZ障害代替策 NWの障害アクション disrupt-connectivity をシナリオに追加して試行 Subnetに紐づくNACLをFISが差し替え 既存NACL →
新規NACL(In/Out:All Deny) 全通信遮断 結局、同じAZでタスク起動、保留中ステータス
AZが障害時、自動的にトラフィックを別のゾーンへ移動 ・AZ障害をAWSが自動で検知 ・障害中、トラフィックは別のAZへルーティングされる ・障害復旧後、自動で元の AZ にルーティングされる サポートリソース EC2、EKS、ALB、NLB... ECSがない Application
Recovery Controller(ARC)ゾーンオートシフト ECS on Fargate AZ障害代替策
ALB ARCゾーンシフト設定 デフォルトは無効 有効化を選択
ALB ARCオートゾーンシフト発生時 ALB 指定AZ ゾーンシフト検出 ALB ターゲットグループ ゾーンシフト検出
ALB ARCオートゾーンシフト発生時 実験中(NW不達によるUnhealthy) 結局、別AZで立ち上がらず
実験結果(たまたま成功) 実験後(リバランス) 実験中(AZ片寄せ)
実験結果
補足・感想 障害回復後、基本的に自動で元に戻る タグをつけ忘れることが多い(反省) AuroraのAZの戻し忘れが多い(反省) ※再フェイルオーバは行われない FargateのAZ障害について実施方を知りたい
AWS Fault Injection Service シナリオもカスタマイズできる 何度も繰り返し実行できる ARCオートゾーンシフト・ECSのAZリバランス等 実際の動きも見られる 障害試験にオススメ
障害試験はいつ実施していますか? 総合試験時? 運用中に「GameDay」実施していますか? Well-Architected Framework REL12-BP05 定期的にゲームデーを実施する Game Day:障害・回復シナリオが必要
レガシーシステムの開発・運用 開発担当 ※年齢やスキルではなく、新システムに対する経験値
レガシーシステムの開発・運用 開発担当 ※年齢やスキルではなく、新システムに対する経験値
レガシーシステムの開発・運用 開発担当 運用担当 ※年齢やスキルではなく、新システムに対する経験値 いきなり GameDayは難しい
レガシーシステムの開発・運用 開発担当 運用担当 ※年齢やスキルではなく、新システムに対する経験値 いきなり GameDayは難しい シナリオ
レベルアップ! FISで訓練!(GameDayを繰り返す)
システム レジリエンス向上 エンジニア レベルアップ まとめ
これからやるぞ! という決意表明のLTでした まだ全く実践していません! 偉そうなことを話してきましたが… 最後に
-Share your lessons-