Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAW...
Search
sh_fk2
September 10, 2025
Technology
460
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAWS障害対応.pdf
sh_fk2
September 10, 2025
More Decks by sh_fk2
See All by sh_fk2
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
370
[JAWS-UG彩の国埼玉#6]混乱しました。AWS MCP ServersとAWS MCP Serverの違いを5分で解説
sh_fk2
0
160
[トレノケ雲の会 超re:Cap LT大会]re:Invent2025 5分で読み解くAWSサポート大変革
sh_fk2
2
76
[JAWS-UG初心者支部#72]re:Invent2025で見つけたコミュニティに参加する意味
sh_fk2
1
83
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
2
410
[クラウド食堂 #5]見える化✖️自動監視=CloudWatchSynthetics
sh_fk2
0
75
[JAWS-UG 横浜支部 #89]CloudWatch 2025年の軌跡から”勝手に”予測する「運用の未来」
sh_fk2
0
110
[re:Inent2025事前勉強会(有志で開催)] re:Inventで見つけた人生をちょっと変えるコツ
sh_fk2
4
2.9k
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
780
Other Decks in Technology
See All in Technology
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
130
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
310
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
810
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
820
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
20
6.6k
Microsoft Build Keynoteふりかえり
tomokusaba
0
120
新しいVibe Codingと”自走”について
watany
5
290
やさしいA2A入門
minorun365
PRO
12
1.7k
フロンティアAIのゲート化と地政学リスク
nagatsu
0
130
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
380
攻撃者視点で考えるDetection Engineering
cryptopeg
1
1.2k
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
4
1.5k
Featured
See All Featured
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
WENDY [Excerpt]
tessaabrams
11
38k
Utilizing Notion as your number one productivity tool
mfonobong
4
320
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Fireside Chat
paigeccino
42
3.9k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
How to Ace a Technical Interview
jacobian
281
24k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Producing Creativity
orderedlist
PRO
348
40k
Transcript
2025年9月10日 JAWS-UG 朝会 #73 障害注入から効率的復旧へ カオスエンジニアリング&生成AIで考える AWS障害対応 #jawsug_asa
自己紹介 >深津 新太郎 PM @ 事業会社の情報システム子会社 オンプレ/ハイブリッドシステムの運用・開発・リプレイス担当 >Community Builder(Cloud Operations)2025
>好きなサービス S3、CloudWatch、FIS
9/1、みなさん防災訓練しましたか?
Everything fails, all the time. 全てのものはいつでも壊れうる Dr. Werner Vogels
みなさん、最後にいつ障害訓練しましたか?
みんなの参考図書 Well-Architected Framework
運用上の優秀性(Operational Excellence) • OPS05-BP02: Game Day を実施する • OPS05-BP03: 自動化された演習を繰り返す
信頼性(Reliability) • REL13-BP02: 障害をシミュレートする • REL13-BP03: 自動フェイルオーバーを検証する • REL13-BP04: スケーリング動作をテストする パフォーマンス効率(Performance Efficiency) • PERF06-BP02: 負荷試験とボトルネック確認 障害訓練に関するもの 結構ある… みんなの参考図書 Well-Architected Framework ※他にもあるかも
AWS Fault Injection Service
Agenda 1 AWS Fault Injection Serviceとは 2 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用
3 4 5 まとめ 障害を起こす(応用編)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
AWS Fault Injection Service (AWS FIS) ・マネコンから実行できる障害注入ツール ・意図的に障害を発生させ、サービスの挙動や耐性を確認 AWS Resilience
Hub:レジリエンス(回復・耐障害性)のチェック・管理 AWS FISはその中でも「実験の実行」を担当するサービス
試験計画 テストケース策定 試験実施 試験結果 まとめ 正常稼働確認 障害注入 可用性 復旧確認 障害試験の流れ
FISは試験実施時に障害を注入する機能のみ 正常稼働確認や復旧確認は別途準備する必要あり 障害試験の全体像とFISの守備範囲
• EC2 • EBS • ECS • EKS • Lambda
• VPC • Transit Gateway • IAMロール • Aurora • RDS • ElastiCache • DynamoDB • S3 • ARC ゾーンシフトに登録されている AWS リソース 最新の情報はドキュメント参照 https://docs.aws.amazon.com/ja_jp/fis/latest/userguide/targets.html 障害を注入できるターゲット Lambda 2024年対応 順次追加、更新されていくと想定
アクションタイプ 代表的なアクション例 説明 インスタンス操作(EC2) stop-instances, reboot-instances, terminate-instances EC2 を停止・再起動・終了する障害を注入 リソースストレス(SSM
経由) AWSFIS-Run-CPU-Stress, AWSFIS- Run-Memory-Stress, AWSFIS-Run- Disk-Stress CPU高負荷、メモリ圧迫、ディスク満杯な ど EBS ボリューム操作 pause-volume-io EBS ボリュームの I/O を停止 ネットワーク障害 ブラックホール(通信断), レイテンシ 追加, パケットロス 特定インスタンスなどにネットワーク障害 を注入 RDS / Aurora failover-db-cluster, reboot-db- instances DB クラスタのフェイルオーバーや DB 再起 動 Lambda invocation-add-delay, invocation- error, invocation-http-integration- response 関数実行に遅延やエラーを強制注入 S3 bucket-pause-replication S3 レプリケーションを一時停止 Transit Gateway など transit-gateway-disrupt-cross- region-connectivity クロスリージョン接続を遮断 実行できる主な障害
料金 引用元:https://aws.amazon.com/jp/fis/pricing/?refid=12eea001-bcfd-40ce-9788-748f73400e32 実験の実行時間課金xアクション数xターゲットアカウント 0.10 USD/分 20 分間並行して実行される2 つのアクション +10 分間実行される
1 つのアクション 2 アクション x 20 分 + 1 アクション x 10 分 = 50 アクション分 実験の実行料金 = 50 アクション分 x 0.10ドル = 5 ドル
実験レポート 障害注入中の稼働状況をレポート化してくれる ただし、$5/回!!(正直使いどころがわからない・・・)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
FIS設定 アクション:注入する障害 ターゲット:障害を注入する対象リソース
FIS設定 どんな障害を注入するか どれくらい障害を発生させるか リソースID、 タグで対象を指定
FIS設定 障害内容によってはSSM(Automation)を使用
FIS設定 実行するための IAMロールを指定 S3やCloudWatchへ 実験結果を出力可能
FIS設定
FIS実行
FIS実行
AWS Cloud AWS Management Console AWS CLI AWS Fault Injection
Service Amazon EC2 Amazon RDS IAM Amazon S3 Amazon ECS AWS Systems Manager 操作 権限参照 ログ出力 実行 Automation 実験対象リソース FIS全体イメージ 実験テンプレート シナリオ Amazon CloudWatch
個人的Tips集
Tips 1 大規模障害も最初は短時間の試行から 初めから大きい障害を起こそうとすると失敗 1つずつの小さな実験も繋げると長時間の実験になる 1つ失敗した時のシナリオのやり直しが結構こたえます… スモールスタートで始めて、徐々に大きく EC2障害 Aurora障害 Lambda障害
VPC障害 AZ障害 OK OK OK OK
Tips 2 実験テンプレートはエクスポート・インポートできる × 実験テンプレートのコピー&ペースト ◦ JSON形式 エクスポート&インポート インポートは別アカウントに対しても実施可能 NW的に繋がっていないAWSアカウントへ
確認済みのテンプレートを安全に移すことが可能 (例)Sandboxで試行 → Stagingへ移行して障害試験 ※IAMロールをAssumeRoleすれば、 クロスアカウントでの障害注入も可能
Tips 3 リソースは元の場所に戻らない AZ障害:稼働リソースが障害対象のAZに寄っているとベスト AZ障害を起こす 1. 対象AZのリソースは停止 2. 正常なAZにルート切り替えたり、フェイルオーバして稼働 →業務正常稼働
3. 障害終了 →片寄されていた通信が元に戻る 4. 2回目の実験! ×失敗 RDSやAuroraは再フェイルオーバしないので障害が空振り 停止したEC2も自動で起動しない 各リソースが稼働中のAZを 一括で把握できるようにしておくと便利
Tips 4 ターゲットの確認は事前に アクションを実行しない実行タイプを指定することで、 障害注入対象のリソースを事前に確認可能 誤って他のリソースに注入しないように事前確認をお勧め
参考 https://docs.aws.amazon.com/ja_jp/fis/latest/userguide/fis-quotas.html FISにも色々クォータがあります 注意が必要なのは 実験データの保持日数 120日 完了した実験に関するデータを FISが保持できる最大日数 期間の延長はできない たまに実施すると前回実験の結果が見えないので注意
Tips 5 4ヶ月で忘れます
Tips 6 お腹いっぱいになったら戻せません EC2の障害アクションでDsik使用量を増やすことができます AWSFIS-Run-Disk-Fill ×Full CloudWatch Alarmの設定確認に使うなど便利 ただし、容量がいっぱいになってしまうと、SSMが稼働できず戻せなくなります 何事も適切なレベルが大事!
Tips 7 Fargateさんは難敵です AZ障害の実験にFargateは対応していません マネージドサービスなので言うことを聞いてくれません 特定のAZで稼働しているコンテナを別AZに移すといったことをやりたかったら ECS on EC2でやりましょう (注:私はFargate好きです)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
FIS シナリオライブラリ
FIS シナリオライブラリ
None
全部で10個のアクション(障害) リソースID、タグで指定されたターゲットに 続々と試練が課されていく
EC2障害が多い アクション(障害内容) ターゲット(障害対象)
NW一時遮断、RDSフェイルオーバー アクション(障害内容) ターゲット(障害対象)
FIS AZ障害 対象環境 Availability Zone AWS Cloud Availability Zone Auto
Scaling group VPC Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora Writer instance Amazon Aurora Reader instance User Amazon EC2
FIS AZ障害 障害注入 Availability Zone AWS Cloud Availability Zone Auto
Scaling group VPC Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora Writer instance Amazon Aurora Reader instance User Amazon EC2
Availability Zone AWS Cloud Availability Zone Auto Scaling group VPC
Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora instance Amazon Aurora Writer instance User Amazon EC2 昇格 FIS AZ障害 対処後
FIS AZ障害 健全性確認
FIS AZ障害 実験結果
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
障害訓練 稼働確認 (例)ダッシュボード、稼働確認ツールの準備 障害原因特定 (例)人力 → 生成AI活用で効率化? 復旧作業 (例)復旧ツールの準備
Amazon Q Developer 運用調査 2025/4/25〜 東京リージョンでもプレビュー中
Amazon Q Developer 運用調査 Slackで通知受信、応答も可能 ※2025/9/9時点で英語限定
Amazon Q Developer from Slack Amazon Q Developer In chat
applications AWS Resource AWS Cloud Amazon SNS 日本語対応済み! - マネジメントコンソール - in chat applications(旧AWS chat bot)
Amazon Q Developer マネジメントコンソール右上 Amazon Q Developer 先ほどの障害について聞いてみる
Agenda 1 AWS Fault Injection Serviceとは 2 障害を起こす 障害対応 生成AIの活用
3 4 FIS tips 5 まとめ
障害はいつ来るか分かりません だから訓練しましょう AWS FISは、壊して強くするための道具 マネージドなので安全に、少しずつ導入できる なによりも『AWSが公式に壊してくれる安心感』 生成AIも組み合わせて、障害対応のつらみを軽減 ぜひ皆さんも、今日からちょっと壊してみましょう! まとめ
お勧めハンズオン https://github.com/kazzpapa3/jawsug-kobe/tree/39cd0c15b9883375ae58512734ebafc1b851e8e9/aws-fis JAWS-UG神戸 市野さん作
-Share your lessons- ※本資料に記載されている会社名、製品名、サービス名は各社の商標または登録商標です