Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAW...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
sh_fk2
September 10, 2025
Technology
460
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20250910_障害注入から効率的復旧へ_カオスエンジニアリング_生成AIで考えるAWS障害対応.pdf
sh_fk2
September 10, 2025
More Decks by sh_fk2
See All by sh_fk2
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
370
[JAWS-UG彩の国埼玉#6]混乱しました。AWS MCP ServersとAWS MCP Serverの違いを5分で解説
sh_fk2
0
160
[トレノケ雲の会 超re:Cap LT大会]re:Invent2025 5分で読み解くAWSサポート大変革
sh_fk2
2
76
[JAWS-UG初心者支部#72]re:Invent2025で見つけたコミュニティに参加する意味
sh_fk2
1
83
[JAWS-UG 横浜支部 #91]DevOps Agent vs CloudWatch Investigations -比較と実践-
sh_fk2
2
410
[クラウド食堂 #5]見える化✖️自動監視=CloudWatchSynthetics
sh_fk2
0
75
[JAWS-UG 横浜支部 #89]CloudWatch 2025年の軌跡から”勝手に”予測する「運用の未来」
sh_fk2
0
110
[re:Inent2025事前勉強会(有志で開催)] re:Inventで見つけた人生をちょっと変えるコツ
sh_fk2
4
2.9k
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
780
Other Decks in Technology
See All in Technology
爆速でマルチプロダクトを立ち上げる時 事業・CTO目線で大事にしたい事
miyatakoji
0
100
Building applications in the Gemini API family.
line_developers_tw
PRO
0
3k
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
130
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
250
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
370
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
150
AIのReact習熟度を測る
uhyo
1
160
Agent Skills設計で柔軟性と硬さのバランスが難しい話
nassy20
0
120
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
810
AIはどのように 組織のアジリティを変えるのか?
junki
0
190
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
130
Featured
See All Featured
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.7k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
230
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Making Projects Easy
brettharned
120
6.7k
Skip the Path - Find Your Career Trail
mkilby
1
140
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Transcript
2025年9月10日 JAWS-UG 朝会 #73 障害注入から効率的復旧へ カオスエンジニアリング&生成AIで考える AWS障害対応 #jawsug_asa
自己紹介 >深津 新太郎 PM @ 事業会社の情報システム子会社 オンプレ/ハイブリッドシステムの運用・開発・リプレイス担当 >Community Builder(Cloud Operations)2025
>好きなサービス S3、CloudWatch、FIS
9/1、みなさん防災訓練しましたか?
Everything fails, all the time. 全てのものはいつでも壊れうる Dr. Werner Vogels
みなさん、最後にいつ障害訓練しましたか?
みんなの参考図書 Well-Architected Framework
運用上の優秀性(Operational Excellence) • OPS05-BP02: Game Day を実施する • OPS05-BP03: 自動化された演習を繰り返す
信頼性(Reliability) • REL13-BP02: 障害をシミュレートする • REL13-BP03: 自動フェイルオーバーを検証する • REL13-BP04: スケーリング動作をテストする パフォーマンス効率(Performance Efficiency) • PERF06-BP02: 負荷試験とボトルネック確認 障害訓練に関するもの 結構ある… みんなの参考図書 Well-Architected Framework ※他にもあるかも
AWS Fault Injection Service
Agenda 1 AWS Fault Injection Serviceとは 2 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用
3 4 5 まとめ 障害を起こす(応用編)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
AWS Fault Injection Service (AWS FIS) ・マネコンから実行できる障害注入ツール ・意図的に障害を発生させ、サービスの挙動や耐性を確認 AWS Resilience
Hub:レジリエンス(回復・耐障害性)のチェック・管理 AWS FISはその中でも「実験の実行」を担当するサービス
試験計画 テストケース策定 試験実施 試験結果 まとめ 正常稼働確認 障害注入 可用性 復旧確認 障害試験の流れ
FISは試験実施時に障害を注入する機能のみ 正常稼働確認や復旧確認は別途準備する必要あり 障害試験の全体像とFISの守備範囲
• EC2 • EBS • ECS • EKS • Lambda
• VPC • Transit Gateway • IAMロール • Aurora • RDS • ElastiCache • DynamoDB • S3 • ARC ゾーンシフトに登録されている AWS リソース 最新の情報はドキュメント参照 https://docs.aws.amazon.com/ja_jp/fis/latest/userguide/targets.html 障害を注入できるターゲット Lambda 2024年対応 順次追加、更新されていくと想定
アクションタイプ 代表的なアクション例 説明 インスタンス操作(EC2) stop-instances, reboot-instances, terminate-instances EC2 を停止・再起動・終了する障害を注入 リソースストレス(SSM
経由) AWSFIS-Run-CPU-Stress, AWSFIS- Run-Memory-Stress, AWSFIS-Run- Disk-Stress CPU高負荷、メモリ圧迫、ディスク満杯な ど EBS ボリューム操作 pause-volume-io EBS ボリュームの I/O を停止 ネットワーク障害 ブラックホール(通信断), レイテンシ 追加, パケットロス 特定インスタンスなどにネットワーク障害 を注入 RDS / Aurora failover-db-cluster, reboot-db- instances DB クラスタのフェイルオーバーや DB 再起 動 Lambda invocation-add-delay, invocation- error, invocation-http-integration- response 関数実行に遅延やエラーを強制注入 S3 bucket-pause-replication S3 レプリケーションを一時停止 Transit Gateway など transit-gateway-disrupt-cross- region-connectivity クロスリージョン接続を遮断 実行できる主な障害
料金 引用元:https://aws.amazon.com/jp/fis/pricing/?refid=12eea001-bcfd-40ce-9788-748f73400e32 実験の実行時間課金xアクション数xターゲットアカウント 0.10 USD/分 20 分間並行して実行される2 つのアクション +10 分間実行される
1 つのアクション 2 アクション x 20 分 + 1 アクション x 10 分 = 50 アクション分 実験の実行料金 = 50 アクション分 x 0.10ドル = 5 ドル
実験レポート 障害注入中の稼働状況をレポート化してくれる ただし、$5/回!!(正直使いどころがわからない・・・)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
FIS設定 アクション:注入する障害 ターゲット:障害を注入する対象リソース
FIS設定 どんな障害を注入するか どれくらい障害を発生させるか リソースID、 タグで対象を指定
FIS設定 障害内容によってはSSM(Automation)を使用
FIS設定 実行するための IAMロールを指定 S3やCloudWatchへ 実験結果を出力可能
FIS設定
FIS実行
FIS実行
AWS Cloud AWS Management Console AWS CLI AWS Fault Injection
Service Amazon EC2 Amazon RDS IAM Amazon S3 Amazon ECS AWS Systems Manager 操作 権限参照 ログ出力 実行 Automation 実験対象リソース FIS全体イメージ 実験テンプレート シナリオ Amazon CloudWatch
個人的Tips集
Tips 1 大規模障害も最初は短時間の試行から 初めから大きい障害を起こそうとすると失敗 1つずつの小さな実験も繋げると長時間の実験になる 1つ失敗した時のシナリオのやり直しが結構こたえます… スモールスタートで始めて、徐々に大きく EC2障害 Aurora障害 Lambda障害
VPC障害 AZ障害 OK OK OK OK
Tips 2 実験テンプレートはエクスポート・インポートできる × 実験テンプレートのコピー&ペースト ◦ JSON形式 エクスポート&インポート インポートは別アカウントに対しても実施可能 NW的に繋がっていないAWSアカウントへ
確認済みのテンプレートを安全に移すことが可能 (例)Sandboxで試行 → Stagingへ移行して障害試験 ※IAMロールをAssumeRoleすれば、 クロスアカウントでの障害注入も可能
Tips 3 リソースは元の場所に戻らない AZ障害:稼働リソースが障害対象のAZに寄っているとベスト AZ障害を起こす 1. 対象AZのリソースは停止 2. 正常なAZにルート切り替えたり、フェイルオーバして稼働 →業務正常稼働
3. 障害終了 →片寄されていた通信が元に戻る 4. 2回目の実験! ×失敗 RDSやAuroraは再フェイルオーバしないので障害が空振り 停止したEC2も自動で起動しない 各リソースが稼働中のAZを 一括で把握できるようにしておくと便利
Tips 4 ターゲットの確認は事前に アクションを実行しない実行タイプを指定することで、 障害注入対象のリソースを事前に確認可能 誤って他のリソースに注入しないように事前確認をお勧め
参考 https://docs.aws.amazon.com/ja_jp/fis/latest/userguide/fis-quotas.html FISにも色々クォータがあります 注意が必要なのは 実験データの保持日数 120日 完了した実験に関するデータを FISが保持できる最大日数 期間の延長はできない たまに実施すると前回実験の結果が見えないので注意
Tips 5 4ヶ月で忘れます
Tips 6 お腹いっぱいになったら戻せません EC2の障害アクションでDsik使用量を増やすことができます AWSFIS-Run-Disk-Fill ×Full CloudWatch Alarmの設定確認に使うなど便利 ただし、容量がいっぱいになってしまうと、SSMが稼働できず戻せなくなります 何事も適切なレベルが大事!
Tips 7 Fargateさんは難敵です AZ障害の実験にFargateは対応していません マネージドサービスなので言うことを聞いてくれません 特定のAZで稼働しているコンテナを別AZに移すといったことをやりたかったら ECS on EC2でやりましょう (注:私はFargate好きです)
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
FIS シナリオライブラリ
FIS シナリオライブラリ
None
全部で10個のアクション(障害) リソースID、タグで指定されたターゲットに 続々と試練が課されていく
EC2障害が多い アクション(障害内容) ターゲット(障害対象)
NW一時遮断、RDSフェイルオーバー アクション(障害内容) ターゲット(障害対象)
FIS AZ障害 対象環境 Availability Zone AWS Cloud Availability Zone Auto
Scaling group VPC Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora Writer instance Amazon Aurora Reader instance User Amazon EC2
FIS AZ障害 障害注入 Availability Zone AWS Cloud Availability Zone Auto
Scaling group VPC Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora Writer instance Amazon Aurora Reader instance User Amazon EC2
Availability Zone AWS Cloud Availability Zone Auto Scaling group VPC
Amazon EC2 Elastic Load Balancing Amazon Aurora Amazon Aurora instance Amazon Aurora Writer instance User Amazon EC2 昇格 FIS AZ障害 対処後
FIS AZ障害 健全性確認
FIS AZ障害 実験結果
Agenda 1 AWS Fault Injection Serviceとは 障害を起こす(基礎編)+Tips 障害対応 生成AIの活用 まとめ
障害を起こす(応用編) 2 3 4 5
障害訓練 稼働確認 (例)ダッシュボード、稼働確認ツールの準備 障害原因特定 (例)人力 → 生成AI活用で効率化? 復旧作業 (例)復旧ツールの準備
Amazon Q Developer 運用調査 2025/4/25〜 東京リージョンでもプレビュー中
Amazon Q Developer 運用調査 Slackで通知受信、応答も可能 ※2025/9/9時点で英語限定
Amazon Q Developer from Slack Amazon Q Developer In chat
applications AWS Resource AWS Cloud Amazon SNS 日本語対応済み! - マネジメントコンソール - in chat applications(旧AWS chat bot)
Amazon Q Developer マネジメントコンソール右上 Amazon Q Developer 先ほどの障害について聞いてみる
Agenda 1 AWS Fault Injection Serviceとは 2 障害を起こす 障害対応 生成AIの活用
3 4 FIS tips 5 まとめ
障害はいつ来るか分かりません だから訓練しましょう AWS FISは、壊して強くするための道具 マネージドなので安全に、少しずつ導入できる なによりも『AWSが公式に壊してくれる安心感』 生成AIも組み合わせて、障害対応のつらみを軽減 ぜひ皆さんも、今日からちょっと壊してみましょう! まとめ
お勧めハンズオン https://github.com/kazzpapa3/jawsug-kobe/tree/39cd0c15b9883375ae58512734ebafc1b851e8e9/aws-fis JAWS-UG神戸 市野さん作
-Share your lessons- ※本資料に記載されている会社名、製品名、サービス名は各社の商標または登録商標です