Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
Search
JunjiKoide
May 04, 2020
Technology
3
670
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
https://fin-jaws.connpass.com/event/174892/
JunjiKoide
May 04, 2020
Tweet
Share
More Decks by JunjiKoide
See All by JunjiKoide
re:Invent完全攻略ガイド
junjikoide
1
860
エンジニアに定年なし! AI時代にキャリアをReboot — 学び続けて未来を創る
junjikoide
1
380
ラスベガスの歩き方 2025年版(re:Invent 事前勉強会)
junjikoide
0
2.2k
2023/09/14 Fin-JAWS #32 「SIEM on Amazon OpenSearch Serviceを1年運用してわかったこと」
junjikoide
3
810
2021/03/22 Fin-JAWS #20 「AWS認定12冠制覇への道」
junjikoide
0
51
2020/03/31 JAWS DAYS 2020 オンライン 「最近AWSに移行してよかったと思ったこと」
junjikoide
0
48
2020/01/31 ログ勉強会 「WindowsのWEBサーバログをリアルタイム監視・可視化してみた」
junjikoide
0
65
2019/12/05 Fin-JAWS#7 「Transit Gateway Multicast」
junjikoide
0
56
2019/6/18 初心者支部 #18 「Direct Connectって何? どうやったら使えるの?」
junjikoide
0
56
Other Decks in Technology
See All in Technology
Phase06_ClaudeCode実践
overflowinc
0
2.2k
昔話で振り返るAWSの歩み ~S3誕生から20年、クラウドはどう進化したのか~
nrinetcom
PRO
0
100
来期の評価で変えようと思っていること 〜AI時代に変わること・変わらないこと〜
estie
0
110
Zephyr(RTOS)でOpenPLCを実装してみた
iotengineer22
0
140
【社内勉強会】新年度からコーディングエージェントを使いこなす - 構造と制約で引き出すClaude Codeの実践知
nwiizo
27
13k
AI時代のシステム開発者の仕事_20260328
sengtor
0
290
SSoT(Single Source of Truth)で「壊して再生」する設計
kawauso
2
380
Laravelで学ぶOAuthとOpenID Connectの基礎と実装
kyoshidaxx
4
1.9k
MIX AUDIO EN BROADCAST
ralpherick
0
110
FastMCP OAuth Proxy with Cognito
hironobuiga
3
210
AI時代のオンプレ-クラウドキャリアチェンジ考
yuu0w0yuu
0
440
Kiro Meetup #7 Kiro アップデート (2025/12/15〜2026/3/20)
katzueno
2
260
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
330
Joys of Absence: A Defence of Solitary Play
codingconduct
1
320
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
120
Are puppies a ranking factor?
jonoalderson
1
3.2k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.1k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
320
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
150
The Language of Interfaces
destraynor
162
26k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
180
Transcript
4/20に発生したAWS障害、 何が起きてたの? 2020/05/04 株式会社QUICK / 小出 淳二 3限:情報
2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出
淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること
Service Health Dashboard https://status.aws.amazon.com/ #AP_block
6 Copyright © 2020 QUICK Corp. All Rights Reserved. SQS
7 Copyright © 2020 QUICK Corp. All Rights Reserved. Lambda
8 Copyright © 2020 QUICK Corp. All Rights Reserved. Cloudwatch
9 Copyright © 2020 QUICK Corp. All Rights Reserved. CloudFormation
10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生
・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?
→一部業務に影響があったが、 サービスとしては結果的に影響なし
13 Copyright © 2020 QUICK Corp. All Rights Reserved. 19:52
以下のRSSをSlack通知で検知
14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。
各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
15 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記2システムに影響あり
① サーバレス情報収集 ② ログ分析基盤
16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、
・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった
例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①
サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
19 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要①
20 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要②
21 Copyright © 2020 QUICK Corp. All Rights Reserved. 4/20分の入力業務に関して全て手動実行
で対応済み。結局人手でリカバー
22 Copyright © 2020 QUICK Corp. All Rights Reserved. そんなウマい話しはなかった・・
23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②
ログ分析基盤 https://classmethod.jp/cases/quick/
24 Copyright © 2020 QUICK Corp. All Rights Reserved. サーバレス構成
25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態
・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧
SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API
RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API
Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ
ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)
今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)
データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま
でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
35 Copyright © 2020 QUICK Corp. All Rights Reserved. ・東京リージョンからのネットワーク遅延(クラメソ鈴木さん)
https://dev.classmethod.jp/articles/hongkong-ec2-s3-rtt/
36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更
新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct
Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル
リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して
いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)
40 Copyright © 2020 QUICK Corp. All Rights Reserved. ご静聴ありがとう
ございました