Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
Search
JunjiKoide
May 04, 2020
Technology
3
650
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
https://fin-jaws.connpass.com/event/174892/
JunjiKoide
May 04, 2020
Tweet
Share
More Decks by JunjiKoide
See All by JunjiKoide
2023/09/14 Fin-JAWS #32 「SIEM on Amazon OpenSearch Serviceを1年運用してわかったこと」
junjikoide
3
730
2021/03/22 Fin-JAWS #20 「AWS認定12冠制覇への道」
junjikoide
0
22
2020/03/31 JAWS DAYS 2020 オンライン 「最近AWSに移行してよかったと思ったこと」
junjikoide
0
20
2020/01/31 ログ勉強会 「WindowsのWEBサーバログをリアルタイム監視・可視化してみた」
junjikoide
0
29
2019/12/05 Fin-JAWS#7 「Transit Gateway Multicast」
junjikoide
0
27
2019/6/18 初心者支部 #18 「Direct Connectって何? どうやったら使えるの?」
junjikoide
0
30
2019/05/24 Security JAWS #13 「エンタープライズのオンプレWAFをAWSに移行したらこうなった話」
junjikoide
0
42
2019/02/23 JAWS DAYS 2019 「エンタープライズのオンプレWAFをAWSに移行したらこうなった話」
junjikoide
0
16
Other Decks in Technology
See All in Technology
Reading Code Is Harder Than Writing It
trishagee
2
110
SA Night #2 FinatextのSA思想/SA Night #2 Finatext session
satoshiimai
1
150
エンジニアの育成を支える爆速フィードバック文化
sansantech
PRO
3
1.1k
利用終了したドメイン名の最強終活〜観測環境を育てて、分析・供養している件〜 / The Ultimate End-of-Life Preparation for Discontinued Domain Names
nttcom
2
340
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
1
200
転生CISOサバイバル・ガイド / CISO Career Transition Survival Guide
kanny
3
1.1k
エンジニアが加速させるプロダクトディスカバリー 〜最速で価値ある機能を見つける方法〜 / product discovery accelerated by engineers
rince
4
500
深層学習と古典的画像アルゴリズムを組み合わせた類似画像検索内製化
shutotakahashi
1
280
表現を育てる
kiyou77
1
230
Oracle Cloud Infrastructure:2025年2月度サービス・アップデート
oracle4engineer
PRO
1
380
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
150
Windows の新しい管理者保護モード
murachiakira
0
180
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
175
52k
Building an army of robots
kneath
303
45k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
Statistics for Hackers
jakevdp
797
220k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
A Tale of Four Properties
chriscoyier
158
23k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
Site-Speed That Sticks
csswizardry
4
390
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Writing Fast Ruby
sferik
628
61k
Transcript
4/20に発生したAWS障害、 何が起きてたの? 2020/05/04 株式会社QUICK / 小出 淳二 3限:情報
2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出
淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること
Service Health Dashboard https://status.aws.amazon.com/ #AP_block
6 Copyright © 2020 QUICK Corp. All Rights Reserved. SQS
7 Copyright © 2020 QUICK Corp. All Rights Reserved. Lambda
8 Copyright © 2020 QUICK Corp. All Rights Reserved. Cloudwatch
9 Copyright © 2020 QUICK Corp. All Rights Reserved. CloudFormation
10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生
・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?
→一部業務に影響があったが、 サービスとしては結果的に影響なし
13 Copyright © 2020 QUICK Corp. All Rights Reserved. 19:52
以下のRSSをSlack通知で検知
14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。
各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
15 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記2システムに影響あり
① サーバレス情報収集 ② ログ分析基盤
16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、
・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった
例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①
サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
19 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要①
20 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要②
21 Copyright © 2020 QUICK Corp. All Rights Reserved. 4/20分の入力業務に関して全て手動実行
で対応済み。結局人手でリカバー
22 Copyright © 2020 QUICK Corp. All Rights Reserved. そんなウマい話しはなかった・・
23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②
ログ分析基盤 https://classmethod.jp/cases/quick/
24 Copyright © 2020 QUICK Corp. All Rights Reserved. サーバレス構成
25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態
・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧
SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API
RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API
Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ
ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)
今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)
データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま
でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
35 Copyright © 2020 QUICK Corp. All Rights Reserved. ・東京リージョンからのネットワーク遅延(クラメソ鈴木さん)
https://dev.classmethod.jp/articles/hongkong-ec2-s3-rtt/
36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更
新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct
Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル
リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して
いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)
40 Copyright © 2020 QUICK Corp. All Rights Reserved. ご静聴ありがとう
ございました