Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
Search
JunjiKoide
May 04, 2020
Technology
3
650
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
https://fin-jaws.connpass.com/event/174892/
JunjiKoide
May 04, 2020
Tweet
Share
More Decks by JunjiKoide
See All by JunjiKoide
2023/09/14 Fin-JAWS #32 「SIEM on Amazon OpenSearch Serviceを1年運用してわかったこと」
junjikoide
3
730
2021/03/22 Fin-JAWS #20 「AWS認定12冠制覇への道」
junjikoide
0
22
2020/03/31 JAWS DAYS 2020 オンライン 「最近AWSに移行してよかったと思ったこと」
junjikoide
0
20
2020/01/31 ログ勉強会 「WindowsのWEBサーバログをリアルタイム監視・可視化してみた」
junjikoide
0
29
2019/12/05 Fin-JAWS#7 「Transit Gateway Multicast」
junjikoide
0
27
2019/6/18 初心者支部 #18 「Direct Connectって何? どうやったら使えるの?」
junjikoide
0
30
2019/05/24 Security JAWS #13 「エンタープライズのオンプレWAFをAWSに移行したらこうなった話」
junjikoide
0
43
2019/02/23 JAWS DAYS 2019 「エンタープライズのオンプレWAFをAWSに移行したらこうなった話」
junjikoide
0
16
Other Decks in Technology
See All in Technology
事業を差別化する技術を生み出す技術
pyama86
2
280
クラウド食堂とは?
hiyanger
0
120
生成AI×財務経理:PoCで挑むSlack AI Bot開発と現場巻き込みのリアル
pohdccoe
1
770
OSS構成管理ツールCMDBuildを使ったAWSリソース管理の自動化
satorufunai
0
650
サイト信頼性エンジニアリングとAmazon Web Services / SRE and AWS
ymotongpoo
7
1.7k
DeepSeekとは?何がいいの? - Databricksと学ぶDeepSeek! 〜これからのLLMに備えよ!〜
taka_aki
1
110
どちらかだけじゃもったいないかも? ECSとEKSを適材適所で併用するメリット、運用課題とそれらの対応について
tk3fftk
2
190
AIエージェント開発のノウハウと課題
pharma_x_tech
5
3.6k
AI Agent時代なのでAWSのLLMs.txtが欲しい!
watany
3
250
AIエージェント元年@日本生成AIユーザ会
shukob
1
230
JavaにおけるNull非許容性
skrb
2
2.7k
2/18 Making Security Scale: メルカリが考えるセキュリティ戦略 - Coincheck x LayerX x Mercari
jsonf
0
230
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Testing 201, or: Great Expectations
jmmastey
42
7.2k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
Navigating Team Friction
lara
183
15k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1k
Thoughts on Productivity
jonyablonski
69
4.5k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
Six Lessons from altMBA
skipperchong
27
3.6k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
Transcript
4/20に発生したAWS障害、 何が起きてたの? 2020/05/04 株式会社QUICK / 小出 淳二 3限:情報
2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出
淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること
Service Health Dashboard https://status.aws.amazon.com/ #AP_block
6 Copyright © 2020 QUICK Corp. All Rights Reserved. SQS
7 Copyright © 2020 QUICK Corp. All Rights Reserved. Lambda
8 Copyright © 2020 QUICK Corp. All Rights Reserved. Cloudwatch
9 Copyright © 2020 QUICK Corp. All Rights Reserved. CloudFormation
10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生
・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?
→一部業務に影響があったが、 サービスとしては結果的に影響なし
13 Copyright © 2020 QUICK Corp. All Rights Reserved. 19:52
以下のRSSをSlack通知で検知
14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。
各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
15 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記2システムに影響あり
① サーバレス情報収集 ② ログ分析基盤
16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、
・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった
例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①
サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
19 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要①
20 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要②
21 Copyright © 2020 QUICK Corp. All Rights Reserved. 4/20分の入力業務に関して全て手動実行
で対応済み。結局人手でリカバー
22 Copyright © 2020 QUICK Corp. All Rights Reserved. そんなウマい話しはなかった・・
23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②
ログ分析基盤 https://classmethod.jp/cases/quick/
24 Copyright © 2020 QUICK Corp. All Rights Reserved. サーバレス構成
25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態
・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧
SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API
RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API
Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ
ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)
今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)
データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま
でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
35 Copyright © 2020 QUICK Corp. All Rights Reserved. ・東京リージョンからのネットワーク遅延(クラメソ鈴木さん)
https://dev.classmethod.jp/articles/hongkong-ec2-s3-rtt/
36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更
新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct
Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル
リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して
いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)
40 Copyright © 2020 QUICK Corp. All Rights Reserved. ご静聴ありがとう
ございました