Slide 1

Slide 1 text

4/20に発生したAWS障害、 何が起きてたの? 2020/05/04 株式会社QUICK / 小出 淳二 3限:情報

Slide 2

Slide 2 text

2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出 淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介

Slide 3

Slide 3 text

3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?

Slide 4

Slide 4 text

4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?

Slide 5

Slide 5 text

5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること Service Health Dashboard https://status.aws.amazon.com/ #AP_block

Slide 6

Slide 6 text

6 Copyright © 2020 QUICK Corp. All Rights Reserved. SQS

Slide 7

Slide 7 text

7 Copyright © 2020 QUICK Corp. All Rights Reserved. Lambda

Slide 8

Slide 8 text

8 Copyright © 2020 QUICK Corp. All Rights Reserved. Cloudwatch

Slide 9

Slide 9 text

9 Copyright © 2020 QUICK Corp. All Rights Reserved. CloudFormation

Slide 10

Slide 10 text

10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生 ・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?

Slide 11

Slide 11 text

11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?

Slide 12

Slide 12 text

12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの? →一部業務に影響があったが、 サービスとしては結果的に影響なし

Slide 13

Slide 13 text

13 Copyright © 2020 QUICK Corp. All Rights Reserved. 19:52 以下のRSSをSlack通知で検知

Slide 14

Slide 14 text

14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。 各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中

Slide 15

Slide 15 text

15 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記2システムに影響あり ① サーバレス情報収集 ② ログ分析基盤

Slide 16

Slide 16 text

16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、 ・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど

Slide 17

Slide 17 text

17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった 例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/

Slide 18

Slide 18 text

18 Copyright © 2020 QUICK Corp. All Rights Reserved. ① サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22

Slide 19

Slide 19 text

19 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要①

Slide 20

Slide 20 text

20 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要②

Slide 21

Slide 21 text

21 Copyright © 2020 QUICK Corp. All Rights Reserved. 4/20分の入力業務に関して全て手動実行 で対応済み。結局人手でリカバー

Slide 22

Slide 22 text

22 Copyright © 2020 QUICK Corp. All Rights Reserved. そんなウマい話しはなかった・・

Slide 23

Slide 23 text

23 Copyright © 2020 QUICK Corp. All Rights Reserved. ② ログ分析基盤 https://classmethod.jp/cases/quick/

Slide 24

Slide 24 text

24 Copyright © 2020 QUICK Corp. All Rights Reserved. サーバレス構成

Slide 25

Slide 25 text

25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態 ・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納

Slide 26

Slide 26 text

26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧 SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)

Slide 27

Slide 27 text

27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!

Slide 28

Slide 28 text

28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。

Slide 29

Slide 29 text

29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html

Slide 30

Slide 30 text

30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?

Slide 31

Slide 31 text

31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題) 今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視

Slide 32

Slide 32 text

32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題) データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?

Slide 33

Slide 33 text

33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?

Slide 34

Slide 34 text

34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?

Slide 35

Slide 35 text

35 Copyright © 2020 QUICK Corp. All Rights Reserved. ・東京リージョンからのネットワーク遅延(クラメソ鈴木さん) https://dev.classmethod.jp/articles/hongkong-ec2-s3-rtt/

Slide 36

Slide 36 text

36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更 新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!

Slide 37

Slide 37 text

弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。

Slide 38

Slide 38 text

38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/

Slide 39

Slide 39 text

39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)

Slide 40

Slide 40 text

40 Copyright © 2020 QUICK Corp. All Rights Reserved. ご静聴ありがとう ございました