Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」

2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」

JunjiKoide

May 04, 2020
Tweet

More Decks by JunjiKoide

Other Decks in Technology

Transcript

  1. 2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出

    淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
  2. 3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
  3. 4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
  4. 5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること

    Service Health Dashboard https://status.aws.amazon.com/ #AP_block
  5. 10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生

    ・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
  6. 11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
  7. 12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?

    →一部業務に影響があったが、 サービスとしては結果的に影響なし
  8. 14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。

    各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
  9. 16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、

    ・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
  10. 17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった

    例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
  11. 18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①

    サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
  12. 23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②

    ログ分析基盤 https://classmethod.jp/cases/quick/
  13. 25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態

    ・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
  14. 26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧

    SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
  15. 27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API

    RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
  16. 28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API

    Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
  17. 29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ

    ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
  18. 30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
  19. 31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)

    今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
  20. 32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)

    データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
  21. 33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま

    でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
  22. 34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
  23. 36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更

    新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
  24. 弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct

    Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
  25. 38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル

    リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
  26. 39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して

    いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)