Fin-JAWS12 online Koide

Fin-JAWS12 online Koide

B38af6155ebda86b6f5216ab3d3304c3?s=128

JunjiKoide

May 04, 2020
Tweet

Transcript

  1. 2.

    2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出

    淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
  2. 3.

    3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
  3. 4.

    4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
  4. 5.

    5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること

    Service Health Dashboard https://status.aws.amazon.com/ #AP_block
  5. 10.

    10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生

    ・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
  6. 11.

    11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
  7. 12.

    12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?

    →一部業務に影響があったが、 サービスとしては結果的に影響なし
  8. 13.
  9. 14.

    14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。

    各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
  10. 15.
  11. 16.

    16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、

    ・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
  12. 17.

    17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった

    例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
  13. 18.

    18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①

    サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
  14. 23.

    23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②

    ログ分析基盤 https://classmethod.jp/cases/quick/
  15. 25.

    25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態

    ・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
  16. 26.

    26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧

    SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
  17. 27.

    27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API

    RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
  18. 28.

    28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API

    Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
  19. 29.

    29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ

    ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
  20. 30.

    30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
  21. 31.

    31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)

    今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
  22. 32.

    32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)

    データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
  23. 33.

    33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま

    でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
  24. 34.

    34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ

    ・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
  25. 36.

    36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更

    新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
  26. 37.

    弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct

    Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
  27. 38.

    38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル

    リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
  28. 39.

    39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して

    いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)