$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
Search
JunjiKoide
May 04, 2020
Technology
3
670
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
https://fin-jaws.connpass.com/event/174892/
JunjiKoide
May 04, 2020
Tweet
Share
More Decks by JunjiKoide
See All by JunjiKoide
re:Invent完全攻略ガイド
junjikoide
1
640
エンジニアに定年なし! AI時代にキャリアをReboot — 学び続けて未来を創る
junjikoide
1
280
ラスベガスの歩き方 2025年版(re:Invent 事前勉強会)
junjikoide
0
1.8k
2023/09/14 Fin-JAWS #32 「SIEM on Amazon OpenSearch Serviceを1年運用してわかったこと」
junjikoide
3
800
2021/03/22 Fin-JAWS #20 「AWS認定12冠制覇への道」
junjikoide
0
40
2020/03/31 JAWS DAYS 2020 オンライン 「最近AWSに移行してよかったと思ったこと」
junjikoide
0
38
2020/01/31 ログ勉強会 「WindowsのWEBサーバログをリアルタイム監視・可視化してみた」
junjikoide
0
49
2019/12/05 Fin-JAWS#7 「Transit Gateway Multicast」
junjikoide
0
48
2019/6/18 初心者支部 #18 「Direct Connectって何? どうやったら使えるの?」
junjikoide
0
46
Other Decks in Technology
See All in Technology
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
760
株式会社ビザスク_AI__Engineering_Summit_Tokyo_2025_登壇資料.pdf
eikohashiba
1
110
Agent Skillsがハーネスの垣根を超える日
gotalab555
6
4k
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
150
ExpoのインダストリーブースでみたAWSが見せる製造業の未来
hamadakoji
0
190
AWSの新機能をフル活用した「re:Inventエージェント」開発秘話
minorun365
2
430
ソフトウェアエンジニアとAIエンジニアの役割分担についてのある事例
kworkdev
PRO
0
210
New Relic 1 年生の振り返りと Cloud Cost Intelligence について #NRUG
play_inc
0
220
意外と知らない状態遷移テストの世界
nihonbuson
PRO
1
230
20251203_AIxIoTビジネス共創ラボ_第4回勉強会_BP山崎.pdf
iotcomjpadmin
0
130
たまに起きる外部サービスの障害に備えたり備えなかったりする話
egmc
0
400
Strands AgentsとNova 2 SonicでS2Sを実践してみた
yama3133
1
1.7k
Featured
See All Featured
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
Google's AI Overviews - The New Search
badams
0
870
Music & Morning Musume
bryan
46
7k
How to Think Like a Performance Engineer
csswizardry
28
2.4k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Navigating Team Friction
lara
191
16k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
88
Mind Mapping
helmedeiros
PRO
0
38
Measuring & Analyzing Core Web Vitals
bluesmoon
9
710
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
90
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
57
37k
Transcript
4/20に発生したAWS障害、 何が起きてたの? 2020/05/04 株式会社QUICK / 小出 淳二 3限:情報
2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出
淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること
Service Health Dashboard https://status.aws.amazon.com/ #AP_block
6 Copyright © 2020 QUICK Corp. All Rights Reserved. SQS
7 Copyright © 2020 QUICK Corp. All Rights Reserved. Lambda
8 Copyright © 2020 QUICK Corp. All Rights Reserved. Cloudwatch
9 Copyright © 2020 QUICK Corp. All Rights Reserved. CloudFormation
10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生
・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?
→一部業務に影響があったが、 サービスとしては結果的に影響なし
13 Copyright © 2020 QUICK Corp. All Rights Reserved. 19:52
以下のRSSをSlack通知で検知
14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。
各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
15 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記2システムに影響あり
① サーバレス情報収集 ② ログ分析基盤
16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、
・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった
例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①
サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
19 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要①
20 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要②
21 Copyright © 2020 QUICK Corp. All Rights Reserved. 4/20分の入力業務に関して全て手動実行
で対応済み。結局人手でリカバー
22 Copyright © 2020 QUICK Corp. All Rights Reserved. そんなウマい話しはなかった・・
23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②
ログ分析基盤 https://classmethod.jp/cases/quick/
24 Copyright © 2020 QUICK Corp. All Rights Reserved. サーバレス構成
25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態
・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧
SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API
RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API
Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ
ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)
今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)
データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま
でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
35 Copyright © 2020 QUICK Corp. All Rights Reserved. ・東京リージョンからのネットワーク遅延(クラメソ鈴木さん)
https://dev.classmethod.jp/articles/hongkong-ec2-s3-rtt/
36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更
新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct
Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル
リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して
いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)
40 Copyright © 2020 QUICK Corp. All Rights Reserved. ご静聴ありがとう
ございました