大規模障害から見るAWSのバックエンド #awswakaran_tokyo

by varu3

Slide 1

Slide 1 text

大規模障害から見るAWSのバックエンド 2019/09/25 #awswakaran _tokyo 株式会社ドリコムインフラストラクチャー部中村昴 ( @varu3)

Slide 2

Slide 2 text

自己紹介ばるさん twitter: varu _3 github: varusan Blog: https://varu3.hatenablog.com/ インフラストラクチャー部弊社で運用しているサービスのインフラを管理している部署です AWS, GCP, 国内パブリッククラウド, Kubernetesなどなど

Slide 3

Slide 3 text

2019年8月23日....

Slide 4

Slide 4 text

止まるインスタンス... 鳴り止まないアラート... 流速が増すTwitterのTL... 加熱する報道... 祈りの声 ... 悲鳴…

Slide 5

Slide 5 text

AWSの大規模障害日本時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、オーバーヒートにより一定の割合の EC2 サーバの停止が発生しました。いわゆるAZ 障害、ゾーン障害

Slide 6

Slide 6 text

アベイラビリティゾーンのちょっとした話 a p - n o r t h e a s t - 1 a が示すゾーンはアカウントごとに異なるアカウントごとでは Z o n e I d が識別子となる確認の仕方 $ a w s e c 2 d e s c r i b e - a v a i l a b i l i t y - z o n e s { " A v a i l a b i l i t y Z o n e s " : [ { " S t a t e " : " a v a i l a b l e " , " Z o n e N a m e " : " a p - n o r t h e a s t - 1 a " , " M e s s a g e s " : [ ] , " Z o n e I d " : " a p n e 1 - a z 4 " , " R e g i o n N a m e " : " a p - n o r t h e a s t - 1 " } ] }

Slide 7

Slide 7 text

弊社で起きた事

Slide 8

Slide 8 text

その１ EC2インスタンスのステータスチェックに失敗する

Slide 9

Slide 9 text

発生直後稼働中のインスタンスのAWS上でのステータスチェックが失敗し、疎通ができなくなった。止まるインスタンスは 3 AZのうちの 1 つのAZのみ大半のインスタンスは強制停止 → 起動で復旧たが、一部立ち上がらないインスタンスもあった立ち上がらなかったインスタンスを、AMIイメージを取得してそのAMIから立ち上げようとするも失敗 EBSスナップショットも取れない状態

Slide 10

Slide 10 text

EC2インスタンスの強制停止？ $ a w s e c 2 s t o p - i n s t a n c e s - - i n s t a n c e - i d s < インスタンスI D > - - f o r c e インスタンス停止コマンドで - - f o r c e をつけると強制停止となるそれでも停止できない場合は、心を強く持って連打もしくはAWS上でstopping 中にさらに停止すると、強制停止になる

Slide 11

Slide 11 text

対応策止まったら困るインスタンス（絶賛開発中のサーバとか）は日次スナップショットを取っておく EBSのスナップショットはS3に保存される S3は最低3つのAZに冗長化されて保存されるそのため、他のAZでも起動できる（はず）障害時にはバックアップからインスタンスを起動する本番環境 MultiAZ 構成オートスケールしなくても台数を固定してオートスケーリンググループで管理する問題が起きたインスタンスを削除して他AZで立ち上げる

Slide 12

Slide 12 text

その２ Elasticache(Memcached)でのパフォーマンスが低下する

Slide 13

Slide 13 text

NewRelicのメトリクス障害が発生した時間帯からMemcachedの負荷が微増している状態 Memcached クラスタには接続はできている

Slide 14

Slide 14 text

CloudWatchメトリクスが正常に取得できていない一見、 a v a i l a b l e となっているため問題ないように見えるがこれは罠。

Slide 15

Slide 15 text

なぜMemcachedでも影響が？ EC2とEBSを基盤として動作しているためその他にもRDS、 Redshift、 ElastiCache および Workspace なども。当初、障害が起きているとアナウンスされたのは、AWSではEC2, EBSのみだった該当サービスがなくてよかった、と安心してはいけない。むしろEC2の障害だと大きく影響範囲が広がる可能性を考慮する。

Slide 16

Slide 16 text

その3. ALBで5xxエラーが発生

Slide 17

Slide 17 text

障害発生時からALBで5xxエラーが増加。 ALBログを確認したところ " a c t i o n s _ e x e c u t e d " : " w a f - f a i l e d " と出ていたこのALBはWAFと紐づけていた

Slide 18

Slide 18 text

どういうことか本来の挙動 1. ALBのリクエストはAWS WAFへ転送される 2. AWS WAF はリクエストのブロックもしくは許可する 3. 許可されたリクエストは本来のリクエスト先へ障害発生時障害が発生したAZへルーティングされたWAF上で問題が発生した本来の挙動でいうと2.の部分

Slide 19

Slide 19 text

※ クラスメソッドさんの記事より: https://dev.classmethod.jp/cloud/aws/apne1-az4-down-0823-devio/

Slide 20

Slide 20 text

対応 WAFを無効にする ALBのサブネットから問題が起きたリージョンを外す ALBは最低 2 AZが必要なため、3 AZ目のサブネットの設定をしておく

Slide 21

Slide 21 text

障害時の情報源 AWS Personal Health Dashboard 各アカウントごとにAWSコンソールから参照できる公式の（おそらく）一番確かで早い情報報告されない事象もある（EC2がバックエンドだったものなど） AWS Service Health Dashboard https://status.aws.amazon.com/ 探しやすい、一覧性があるただし情報は即座には反映されない（体感、ラグがある） Twitter 情報の精度としては玉石混合みんなが大変そうなのはわかる。

Slide 22

Slide 22 text

まとめ単一インスタンスは定期的にスナップショットを取ることが必要だよ本番環境では、オートスケーリンググループでインスタンスを管理して、柔軟にインスタンス数やAZを変更できることが大事だよ EC2の障害はEC2以外にも、他のEC2がバックエンドで使われているフルマネージドサービスにも影響を及ぼすよ障害を辿るとAWSのバックエンドがチョットワカルようになるよ情報を逐一確認しながら、自分たちのアカウントではどのように影響が出ているかを確認することが大事だよ

Slide 23

Slide 23 text

最後に弊社ではこのような事例があったものの幸いなことに、本番環境への影響は最低限に止めることができました。 AWSの中の人やサービス対応におわれた方々、本当にお疲れ様でした！！