障害対応のふりかえりとその後の取り組み / trouble shooting and future

by Takashi Nasu

Slide 1

Slide 1 text

障害対応のふりかえりとその後の取り組み 2021.04.27 (Tue) AWS Startup Tech Meetup Online #4 株式会社dotD 那須隆

Slide 2

Slide 2 text

Copyright© 2021 dotD All Rights Reserved. ⾃⼰紹介 • 那須隆（なすたかし） • 株式会社dotD Infrastructure Architect • ⾃社事業と共創事業のインフラ設計から運⽤まで • バックエンド開発はじめました • 2019/2020 Japan APN Ambassador @nasutakashii https://nasrinjp1.hatenablog.com/

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Copyright© 2021 dotD All Rights Reserved. • Too many connectionsエラーが多発してる時点でAWS障害じゃなさそう • アクセス数が突然4倍になるのは考えにくい • たぶんエラーが出始めてLambdaがリトライしたかユーザも何度か操作を繰り返したか、だと思った • RDSがボトルネックになってるだけなのでは？ • でも仮にピークが本当に4倍になっているならインスタンスタイプを1つあげるだけじゃ⾜りない… 考えたこと

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Copyright© 2021 dotD All Rights Reserved. • 気にしないといけない情報を1画⾯のダッシュボードで⾒れるようにした • 傾向が⾒たかったから • 複数画⾯に分かれてるとそれだけで時間が取られるから • 時間取られると⾯倒くさくなって⾒なくなるから • 今回はRDSでの障害だったが、同じタイミングで他のリソースに影響があるのかどうかも確認できるから • ついでにアラート設計を⾒直した • いつもダッシュボードを⾒ているわけにはいかない • 各サービスごとにモニタリングのベストプラクティスはあるが、状況によってアラートの閾値は調整しないといけない再発防⽌策（平時の運⽤観点での施策）

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Copyright© 2021 dotD All Rights Reserved. • ことあるごとにRDSにアクセスするロジックを変えようとしている • パフォーマンス改善の1案（今回の障害がトリガーではない） • RDSにアクセスさえしなければ同じ事象は発⽣しない • キャッシュをどこかに置くことを考えている • 海外展開も進めているのでどんな状況であれダウンタイムを短縮したい • 定期リストア訓練やDRの検討をしようと思うこれからやろうとしている再発防⽌策

Slide 20

Slide 20 text

Copyright© 2021 dotD All Rights Reserved. • どういう状態が正しいのかは必ず把握しよう • 障害時に初めてメトリクス等を⾒てもそれが異常なのかどうかわからん • アラートを設定するだけではなく傾向も確認しよう • 今は⼤丈夫でもこのままだと危ない！に気付こう • 何が原因で負荷が⾼いのかのヒントを常に⾒れるようにしよう • 下げられる負荷があるなら何もないうちに下げておきましょうまとめると

Slide 21

Slide 21 text

Slide 22

Slide 22 text

• iOSエンジニア • Androidエンジニア • フロントエンドエンジニア • バックエンドエンジニア • SRE / インフラエンジニア • UI/UXデザイナー • ビジネスアーキテクト • 事業開発お待ちしてます！ https://dotd-inc.com/ja/careers/