障害対応のふりかえりとその後の取り組み / trouble shooting and future

障害対応のふりかえりとその後の取り組み 2021.04.27 (Tue) AWS Startup Tech Meetup Online #4 株式会社dotD
那須隆

Copyright© 2021 dotD All Rights Reserved. ⾃⼰紹介 • 那須隆（なす
たかし） • 株式会社dotD Infrastructure Architect • ⾃社事業と共創事業のインフラ設計から運⽤まで • バックエンド開発はじめました • 2019/2020 Japan APN Ambassador @nasutakashii https://nasrinjp1.hatenablog.com/

Copyright© 2021 dotD All Rights Reserved. いつ： 2021/2/6(⼟) と 7(⽇)
何が：⾃社事業の onedog どうなった：サービスダウン何があった？

Copyright© 2021 dotD All Rights Reserved. • onedogでお散歩ができない！とお問い合わせ多数 • API
Gatewayでも5XXエラーが出続けていた • Lambdaで ʻToo many connectionsʼ エラーが多数発⽣ • RDSのCPU使⽤率が100%に張り付いていた⼀体何が起こっていたのか？

Copyright© 2021 dotD All Rights Reserved. • Too many connectionsエラーが多発してる時点でAWS障害じゃなさそう
• アクセス数が突然4倍になるのは考えにくい • たぶんエラーが出始めてLambdaがリトライしたかユーザも何度か操作を繰り返したか、だと思った • RDSがボトルネックになってるだけなのでは？ • でも仮にピークが本当に4倍になっているならインスタンスタイプを1つあげるだけじゃ⾜りない… 考えたこと

Copyright© 2021 dotD All Rights Reserved. • DB接続数の最⼤値が増えるわけではない（理屈ではちょろっと増えるけど） •
今回のようにDB接続数が突発的に増えた場合には何の意味もないなぜか？

Copyright© 2021 dotD All Rights Reserved. • 2/7(⽇)の夜にRDSのスケールアップ実施 • 平⽇のRDS
CPU使⽤率が55%あたりだと⼟⽇は厳しい状況になる可能性があることがわかったので注釈つけてみた再発防⽌策（直近の障害発⽣防⽌施策）

Copyright© 2021 dotD All Rights Reserved. • 気にしないといけない情報を1画⾯のダッシュボードで⾒れるようにした • 傾向が⾒たかったから
• 複数画⾯に分かれてるとそれだけで時間が取られるから • 時間取られると⾯倒くさくなって⾒なくなるから • 今回はRDSでの障害だったが、同じタイミングで他のリソースに影響があるのかどうかも確認できるから • ついでにアラート設計を⾒直した • いつもダッシュボードを⾒ているわけにはいかない • 各サービスごとにモニタリングのベストプラクティスはあるが、状況によってアラートの閾値は調整しないといけない再発防⽌策（平時の運⽤観点での施策）

Copyright© 2021 dotD All Rights Reserved. • ことあるごとにRDSにアクセスするロジックを変えようとしている • パフォーマンス改善の1案（今回の障害がトリガーではない）
• RDSにアクセスさえしなければ同じ事象は発⽣しない • キャッシュをどこかに置くことを考えている • 海外展開も進めているのでどんな状況であれダウンタイムを短縮したい • 定期リストア訓練やDRの検討をしようと思うこれからやろうとしている再発防⽌策

Copyright© 2021 dotD All Rights Reserved. • どういう状態が正しいのかは必ず把握しよう • 障害時に初めてメトリクス等を⾒てもそれが異常なのかどうかわからん
• アラートを設定するだけではなく傾向も確認しよう • 今は⼤丈夫でもこのままだと危ない！に気付こう • 何が原因で負荷が⾼いのかのヒントを常に⾒れるようにしよう • 下げられる負荷があるなら何もないうちに下げておきましょうまとめると

• iOSエンジニア • Androidエンジニア • フロントエンドエンジニア • バックエンドエンジニア • SRE
/ インフラエンジニア • UI/UXデザイナー • ビジネスアーキテクト • 事業開発お待ちしてます！ https://dotd-inc.com/ja/careers/

障害対応のふりかえりとその後の取り組み / trouble shooting and future

障害対応のふりかえりとその後の取り組み / trouble shooting and future

Takashi Nasu

More Decks by Takashi Nasu

Other Decks in Technology

Featured

Transcript

障害対応のふりかえりとその後の取り組み 2021.04.27 (Tue) AWS Startup Tech Meetup Online #4 株式会社dotD

Copyright© 2021 dotD All Rights Reserved. ⾃⼰紹介 • 那須隆（なす

Copyright© 2021 dotD All Rights Reserved.

Copyright© 2021 dotD All Rights Reserved.

Copyright© 2021 dotD All Rights Reserved.

Copyright© 2021 dotD All Rights Reserved. モニタリング⼤事！今⽇お伝えしたいこと

Copyright© 2021 dotD All Rights Reserved. いつ： 2021/2/6(⼟) と 7(⽇)

Copyright© 2021 dotD All Rights Reserved. 当時の構成概要（⼀部）

Copyright© 2021 dotD All Rights Reserved. • onedogでお散歩ができない！とお問い合わせ多数 • API

Copyright© 2021 dotD All Rights Reserved. 状況把握障害発⽣⽇時に突然アクセス数が普段のピークの 4 倍に！

Copyright© 2021 dotD All Rights Reserved. • Too many connectionsエラーが多発してる時点でAWS障害じゃなさそう

Copyright© 2021 dotD All Rights Reserved. 2/7(⽇)にRDS Proxyを⼊れてみたしかし何も起こらなかったそして2⽇⽬の障害発⽣へ…

Copyright© 2021 dotD All Rights Reserved. • DB接続数の最⼤値が増えるわけではない（理屈ではちょろっと増えるけど） •

Copyright© 2021 dotD All Rights Reserved. • 2/7(⽇)の夜にRDSのスケールアップ実施 • 平⽇のRDS

Copyright© 2021 dotD All Rights Reserved. 再発防⽌策（平時の運⽤観点での施策）

Copyright© 2021 dotD All Rights Reserved. • 気にしないといけない情報を1画⾯のダッシュボードで⾒れるようにした • 傾向が⾒たかったから

Copyright© 2021 dotD All Rights Reserved. 再発防⽌策（平時の運⽤観点での施策）

Copyright© 2021 dotD All Rights Reserved. • RDSでパフォーマンスインサイトを有効化した • クエリごとの負荷を⾒れるようになった

Copyright© 2021 dotD All Rights Reserved. • ことあるごとにRDSにアクセスするロジックを変えようとしている • パフォーマンス改善の1案（今回の障害がトリガーではない）

Copyright© 2021 dotD All Rights Reserved. • どういう状態が正しいのかは必ず把握しよう • 障害時に初めてメトリクス等を⾒てもそれが異常なのかどうかわからん

Copyright© 2021 dotD All Rights Reserved. 以上の内容をブログでも公開しています。 https://note.com/takashinasu/n/ne12d99d593cf ブログ紹介

• iOSエンジニア • Androidエンジニア • フロントエンドエンジニア • バックエンドエンジニア • SRE