EC2 AutoScalingでスケーリングポリシー設定を失敗してうまく行かなった件とその対策

EC2 AutoScalingでスケーリングポリシー設定を失敗してうまく⾏かなった件とその対策⽇本IBM ⼿嶋達也 2023/10/18

⾃⼰紹介 @tterima Teshima-Tatsuya 主なAWS資格

⽬次 • 構成 • オートスケーリングの設定 • 何がダメだったのか • 解決⽅法

構成

オートスケーリング要件オートスケーリンググループ内の平均CPU利⽤率でのスケールイン・スケールアウトサーバ個別のメモリ利⽤率でのスケールイン・スケールアウト

結果分かりますか負荷急上昇！！

パヤ…パヤ… 起動停⽌起動停⽌ ❌ ❌

何がダメだったのか？ CPU ↑ メモリ↓ うわ、負荷上昇中やアラーム上げるでインスタンス増加やよっしゃ、低負荷やアラーム上げるでインスタンス削減や

何がダメだったのか？ CPU ↑ メモリ↓ うわ、負荷上昇中やアラーム上げるでインスタンス増加やインスタンス増加が成⽴している場合はインスタンス増加を優先したい！よっしゃ、低負荷や
アラーム上げるでインスタンス削減や

解決⽅法は？複合条件でポリシーを設定したいな。でも、複合条件のポリシーは作れない。。詰んだ。。。？

皆さんならどう考えますか？

解決⽅法（1/2）オートスケーリングポリシーなんて邪道！！ Lambdaで無理やり頑張る！！１．LambdaでCloudWatchメトリクスを取得２．CPU,メモリ使⽤率のうち、上昇している項⽬のみ抽出３．スケールアウト発動！

解決⽅法（2/2） CloudWatchアラームには複合アラームがある。これで、いずれか⼀⽅が負荷上昇中ものを判定 →スケールアウト発動！ OR

解決したけどそれで⼤丈夫？

解決したけどそれで⼤丈夫？そもそもCPUとメモリで複合アラームを設定すべきなのか？メモリに関しては、⼀定以上の閾値を超える場合はメモリリークを起こしている可能性が⾼い。 →インスタンス再起動が最善⼿の可能性もある。このあたりはしっかりと、メトリクスを計測して、継続して改善案を探していきましょう！（申し訳程度のSRE要素）

終わり

EC2 AutoScalingでスケーリングポリシー設定を失敗してうまく行かなった件とその対策

EC2 AutoScalingでスケーリングポリシー設定を失敗してうまく行かなった件とその対策

tessy

More Decks by tessy

Other Decks in Technology

Featured

Transcript

EC2 AutoScalingでスケーリングポリシー設定を失敗してうまく⾏かなった件とその対策⽇本IBM ⼿嶋達也 2023/10/18

⾃⼰紹介 @tterima Teshima-Tatsuya 主なAWS資格

⽬次 • 構成 • オートスケーリングの設定 • 何がダメだったのか • 解決⽅法

構成

オートスケーリング要件オートスケーリンググループ内の平均CPU利⽤率でのスケールイン・スケールアウトサーバ個別のメモリ利⽤率でのスケールイン・スケールアウト

結果分かりますか負荷急上昇！！

パヤ…パヤ… 起動停⽌起動停⽌ ❌ ❌

何がダメだったのか？ CPU ↑ メモリ↓ うわ、負荷上昇中やアラーム上げるでインスタンス増加やよっしゃ、低負荷やアラーム上げるでインスタンス削減や

何がダメだったのか？ CPU ↑ メモリ↓ うわ、負荷上昇中やアラーム上げるでインスタンス増加やインスタンス増加が成⽴している場合はインスタンス増加を優先したい！よっしゃ、低負荷や

解決⽅法は？複合条件でポリシーを設定したいな。でも、複合条件のポリシーは作れない。。詰んだ。。。？

皆さんならどう考えますか？

解決⽅法（1/2）オートスケーリングポリシーなんて邪道！！ Lambdaで無理やり頑張る！！１．LambdaでCloudWatchメトリクスを取得２．CPU,メモリ使⽤率のうち、上昇している項⽬のみ抽出３．スケールアウト発動！

解決⽅法（2/2） CloudWatchアラームには複合アラームがある。これで、いずれか⼀⽅が負荷上昇中ものを判定 →スケールアウト発動！ OR

解決したけどそれで⼤丈夫？

終わり