Slide 30
Slide 30 text
監視対象
LB
DB
compute
USERS
POINT1
エラーレスポンス、応答時間を監視するのはクライアントに一番近い個所。
なぜなら後方のエラーレスポンス、応答時間よりも確実に大きいため
例 Aurora 50msec < EC2 80msec < ALB 100msec
サービス特性によるが単位時間あたりにアクセスが一度も来ないのも異常。
POINT4
空きストレージ容量が枯渇しないよう早期に予兆監視する。
POINT2
computeに関してはメトリクスではなくエラーログを監視する。
対応不要なものは通知しない。
POINT3
CPU、memoryが高くてもパフォーマンスが良好であれば問題ない。