22
トラブル事例3 サイドカーが巻き込み事故を起こす
一定の負荷が掛かると「failed container health checks」エラーが頻発
サイドカーのDatadog Agentコンテナのヘルスチェックコマンドが失敗して停止
起動必須にしているためメインのアプリコンテナを巻き込んで再起動が発生
*以下の変更前後で発生
Fargate PV 1.3.0 + Datadog Agent 7.24.0 から
Fargate PV 1.4.0 + Datadog Agent 7.26.0 へ
サイドカーのリソースきちんと見るの重要
*DatadogドキュメントのECS Fargate定義例
"name": "datadog-agent",
"cpu": 10,
"memoryReservation": 256,
"essential": true,
"healthCheck": {
"command": [
"CMD-SHELL",
"agent health"
],
"interval": 30,
"retries": 3,
"startPeriod": 15,
"timeout": 5
},
Datadog Agentコンテナのリソース不足により
ヘルスチェックが時々失敗する状況が発生