ゆるSRE勉強会 #1 でお話しさせて頂いたLTの資料です! https://yuru-sre.connpass.com/event/292063/
Datadog⼊れてみたらAWSの料⾦が爆発した話@ゆるSRE勉強会 #1Cloudbase 株式会社@ryuke
View Slide
株式会社メルカリMicroservices Platform CI/CD@ryuke岩井 ⿓之介Cloudbase株式会社Platform / SRE チーム (2人)Go / terraform / Datadog趣味前職現在SNS https://twitter.com/i_ryukePokemon Sleep6645-5328-5408
システム構成
スキャンワークフローをStep Functionsで実現+
品質の問題が⽬⽴つように→監視を強化しよう!
を導⼊した
の導入サイドカーコンテナとしてDatadog Agentを設定Lambdaレイヤーとして既存の関数に追加
の導入
😊
が、
ところが...
ところが...ん?
🤯
原因:Datadog AgentのイメージのプルがNAT Gatewayを経由していた100MB500MB$0.062/GB
$0.01/GB$0.062/GB対応策:プルスルーキャッシュリポジトリ+VPC Endpoint
その後
まとめ - 今回の学び● Datadog Agentのコンテナイメージは意外と⼤きいので注意○ サーバーが少なくワーカーが多いような環境でハマる可能性あり○ プルスルーキャッシュリポジトリなどの⽅法で通信量を抑えられる■ GCPでは mirror.gcr.io, Azureでは Cache for ACR などが使える
まとめ - 料⾦の監視について● 監視まわりの開発は気を抜くとお⾦が吹っ⾶ぶ即死系の罠が多いがち○ ログやメトリクスの従量課⾦など○ 予算、料⾦の監視をちゃんと設定しておく● が、難しい...○ 粒度:チームごとなのか、サービス(EC2 etc…)なのか○ 感度:粒度を下げすぎると、ノイズが増える● 「料⾦の監視」に有⽤な知⾒をお持ちの⽅、ぜひ教えてください!!
ク ラ ウ ド 運 ⽤ を 安 全 に