「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1
by
Ryunosuke Iwai
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
Datadog⼊れてみたらAWSの料⾦ が爆発した話 @ゆるSRE勉強会 #1 Cloudbase 株式会社 @ryuke
Slide 2
Slide 2 text
株式会社メルカリ Microservices Platform CI/CD @ryuke 岩井 ⿓之介 Cloudbase株式会社 Platform / SRE チーム (2人) Go / terraform / Datadog 趣味 前職 現在 SNS https://twitter.com/i_ryuke Pokemon Sleep 6645-5328-5408
Slide 3
Slide 3 text
No content
Slide 4
Slide 4 text
システム構成
Slide 5
Slide 5 text
システム構成
Slide 6
Slide 6 text
スキャンワークフローをStep Functionsで実現 +
Slide 7
Slide 7 text
品質の問題が⽬⽴つように →監視を強化しよう!
Slide 8
Slide 8 text
を導⼊した
Slide 9
Slide 9 text
の導入 サイドカーコンテナとしてDatadog Agentを設定 Lambdaレイヤーとして既存の関数に追加
Slide 10
Slide 10 text
の導入
Slide 11
Slide 11 text
😊
Slide 12
Slide 12 text
が、
Slide 13
Slide 13 text
ところが...
Slide 14
Slide 14 text
ところが... ん?
Slide 15
Slide 15 text
ところが...
Slide 16
Slide 16 text
🤯
Slide 17
Slide 17 text
原因:Datadog AgentのイメージのプルがNAT Gatewayを経由していた 100MB 500MB $0.062/GB
Slide 18
Slide 18 text
$0.01/GB $0.062/GB 対応策:プルスルーキャッシュリポジトリ+VPC Endpoint
Slide 19
Slide 19 text
その後
Slide 20
Slide 20 text
その後
Slide 21
Slide 21 text
😊
Slide 22
Slide 22 text
まとめ - 今回の学び ● Datadog Agentのコンテナイメージは意外と⼤きいので注意 ○ サーバーが少なくワーカーが多いような環境でハマる可能性あり ○ プルスルーキャッシュリポジトリなどの⽅法で通信量を抑えられる ■ GCPでは mirror.gcr.io, Azureでは Cache for ACR などが使える
Slide 23
Slide 23 text
まとめ - 料⾦の監視について ● 監視まわりの開発は気を抜くとお⾦が吹っ⾶ぶ即死系の罠が多いがち ○ ログやメトリクスの従量課⾦など ○ 予算、料⾦の監視をちゃんと設定しておく ● が、難しい... ○ 粒度:チームごとなのか、サービス(EC2 etc…)なのか ○ 感度:粒度を下げすぎると、ノイズが増える ● 「料⾦の監視」に有⽤な知⾒をお持ちの⽅、ぜひ教えてください!!
Slide 24
Slide 24 text
ク ラ ウ ド 運 ⽤ を 安 全 に