Slide 1

Slide 1 text

Datadog⼊れてみたらAWSの料⾦ が爆発した話 @ゆるSRE勉強会 #1 Cloudbase 株式会社 @ryuke

Slide 2

Slide 2 text

株式会社メルカリ Microservices Platform CI/CD @ryuke 岩井 ⿓之介 Cloudbase株式会社 Platform / SRE チーム (2人) Go / terraform / Datadog 趣味 前職 現在 SNS https://twitter.com/i_ryuke Pokemon Sleep 6645-5328-5408

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

システム構成

Slide 5

Slide 5 text

システム構成

Slide 6

Slide 6 text

スキャンワークフローをStep Functionsで実現 +

Slide 7

Slide 7 text

品質の問題が⽬⽴つように →監視を強化しよう!

Slide 8

Slide 8 text

を導⼊した

Slide 9

Slide 9 text

の導入 サイドカーコンテナとしてDatadog Agentを設定 Lambdaレイヤーとして既存の関数に追加

Slide 10

Slide 10 text

の導入

Slide 11

Slide 11 text

😊

Slide 12

Slide 12 text

が、

Slide 13

Slide 13 text

ところが...

Slide 14

Slide 14 text

ところが... ん?

Slide 15

Slide 15 text

ところが...

Slide 16

Slide 16 text

🤯

Slide 17

Slide 17 text

原因:Datadog AgentのイメージのプルがNAT Gatewayを経由していた 100MB 500MB $0.062/GB

Slide 18

Slide 18 text

$0.01/GB $0.062/GB 対応策:プルスルーキャッシュリポジトリ+VPC Endpoint

Slide 19

Slide 19 text

その後

Slide 20

Slide 20 text

その後

Slide 21

Slide 21 text

😊

Slide 22

Slide 22 text

まとめ - 今回の学び ● Datadog Agentのコンテナイメージは意外と⼤きいので注意 ○ サーバーが少なくワーカーが多いような環境でハマる可能性あり ○ プルスルーキャッシュリポジトリなどの⽅法で通信量を抑えられる ■ GCPでは mirror.gcr.io, Azureでは Cache for ACR などが使える

Slide 23

Slide 23 text

まとめ - 料⾦の監視について ● 監視まわりの開発は気を抜くとお⾦が吹っ⾶ぶ即死系の罠が多いがち ○ ログやメトリクスの従量課⾦など ○ 予算、料⾦の監視をちゃんと設定しておく ● が、難しい... ○ 粒度:チームごとなのか、サービス(EC2 etc…)なのか ○ 感度:粒度を下げすぎると、ノイズが増える ● 「料⾦の監視」に有⽤な知⾒をお持ちの⽅、ぜひ教えてください!!

Slide 24

Slide 24 text

ク ラ ウ ド 運 ⽤ を 安 全 に