Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1
Search
Ryunosuke Iwai
August 29, 2023
Technology
12
10k
「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1
ゆるSRE勉強会 #1 でお話しさせて頂いたLTの資料です!
https://yuru-sre.connpass.com/event/292063/
Ryunosuke Iwai
August 29, 2023
Tweet
Share
More Decks by Ryunosuke Iwai
See All by Ryunosuke Iwai
2024/08/19 PEK Recap | データで振り返るPEK2024
rynsuke
2
200
バッチ処理のSLOをどう設計するか
rynsuke
10
1.2k
スタートアップにおける、チーム拡大を見据えたコンポーネント分割の取り組み
rynsuke
3
3.3k
Error Tracking for Logsを用いたバッチ処理のエラー監視
rynsuke
2
1.3k
Notionではじめるライフハックのススメ
rynsuke
16
1.3k
LLM Meetup Tokyo #2 手続きを記憶するコマンド型エージェントの実装
rynsuke
3
3k
Other Decks in Technology
See All in Technology
後処理で位置情報を補正する技術を試してみた
kensuketakahara
0
110
つくってあそぼ! ユビキタス言語作文の紹介
ndadayo
1
150
ミスが許されない領域にAIを溶け込ませる プロダクトマネジメントの裏側
t01062sy
8
8.7k
最近のUplift Modeling手法にRでトライ
hskksk
0
160
イベントをどう管理するか
mikanichinose
1
120
テーブルが200以上あるSaaSでRSCとGraphQLを併用する理由
msickpaler
1
170
AWS re:Invent 2024 re:Cap CloudFront編
yoshimi0227
0
170
セキュリティ系アップデート全体像と AWS Organizations 新ポリシー「宣言型ポリシー」を紹介 / reGrowth 2024 Security
masahirokawahara
0
290
re:Invent2024のIaC周りのアップデート&セッションの共有/around-re-invent-2024-iac-updates
tomoki10
0
720
Reliability Engineering at Studist
katsuhisa91
PRO
0
120
開志専門職大学特別講義 2024 デモパート
1ftseabass
PRO
0
220
Nihonbashi Test Talk #3_WebDriver BiDiと最新の実装状況 / WebDriver BiDi latest status
takeyaqa
1
160
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
44
13k
Agile that works and the tools we love
rasmusluckow
328
21k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
790
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Speed Design
sergeychernyshev
25
650
Site-Speed That Sticks
csswizardry
1
160
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Scaling GitHub
holman
458
140k
Practical Orchestrator
shlominoach
186
10k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Transcript
Datadog⼊れてみたらAWSの料⾦ が爆発した話 @ゆるSRE勉強会 #1 Cloudbase 株式会社 @ryuke
株式会社メルカリ Microservices Platform CI/CD @ryuke 岩井 ⿓之介 Cloudbase株式会社 Platform /
SRE チーム (2人) Go / terraform / Datadog 趣味 前職 現在 SNS https://twitter.com/i_ryuke Pokemon Sleep 6645-5328-5408
None
システム構成
システム構成
スキャンワークフローをStep Functionsで実現 +
品質の問題が⽬⽴つように →監視を強化しよう!
を導⼊した
の導入 サイドカーコンテナとしてDatadog Agentを設定 Lambdaレイヤーとして既存の関数に追加
の導入
😊
が、
ところが...
ところが... ん?
ところが...
🤯
原因:Datadog AgentのイメージのプルがNAT Gatewayを経由していた 100MB 500MB $0.062/GB
$0.01/GB $0.062/GB 対応策:プルスルーキャッシュリポジトリ+VPC Endpoint
その後
その後
😊
まとめ - 今回の学び • Datadog Agentのコンテナイメージは意外と⼤きいので注意 ◦ サーバーが少なくワーカーが多いような環境でハマる可能性あり ◦ プルスルーキャッシュリポジトリなどの⽅法で通信量を抑えられる
▪ GCPでは mirror.gcr.io, Azureでは Cache for ACR などが使える
まとめ - 料⾦の監視について • 監視まわりの開発は気を抜くとお⾦が吹っ⾶ぶ即死系の罠が多いがち ◦ ログやメトリクスの従量課⾦など ◦ 予算、料⾦の監視をちゃんと設定しておく •
が、難しい... ◦ 粒度:チームごとなのか、サービス(EC2 etc…)なのか ◦ 感度:粒度を下げすぎると、ノイズが増える • 「料⾦の監視」に有⽤な知⾒をお持ちの⽅、ぜひ教えてください!!
ク ラ ウ ド 運 ⽤ を 安 全 に