Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1

「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1

ゆるSRE勉強会 #1 でお話しさせて頂いたLTの資料です!
https://yuru-sre.connpass.com/event/292063/

Ryunosuke Iwai

August 29, 2023
Tweet

More Decks by Ryunosuke Iwai

Other Decks in Technology

Transcript

  1. Datadog⼊れてみたらAWSの料⾦
    が爆発した話
    @ゆるSRE勉強会 #1
    Cloudbase 株式会社
    @ryuke

    View full-size slide

  2. 株式会社メルカリ
    Microservices Platform CI/CD
    @ryuke
    岩井 ⿓之介
    Cloudbase株式会社
    Platform / SRE チーム (2人)
    Go / terraform / Datadog
    趣味
    前職
    現在
    SNS https://twitter.com/i_ryuke
    Pokemon Sleep
    6645-5328-5408

    View full-size slide

  3. システム構成

    View full-size slide

  4. システム構成

    View full-size slide

  5. スキャンワークフローをStep Functionsで実現
    +

    View full-size slide

  6. 品質の問題が⽬⽴つように
    →監視を強化しよう!

    View full-size slide

  7. を導⼊した

    View full-size slide

  8. の導入
    サイドカーコンテナとしてDatadog Agentを設定
    Lambdaレイヤーとして既存の関数に追加

    View full-size slide

  9. ところが...

    View full-size slide

  10. ところが...
    ん?

    View full-size slide

  11. ところが...

    View full-size slide

  12. 原因:Datadog AgentのイメージのプルがNAT Gatewayを経由していた
    100MB
    500MB
    $0.062/GB

    View full-size slide

  13. $0.01/GB
    $0.062/GB
    対応策:プルスルーキャッシュリポジトリ+VPC Endpoint

    View full-size slide

  14. まとめ - 今回の学び
    ● Datadog Agentのコンテナイメージは意外と⼤きいので注意
    ○ サーバーが少なくワーカーが多いような環境でハマる可能性あり
    ○ プルスルーキャッシュリポジトリなどの⽅法で通信量を抑えられる
    ■ GCPでは mirror.gcr.io, Azureでは Cache for ACR などが使える

    View full-size slide

  15. まとめ - 料⾦の監視について
    ● 監視まわりの開発は気を抜くとお⾦が吹っ⾶ぶ即死系の罠が多いがち
    ○ ログやメトリクスの従量課⾦など
    ○ 予算、料⾦の監視をちゃんと設定しておく
    ● が、難しい...
    ○ 粒度:チームごとなのか、サービス(EC2 etc…)なのか
    ○ 感度:粒度を下げすぎると、ノイズが増える
    ● 「料⾦の監視」に有⽤な知⾒をお持ちの⽅、ぜひ教えてください!!

    View full-size slide

  16. ク ラ ウ ド 運 ⽤ を 安 全 に

    View full-size slide