Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1

「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1

ゆるSRE勉強会 #1 でお話しさせて頂いたLTの資料です!
https://yuru-sre.connpass.com/event/292063/

Ryunosuke Iwai

August 29, 2023
Tweet

More Decks by Ryunosuke Iwai

Other Decks in Technology

Transcript

  1. Datadog⼊れてみたらAWSの料⾦
    が爆発した話
    @ゆるSRE勉強会 #1
    Cloudbase 株式会社
    @ryuke

    View Slide

  2. 株式会社メルカリ
    Microservices Platform CI/CD
    @ryuke
    岩井 ⿓之介
    Cloudbase株式会社
    Platform / SRE チーム (2人)
    Go / terraform / Datadog
    趣味
    前職
    現在
    SNS https://twitter.com/i_ryuke
    Pokemon Sleep
    6645-5328-5408

    View Slide

  3. View Slide

  4. システム構成

    View Slide

  5. システム構成

    View Slide

  6. スキャンワークフローをStep Functionsで実現
    +

    View Slide

  7. 品質の問題が⽬⽴つように
    →監視を強化しよう!

    View Slide

  8. を導⼊した

    View Slide

  9. の導入
    サイドカーコンテナとしてDatadog Agentを設定
    Lambdaレイヤーとして既存の関数に追加

    View Slide

  10. の導入

    View Slide

  11. 😊

    View Slide

  12. が、

    View Slide

  13. ところが...

    View Slide

  14. ところが...
    ん?

    View Slide

  15. ところが...

    View Slide

  16. 🤯

    View Slide

  17. 原因:Datadog AgentのイメージのプルがNAT Gatewayを経由していた
    100MB
    500MB
    $0.062/GB

    View Slide

  18. $0.01/GB
    $0.062/GB
    対応策:プルスルーキャッシュリポジトリ+VPC Endpoint

    View Slide

  19. その後

    View Slide

  20. その後

    View Slide

  21. 😊

    View Slide

  22. まとめ - 今回の学び
    ● Datadog Agentのコンテナイメージは意外と⼤きいので注意
    ○ サーバーが少なくワーカーが多いような環境でハマる可能性あり
    ○ プルスルーキャッシュリポジトリなどの⽅法で通信量を抑えられる
    ■ GCPでは mirror.gcr.io, Azureでは Cache for ACR などが使える

    View Slide

  23. まとめ - 料⾦の監視について
    ● 監視まわりの開発は気を抜くとお⾦が吹っ⾶ぶ即死系の罠が多いがち
    ○ ログやメトリクスの従量課⾦など
    ○ 予算、料⾦の監視をちゃんと設定しておく
    ● が、難しい...
    ○ 粒度:チームごとなのか、サービス(EC2 etc…)なのか
    ○ 感度:粒度を下げすぎると、ノイズが増える
    ● 「料⾦の監視」に有⽤な知⾒をお持ちの⽅、ぜひ教えてください!!

    View Slide

  24. ク ラ ウ ド 運 ⽤ を 安 全 に

    View Slide