Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JDDUG#15 DataDogで行うバッチ改善

Avatar for Nealle Nealle
February 18, 2026

JDDUG#15 DataDogで行うバッチ改善

Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/

Avatar for Nealle

Nealle

February 18, 2026
Tweet

More Decks by Nealle

Other Decks in Technology

Transcript

  1. CONFIDENTIAL 2 氏名 所属 経歴 大木 建人 / Kento Ohgi

    株式会社ニーリー 
 プロダクト統括本部 プラットフォームエンジニアリングG 
 SRE / プラットフォームエンジニアリング 趣味 スノーボード🏂 この前初めて旭岳🏔行ってまいりました 2018-2020  大学で強化学習の研究 & インターンでAWSにハマる 2020-2023  新卒で合同会社DMM.comへ入社 SRE 2023-  株式会社ニーリー SRE 自己紹介 @2357gi @2357gi
  2. CONFIDENTIAL 実行時間の取得 16 バッチ毎の実行時間も取りたい 
 バッチ用のデコレータを定義し、以下をログに出力 
 ・バッチ名 
 ・実行結果

    
 ・実行時間 
 
 DataDogの Log PipelinesとGenerate Metricsを使用し、 
 バッチ毎の実行回数・時間・結果を抽出、メトリクス化! 
 
 これにより、バッチの肝となるメトリクスも取れるように 🎉

  3. CONFIDENTIAL APMの導入 19 バッチへのAPM導入時にはサンプリングレートに注意 
 毎分実行などのバッチを100%で取りたくないが、 
 月一など実行頻度が低いバッチは取っておきたい 
 


    環境変数: DD_TRACE_SAMPLING_RULES を利用
 実行頻度によって柔軟に設定できるように 
 
 (terraformで管理しているので、EventBridgeのcron式によって自動的に設定) 

  4. CONFIDENTIAL コスト増の落とし穴 21 しばらくした後、 NATGWのコスト急増 が発生
 以下の2要因 
 ・datadog-agent をPublic

    Repositoryから取得していた 
 ・バッチのECS Task起動 & 停止が非常に多い 
 
 そこで、ECR Pull Through Cacheを用いて 
 ECR Private Repoにキャッシュすることに 
 
 S3 VPC Endpointも経由してくれて、 
 無事コスト増を抑えることができた 🎉
 

  5. CONFIDENTIAL 7|まとめ 22 AI時代だからこそ、テレメトリーの適切な収集 & 集約は大切 
 バッチもDataDogを利用して丸裸にできる 
 


    これを元に、AIに仕事を全部委譲しよう! 😁
 
 
 まとめ
 ・Generate Metricsを利用し、ログからバッチ毎の実行時間を取得可能 
 ・APMはバッチ毎の実行回数に注意 
 ・ECR Pull Through Cacheを用いてコスト対策