Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JDDUG#15 DataDogで行うバッチ改善
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Nealle
February 18, 2026
Technology
110
0
Share
JDDUG#15 DataDogで行うバッチ改善
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
More Decks by Nealle
See All by Nealle
業務アプリケーションでリアクティブ化するところ、しないところ
nealle
1
55
TypeScriptとAngular Signal で実現する保守性の高いアプリケーション設計 - 3層アーキテクチャによる責務分離の実践(たつかわ) https://2026.tskaigi.org/talks/10
nealle
1
390
クラウドネイティブなエンジニアに向ける Raycastの魅力と実際の活用事例
nealle
2
310
3つのボトルネックを解消し、リリースエンジニアリングを再定義した話
nealle
0
1.1k
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
nealle
0
140
Datadogのログコスト最適化
nealle
0
1.2k
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
280
AI巻き込み型コードレビューのススメ
nealle
2
3k
Startup Tech Night ニーリーのAI活用
nealle
0
140
Other Decks in Technology
See All in Technology
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.7k
Java正規表現エンジン(NFA)の仕組みと パフォーマンスを維持するための最適化手法
takeuchi_132917
0
150
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.8k
AI時代に改めて考える、ドメイン駆動設計 - モデリングが「AIへの共通言語」になる
littlehands
8
2.9k
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
260
JJUG CCC 2026 Spring AI時代の開発こそ標準化を武器に! ― 方式・プロセス・プラットフォームの標準化
s27watanabe
2
630
Amazon Bedrock 経由の Claude Cowork を試してみよう・MCP にも繋いでみよう
sugimomoto
0
260
ビジュアルプログラミングIoTLT vol.23
1ftseabass
PRO
0
160
管理アカウント単一運用からAWS Organizationsに移行するの大変で滅
hiramax
0
320
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
0
590
Dynamic Workersについて
yusukebe
2
470
権限管理設計を完全に理解した
rsugi
2
240
Featured
See All Featured
KATA
mclloyd
PRO
35
15k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Thoughts on Productivity
jonyablonski
76
5.2k
Chasing Engaging Ingredients in Design
codingconduct
0
200
Between Models and Reality
mayunak
4
310
Site-Speed That Sticks
csswizardry
13
1.2k
Deep Space Network (abreviated)
tonyrice
0
160
30 Presentation Tips
portentint
PRO
1
310
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
820
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
The Curious Case for Waylosing
cassininazir
1
360
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
44k
Transcript
CONFIDENTIAL 2026.02.18 NEALLE DataDogで行うバッチ監視改善 〜意図しないコスト増の落とし穴も添えて〜 1
CONFIDENTIAL 2 氏名 所属 経歴 大木 建人 / Kento Ohgi
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 スノーボード🏂 この前初めて旭岳🏔行ってまいりました 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ入社 SRE 2023- 株式会社ニーリー SRE 自己紹介 @2357gi @2357gi
CONFIDENTIAL 会社・プロダクト紹介 NEALLE 1|会社概要 3
CONFIDENTIAL 4 事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
CONFIDENTIAL 生成AI、してますか? NEALLE 1|会社概要 1|前置き 5
CONFIDENTIAL が、AI活用の話は 今回はしません! AIをやっていく上での “土台”の話をします
NEALLE 1|会社概要 1|前置き 6
CONFIDENTIAL システムの悪化を検知した時のシナリオ 1|前置き 7 調査 計画 実装 本番確認
CONFIDENTIAL システムの悪化を検知した時のシナリオ ちょっと前まで 1|前置き 8 調査 計画 実装
本番確認 AIに委譲することが可能!
CONFIDENTIAL システムの悪化を検知した時のシナリオ 昨今 1|前置き 9 調査 計画 実装 本番確認
AIに委譲することが (技術的には) 可能!
CONFIDENTIAL 1|前置き 10 AIに委譲することが (技術的には) 可能! AIが自律的にメトリクスを収集する必要がある AIが読める場所に、
適切にメトリクスを集約する必要がある
CONFIDENTIAL 1|前置き 11 AIに委譲することが (技術的には) 可能! AIが自律的にメトリクスを収集する必要がある AIが読める場所に、
適切にメトリクスを集約する必要がある AIが読める場所 =
CONFIDENTIAL AI時代には、よりメトリクスを 正しく集約する必要がある NEALLE 1|会社概要 1|前置き 12
CONFIDENTIAL 2026.02.18 NEALLE DataDogで行うバッチ監視改善 〜意図しないコスト増の落とし穴も添えて〜 13
CONFIDENTIAL 2|構成の説明 14 よくある構成 歴史的背景により、単一のSFnで全てのバッチを管理している (EventBridgeによる呼び出し時にcommandを渡し、 ECS
Taskではそのコマンドを実行している)
CONFIDENTIAL 3|バッチ毎のインフラメトリクス取得 15 バッチ毎、個別に インフラメトリクスを取得したい DD_TAGSをオーバーライドし、バッチ名を渡す これにより、バッチ毎にインフラメトリクスが取得可能
🎉
CONFIDENTIAL 実行時間の取得 16 バッチ毎の実行時間も取りたい バッチ用のデコレータを定義し、以下をログに出力 ・バッチ名 ・実行結果
・実行時間 DataDogの Log PipelinesとGenerate Metricsを使用し、 バッチ毎の実行回数・時間・結果を抽出、メトリクス化! これにより、バッチの肝となるメトリクスも取れるように 🎉
CONFIDENTIAL 実行時間の取得 17 バッチ毎の実行時間も取りたい 実際の設定
CONFIDENTIAL 実際のダッシュボード 18
CONFIDENTIAL APMの導入 19 バッチへのAPM導入時にはサンプリングレートに注意 毎分実行などのバッチを100%で取りたくないが、 月一など実行頻度が低いバッチは取っておきたい
環境変数: DD_TRACE_SAMPLING_RULES を利用 実行頻度によって柔軟に設定できるように (terraformで管理しているので、EventBridgeのcron式によって自動的に設定)
CONFIDENTIAL APMの導入 20 バッチへのAPM導入時にはサンプリングレートに注意 terraformで管理しているので、EventBridgeのcron式によって自動的に設定
CONFIDENTIAL コスト増の落とし穴 21 しばらくした後、 NATGWのコスト急増 が発生 以下の2要因 ・datadog-agent をPublic
Repositoryから取得していた ・バッチのECS Task起動 & 停止が非常に多い そこで、ECR Pull Through Cacheを用いて ECR Private Repoにキャッシュすることに S3 VPC Endpointも経由してくれて、 無事コスト増を抑えることができた 🎉
CONFIDENTIAL 7|まとめ 22 AI時代だからこそ、テレメトリーの適切な収集 & 集約は大切 バッチもDataDogを利用して丸裸にできる
これを元に、AIに仕事を全部委譲しよう! 😁 まとめ ・Generate Metricsを利用し、ログからバッチ毎の実行時間を取得可能 ・APMはバッチ毎の実行回数に注意 ・ECR Pull Through Cacheを用いてコスト対策