Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JDDUG#15 DataDogで行うバッチ改善
Search
Nealle
February 18, 2026
Technology
110
0
Share
JDDUG#15 DataDogで行うバッチ改善
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
More Decks by Nealle
See All by Nealle
業務アプリケーションでリアクティブ化するところ、しないところ
nealle
1
44
TypeScriptとAngular Signal で実現する保守性の高いアプリケーション設計 - 3層アーキテクチャによる責務分離の実践(たつかわ) https://2026.tskaigi.org/talks/10
nealle
1
380
クラウドネイティブなエンジニアに向ける Raycastの魅力と実際の活用事例
nealle
2
310
3つのボトルネックを解消し、リリースエンジニアリングを再定義した話
nealle
0
1k
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
nealle
0
140
Datadogのログコスト最適化
nealle
0
1.1k
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
270
AI巻き込み型コードレビューのススメ
nealle
2
3k
Startup Tech Night ニーリーのAI活用
nealle
0
140
Other Decks in Technology
See All in Technology
AI時代の私の技術インプットとアウトプット術
tonkotsuboy_com
15
7.4k
Spring Boot における AOT Cache 活用テクニックと 起動時間改善事例
ntt_dsol_java
0
160
eBPF Can Do It! A 5-Minute Tour of 5 Real-World PHP Issues Solved with eBPF
egmc
0
300
「使われるデータ基盤」を目指してデータアナリストとワークショップをやった話
jackojacko_
2
910
Agentic AI時代における メルカリのAIガバナンスとガードレール実装
naoichihara
16
16k
Generative UI × A2UI で AI エージェントを作った話 AI-DLC も使ってみた!
kmiya84377
1
250
Harnessing the Power of Mocks and Stubs in PHPUnit / #laravellivejp
asumikam
0
720
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
330
最低限これだけ押さえれ大丈夫_Claude Enterprise/Team企業展開ガバナンス入門
tkikuchi
1
330
AI とサービス・デザイン / AI and Service Design
ks91
PRO
0
180
【禁断】Obsidianの第二の脳に「知の巨人」と呼ばれた師匠の脳をロードしてみた
nagatsu
0
7k
オンコールの負荷軽減のためのBits Assistant 活用方法 / How to Use Bits Assistant to Reduce the Workload on On-Call Staff
sms_tech
1
260
Featured
See All Featured
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
150
エンジニアに許された特別な時間の終わり
watany
107
240k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
310
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Transcript
CONFIDENTIAL 2026.02.18 NEALLE DataDogで行うバッチ監視改善 〜意図しないコスト増の落とし穴も添えて〜 1
CONFIDENTIAL 2 氏名 所属 経歴 大木 建人 / Kento Ohgi
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 スノーボード🏂 この前初めて旭岳🏔行ってまいりました 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ入社 SRE 2023- 株式会社ニーリー SRE 自己紹介 @2357gi @2357gi
CONFIDENTIAL 会社・プロダクト紹介 NEALLE 1|会社概要 3
CONFIDENTIAL 4 事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
CONFIDENTIAL 生成AI、してますか? NEALLE 1|会社概要 1|前置き 5
CONFIDENTIAL が、AI活用の話は 今回はしません! AIをやっていく上での “土台”の話をします
NEALLE 1|会社概要 1|前置き 6
CONFIDENTIAL システムの悪化を検知した時のシナリオ 1|前置き 7 調査 計画 実装 本番確認
CONFIDENTIAL システムの悪化を検知した時のシナリオ ちょっと前まで 1|前置き 8 調査 計画 実装
本番確認 AIに委譲することが可能!
CONFIDENTIAL システムの悪化を検知した時のシナリオ 昨今 1|前置き 9 調査 計画 実装 本番確認
AIに委譲することが (技術的には) 可能!
CONFIDENTIAL 1|前置き 10 AIに委譲することが (技術的には) 可能! AIが自律的にメトリクスを収集する必要がある AIが読める場所に、
適切にメトリクスを集約する必要がある
CONFIDENTIAL 1|前置き 11 AIに委譲することが (技術的には) 可能! AIが自律的にメトリクスを収集する必要がある AIが読める場所に、
適切にメトリクスを集約する必要がある AIが読める場所 =
CONFIDENTIAL AI時代には、よりメトリクスを 正しく集約する必要がある NEALLE 1|会社概要 1|前置き 12
CONFIDENTIAL 2026.02.18 NEALLE DataDogで行うバッチ監視改善 〜意図しないコスト増の落とし穴も添えて〜 13
CONFIDENTIAL 2|構成の説明 14 よくある構成 歴史的背景により、単一のSFnで全てのバッチを管理している (EventBridgeによる呼び出し時にcommandを渡し、 ECS
Taskではそのコマンドを実行している)
CONFIDENTIAL 3|バッチ毎のインフラメトリクス取得 15 バッチ毎、個別に インフラメトリクスを取得したい DD_TAGSをオーバーライドし、バッチ名を渡す これにより、バッチ毎にインフラメトリクスが取得可能
🎉
CONFIDENTIAL 実行時間の取得 16 バッチ毎の実行時間も取りたい バッチ用のデコレータを定義し、以下をログに出力 ・バッチ名 ・実行結果
・実行時間 DataDogの Log PipelinesとGenerate Metricsを使用し、 バッチ毎の実行回数・時間・結果を抽出、メトリクス化! これにより、バッチの肝となるメトリクスも取れるように 🎉
CONFIDENTIAL 実行時間の取得 17 バッチ毎の実行時間も取りたい 実際の設定
CONFIDENTIAL 実際のダッシュボード 18
CONFIDENTIAL APMの導入 19 バッチへのAPM導入時にはサンプリングレートに注意 毎分実行などのバッチを100%で取りたくないが、 月一など実行頻度が低いバッチは取っておきたい
環境変数: DD_TRACE_SAMPLING_RULES を利用 実行頻度によって柔軟に設定できるように (terraformで管理しているので、EventBridgeのcron式によって自動的に設定)
CONFIDENTIAL APMの導入 20 バッチへのAPM導入時にはサンプリングレートに注意 terraformで管理しているので、EventBridgeのcron式によって自動的に設定
CONFIDENTIAL コスト増の落とし穴 21 しばらくした後、 NATGWのコスト急増 が発生 以下の2要因 ・datadog-agent をPublic
Repositoryから取得していた ・バッチのECS Task起動 & 停止が非常に多い そこで、ECR Pull Through Cacheを用いて ECR Private Repoにキャッシュすることに S3 VPC Endpointも経由してくれて、 無事コスト増を抑えることができた 🎉
CONFIDENTIAL 7|まとめ 22 AI時代だからこそ、テレメトリーの適切な収集 & 集約は大切 バッチもDataDogを利用して丸裸にできる
これを元に、AIに仕事を全部委譲しよう! 😁 まとめ ・Generate Metricsを利用し、ログからバッチ毎の実行時間を取得可能 ・APMはバッチ毎の実行回数に注意 ・ECR Pull Through Cacheを用いてコスト対策