Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JDDUG#15 DataDogで行うバッチ改善
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Nealle
February 18, 2026
Technology
100
0
Share
JDDUG#15 DataDogで行うバッチ改善
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
More Decks by Nealle
See All by Nealle
クラウドネイティブなエンジニアに向ける Raycastの魅力と実際の活用事例
nealle
2
230
3つのボトルネックを解消し、リリースエンジニアリングを再定義した話
nealle
0
780
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
nealle
0
120
Datadogのログコスト最適化
nealle
0
900
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
250
AI巻き込み型コードレビューのススメ
nealle
2
3k
Startup Tech Night ニーリーのAI活用
nealle
0
130
モビリティSaaSにおけるデータ利活用の発展
nealle
1
1k
Pythonに漸進的に型をつける
nealle
1
220
Other Decks in Technology
See All in Technology
AI駆動開発で生産性を追いかけたら、行き着いたのは品質とシフトレフトだった
littlehands
0
360
古今東西SRE
okaru
1
120
雑談は、センサーだった
bitkey
PRO
2
200
アクセシビリティはすべての人のもの
tomokusaba
0
250
コミュニティ・勉強会を作るのは目的じゃない
ohmori_yusuke
0
290
AI와 협업하는 조직으로의 여정
arawn
0
590
20年前の「OSS革命」に学ぶ AI時代の生存戦略
samakada
0
530
「QA=テスト」「シフトレフト=スクラムイベントの参加者の一員」の呪縛を解く。アジャイルな開発を止めないために、10Xで挑んだ「右側のしわ寄せ」解消記 #scrumniigata
nihonbuson
PRO
3
800
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
830
もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜!
morinota
0
170
Percolatorを廃止し、マルチ検索サービスへ刷新した話 / Search Engineering Tech Talk 2026 Spring
visional_engineering_and_design
0
320
Fabric MCPの紹介と使い分け
ryomaru0825
1
120
Featured
See All Featured
Are puppies a ranking factor?
jonoalderson
1
3.4k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
110
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
180
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
230
Building Adaptive Systems
keathley
44
3k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
500
RailsConf 2023
tenderlove
30
1.4k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.4k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.3k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
350
Become a Pro
speakerdeck
PRO
31
5.9k
Transcript
CONFIDENTIAL 2026.02.18 NEALLE DataDogで行うバッチ監視改善 〜意図しないコスト増の落とし穴も添えて〜 1
CONFIDENTIAL 2 氏名 所属 経歴 大木 建人 / Kento Ohgi
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 スノーボード🏂 この前初めて旭岳🏔行ってまいりました 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ入社 SRE 2023- 株式会社ニーリー SRE 自己紹介 @2357gi @2357gi
CONFIDENTIAL 会社・プロダクト紹介 NEALLE 1|会社概要 3
CONFIDENTIAL 4 事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
CONFIDENTIAL 生成AI、してますか? NEALLE 1|会社概要 1|前置き 5
CONFIDENTIAL が、AI活用の話は 今回はしません! AIをやっていく上での “土台”の話をします
NEALLE 1|会社概要 1|前置き 6
CONFIDENTIAL システムの悪化を検知した時のシナリオ 1|前置き 7 調査 計画 実装 本番確認
CONFIDENTIAL システムの悪化を検知した時のシナリオ ちょっと前まで 1|前置き 8 調査 計画 実装
本番確認 AIに委譲することが可能!
CONFIDENTIAL システムの悪化を検知した時のシナリオ 昨今 1|前置き 9 調査 計画 実装 本番確認
AIに委譲することが (技術的には) 可能!
CONFIDENTIAL 1|前置き 10 AIに委譲することが (技術的には) 可能! AIが自律的にメトリクスを収集する必要がある AIが読める場所に、
適切にメトリクスを集約する必要がある
CONFIDENTIAL 1|前置き 11 AIに委譲することが (技術的には) 可能! AIが自律的にメトリクスを収集する必要がある AIが読める場所に、
適切にメトリクスを集約する必要がある AIが読める場所 =
CONFIDENTIAL AI時代には、よりメトリクスを 正しく集約する必要がある NEALLE 1|会社概要 1|前置き 12
CONFIDENTIAL 2026.02.18 NEALLE DataDogで行うバッチ監視改善 〜意図しないコスト増の落とし穴も添えて〜 13
CONFIDENTIAL 2|構成の説明 14 よくある構成 歴史的背景により、単一のSFnで全てのバッチを管理している (EventBridgeによる呼び出し時にcommandを渡し、 ECS
Taskではそのコマンドを実行している)
CONFIDENTIAL 3|バッチ毎のインフラメトリクス取得 15 バッチ毎、個別に インフラメトリクスを取得したい DD_TAGSをオーバーライドし、バッチ名を渡す これにより、バッチ毎にインフラメトリクスが取得可能
🎉
CONFIDENTIAL 実行時間の取得 16 バッチ毎の実行時間も取りたい バッチ用のデコレータを定義し、以下をログに出力 ・バッチ名 ・実行結果
・実行時間 DataDogの Log PipelinesとGenerate Metricsを使用し、 バッチ毎の実行回数・時間・結果を抽出、メトリクス化! これにより、バッチの肝となるメトリクスも取れるように 🎉
CONFIDENTIAL 実行時間の取得 17 バッチ毎の実行時間も取りたい 実際の設定
CONFIDENTIAL 実際のダッシュボード 18
CONFIDENTIAL APMの導入 19 バッチへのAPM導入時にはサンプリングレートに注意 毎分実行などのバッチを100%で取りたくないが、 月一など実行頻度が低いバッチは取っておきたい
環境変数: DD_TRACE_SAMPLING_RULES を利用 実行頻度によって柔軟に設定できるように (terraformで管理しているので、EventBridgeのcron式によって自動的に設定)
CONFIDENTIAL APMの導入 20 バッチへのAPM導入時にはサンプリングレートに注意 terraformで管理しているので、EventBridgeのcron式によって自動的に設定
CONFIDENTIAL コスト増の落とし穴 21 しばらくした後、 NATGWのコスト急増 が発生 以下の2要因 ・datadog-agent をPublic
Repositoryから取得していた ・バッチのECS Task起動 & 停止が非常に多い そこで、ECR Pull Through Cacheを用いて ECR Private Repoにキャッシュすることに S3 VPC Endpointも経由してくれて、 無事コスト増を抑えることができた 🎉
CONFIDENTIAL 7|まとめ 22 AI時代だからこそ、テレメトリーの適切な収集 & 集約は大切 バッチもDataDogを利用して丸裸にできる
これを元に、AIに仕事を全部委譲しよう! 😁 まとめ ・Generate Metricsを利用し、ログからバッチ毎の実行時間を取得可能 ・APMはバッチ毎の実行回数に注意 ・ECR Pull Through Cacheを用いてコスト対策