Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Nealle
March 06, 2025
Programming
2
1.4k
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Japan Datadog User Group Meetup#8@札幌
https://datadog-jp.connpass.com/event/344084/
Nealle
March 06, 2025
Tweet
Share
More Decks by Nealle
See All by Nealle
JDDUG#15 DataDogで行うバッチ改善
nealle
0
60
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
nealle
0
97
Datadogのログコスト最適化
nealle
0
98
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
200
AI巻き込み型コードレビューのススメ
nealle
2
2.6k
Startup Tech Night ニーリーのAI活用
nealle
0
100
モビリティSaaSにおけるデータ利活用の発展
nealle
1
960
Pythonに漸進的に型をつける
nealle
1
220
品質ワークショップをやってみた
nealle
0
1.5k
Other Decks in Programming
See All in Programming
The Past, Present, and Future of Enterprise Java
ivargrimstad
0
290
ベクトル検索のフィルタを用いた機械学習モデルとの統合 / python-meetup-fukuoka-06-vector-attr
monochromegane
2
340
The Ralph Wiggum Loop: First Principles of Autonomous Development
sembayui
0
3.7k
Codexに役割を持たせる 他のAIエージェントと組み合わせる実務Tips
o8n
3
1.1k
Rubyと楽しいをつくる / Creating joy with Ruby
chobishiba
0
210
エージェント開発初心者の僕がエージェントを作った話と今後やりたいこと
thasu0123
0
230
日本だけで解禁されているアプリ起動の方法
ryunakayama
0
370
RubyとGoでゼロから作る証券システム: 高信頼性が求められるシステムのコードの外側にある設計と運用のリアル
free_world21
0
220
AIコーディングの理想と現実 2026 | AI Coding: Expectations vs. Reality 2026
tomohisa
0
1.1k
AI時代でも変わらない技術コミュニティの力~10年続く“ゆるい”つながりが生み出す価値
n_takehata
2
660
TipKitTips
ktcryomm
0
160
2026年は Rust 置き換えが流行る! / 20260220-niigata-5min-tech
girigiribauer
0
220
Featured
See All Featured
Deep Space Network (abreviated)
tonyrice
0
86
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Tell your own story through comics
letsgokoyo
1
830
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
140
Producing Creativity
orderedlist
PRO
348
40k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
Automating Front-end Workflow
addyosmani
1370
200k
Rails Girls Zürich Keynote
gr2m
96
14k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.4k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
320
Transcript
Lambdaの監視、できてますか? Datadogを用いてLambdaを見守ろう 株式会社ニーリー プラットフォーム開発部 SREチーム 大木建人 2025/03/06 Japan Datadog User
Group Meetup#8@ 札幌
2 自己紹介 氏名 所属 経歴 大木 建人 / Kento Ogi
株式会社ニーリー プロダクト統括本部 プラットフォーム開発G SREチーム 趣味 夏はボルダリング🧗 冬はスノーボード🏂 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ AWSにハマってたらSRE部メンバーに 2023- 株式会社ニーリーへ入社 SREとして信頼性やリリースエンジニアリングに取り組む @2357gi @2357gi
3 プロダクト紹介
ニーリーがわかるコンテンツ 4 Recruit | 採用関連資料
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
5 本日のお品書き
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
6 本日のお品書き
7 Lambda関数がどのように発火し、 エラー時にどうするのか/通知されるのかが設定されていなかった ミッションクリティカルなLambdaも存在 (このLambdaが失敗するとサービスとしてヤバイ) 通知は個別で設定されていたが、 網羅的にカバーできていたわけではなかった 現状の問題と目指した世界線
8 エラーに気づかない、原因を追いきれないリスクが存在 → サービスの信頼性が脅かされている 現状の問題と目指した世界線
9 今回の対応のゴール ・ミッションクリティカルなLambdaを定義・洗い出す ・そのLambdaに問題が起きたら即座に検知できる仕組みを作る ・対応が必要かどうかを判断しやすくする 現状の問題と目指した世界線
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
10 本日のお品書き
11 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数 ミッションクリティカルなLambdaとは
12 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 クリティカルな関数の例: 契約申し込み時にiPhone用画像拡張子(heic)で アップロードされた画像をjpegに直すLambda関数 クリティカルでは無い関数の例: 検証用DBを夜間停止するLambda関数 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数
ミッションクリティカルなLambdaとは
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
13 本日のお品書き
14 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 具体的な監視ポイントと条件
15 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 具体的な監視ポイントと条件
16 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい 具体的な監視ポイントと条件
17 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい Datadog Monitorsを用いてslackへの通知を実装 🎉
具体的な監視ポイントと条件
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
18 本日のお品書き
19 (ほぼ)全てのLambdaは一つのリポジトリでSAMにより管理 Datadog Extension LayerをLambdaに追加 実装方法について
20 ミッションクリティカルかどうかを判断するために 全てのLambdaにリソースタグを追加 実装方法について
21 該当タグの設定漏れを検知するために CDにバリデーションを追加 実装方法について
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
22 本日のお品書き
23 ・ミッションクリティカルなLambda 前述した条件での監視設定を追加 問題があるとマズいLambdaに 異常があると SREチームが気付けるように 🎉 実際の運用
24 ・ミッションクリティカルではないLambda ダッシュボードを新規作成するのではなく datadogのserverless画面にフィルターを適用 このコンソールが十分優秀🥳 memory不足や実行時間ピンチもいい感じにわかる 週次で見守り、問題があった時に 検知ができるように 🎉 実際の運用
25 Datadogを使えば網羅的にLambdaの監視ができます🥳 ミッションクリティカルなLambdaに対するアラーティングはもちろん、 そうでないLambdaに対しても質の良い監視ができるのでオススメ Layerを追加すればいいだけなので楽々✨ 余談: 明日のRoad to SRE NEXT@札幌でも登壇予定です
SREのタスク優先度について話します 💪 まとめ