Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Search
Nealle
March 06, 2025
Programming
2
1.3k
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Japan Datadog User Group Meetup#8@札幌
https://datadog-jp.connpass.com/event/344084/
Nealle
March 06, 2025
Tweet
Share
More Decks by Nealle
See All by Nealle
DevHRに全部賭けろ
nealle
0
140
TROCCO×dbtで実現する人にもAIにもやさしいデータ基盤
nealle
0
1.9k
AI OCR API on Lambdaを Datadogで可視化してみた
nealle
0
290
生成AI、実際どう? - ニーリーの場合
nealle
0
910
“いい感じ“な定量評価を求めて - Four Keysとアウトカムの間の探求 -
nealle
4
16k
ニーリーにおけるプロダクトエンジニア
nealle
0
1.3k
プロダクト志向なエンジニアがもう一歩先の価値を目指すために意識したこと
nealle
0
490
事業KPIを基に価値の解像度を上げる
nealle
0
490
一人目PdMとして、まず"自分"をPMFさせることから考える
nealle
0
470
Other Decks in Programming
See All in Programming
Django Ninja による API 開発効率化とリプレースの実践
kashewnuts
0
1.1k
NetworkXとGNNで学ぶグラフデータ分析入門〜複雑な関係性を解き明かすPythonの力〜
mhrtech
3
1.1k
overlayPreferenceValue で実現する ピュア SwiftUI な AdMob ネイティブ広告
uhucream
0
170
Swift Concurrency - 状態監視の罠
objectiveaudio
2
480
大規模アプリのDIフレームワーク刷新戦略 ~過去最大規模の並行開発を止めずにアプリ全体に導入するまで~
mot_techtalk
0
400
Catch Up: Go Style Guide Update
andpad
0
200
Go Conference 2025: Goで体感するMultipath TCP ― Go 1.24 時代の MPTCP Listener を理解する
takehaya
7
1.6k
開発者への寄付をアプリ内課金として実装する時の気の使いどころ
ski
0
360
Things You Thought You Didn’t Need To Care About That Have a Big Impact On Your Job
hollycummins
0
180
Back to the Future: Let me tell you about the ACP protocol
terhechte
0
130
SpecKitでどこまでできる? コストはどれくらい?
leveragestech
0
600
After go func(): Goroutines Through a Beginner’s Eye
97vaibhav
0
240
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
2.6k
Building Applications with DynamoDB
mza
96
6.6k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
19
1.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Visualization
eitanlees
148
16k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
610
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Fireside Chat
paigeccino
40
3.7k
Transcript
Lambdaの監視、できてますか? Datadogを用いてLambdaを見守ろう 株式会社ニーリー プラットフォーム開発部 SREチーム 大木建人 2025/03/06 Japan Datadog User
Group Meetup#8@ 札幌
2 自己紹介 氏名 所属 経歴 大木 建人 / Kento Ogi
株式会社ニーリー プロダクト統括本部 プラットフォーム開発G SREチーム 趣味 夏はボルダリング🧗 冬はスノーボード🏂 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ AWSにハマってたらSRE部メンバーに 2023- 株式会社ニーリーへ入社 SREとして信頼性やリリースエンジニアリングに取り組む @2357gi @2357gi
3 プロダクト紹介
ニーリーがわかるコンテンツ 4 Recruit | 採用関連資料
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
5 本日のお品書き
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
6 本日のお品書き
7 Lambda関数がどのように発火し、 エラー時にどうするのか/通知されるのかが設定されていなかった ミッションクリティカルなLambdaも存在 (このLambdaが失敗するとサービスとしてヤバイ) 通知は個別で設定されていたが、 網羅的にカバーできていたわけではなかった 現状の問題と目指した世界線
8 エラーに気づかない、原因を追いきれないリスクが存在 → サービスの信頼性が脅かされている 現状の問題と目指した世界線
9 今回の対応のゴール ・ミッションクリティカルなLambdaを定義・洗い出す ・そのLambdaに問題が起きたら即座に検知できる仕組みを作る ・対応が必要かどうかを判断しやすくする 現状の問題と目指した世界線
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
10 本日のお品書き
11 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数 ミッションクリティカルなLambdaとは
12 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 クリティカルな関数の例: 契約申し込み時にiPhone用画像拡張子(heic)で アップロードされた画像をjpegに直すLambda関数 クリティカルでは無い関数の例: 検証用DBを夜間停止するLambda関数 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数
ミッションクリティカルなLambdaとは
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
13 本日のお品書き
14 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 具体的な監視ポイントと条件
15 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 具体的な監視ポイントと条件
16 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい 具体的な監視ポイントと条件
17 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい Datadog Monitorsを用いてslackへの通知を実装 🎉
具体的な監視ポイントと条件
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
18 本日のお品書き
19 (ほぼ)全てのLambdaは一つのリポジトリでSAMにより管理 Datadog Extension LayerをLambdaに追加 実装方法について
20 ミッションクリティカルかどうかを判断するために 全てのLambdaにリソースタグを追加 実装方法について
21 該当タグの設定漏れを検知するために CDにバリデーションを追加 実装方法について
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
22 本日のお品書き
23 ・ミッションクリティカルなLambda 前述した条件での監視設定を追加 問題があるとマズいLambdaに 異常があると SREチームが気付けるように 🎉 実際の運用
24 ・ミッションクリティカルではないLambda ダッシュボードを新規作成するのではなく datadogのserverless画面にフィルターを適用 このコンソールが十分優秀🥳 memory不足や実行時間ピンチもいい感じにわかる 週次で見守り、問題があった時に 検知ができるように 🎉 実際の運用
25 Datadogを使えば網羅的にLambdaの監視ができます🥳 ミッションクリティカルなLambdaに対するアラーティングはもちろん、 そうでないLambdaに対しても質の良い監視ができるのでオススメ Layerを追加すればいいだけなので楽々✨ 余談: 明日のRoad to SRE NEXT@札幌でも登壇予定です
SREのタスク優先度について話します 💪 まとめ