Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Search
Nealle
March 06, 2025
Programming
2
870
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Japan Datadog User Group Meetup#8@札幌
https://datadog-jp.connpass.com/event/344084/
Nealle
March 06, 2025
Tweet
Share
More Decks by Nealle
See All by Nealle
SREチームのタスク優先度と向き合う Road to SRE NEXT@札幌
nealle
0
100
運用しながらリアーキテクチャ
nealle
0
270
Datadog DBMでなにができる? JDDUG Meetup#7
nealle
0
160
学生向けバグバウンティイベントP3NFEST参加のキロク CHUO Tech #6
nealle
0
80
DRFを少しずつ オニオンアーキテクチャに寄せていく DjangoCongress JP 2025
nealle
2
310
ナレッジイネイブリングにAIを活用してみる ゆるSRE勉強会 #9
nealle
0
180
ニーリー QAエンジニア紹介資料
nealle
0
130
SRE、開発、QAが協業して挑んだリリースプロセス改革@SRE Kaigi 2025
nealle
3
5.3k
テストをしないQAエンジニアは何をしているか?
nealle
0
150
Other Decks in Programming
See All in Programming
もう一人で悩まない! 個の知見をチームの知見にする3つの習慣と工夫 / Into team knowledge.
honyanya
3
390
Boost Your Web Performance with Hyperdrive
chimame
1
180
高セキュリティ・高耐障害性・サブシステム化。そして2億円
tasukulab280
2
450
エンジニアに許された特別な時間の終わり
watany
77
62k
⚪⚪の⚪⚪をSwiftUIで再現す る
u503
0
140
PEPCは何を変えようとしていたのか
ken7253
3
330
Better Code Design in PHP
afilina
0
190
Go 1.24でジェネリックになった型エイリアスの紹介
syumai
2
330
❄️ NixOS/nixpkgsにSATySFiサポートを実装する
momeemt
1
110
React 19アップデートのために必要なこと
uhyo
8
1.6k
推しメソッドsource_locationのしくみを探る - はじめてRubyのコードを読んでみた
nobu09
2
380
Devin入門 〜月500ドルから始まるAIチームメイトとの開発生活〜 / Introduction Devin 〜Development With AI Teammates〜
rkaga
5
1.8k
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
A better future with KSS
kneath
238
17k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Documentation Writing (for coders)
carmenintech
69
4.6k
What's in a price? How to price your products and services
michaelherold
244
12k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
101
18k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1.1k
Practical Orchestrator
shlominoach
186
10k
Why Our Code Smells
bkeepers
PRO
336
57k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Transcript
Lambdaの監視、できてますか? Datadogを用いてLambdaを見守ろう 株式会社ニーリー プラットフォーム開発部 SREチーム 大木建人 2025/03/06 Japan Datadog User
Group Meetup#8@ 札幌
2 自己紹介 氏名 所属 経歴 大木 建人 / Kento Ogi
株式会社ニーリー プロダクト統括本部 プラットフォーム開発G SREチーム 趣味 夏はボルダリング🧗 冬はスノーボード🏂 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ AWSにハマってたらSRE部メンバーに 2023- 株式会社ニーリーへ入社 SREとして信頼性やリリースエンジニアリングに取り組む @2357gi @2357gi
3 プロダクト紹介
ニーリーがわかるコンテンツ 4 Recruit | 採用関連資料
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
5 本日のお品書き
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
6 本日のお品書き
7 Lambda関数がどのように発火し、 エラー時にどうするのか/通知されるのかが設定されていなかった ミッションクリティカルなLambdaも存在 (このLambdaが失敗するとサービスとしてヤバイ) 通知は個別で設定されていたが、 網羅的にカバーできていたわけではなかった 現状の問題と目指した世界線
8 エラーに気づかない、原因を追いきれないリスクが存在 → サービスの信頼性が脅かされている 現状の問題と目指した世界線
9 今回の対応のゴール ・ミッションクリティカルなLambdaを定義・洗い出す ・そのLambdaに問題が起きたら即座に検知できる仕組みを作る ・対応が必要かどうかを判断しやすくする 現状の問題と目指した世界線
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
10 本日のお品書き
11 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数 ミッションクリティカルなLambdaとは
12 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 クリティカルな関数の例: 契約申し込み時にiPhone用画像拡張子(heic)で アップロードされた画像をjpegに直すLambda関数 クリティカルでは無い関数の例: 検証用DBを夜間停止するLambda関数 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数
ミッションクリティカルなLambdaとは
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
13 本日のお品書き
14 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 具体的な監視ポイントと条件
15 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 具体的な監視ポイントと条件
16 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい 具体的な監視ポイントと条件
17 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい Datadog Monitorsを用いてslackへの通知を実装 🎉
具体的な監視ポイントと条件
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
18 本日のお品書き
19 (ほぼ)全てのLambdaは一つのリポジトリでSAMにより管理 Datadog Extension LayerをLambdaに追加 実装方法について
20 ミッションクリティカルかどうかを判断するために 全てのLambdaにリソースタグを追加 実装方法について
21 該当タグの設定漏れを検知するために CDにバリデーションを追加 実装方法について
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
22 本日のお品書き
23 ・ミッションクリティカルなLambda 前述した条件での監視設定を追加 問題があるとマズいLambdaに 異常があると SREチームが気付けるように 🎉 実際の運用
24 ・ミッションクリティカルではないLambda ダッシュボードを新規作成するのではなく datadogのserverless画面にフィルターを適用 このコンソールが十分優秀🥳 memory不足や実行時間ピンチもいい感じにわかる 週次で見守り、問題があった時に 検知ができるように 🎉 実際の運用
25 Datadogを使えば網羅的にLambdaの監視ができます🥳 ミッションクリティカルなLambdaに対するアラーティングはもちろん、 そうでないLambdaに対しても質の良い監視ができるのでオススメ Layerを追加すればいいだけなので楽々✨ 余談: 明日のRoad to SRE NEXT@札幌でも登壇予定です
SREのタスク優先度について話します 💪 まとめ