Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Search
Nealle
March 06, 2025
Programming
2
1.2k
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
Japan Datadog User Group Meetup#8@札幌
https://datadog-jp.connpass.com/event/344084/
Nealle
March 06, 2025
Tweet
Share
More Decks by Nealle
See All by Nealle
事業KPIを基に価値の解像度を上げる
nealle
0
310
一人目PdMとして、まず"自分"をPMFさせることから考える
nealle
0
380
エンジニアが挑む、限界までの越境
nealle
1
630
ニーリーQAのこれまでとこれから
nealle
2
1.3k
データ分析で事業貢献するために
nealle
0
1.8k
SREチームのタスク優先度と向き合う Road to SRE NEXT@札幌
nealle
0
180
運用しながらリアーキテクチャ
nealle
0
700
Datadog DBMでなにができる? JDDUG Meetup#7
nealle
0
380
学生向けバグバウンティイベントP3NFEST参加のキロク CHUO Tech #6
nealle
0
110
Other Decks in Programming
See All in Programming
UPDATEがシステムを複雑にする? イミュータブルデータモデルのすすめ
shimomura
1
530
ktr0731/go-mcpでMCPサーバー作ってみた
takak2166
0
160
プロダクト開発でも使おう 関数のオーバーロード
yoiwamoto
0
150
FormFlow - Build Stunning Multistep Forms
yceruto
1
160
生成AIコーディングとの向き合い方、AIと共創するという考え方 / How to deal with generative AI coding and the concept of co-creating with AI
seike460
PRO
1
220
SODA - FACT BOOK
sodainc
1
850
從零到一:搭建你的第一個 Observability 平台
blueswen
1
900
Create a website using Spatial Web
akkeylab
0
270
Cline指示通りに動かない? AI小説エージェントで学ぶ指示書の書き方と自動アップデートの仕組み
kamomeashizawa
1
470
複数アプリケーションを育てていくための共通化戦略
irof
10
3.8k
セキュリティマネジャー廃止とクラウドネイティブ型サンドボックス活用
kazumura
1
170
ドメインモデリングにおける抽象の役割、tagless-finalによるDSL構築、そして型安全な最適化
knih
10
1.8k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
We Have a Design System, Now What?
morganepeng
52
7.6k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3k
Speed Design
sergeychernyshev
31
990
The Pragmatic Product Professional
lauravandoore
35
6.7k
How STYLIGHT went responsive
nonsquared
100
5.6k
RailsConf 2023
tenderlove
30
1.1k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
228
22k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Into the Great Unknown - MozCon
thekraken
39
1.8k
Transcript
Lambdaの監視、できてますか? Datadogを用いてLambdaを見守ろう 株式会社ニーリー プラットフォーム開発部 SREチーム 大木建人 2025/03/06 Japan Datadog User
Group Meetup#8@ 札幌
2 自己紹介 氏名 所属 経歴 大木 建人 / Kento Ogi
株式会社ニーリー プロダクト統括本部 プラットフォーム開発G SREチーム 趣味 夏はボルダリング🧗 冬はスノーボード🏂 2018-2020 大学で強化学習の研究 & インターンでAWSにハマる 2020-2023 新卒で合同会社DMM.comへ AWSにハマってたらSRE部メンバーに 2023- 株式会社ニーリーへ入社 SREとして信頼性やリリースエンジニアリングに取り組む @2357gi @2357gi
3 プロダクト紹介
ニーリーがわかるコンテンツ 4 Recruit | 採用関連資料
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
5 本日のお品書き
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
6 本日のお品書き
7 Lambda関数がどのように発火し、 エラー時にどうするのか/通知されるのかが設定されていなかった ミッションクリティカルなLambdaも存在 (このLambdaが失敗するとサービスとしてヤバイ) 通知は個別で設定されていたが、 網羅的にカバーできていたわけではなかった 現状の問題と目指した世界線
8 エラーに気づかない、原因を追いきれないリスクが存在 → サービスの信頼性が脅かされている 現状の問題と目指した世界線
9 今回の対応のゴール ・ミッションクリティカルなLambdaを定義・洗い出す ・そのLambdaに問題が起きたら即座に検知できる仕組みを作る ・対応が必要かどうかを判断しやすくする 現状の問題と目指した世界線
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
10 本日のお品書き
11 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数 ミッションクリティカルなLambdaとは
12 アプリケーションコードを確認 呼び出されている関数をリストアップし整理 クリティカルな関数の例: 契約申し込み時にiPhone用画像拡張子(heic)で アップロードされた画像をjpegに直すLambda関数 クリティカルでは無い関数の例: 検証用DBを夜間停止するLambda関数 定義: 「正常に機能しない場合、契約率に影響しうる」と判断したLambda関数
ミッションクリティカルなLambdaとは
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
13 本日のお品書き
14 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 具体的な監視ポイントと条件
15 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 具体的な監視ポイントと条件
16 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい 具体的な監視ポイントと条件
17 Lambdaの監視と通知は2パターン存在 ・アプリケーション側のエラーや異常終了 ・Lambda関数のリソース上の問題 ・タイムアウト間際な関数やメモリ上限に近い関数 前者はもちろん、後者も潜在的なリスクなので 問題が発生する前に検知・通知したい Datadog Monitorsを用いてslackへの通知を実装 🎉
具体的な監視ポイントと条件
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
18 本日のお品書き
19 (ほぼ)全てのLambdaは一つのリポジトリでSAMにより管理 Datadog Extension LayerをLambdaに追加 実装方法について
20 ミッションクリティカルかどうかを判断するために 全てのLambdaにリソースタグを追加 実装方法について
21 該当タグの設定漏れを検知するために CDにバリデーションを追加 実装方法について
1. 現状の問題と目指した世界線 2. ミッションクリティカルなLambdaとは 3. 具体的な監視ポイントと条件 4. 実装方法について 5. 実際の運用
22 本日のお品書き
23 ・ミッションクリティカルなLambda 前述した条件での監視設定を追加 問題があるとマズいLambdaに 異常があると SREチームが気付けるように 🎉 実際の運用
24 ・ミッションクリティカルではないLambda ダッシュボードを新規作成するのではなく datadogのserverless画面にフィルターを適用 このコンソールが十分優秀🥳 memory不足や実行時間ピンチもいい感じにわかる 週次で見守り、問題があった時に 検知ができるように 🎉 実際の運用
25 Datadogを使えば網羅的にLambdaの監視ができます🥳 ミッションクリティカルなLambdaに対するアラーティングはもちろん、 そうでないLambdaに対しても質の良い監視ができるのでオススメ Layerを追加すればいいだけなので楽々✨ 余談: 明日のRoad to SRE NEXT@札幌でも登壇予定です
SREのタスク優先度について話します 💪 まとめ