Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Search
Nealle
February 18, 2026
Technology
0
41
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
Tweet
Share
More Decks by Nealle
See All by Nealle
JDDUG#15 DataDogで行うバッチ改善
nealle
0
17
Datadogのログコスト最適化
nealle
0
7
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
150
AI巻き込み型コードレビューのススメ
nealle
2
2k
Startup Tech Night ニーリーのAI活用
nealle
0
92
モビリティSaaSにおけるデータ利活用の発展
nealle
1
940
Pythonに漸進的に型をつける
nealle
1
210
品質ワークショップをやってみた
nealle
0
1.4k
DevHRに全部賭けろ
nealle
0
250
Other Decks in Technology
See All in Technology
22nd ACRi Webinar - 1Finity Tamura-san's slide
nao_sumikawa
0
130
『誰の責任?』で揉めるのをやめて、エラーバジェットで判断するようにした ~感情論をデータで終わらせる、PMとエンジニアの意思決定プロセス~
coconala_engineer
0
180
【Oracle Cloud ウェビナー】[Oracle AI Database + AWS] Oracle Database@AWSで広がるクラウドの新たな選択肢とAI時代のデータ戦略
oracle4engineer
PRO
2
230
新規事業開発でのAWS活用
amixedcolor
1
160
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.6k
LLMOpsのこれまでとこれからを学ぶ
nsakki55
2
570
AgentCore RuntimeをVPCにデプロイして 開発ドキュメント作成AIエージェントを作った
alchemy1115
3
200
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
3
610
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
旅先で iPad + Neovim で iOS 開発・執筆した話
zozotech
PRO
0
330
Cosmos World Foundation Model Platform for Physical AI
takmin
0
1k
個人的3D Gaussian Splattingニュースをご紹介 / sharing 3d gaussian splatting news
drumath2237
0
210
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
65
エンジニアに許された特別な時間の終わり
watany
106
230k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
280
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
210
Discover your Explorer Soul
emna__ayadi
2
1.1k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
77
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
140
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
260
Transcript
2026.02.18 Japan Datadog User Group Meetup#15@東京 株式会社ニーリー 高
直我 @nogtk NEALLE 「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践 1
目次 1|自己紹介 2|会社・プロダクト紹介 3|なぜ SLI/SLO ダッシュボードを IaC するのか 4|どのように
IaC しているか 5| 課題 2 6| まとめ
1|自己紹介 NEALLE 1|会社概要 3
4 氏名 所属 経歴 高 直我 / Naoga Taka
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 ゲーム 🎮 (最近ペルソナ3Rをクリアしました) 2019-2024 (株式会社マネーフォワード) Backendエンジニアとキャリアをスタート 担当プロダクトがオンプレ -> AWS に移行したことをきっかけに AWS/k8s/Datadog あたりの技術に触れ、徐々に軸足がそちらに 2025- (株式会社ニーリー) SRE へロールチェンジしニーリーにジョイン 💪 1|自己紹介 @_nogtk_ @nogtk
2|会社・プロダクト紹介 NEALLE 1|会社概要 5
6 2|事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
3|なぜ SLI/SLO ダッシュボードを IaC するのか NEALLE 1|会社概要 7
SLI / SLO とは 3|なぜ SLI/SLO ダッシュボードを IaC するのか
8 • SLI (Service Level Indicator: サービスレベル指標) ◦ サービスの品質を測る指標 ◦ リクエストのエラーレート、レイテンシ etc. • SLO (Service Level Objective:サービスレベル目標) ◦ SLI として定めた指標の目標値 ◦ p99 でAPIレイテンシが 200ms 以内 etc. ➡ システムの健全性を数値で管理する仕組み
3|なぜ SLI/SLO ダッシュボードを IaC するのか 9 Datadog での SLO の見え方
3|なぜ SLI/SLO ダッシュボードを IaC するのか 10 SLO Dashboard の様子
“システムの健全性” を定義するのは難しい 3|なぜ SLI/SLO ダッシュボードを IaC するのか 11 •
リクエスト成功率は99.9%あれば十分?レイテンシは? • そもそもリクエスト成功率とレイテンシを見てればシステムの健全性が 測れているんだっけ? • システム(プロダクト)の成長・提供価値のアップデートに、SLI/SLO 視点でも追従していく必要性 ➡ システムの健全性の定義 (SLI/SLO運用) は反復的なプロセス 🔁 一度決めて終わりというものではない
3|なぜ SLI/SLO ダッシュボードを IaC するのか 12 SLOの定義とターゲットは、時間と共に システムの振る舞いについて学ぶにつれ て、いつでも見直していくことができま す。初めに厳しすぎるターゲットを設定
して、後からそれが実現できないことが 分かってから、緩めていくよりは、緩め のターゲットから始めて厳しくしていく 方が良いのです。 SLIやSLOは、それらが表現している サービスの実態が時間とともに変化する につれて、変わっていくべきものです。 時間の経過に伴い、それらを検証して改 良することを恐れないでください! “2.6.1 SLOの品質の改善” より “4.3.2 ターゲットの選択” より
• 過去の判断がわからず困る ◦ なぜこのSLIになっている? ◦ なぜエラーレートは 99.9% ではなく 90%?
• 変更に対する躊躇 ◦ 本当に SLO の閾値変えていいのかな...? ◦ 過去に何か理由があったのでは? • 同じ議論の堂々巡り ◦ それ前も議論したよね 3|なぜ SLI/SLO ダッシュボードを IaC するのか 13 反復するには「なぜ」の記録が不可欠 ➡ 意思決定のログが反復プロセスを加速させる 🏃
3|なぜ SLI/SLO ダッシュボードを IaC するのか 14 そこで SLI/SLO リソースの IaC
🔧📝 • Datadog の SLO / ダッシュボードを IaC することで、変更の 証跡がPRとして残る! ◦ 自然と変更ログが残る “力学” が働く
4|どのように IaC しているか NEALLE 1|会社概要 15
4|どのように IaC しているか 16 ① SLO のリストを宣言 ② SLO
/ Dashboard 用の Terraform module に値を渡す ③ それぞれの module 内でリソース作成
4|どのように IaC しているか 17 【左の例】 “トップページを開く” というシナリオに 対して以下を宣言している •
フロントエンドのパス • バックエンドのパス • 1週間・1ヶ月の成功率/レイテン シ
4|どのように IaC しているか 18
4|どのように IaC しているか 19
4|どのように IaC しているか 20
4|どのように IaC しているか 21
4|どのように IaC しているか 22 ダッシュボードの方は諦めました 😇 [TIPS] いきなりゼロからこれを記述するのは大変 なので、一旦手動でダッシュボード作ってか
ら Terraform import するのがいいように思 います
4|どのように IaC しているか 23 • 最終的にこんな Diff で、PR をマージし
Apply することで、 SLO / ダッシュボードが自動で更新される 👏
5|課題 NEALLE 1|会社概要 24
5|課題 25 • Terraform コードが技巧的・重厚になりつつある ◦ 今は比較的 Terraform
に明るい SRE メンバー中心にメンテしている ◦ 今後プロダクトエンジニアに委譲していく流れも踏まえると、もっとシンプルにして いきたい気持ちが • ちょっとしたメモがダッシュボードに残せない ◦ 悪化時の調査ログや “調査中” などのメモを残したい時がある ◦ 毎回 Terraform 経由で apply or import するのもしんどい ◦ ダッシュボード下部に Terraform 管理外のメモ用ウィジェットを置いて運用してい る
6|まとめ NEALLE 1|会社概要 26
• 変更ログをちゃんと追いたいリソースは IaC を検討する ◦ SLO をトピックに今回はお話しした ◦ 設定不備を許容したくないクリティカルなモニターなど、他にも適用できる
リソースはありそう • 「なぜこの設定値か」というコンテキストは資産になる ◦ コード化 + コンテキスト (意思決定ログ) によって AI エージェントにもフレ ンドリーに 6|まとめ 27 まとめ