Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Nealle
February 18, 2026
Technology
0
110
「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践
Japan Datadog User Group Meetup#15@東京 での登壇資料です。
https://datadog-jp.connpass.com/event/378380/
Nealle
February 18, 2026
Tweet
Share
More Decks by Nealle
See All by Nealle
JDDUG#15 DataDogで行うバッチ改善
nealle
0
78
Datadogのログコスト最適化
nealle
0
350
今、アーキテクトとして 品質保証にどう関わるか
nealle
0
220
AI巻き込み型コードレビューのススメ
nealle
2
2.8k
Startup Tech Night ニーリーのAI活用
nealle
0
110
モビリティSaaSにおけるデータ利活用の発展
nealle
1
990
Pythonに漸進的に型をつける
nealle
1
220
品質ワークショップをやってみた
nealle
0
1.5k
DevHRに全部賭けろ
nealle
0
270
Other Decks in Technology
See All in Technology
ハーネスエンジニアリング×AI適応開発
aictokamiya
1
470
やさしいとこから始めるGitHubリポジトリのセキュリティ
tsubakimoto_s
3
1.9k
Cursor Subagentsはいいぞ
yug1224
2
110
GitHub Copilot CLI で Azure Portal to Bicep
tsubakimoto_s
0
280
PostgreSQL 18のNOT ENFORCEDな制約とDEFERRABLEの関係
yahonda
0
140
データマネジメント戦略Night - 4社のリアルを語る会
ktatsuya
1
430
Phase02_AI座学_応用
overflowinc
0
3.3k
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
11k
Zephyr(RTOS)でOpenPLCを実装してみた
iotengineer22
0
140
スケールアップ企業でQA組織が機能し続けるための組織設計と仕組み〜ボトムアップとトップダウンを両輪としたアプローチ〜
qa
0
360
OPENLOGI Company Profile for engineer
hr01
1
61k
20年以上続く PHP 大規模プロダクトを Kubernetes へ ── クラウド基盤刷新プロジェクトの4年間
oogfranz
PRO
0
320
Featured
See All Featured
Producing Creativity
orderedlist
PRO
348
40k
Facilitating Awesome Meetings
lara
57
6.8k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
490
Color Theory Basics | Prateek | Gurzu
gurzu
0
270
Deep Space Network (abreviated)
tonyrice
0
97
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
250
Into the Great Unknown - MozCon
thekraken
40
2.3k
Speed Design
sergeychernyshev
33
1.6k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
30 Presentation Tips
portentint
PRO
1
260
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
Transcript
2026.02.18 Japan Datadog User Group Meetup#15@東京 株式会社ニーリー 高
直我 @nogtk NEALLE 「なぜ」を残し、SLOを育てる IaCによるSLI/SLO運用の実践 1
目次 1|自己紹介 2|会社・プロダクト紹介 3|なぜ SLI/SLO ダッシュボードを IaC するのか 4|どのように
IaC しているか 5| 課題 2 6| まとめ
1|自己紹介 NEALLE 1|会社概要 3
4 氏名 所属 経歴 高 直我 / Naoga Taka
株式会社ニーリー プロダクト統括本部 プラットフォームエンジニアリングG SRE / プラットフォームエンジニアリング 趣味 ゲーム 🎮 (最近ペルソナ3Rをクリアしました) 2019-2024 (株式会社マネーフォワード) Backendエンジニアとキャリアをスタート 担当プロダクトがオンプレ -> AWS に移行したことをきっかけに AWS/k8s/Datadog あたりの技術に触れ、徐々に軸足がそちらに 2025- (株式会社ニーリー) SRE へロールチェンジしニーリーにジョイン 💪 1|自己紹介 @_nogtk_ @nogtk
2|会社・プロダクト紹介 NEALLE 1|会社概要 5
6 2|事業・プロダクト紹介 BtoBtoCのVertical SaaS「Park Direct」を運営
3|なぜ SLI/SLO ダッシュボードを IaC するのか NEALLE 1|会社概要 7
SLI / SLO とは 3|なぜ SLI/SLO ダッシュボードを IaC するのか
8 • SLI (Service Level Indicator: サービスレベル指標) ◦ サービスの品質を測る指標 ◦ リクエストのエラーレート、レイテンシ etc. • SLO (Service Level Objective:サービスレベル目標) ◦ SLI として定めた指標の目標値 ◦ p99 でAPIレイテンシが 200ms 以内 etc. ➡ システムの健全性を数値で管理する仕組み
3|なぜ SLI/SLO ダッシュボードを IaC するのか 9 Datadog での SLO の見え方
3|なぜ SLI/SLO ダッシュボードを IaC するのか 10 SLO Dashboard の様子
“システムの健全性” を定義するのは難しい 3|なぜ SLI/SLO ダッシュボードを IaC するのか 11 •
リクエスト成功率は99.9%あれば十分?レイテンシは? • そもそもリクエスト成功率とレイテンシを見てればシステムの健全性が 測れているんだっけ? • システム(プロダクト)の成長・提供価値のアップデートに、SLI/SLO 視点でも追従していく必要性 ➡ システムの健全性の定義 (SLI/SLO運用) は反復的なプロセス 🔁 一度決めて終わりというものではない
3|なぜ SLI/SLO ダッシュボードを IaC するのか 12 SLOの定義とターゲットは、時間と共に システムの振る舞いについて学ぶにつれ て、いつでも見直していくことができま す。初めに厳しすぎるターゲットを設定
して、後からそれが実現できないことが 分かってから、緩めていくよりは、緩め のターゲットから始めて厳しくしていく 方が良いのです。 SLIやSLOは、それらが表現している サービスの実態が時間とともに変化する につれて、変わっていくべきものです。 時間の経過に伴い、それらを検証して改 良することを恐れないでください! “2.6.1 SLOの品質の改善” より “4.3.2 ターゲットの選択” より
• 過去の判断がわからず困る ◦ なぜこのSLIになっている? ◦ なぜエラーレートは 99.9% ではなく 90%?
• 変更に対する躊躇 ◦ 本当に SLO の閾値変えていいのかな...? ◦ 過去に何か理由があったのでは? • 同じ議論の堂々巡り ◦ それ前も議論したよね 3|なぜ SLI/SLO ダッシュボードを IaC するのか 13 反復するには「なぜ」の記録が不可欠 ➡ 意思決定のログが反復プロセスを加速させる 🏃
3|なぜ SLI/SLO ダッシュボードを IaC するのか 14 そこで SLI/SLO リソースの IaC
🔧📝 • Datadog の SLO / ダッシュボードを IaC することで、変更の 証跡がPRとして残る! ◦ 自然と変更ログが残る “力学” が働く
4|どのように IaC しているか NEALLE 1|会社概要 15
4|どのように IaC しているか 16 ① SLO のリストを宣言 ② SLO
/ Dashboard 用の Terraform module に値を渡す ③ それぞれの module 内でリソース作成
4|どのように IaC しているか 17 【左の例】 “トップページを開く” というシナリオに 対して以下を宣言している •
フロントエンドのパス • バックエンドのパス • 1週間・1ヶ月の成功率/レイテン シ
4|どのように IaC しているか 18
4|どのように IaC しているか 19
4|どのように IaC しているか 20
4|どのように IaC しているか 21
4|どのように IaC しているか 22 ダッシュボードの方は諦めました 😇 [TIPS] いきなりゼロからこれを記述するのは大変 なので、一旦手動でダッシュボード作ってか
ら Terraform import するのがいいように思 います
4|どのように IaC しているか 23 • 最終的にこんな Diff で、PR をマージし
Apply することで、 SLO / ダッシュボードが自動で更新される 👏
5|課題 NEALLE 1|会社概要 24
5|課題 25 • Terraform コードが技巧的・重厚になりつつある ◦ 今は比較的 Terraform
に明るい SRE メンバー中心にメンテしている ◦ 今後プロダクトエンジニアに委譲していく流れも踏まえると、もっとシンプルにして いきたい気持ちが • ちょっとしたメモがダッシュボードに残せない ◦ 悪化時の調査ログや “調査中” などのメモを残したい時がある ◦ 毎回 Terraform 経由で apply or import するのもしんどい ◦ ダッシュボード下部に Terraform 管理外のメモ用ウィジェットを置いて運用してい る
6|まとめ NEALLE 1|会社概要 26
• 変更ログをちゃんと追いたいリソースは IaC を検討する ◦ SLO をトピックに今回はお話しした ◦ 設定不備を許容したくないクリティカルなモニターなど、他にも適用できる
リソースはありそう • 「なぜこの設定値か」というコンテキストは資産になる ◦ コード化 + コンテキスト (意思決定ログ) によって AI エージェントにもフレ ンドリーに 6|まとめ 27 まとめ