Slide 1

Slide 1 text

1 SLO Docsのすゝめ 渡部 ⿓⼀ 2024/06/06 ゆるSRE勉強会#6

Slide 2

Slide 2 text

技術部プラットフォームグループ 2021年 中途入社 2 自己紹介 渡部 龍一 Watanabe Ryuichi ● SNS: @ryuichi_1208 ● GMOペパボでSRE ● 好きなこと: EOL対応、障害対応

Slide 3

Slide 3 text

3 ● SRE NEXT 関連イベントをやります! ○ 6/29@仙台 ○ 7/5@京都 ○ 7/20@広島 宣伝

Slide 4

Slide 4 text

SLI/SLOの運⽤ 4

Slide 5

Slide 5 text

なんでやるんだっけ? 5

Slide 6

Slide 6 text

6 ● サービス品質の明確化 ○ どれくらいの品質を⽬指すのかをメンバー間ではっきりさせる ● インシデント対応の効率化 ● リソースの最適化 ● 継続的な改善の推進 ● ビジネス上の意思決定の⽀援/フレームワーク SLI/SLOの運⽤がもたらし得るメリット

Slide 7

Slide 7 text

7 SLI/SLOを定めるぞ! 運⽤もバリバリやっていくぞ!

Slide 8

Slide 8 text

8 思ったよりスムーズに運⽤できてないな...

Slide 9

Slide 9 text

なんでだろう? 9

Slide 10

Slide 10 text

10 ● チームメンバーの⼊れ替わりなどでなぜこの指標/⽬標になっているのかが不明 ● エラーバジェット枯渇した際のアクション ● いつ定義されたのか、ずっとそのままの運⽤になってしまう ○ SLOをきつくするか緩めるかもしくはSLI⾃体を⾒直すか決めてない ● ⼀部のメンバーだけで運⽤されており全体へ浸透していない ○ サービスごとに定義されていて情報がまとめられていない SLI/SLOの運⽤の課題

Slide 11

Slide 11 text

SLO Docs 11

Slide 12

Slide 12 text

12 ● WEB+DB PRESS Vol.130で取り上げられていたもの ● SLI/SLOを運⽤する上で必要となる情報を取りまとめたドキュメント ● テンプレートを決めておくことで複数サービス/ロールでも認知負荷を低めで運⽤を ⾏うことができる ● GitHub上のMarkdownで管理して変更は全てissue or Pull Requestで管理 SLO Docs

Slide 13

Slide 13 text

13 ● 概要 ● SLI/SLOの設定値/設定理由 ● ⽬的/⽬的としないこと ● SLO Miss Policy / Postmortem Policy ● エスカレーションポリシー ● SLI/SLOを変更するためのルール ○ どのルートで承認が必要なのか ○ どういったタイミングでSLI/SLOの⾒直しを⾏うのかを記載 実際のSLO Docsの抜粋

Slide 14

Slide 14 text

14

Slide 15

Slide 15 text

15 ● OpenSLO/OpenSLO ● YAML使⽤して信頼性とパフォーマンスの⽬標を宣⾔的に定義するサービス レベル ⽬標⾔語(SLO as Code) ● SLO Docsに反映しておくことで⾃動的にダッシュボードやアラート設定 ○ 数が多くなってくると設定してテストするだけでもtoilになりがち OpenSLOとの組み合わせ

Slide 16

Slide 16 text

まとめ 16

Slide 17

Slide 17 text

17 ● 継続的に調整するのが⼤事だし調整した議論を記録を残すのが⼤事 ○ 情報を⼀箇所にまとめておくことで把握しやすくする ○ 導⼊時の苦労と失敗もissueに残しておく(試⾏錯誤を後から追えるように) ● 良いSLI/SLOライフを! まとめ

Slide 18

Slide 18 text

18 ご静聴ありがとうございました