SLO Docsのすゝめ
by
ryuichi1208
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
1 SLO Docsのすゝめ 渡部 ⿓⼀ 2024/06/06 ゆるSRE勉強会#6
Slide 2
Slide 2 text
技術部プラットフォームグループ 2021年 中途入社 2 自己紹介 渡部 龍一 Watanabe Ryuichi ● SNS: @ryuichi_1208 ● GMOペパボでSRE ● 好きなこと: EOL対応、障害対応
Slide 3
Slide 3 text
3 ● SRE NEXT 関連イベントをやります! ○ 6/29@仙台 ○ 7/5@京都 ○ 7/20@広島 宣伝
Slide 4
Slide 4 text
SLI/SLOの運⽤ 4
Slide 5
Slide 5 text
なんでやるんだっけ? 5
Slide 6
Slide 6 text
6 ● サービス品質の明確化 ○ どれくらいの品質を⽬指すのかをメンバー間ではっきりさせる ● インシデント対応の効率化 ● リソースの最適化 ● 継続的な改善の推進 ● ビジネス上の意思決定の⽀援/フレームワーク SLI/SLOの運⽤がもたらし得るメリット
Slide 7
Slide 7 text
7 SLI/SLOを定めるぞ! 運⽤もバリバリやっていくぞ!
Slide 8
Slide 8 text
8 思ったよりスムーズに運⽤できてないな...
Slide 9
Slide 9 text
なんでだろう? 9
Slide 10
Slide 10 text
10 ● チームメンバーの⼊れ替わりなどでなぜこの指標/⽬標になっているのかが不明 ● エラーバジェット枯渇した際のアクション ● いつ定義されたのか、ずっとそのままの運⽤になってしまう ○ SLOをきつくするか緩めるかもしくはSLI⾃体を⾒直すか決めてない ● ⼀部のメンバーだけで運⽤されており全体へ浸透していない ○ サービスごとに定義されていて情報がまとめられていない SLI/SLOの運⽤の課題
Slide 11
Slide 11 text
SLO Docs 11
Slide 12
Slide 12 text
12 ● WEB+DB PRESS Vol.130で取り上げられていたもの ● SLI/SLOを運⽤する上で必要となる情報を取りまとめたドキュメント ● テンプレートを決めておくことで複数サービス/ロールでも認知負荷を低めで運⽤を ⾏うことができる ● GitHub上のMarkdownで管理して変更は全てissue or Pull Requestで管理 SLO Docs
Slide 13
Slide 13 text
13 ● 概要 ● SLI/SLOの設定値/設定理由 ● ⽬的/⽬的としないこと ● SLO Miss Policy / Postmortem Policy ● エスカレーションポリシー ● SLI/SLOを変更するためのルール ○ どのルートで承認が必要なのか ○ どういったタイミングでSLI/SLOの⾒直しを⾏うのかを記載 実際のSLO Docsの抜粋
Slide 14
Slide 14 text
14
Slide 15
Slide 15 text
15 ● OpenSLO/OpenSLO ● YAML使⽤して信頼性とパフォーマンスの⽬標を宣⾔的に定義するサービス レベル ⽬標⾔語(SLO as Code) ● SLO Docsに反映しておくことで⾃動的にダッシュボードやアラート設定 ○ 数が多くなってくると設定してテストするだけでもtoilになりがち OpenSLOとの組み合わせ
Slide 16
Slide 16 text
まとめ 16
Slide 17
Slide 17 text
17 ● 継続的に調整するのが⼤事だし調整した議論を記録を残すのが⼤事 ○ 情報を⼀箇所にまとめておくことで把握しやすくする ○ 導⼊時の苦労と失敗もissueに残しておく(試⾏錯誤を後から追えるように) ● 良いSLI/SLOライフを! まとめ
Slide 18
Slide 18 text
18 ご静聴ありがとうございました