Slide 1

Slide 1 text

SREの品質、プロダクトの価値 インフラシステムグループ 仲上浩豪

Slide 2

Slide 2 text

自己紹介 仲上 浩豪 2021年新卒入社(新卒3年目) 担当 ● 会員サポートweb ● カスタマーサポート向けツール 趣味:筋トレ

Slide 3

Slide 3 text

今日の話 弊社の会員サポートwebにSLI/SLOを導入・運用してみた SLI/SLO導入によって得られた効果や気付き、今後の展望につい て

Slide 4

Slide 4 text

SLI/SLOとは SLI(Service level indicator) サービスレベルの指標 サービスの信頼を測る物差し ex)レイテンシ、エラー率、可用性 SLO(Service level objective) サービスレベルの目標値 下回ったらインシデント ex)レイテンシ 1.0s以下 90%、1日の正常なレスポンスの割合 99.95% →プロダクトの「信頼性」 ⊂ プロダクトの「価値」

Slide 5

Slide 5 text

結論 ● SLI/SLO だけではプロダクトの価値は測れない ● SLI/SLO はプロダクトの価値を高めるための1要素 ● SLI/SLO は「信頼性」という抽象的な項目を測る指標として 重要

Slide 6

Slide 6 text

会員サポートwebとは FAQ・問い合わせ 契約・登録情報の確認

Slide 7

Slide 7 text

SLI/SLOの決め方 1. (クリティカル)ユーザージャーニーを検討する 2. 候補となるSLIを選ぶ 3. SLIの目標値であるSLOを仮決めする 4. エラー予算を設定する 5. SLOの定期的なレビューする 社内ドキュメント SLOの作り方(やさしい) より

Slide 8

Slide 8 text

SLI/SLOの決め方 1. (クリティカル)ユーザージャーニーを検討する 2. 候補となるSLIを選ぶ 3. SLIの目標値であるSLOを仮決めする 4. エラー予算を設定する 5. SLOの定期的なレビューする 社内ドキュメント SLOの作り方(やさしい) より

Slide 9

Slide 9 text

SLI/SLOの決め方 クリティカルユーザージャーニーとは ユーザーにとって「一番価値がある」こと →会員サポートwebにおける ユーザージャーニーを考える

Slide 10

Slide 10 text

SLI/SLOの決め方 良いイベント 有効なイベント × 100 [%] 社内ドキュメント SLOの作り方(やさしい) より

Slide 11

Slide 11 text

会員サポートwebのSLI/SLO (総アクセス数-エラー画面表示 数) 総アクセス数 × 100 [%]

Slide 12

Slide 12 text

会員サポートwebのSLI/SLO DBサーバー webサーバー

Slide 13

Slide 13 text

会員サポートwebのSLI/SLO DBサーバー webサーバー ダッシュボード

Slide 14

Slide 14 text

会員サポートwebのSLI/SLO ● オープンソースモニタリングツール ○ Grafana Labs社製 ● メトリクス・ログ・テレメトリデータ を可視化可能 ● アラート発火機能、データ分析機能

Slide 15

Slide 15 text

SLI/SLO を設定してみて よかったこと ● プロダクトの状態が可視化できた ● プロダクトの異常に気づける様になった 気づいたこと ● SLIの向上 ≠ プロダクトの価値向上 ● SLOを下回らなくても、トラブルには遭遇する

Slide 16

Slide 16 text

今後の方針 ● ユーザージャーニーを見直して、システムにSLI/SLOの項目を追加・見直しする ● プロダクトオーナーと相談して、システムのドメインを整理する ● プロダクトオーナーとランチを食べに行く

Slide 17

Slide 17 text

まとめ ● SLI/SLO だけではプロダクトの価値は測れない ● SLI/SLO はプロダクトの価値を高めるための1要素 ● SLI/SLO は「品質」という抽象的な項目を測る指標として重要