Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SLOとあるサービスのお話

yuta sakai
September 08, 2023
280

 SLOとあるサービスのお話

yuta sakai

September 08, 2023
Tweet

Transcript

  1. 4 今回のお話の舞台(SLOを策定したサービス) サービス概要 • 顧客分析や企業データの名寄せを提 供するサービス • B to B

    • 人のアクセスは主にビジネスタイム • SFA/MAから定常的にAPIアクセス あり • 5年以上継続しているサービスなの で色々な提供機能がある
  2. 7 SLOを取り決める前の課題感  • アラートが飛びすぎて大変 ◦ Datadogで500エラーはSlack通知していたので、影 響の低い箇所や既知の問題でも確認する必要があり 対応負荷が高い • 改善アクションをやるやらないの判断の難しさを感

    じている ◦ エラー改善に対する優先度を上げる判断軸がない • 利用頻度の高いユーザからレスポンスが遅く感じる 時があるという声 ◦ 個別事象なのか広い影響なのか確認しずらい
  3. 18 実現したい状態は達成したの? • 影響の低いエラーの通知は減らしたい => 減った。けど、バーンレート通知で一時的で影響低いケースを拾 うことはボチボチある(アラートが出やすいSLO項目の傾向は掴めて いる) • エラーに対する改修の判断軸を持てるようにしたい

    => SLOを定めたのでアラートが出たものは開発チームとPdMで対応 判断をする時の基準ができた。けど、機能開発とのスケジュールバラ ンスは難しい • レスポンス速度に対する判断軸を持てるようにしたい => CUJを定めてことでどの部分のレスポンスを注視すべきかが定 まった。けど、利用者によってレイテンシーの幅が大きい場合の最適 なSLOが難しい