Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SLOとあるサービスのお話

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for yuta sakai yuta sakai
September 08, 2023
870

 SLOとあるサービスのお話

Avatar for yuta sakai

yuta sakai

September 08, 2023
Tweet

Transcript

  1. 4 今回のお話の舞台(SLOを策定したサービス) サービス概要 • 顧客分析や企業データの名寄せを提 供するサービス • B to B

    • 人のアクセスは主にビジネスタイム • SFA/MAから定常的にAPIアクセス あり • 5年以上継続しているサービスなの で色々な提供機能がある
  2. 7 SLOを取り決める前の課題感  • アラートが飛びすぎて大変 ◦ Datadogで500エラーはSlack通知していたので、影 響の低い箇所や既知の問題でも確認する必要があり 対応負荷が高い • 改善アクションをやるやらないの判断の難しさを感

    じている ◦ エラー改善に対する優先度を上げる判断軸がない • 利用頻度の高いユーザからレスポンスが遅く感じる 時があるという声 ◦ 個別事象なのか広い影響なのか確認しずらい
  3. 18 実現したい状態は達成したの? • 影響の低いエラーの通知は減らしたい => 減った。けど、バーンレート通知で一時的で影響低いケースを拾 うことはボチボチある(アラートが出やすいSLO項目の傾向は掴めて いる) • エラーに対する改修の判断軸を持てるようにしたい

    => SLOを定めたのでアラートが出たものは開発チームとPdMで対応 判断をする時の基準ができた。けど、機能開発とのスケジュールバラ ンスは難しい • レスポンス速度に対する判断軸を持てるようにしたい => CUJを定めてことでどの部分のレスポンスを注視すべきかが定 まった。けど、利用者によってレイテンシーの幅が大きい場合の最適 なSLOが難しい