Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE Lounge #13 Service Level at Ubie

itkq
November 18, 2021

SRE Lounge #13 Service Level at Ubie

だいたい3ヶ月でサービスレベルを運用に乗せて「ちゃんとした」Webサービスにした話
https://sre-lounge.connpass.com/event/227250/ の発表資料です。

itkq

November 18, 2021
Tweet

More Decks by itkq

Other Decks in Technology

Transcript

  1. 2 - ID: itkq - 経歴:Cookpad → Ubie Discovery -

    最近の業務領域:SRE業80%、その他20% (情シスorセキュリティ) - 興味:Load testing, Test in production About me 2
  2. 3 - 話すこと - 短期間でサービスレベルを導入し運用するまでの事例 - 話さないこと - SRE、SLI/SLO自体 -

    チューニングなど技術的詳細。後日ブログに書く(予定) 発表内容 3
  3. 11 - Infra: Fastly, GKE, Istio - Frontend: Next.js -

    BFF: DGS (Kotlin, GraphQL) - APIs: Python, etc. AI受診相談のアーキテクチャ 11
  4. 16 - 現状に対してどこまで改善するかの基準が必要 - 1. 症状チェック完走率99.5%(当時最低で98.2%) - 2. LP表示成功率99.9%(当時最低で99.2%) -

    3. 症状チェック結果画面のレイテンシp90<=3s(当時最悪で15s) 議論をもとにエイヤで目標値を決める 16
  5. 27 - 可用性:1ヶ月のウィンドウで`1 - (error_view / page_view)` >= 99.9% -

    レイテンシ:1ヶ月のウィンドウでバックエンドのp99 <= 1s - アラート:SRE本に基づく複数バーンレートアラートでSlack通知 - エラーバジェットが尽きた場合:信頼性向上アクション(開発は止めない) - サービスレベルロールでトリアージ シン・SLI/SLO 27