Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カラーミーショップの改善におけるSRE活動について

homirun
September 26, 2022

 カラーミーショップの改善におけるSRE活動について

PHP Conference Japan 2022 スポンサーセッション Track1 9/24 10:00-11:00

社内横断SRE組織が、カラーミーショップのエンジニアとともにWebサービスを改善するために行っている施策について紹介します。

homirun

September 26, 2022
Tweet

More Decks by homirun

Other Decks in Technology

Transcript

  1. 技術部 プラットフォームグループ 2021年 新卒入社 2 自己紹介 新宮 隆太 Shingu Ryuta •

    あだ名: ほみるん • 社内ではサーバーを担いでる人という認識が定着 • 最近、サイトリライアビリティエンジニアなのに自宅 鯖で運用しているブログを落としてしまった • Twitter : @h0mirun_deux
  2. 13 SLI: Service Level Indicator サービスの稼働状況を値にしたもの 例 • 可用性 •

    リクエストのエラーレート • 決済成功率 • レスポンスの速度 • n秒以内に処理を完了したリクエストの割合 SLIとは 1. SREとは
  3. 14 SLO: Service Level Objective サービスの稼働目標を値にしたもの 例 • 可用性 •

    30日間で正常に処理されたリクエストが99.9% • 30日間で決済成功率が99.99% • レスポンスの速度 • 30日間でn秒以内に処理を完了したリクエストの割合が99.95% SLOとは 1. SREとは
  4. 28 エラーバジェットポリシーの運用 3. カラーミーショップにおけるSRE活動 エラーバジェットを使い切ったときのルールをドキュメント化したもの カラーミーショップではちょうど導入を開始するところ • エラーバジェットポリシーの目的 • サービスの機能開発と信頼性のバランスを取る

    • エラーバジェットポリシーの目的ではないこと • ポリシーをSLO未達に対する罰として運用 信頼性回復を目的としてアプリケーションエンジニアと サイトリライアビリティエンジニアが 協力するためのポリシー
  5. 29 エラーバジェットポリシーの運用 〜バジェットを使い切ったとき〜 3. カラーミーショップにおけるSRE活動 • 信頼性回復のためのタスクを最優先とする • 原因がアプリケーション起因のとき •

    SREチームとカラーミーショップ担当エンジニアをそれぞれ1人ずつ信頼性 回復タスクにアサインする • 原因がインフラ起因のとき • SREチームから1人を信頼性回復タスクにアサインする
  6. 54 • SREとは • サービスの信頼性を維持・向上することを目的としたアプローチのこと • カラーミーショップのSRE活動について • SLI/SLOの観測を監視、ダッシュボード、レビュー会などで実施 •

    エラーバジェットポリシーの運用を開始 • カラーミーショップにおけるSLI/SLOを用いた改善活動について • 3つの例を取り上げた 今回話したこと 5. おわりに