Upgrade to Pro — share decks privately, control downloads, hide ads and more …

成り立ちから押さえるSRE

iwamot
September 09, 2022

 成り立ちから押さえるSRE

2022-09-09
ENECHANGE Tech Talk (社内勉強会)

iwamot

September 09, 2022
Tweet

More Decks by iwamot

Other Decks in Technology

Transcript

  1. SRE略史 2003: Ben Treynor (Benjamin Treynor Sloss) 氏がGoogleに入社 Productionチームのマネジメントを担当 DevとOpsの対立を解決する「エラーバジェット」を発案

    運用プラクティスを「Site Reliability Engineering (SRE)」と命名 2014: SRECon14にて同氏が基調講演 (YouTube) 2015: メルカリのインフラチームがSREチームに名称変更 2016: 『Site Reliability Engineering』出版 2018: 『The Site Reliability Workbook』出版
  2. SRECon14基調講演で示されたSRE (2) Have an SLA for your service Measure and

    report performance against SLA Use Error Budgets and gate launches on them
  3. SRECon14基調講演で示されたSRE (3) Common staffing pool for SRE and DEV Excess

    Ops work overflows to DEV team Cap SRE operational load at 50% Share 5% of ops work with DEV team 運用作業 (トイル) が勤務時間の50%を超えたらDevに差し戻す トイルの例:割り込み対応・オンコール・リリース 残りの時間は主にトイル削減に費やす トイルはサービスの成長に比例する (採用では追いつかない)
  4. SRECon14基調講演で示されたSRE (4) Oncall teams at least 8 people, or 6x2

    Maximum of 2 events per on-call shift 多ければ忙しすぎ、少なければ時間の無駄
  5. SRECon14基調講演で示されたSRE (5) Post mortem for every event Post mortems are

    blameless and focus on process and technology, not people 学びがなければインシデントが繰り返される 非難は問題を隠蔽する文化を醸成する