Upgrade to Pro — share decks privately, control downloads, hide ads and more …

一人から始めるプロダクトSRE / How to start SRE in a product...

VTRyo
May 14, 2022

一人から始めるプロダクトSRE / How to start SRE in a product team, all by yourself

SRE NEXT 2022 ONLINE 5.14

「このチームの最初のとして、SRE組織を作ってくれないか」
と言われたとき、あなたならどこからアプローチしますか?
 本に記載された多くのSREプラクティスのすべてをすぐに導入するのは容易くありません。なぜならの役割を果たせるのは現状あなたしかおらず、さらに通常、SRE本に記載されている環境とは前提も異なるからです。
 では、どこから始めればいいのでしょうか。
 本セッションでは、実際にSRE組織の立ち上げ時に実施した内容を紹介しつつ、どのようにアプローチし意思決定したかをお話します。

VTRyo

May 14, 2022
Tweet

More Decks by VTRyo

Other Decks in Technology

Transcript

  1. マネーフォワードクラウド勤怠の場合 3 - 通知要件を見直す - alert, ticket, log ( https://sre.google/in-conversation/

    Let's discuss monitoring, a core SRE responsibility. Can you talk about the philosophy behind SRE and monitoring?) - 「エラー率が高い、サービスに影響があるときにだけメンション通知が来 る」など人間の介入が必要な場合を振り分ける - ユーザ影響がないエラーならticketやふりかえり時に見ればよいとする - トラッキングすることに価値はあるが、そのすべてが優先度高であるわけではない #srenextA https://moneyforward.com/engineers_blog/2021/11/29/visualize/
  2. マネーフォワードクラウド勤怠の場合 3 - 通知要件を見直す - alert, ticket, log - 「エラー率が高い、サービスに影響があるときにだけメンション通知が来

    る」など人間の介入が必要な場合を振り分ける - ユーザ影響がないエラーならticketやふりかえり時に見ればよいとする - トラッキングすることに価値はあるが、そのすべてが優先度高であるわけではない #srenextA alertとなる 「サービス影響がある」とは?
  3. マネーフォワードクラウド勤怠の場合 3 - SLO/SLIの出番です - 開発チームにヒアリングし、重要な機能や勘所をSLIとして記録 - 暫定のSLOとして設定することで、それを脅かす異常をalertする - このSLOの設定はチーム全体にも納得感が生まれる

    - 推測するな、計測せよ by Rob Pike - 「エラーたくさん来ていたと思ったけど全体の0.02%じゃん」 #srenextA “Done is better than perfect” SLO/SLIは定期的に見直せばよい
  4. マネーフォワードクラウド勤怠の場合 3 - 通知要件を見直す - alert, ticket, log - 「エラー率が高い、サービスに影響があるときにだけメンション通知が来

    る」など人間の介入が必要な場合を振り分ける - ユーザ影響がないエラーならticketやふりかえり時に見ればよいとする - トラッキングすることに価値はあるが、そのすべてが優先度高であるわけではない #srenextA 一人から始めるときは まずはプロダクトチームに安心してもらおう
  5. 開発者のペインが一つ取り除かれた後 3 - 通知要件を見直す - alert, ticket, log - 「エラー率が高い、サービスに影響があるときにだけメンション通知が来

    る」など人間の介入が必要な場合を振り分ける - ユーザ影響がないエラーならticketやふりかえり時に見ればよいとする - トラッキングすることに価値はあるが、そのすべてが優先度高であるわけではない #srenextA 開発者のペインが一つ取り除かれた後
  6. SREの体制について考える 5 ミッションから、どのようなSRE体制が最善か考える - Core SRE? - Embedded SRE? -

    Enabling SRE? (現場の課題によって、組織や会社ごとに定義は若干異なるようです) #srenextA
  7. Core SRE 5 横断的、中央集権的な役割を果たすSRE 組織全体を見るSRE向上委員会的立ち位置 SRE Center Of Practiceとも (

    https://medium.com/slalom-build/the-many-shapes-of-site-reliability-engineering-468359866517) #srenextA
  8. Enabling SREをやっていく 6 - Embedded SRE - Enabling SRE #srenextA

    Enabling SREとしての活動事例を一部紹介
  9. まとめ 7 一人から始めるプロダクトSRE - プロダクト固有の課題に向き合えることを活かし、まずは状況観察 - Service Reliability Hierarchyを参考に理想と現実とのギャップを埋める -

    メンバーに自分を信頼してもらえるように働きかける - 「一人しかいない」「SREにコンバートできない」といった現実を加味した体制 を考える - 決めた方針に合わせてSRE活動をちいさく始める #srenextA