Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SREを「続けていく」あなたへ

taxin
February 16, 2023
300

 SREを「続けていく」あなたへ

taxin

February 16, 2023
Tweet

Transcript

  1. • 監視周りの整備 • SLI / SLOの策定と運用 • Postmortemの運営と開発チームとの共同実施 • Toilの整理と削減

    • Design Doc / Production Readiness Checklistの利用による platformの整備における明文化 etc…
  2. 継続は難しい SREのPracticeは正しく理解して「継続する」ことが難しい (SLI / SLO、Postmortem、Toilの削減 …) e.g.) SLI / SLO

    • サービスへの機能追加・削除などの要因によって SLIのベースとなる部分 (CUJ) は変化する可能性がある • = 継続的に更新しないと、Service levelを適切に表現できなくなる
  3. 1. 継続を見据えた取り組み方 2. 自分達が何ができている / できてないのかを把握する (= 開発組織に対するSRE文脈での自己評価) • あるべき状態から比較して、今どのような状態かを確認する

    • 開発チーム / 組織ごとに「何が必要か」は異なる ◦ 今できていないこと = 今すぐ改善が必要なこと とは限らない ◦ 現状が分かれば優先すべきかは判断しやすい
  4. 1. 継続を見据えた取り組み方 3. 優先度の高いものから「小さく」取り組む • 「各項目の 100 % 達成には至らないかもしれません。 それでも、継続していくことが

    SRE にとって大切だということを、私たちは Google での経験から知っています。」 ref: https://cloud.google.com/blog/ja/products/gcp/how-to-start-and-assess-your-sre-journey
  5. 1. 継続を見据えた取り組み方 3. 優先度の高いものから「小さく」取り組む • 「アンチパターン: あきらめるのが早すぎる … (中略)... これは前もって全て達成する必要があるということではなく、

    数四半期後に正しい方向へ進むための明確なシナリオが必要ということ です。」 ref: https://static.googleusercontent.com/media/sre.google/ja//static/pdf/jp-enterprise-roadmap-to-sre.pdf
  6. 2. SRE = 何でも屋からの脱却 12章 多すぎる尺度 より抜粋 • 重要度/優先度は依頼者が所属するチームなどの文脈によって変わる •

    文脈を踏まえて整理するためにチームとしての目標 (e.g. SREチームとしてのマニフェスト) が判断の有効手段となる ◦ 1で出てきた優先度の整理にも利用できる ref: https://www.oreilly.co.jp/books/9784873119847/
  7. 2. SRE = 何でも屋からの脱却 Site Reliability Engineering = 特定のロールに閉じるものではない (Embedded

    SREはSREの実践パターンの一例) = 権限を移譲して、開発者自身で問題解決できるように  自律性を促進するのも一つのアプローチ