Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[SRE NEXT 2022]組織に対してSREを適用するとはどういうことか

srenext
May 21, 2022

[SRE NEXT 2022]組織に対してSREを適用するとはどういうことか

SRE NEXT 2022
https://sre-next.dev/2022/

[Speaker]
Visional(株式会社ビズリーチ) HRMOSプロダクト本部 SREグループ Manager: 國井 匡生

[Description]
Site Reliability Engineeringには原則があり、今日では様々なプラクティスや事例が紹介されています。しかし、最初のSRE本にも書いてあるにもかかわらず、SREを実践する人々の人間的側面についてはあまり語られません。どのようなシステムもそれを作るのも運用するのも人であり(SREが目指すのが運用をなくすことだとしても)、大抵の場合、一人ではなく組織としてシステムを作っています。信頼性の低い組織からは信頼性の高いシステムは生まれることは考えにくく、組織に対してSREを適用すると考えると見えてくることがあります。
このセッションでは組織がどうやって信頼性を保つことができるかを、チーム発足から5年間の教訓をもとに紹介します。

srenext

May 21, 2022
Tweet

More Decks by srenext

Other Decks in Technology

Transcript

  1. • 組織の信頼性とは “「[システムが]求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こす ことなく実行する確率」“ Betsy Beyer; Chris Jones; Jennifer Petoff;

    Niall Richard Murphy. SRE サイトリライアビリティエンジニアリング (xiv). 求められる機能 = プロダクトを作り、提供し、運用する なぜ組織の話をするのか
  2. • 組織の信頼性とは “「[システムが]求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こす ことなく実行する確率」“ Betsy Beyer; Chris Jones; Jennifer Petoff;

    Niall Richard Murphy. SRE サイトリライアビリティエンジニアリング (xiv). 求められる機能 = プロダクトを作り、提供し、運用する 定められた条件 = プロダクトの提供が続く限り なぜ組織の話をするのか
  3. • 組織の信頼性とは “「[システムが]求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こす ことなく実行する確率」“ Betsy Beyer; Chris Jones; Jennifer Petoff;

    Niall Richard Murphy. SRE サイトリライアビリティエンジニアリング (xiv). 求められる機能 = プロダクトを作り、提供し、運用する 定められた条件 = プロダクトの提供が続く限り 定められた期間 = プロダクトの使命を果たすまで なぜ組織の話をするのか
  4. • 組織の信頼性とは “「[システムが]求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こす ことなく実行する確率」“ Betsy Beyer; Chris Jones; Jennifer Petoff;

    Niall Richard Murphy. SRE サイトリライアビリティエンジニアリング (xiv). 求められる機能 = プロダクトを作り、提供し、運用する 定められた条件 = プロダクトの提供が続く限り 定められた期間 = プロダクトの使命を果たすまで 障害 = プロダクト開発、運用ができない状態になる なぜ組織の話をするのか
  5. “SREとは、ソフトウェアエンジニアに運用チームの設計を依頼したときにできあがるもの” Betsy Beyer; Chris Jones; Jennifer Petoff; Niall Richard Murphy.

    SRE サイトリライアビリティエンジニアリング (p.5). 運用ではなく、運用チームの話 SREのおさらい
  6. • マシン = 人 • サーバー = 役割、仕事 • クラスタ

    = チーム、組織 • データ = 人やチームの知識、記憶、文化 • SRE = マネージャーや組織長、チーム自身 組織をコンピュータシステムと捉える システム
  7. ”日常的に繰り返される運用上の作業であり、 永続的な価値を生み出さず、サービスの成長に比例してスケールするもの” Betsy Beyer; Chris Jones; Jennifer Petoff; Niall Richard

    Murphy. SRE サイトリライアビリティエンジニアリング (p.25). 組織におけるトイルとは • マネージャーとのコミュニケーション 原則 -トイルの撲滅
  8. ”日常的に繰り返される運用上の作業であり、 永続的な価値を生み出さず、サービスの成長に比例してスケールするもの” Betsy Beyer; Chris Jones; Jennifer Petoff; Niall Richard

    Murphy. SRE サイトリライアビリティエンジニアリング (p.25). 組織におけるトイルとは • マネージャーとのコミュニケーション • チームに権限を移譲しよう 原則 -トイルの撲滅
  9. ”日常的に繰り返される運用上の作業であり、 永続的な価値を生み出さず、サービスの成長に比例してスケールするもの” Betsy Beyer; Chris Jones; Jennifer Petoff; Niall Richard

    Murphy. SRE サイトリライアビリティエンジニアリング (p.25). 組織におけるトイルとは • マネージャーとのコミュニケーション • チームに権限を移譲しよう • 暗黙知の伝達 原則 -トイルの撲滅
  10. ”日常的に繰り返される運用上の作業であり、 永続的な価値を生み出さず、サービスの成長に比例してスケールするもの” Betsy Beyer; Chris Jones; Jennifer Petoff; Niall Richard

    Murphy. SRE サイトリライアビリティエンジニアリング (p.25). 組織におけるトイルとは • マネージャーとのコミュニケーション • チームに権限を移譲しよう • 暗黙知の伝達 • “準備とドキュメンテーションの価値を信じること” Betsy Beyer; Chris Jones; Jennifer Petoff; Niall Richard Murphy. SRE サイトリライアビリティエンジニアリング (xvi). 原則 -トイルの撲滅
  11. 組織の何を可視化すべきだろうか • バス(トラック)係数 • 属人化した状態はRAID0と同じ • 目標の達成度 • SREの習熟度 •

    https://cloud.google.com/blog/ja/products/gcp/how-to-start-and-assess-your-sre-journey 原則 - モニタリング
  12. 組織の何を可視化すべきだろうか • バス(トラック)係数 • 属人化した状態はRAID0と同じ • 目標の達成度 • SREの習熟度 •

    https://cloud.google.com/blog/ja/products/gcp/how-to-start-and-assess-your-sre-journey • 重要だが緊急でないことがどれだけできているか • トイルの撲滅、運用の自動化、複雑性の低減など 原則 - モニタリング
  13. “正常に動作する複雑なシステムは、例外なく正常に動作する単純なシステムから発展したものである。” ゴールの法則 • 組織は制御可能な人数か • 7±2、6±3、2 pizza team… • コンポーネントチームが生まれていないか

    • コンポーネントチームは作業の複雑性を生む • サイロが生まれていないか • 透明性のない状態では全てが不確実になる • コミュニケーションパスが迂回路を通っていないか • 間に挟まっている人(MITM)がいるとパケットロスが発生する 原則 - 単純さ