SREの理念と原則〜SREの「人間的」側面 / SRE from humanism

SREの理念と原則デベロッパーアドボケイト山口能迪 (@ymotongpoo) SREの「人間的」側面 Sep 9th, 2021 SRE Gaps「理論と実践からSREを再考する」

⼭⼝能迪 (ymotongpoo) 職種: デベロッパーアドボケイト担当: オブザーバビリティ、 SRE、Go 製品: Cloud
Operations suite全般 OpenTelemetry Monitoring Logging Trace Proﬁler Error Reporting Debugger @ymotongpoo @ymotongpoo

「SREの探求」が出版されました編纂: David N. Blank-Edelman 翻訳: 渡邉了介監訳: 山口
能迪発刊: オライリージャパン 632ページ、全33章定価5,060円 2021年9月3日発刊

今⽇は細かな技術の話はしません

SREとは何をするものか SREはシステムの信頼性を確保するためのシステム開発運⽤⽅法論＝システムの信頼性を揺るがすものを排除‧軽減する

何がシステムの信頼性を揺るがすのか変化や不確実性が信頼性を下げるシステムユーザー外部環境開発者・運用者

何がシステムの信頼性を揺るがすのか⼈間は不確実システムユーザー外部環境開発者・運用者

SREとは何をするものか SREはシステムの信頼性を確保するためのシステム開発運⽤⽅法論＝システムの信頼性を揺るがすものを排除‧軽減するたとえば極力「人間に依存しないようにする」

SREとは何をするものかヒロイズムを取り除く "Hope is not a strategy" ‒ Google SREの⾮公式モットー

⼈間に依存しないためにどうするか「⼈間」の何に依存しているのかを考える • ⼿作業 • 意思決定

⼈間に依存しないためにどうするか「⼈間」の何に依存しているのかを考える • ⼿作業ソフトウェアの問題として解決する • 意思決定客観的なルールに基づかせる

ソフトウェアの問題として解決する⼈間に依存しないためにソフトウェアの問題として解決する • 再現性が高い • スケールする • 自動化できる • 抽象化できる
etc…

ソフトウェアの問題として解決する⼈間に依存しないためにソフトウェアの問題として解決する • トイルの削減 • ⾃動化

ソフトウェアの問題として解決する ‒ トイルの削減ソフトウェアはもっとも⾝近にある作業代⾏者 • コンピューターは同じ作業を再現性⾼く繰り返し⾏うのが得意 • スケールさせることが容易 S: 5章
W: 6章

ソフトウェアの問題として解決する ‒ ⾃動化作業をソフトウェア化すれば⼀歩進めて⾃動化できる • 継続的インテグレーション • アラート • データパイプライン∕バッチ
S: 5, 8, 24, 25章

共通ルールに押し出す⼈間に依存しないために数値化や⽂書化された基準で判断する • 客観性が高い • 予測が立てやすい etc… • 再現性が高まる •
判断が早まる • 継続的に改善できる etc…

共通ルールに押し出す⼈間に依存しないために数値化や⽂書化された基準で判断する • SLIとSLO • エラーバジェット • インシデント管理 • 運⽤⼿順書（プレイブック/ランブック）

共通ルール ‒ SLIとSLO / エラーバジェット客観的に注⼒すべき⾏動を判断するための指標と閾値各コンポーネントの「信頼性」に基づいた指標の策定がポイント • SLO範囲内新規開発、トイルの削減
• SLO違反システムの安定化エラーバジェット（予算）によって投資とリスクのバランスを数値化 S: 3, 4章 W: 2, 3, 5章

共通ルール ‒ インシデント管理インシデントに関わる⼈間が⾃律的に動けるようにする • インシデント指揮者: インシデントの解消をするまでのプロジェクトマネージャー • 実⾏作業者:
インシデントの実対応者 • コミュニケーション担当者: 外部とのやりとりを担う • 計画担当者: 上記担当者が担わない記録やファシリティを⾏う S: 12, 13, 14章 W: 9章

共通ルール ‒ 運⽤⼿順書（プレイブック/ランブック）誰が⾏っても対応できるように⼿順書を⽤意する • 開発者や運⽤者の知識の共有 • ⾃動化のための指針‧設計書 • コミュニケーションスキルの向上
W: 8章

しかし前提が必要

⼈間がパフォーマンスを最⼤限に発揮できるようにする⼈間がパフォーマンスを最⼤限に発揮できる環境が必要 • 体力面 • 精神面両方において必要

体⼒⾯⼈間的な⽣活を送れるように、そうでない場合はそれに報いるように • アラート∕オンコール戦略 S: 10, 11, 28, 29章 W:
5章

精神⾯障害の復旧やその改善を⾏うのは⼈間が最善の改善策を出せるような奇譚なき意⾒を⾔える環境づくり • ⾮難なきポストモーテム S: 10, 11, 29章 W:
5, 10章

まとめ

今⽇話さなかったこと SREのより技術的な側⾯や複雑な組織論 • モニタリング戦略‧設計、モニタリングインフラ • 各種冗⻑化インフラの設計‧構築 • リリース戦略‧CI/CDパイプライン • テスト戦略、テストインフラ
• セキュリティ • 組織論 etc…

「⼈間の不確実性」を下げる活動が多くある • ⼈間の不確実性を避けるために、ソフトウェアやルールで解決 • ⼈間の確実性を上げるために、最⼤限パフォーマンスが発揮できるようにすべては「信頼性」のため

SREの探求 • 様々な組織のSREの実践に至る苦労が赤裸々に語られている • こういった話が広く共有されてほしい

SRE関連書籍（和書） Google著各社

GoogleのSRE関連ウェブサイト sre.google • SRE関連書籍（英語版）の無料公開 • 各種SRE関連記事 • 各種ワークショップ資料 cloud.google.com/blog/ja/products/devops-sre •
Google CloudのDevOps/SRE関連のブログポストの⽇本語訳

SREの理念と原則〜SREの「人間的」側面 / SRE from humanism

SREの理念と原則〜SREの「人間的」側面 / SRE from humanism

ymotongpoo

More Decks by ymotongpoo

Other Decks in Technology

Featured

Transcript

SREの理念と原則デベロッパーアドボケイト山口能迪 (@ymotongpoo) SREの「人間的」側面 Sep 9th, 2021 SRE Gaps「理論と実践からSREを再考する」

⼭⼝能迪 (ymotongpoo) 職種: デベロッパーアドボケイト担当: オブザーバビリティ、 SRE、Go 製品: Cloud

「SREの探求」が出版されました編纂: David N. Blank-Edelman 翻訳: 渡邉了介監訳: 山口

今⽇は細かな技術の話はしません

SREとは何をするものか SREはシステムの信頼性を確保するためのシステム開発運⽤⽅法論＝システムの信頼性を揺るがすものを排除‧軽減する

何がシステムの信頼性を揺るがすのか変化や不確実性が信頼性を下げるシステムユーザー外部環境開発者・運用者

何がシステムの信頼性を揺るがすのか⼈間は不確実システムユーザー外部環境開発者・運用者

SREとは何をするものか SREはシステムの信頼性を確保するためのシステム開発運⽤⽅法論＝システムの信頼性を揺るがすものを排除‧軽減するたとえば極力「人間に依存しないようにする」

SREとは何をするものかヒロイズムを取り除く "Hope is not a strategy" ‒ Google SREの⾮公式モットー

⼈間に依存しないためにどうするか「⼈間」の何に依存しているのかを考える • ⼿作業 • 意思決定

⼈間に依存しないためにどうするか「⼈間」の何に依存しているのかを考える • ⼿作業ソフトウェアの問題として解決する • 意思決定客観的なルールに基づかせる

ソフトウェアの問題として解決する⼈間に依存しないためにソフトウェアの問題として解決する • 再現性が高い • スケールする • 自動化できる • 抽象化できる

ソフトウェアの問題として解決する⼈間に依存しないためにソフトウェアの問題として解決する • トイルの削減 • ⾃動化

ソフトウェアの問題として解決する ‒ トイルの削減ソフトウェアはもっとも⾝近にある作業代⾏者 • コンピューターは同じ作業を再現性⾼く繰り返し⾏うのが得意 • スケールさせることが容易 S: 5章

ソフトウェアの問題として解決する ‒ ⾃動化作業をソフトウェア化すれば⼀歩進めて⾃動化できる • 継続的インテグレーション • アラート • データパイプライン∕バッチ

共通ルールに押し出す⼈間に依存しないために数値化や⽂書化された基準で判断する • 客観性が高い • 予測が立てやすい etc… • 再現性が高まる •

共通ルールに押し出す⼈間に依存しないために数値化や⽂書化された基準で判断する • SLIとSLO • エラーバジェット • インシデント管理 • 運⽤⼿順書（プレイブック/ランブック）

共通ルール ‒ SLIとSLO / エラーバジェット客観的に注⼒すべき⾏動を判断するための指標と閾値各コンポーネントの「信頼性」に基づいた指標の策定がポイント • SLO範囲内新規開発、トイルの削減

共通ルール ‒ インシデント管理インシデントに関わる⼈間が⾃律的に動けるようにする • インシデント指揮者: インシデントの解消をするまでのプロジェクトマネージャー • 実⾏作業者:

共通ルール ‒ 運⽤⼿順書（プレイブック/ランブック）誰が⾏っても対応できるように⼿順書を⽤意する • 開発者や運⽤者の知識の共有 • ⾃動化のための指針‧設計書 • コミュニケーションスキルの向上

しかし前提が必要

⼈間がパフォーマンスを最⼤限に発揮できるようにする⼈間がパフォーマンスを最⼤限に発揮できる環境が必要 • 体力面 • 精神面両方において必要

体⼒⾯⼈間的な⽣活を送れるように、そうでない場合はそれに報いるように • アラート∕オンコール戦略 S: 10, 11, 28, 29章 W:

精神⾯障害の復旧やその改善を⾏うのは⼈間が最善の改善策を出せるような奇譚なき意⾒を⾔える環境づくり • ⾮難なきポストモーテム S: 10, 11, 29章 W:

まとめ

今⽇話さなかったこと SREのより技術的な側⾯や複雑な組織論 • モニタリング戦略‧設計、モニタリングインフラ • 各種冗⻑化インフラの設計‧構築 • リリース戦略‧CI/CDパイプライン • テスト戦略、テストインフラ

「⼈間の不確実性」を下げる活動が多くある • ⼈間の不確実性を避けるために、ソフトウェアやルールで解決 • ⼈間の確実性を上げるために、最⼤限パフォーマンスが発揮できるようにすべては「信頼性」のため

SREの探求 • 様々な組織のSREの実践に至る苦労が赤裸々に語られている • こういった話が広く共有されてほしい

SRE関連書籍（和書） Google著各社

GoogleのSRE関連ウェブサイト sre.google • SRE関連書籍（英語版）の無料公開 • 各種SRE関連記事 • 各種ワークショップ資料 cloud.google.com/blog/ja/products/devops-sre •