Slide 1

Slide 1 text

だいたい分かった気になる 『SREの知識地図』 『SREの知識地図』の著者を招いてお送りする SREの旅 @katsuhisa__ / Katsuhisa Kitano

Slide 2

Slide 2 text

Topotalさん、イベント企 画&お招きいただきあ りがとうございます !!!!!!!!!!

Slide 3

Slide 3 text

#SREの旅 北野 勝久( @katsuhisa__ ) ● 一般社団法人 SRE NEXT 代表理事 ● SRE NEXT Founder ● 株式会社スタディスト CTO ● 『SREの知識地図』共著者、 第1章を担当しつつ、全体進行をリード

Slide 4

Slide 4 text

#SREの旅 今日の本題『 SREの知識地図』 ● 発売日: 2025.9.10 ● 技術評論社 刊行 ● 「知識地図」シリーズの新しい一冊 ● SRE NEXT をいっしょに運営してきた 仲間と書きました😉

Slide 5

Slide 5 text

#SREの旅 「知識地図」シリーズ

Slide 6

Slide 6 text

#SREの旅 技術評論社さま「知識地図」の特徴 ● 「情報のハブ」としての入門書 ● テーマに関する今の知識と、 学び方や情報の読み取り方をお伝えする → 「知識地図」シリーズの基本コンセプトをふまえて、 SREに関する知識地図本として刊行

Slide 7

Slide 7 text

『SREの知識地図』

Slide 8

Slide 8 text

#SREの旅 SREの知識地図の柱 書籍企画のお話をいただいた後に考えた結論として、 ● 信頼性やエンジニアリングとはなにか、なぜ重要か ● 信頼性エンジニアリングをどう推進するか(プラクティス) が「情報のハブ」として機能するために重要と考えた

Slide 9

Slide 9 text

#SREの旅 SRE Book はどこからでも読める ● いわゆる Google SRE Book は 頭からすべてを読まず、 気になったプラクティスのつまみ食い歓迎 (と言われていると思っている) ● でも、冒頭はみんな読んでいる(と思っている) ● つまり、なぜSREか?の理解と、 プラクティスを中心に据えるのが 知識地図のスタイルとしてもよいのでは

Slide 10

Slide 10 text

#SREの旅 第1章 SREとは 第2章 信頼性を定義して 組織で運用する 第3章 システムの状態を観測する 第4章 障害を学びにつなげる プラクティス・実践をメインに据えた章構成 第5章 障害対応のプロセスや 体制を作る 第6章 手作業を自動化し効率化する 第7章 サービスのリリースを 事前にレビューする 第8章 SREの組織構造 第9章 SREの実践

Slide 11

Slide 11 text

#SREの旅 第1章 SREとは 第2章 信頼性を定義して 組織で運用する 第3章 システムの状態を観測する 第4章 障害を学びにつなげる プラクティス・実践をメインに据えた章構成 第5章 障害対応のプロセスや 体制を作る 第6章 手作業を自動化し効率化する 第7章 サービスのリリースを 事前にレビューする 第8章 SREの組織構造 第9章 SREの実践 わたし

Slide 12

Slide 12 text

『SREの知識地図』第 1章

Slide 13

Slide 13 text

#SREの旅 1.1.1 サイトとは何か 1.1.2 信頼性とは何か 1.1.3 信頼性を制御するとはどういうことか 1.1.4 ソフトウェアエンジニアリングの原則と手法を 運用に応用するとはどういうことか SREの、サイト・信頼性・エンジニアリングを分けて掘り下げました 初学者には、ここだけでも本書を手に取っていただく価値があるかも? 1.1 SREの概要

Slide 14

Slide 14 text

#SREの旅 1.2.1 信頼性が失われるとどうなるか 1.2.2 過剰な信頼性を追い求めるとどうなるか 1.2 なぜSREが重要なのか エンジニアの就労期間が短い方が読む可能性もふまえて、 あらためてビジネスとシステム信頼性の結びつきを紹介

Slide 15

Slide 15 text

#SREの旅 1.3.1 信頼性は機能の一部である 1.3.2 100%の信頼性を目指すわけではない 1.3.3 運用をエンジニアリングする 1.3.4 データにもとづく意思決定を行う 1.3.5 失敗から学ぶ、非難なき文化を構築する 1.3 SREの価値観 SREのプラクティスの詳細に立ち入りすぎず、価値観を整理 (まとめ方、意外と難しかった…!)

Slide 16

Slide 16 text

#SREの旅 各社ごとのSREの多様性の存在を紹介しつつも、 中核となりうるスキル群を整理した 中核となるスキルに、「コミュニケーション」を明確に入れたのは、 レビュアーの方からのコメントもあってこそだったので本当に感謝 また、「SREは職種なのか」問題もコラムとして触れました 1.4.1 どのSREにも求められる単一のスキルセットはない 1.4.2 中核となるスキル 1.4 SREに必要なスキル

Slide 17

Slide 17 text

#SREの旅 1.5 本書の歩き方、 1.6 まとめ 各章のイントロと、まとめを扱っています。 SRE Book がそうだったように、 プラクティス中心であるため、 どの章からのつまみ食いでも歓迎であることを触れています😉

Slide 18

Slide 18 text

『SREの知識地図』推しポイント

Slide 19

Slide 19 text

#SREの旅 著者それぞれの “実践” 経験が活きている ● SNSでも感想として言及いただいたのを目にしましたが、 「オンコール手当て」の考え方を紹介しているのは珍しい? ● 組織としての実践パターンを組織図と対応させながら 解説しているのも、まさに実践経験そのもの ● SLI集計方法や、SLO違反の場合、何をする?も具体で紹介 一方で、読者のみなさまにおかれましては、 単一の正解ではない前提でお読みいただきたいです💡

Slide 20

Slide 20 text

#SREの旅 知識地図として、よく聞く言葉の解説が だいたい入っている (と思っている) SLOやエラーバジェット、トイル、ポストモーテ厶のような 代表的なものは当然として、他にも網羅的に含んでいる ● CUJ ● The Four Golden Signals, USE, RED ● SEV ● Runbook ● PRR

Slide 21

Slide 21 text

#SREの旅 深掘りのための、事後学習との接続が多い 外部の資料や書籍へのリンクや引用をたくさん入れています😉 SRE NEXT等で過去に発信いただいた、 すべてのコミュニティ参加者の皆さんのおかげでもある🚀 このスライドをお読みいただいている、 あなたの資料も実は引用されているかも・・・?

Slide 22

Slide 22 text

#SREの旅 レビュアーのみなさんのご協力のおかげで、 クオリティをあげられた自信がある ● 書籍の構成をふまえて、レビュアーの皆さんには 個別にお願いのご連絡をさせていただいた ● 指摘をいただいたり、それをふまえて著者陣でも 議論をしたりして、書籍の中身に反映した ● 例 ○ SREの中核となるスキル ○ SLAやSLOが単一の指標なのか、複数の指標なのか ○ データベース接続エラー表示のベストプラクティス

Slide 23

Slide 23 text

さいごに

Slide 24

Slide 24 text

#SREの旅 書籍のレビューに参加してくださった皆さん、 推薦の言葉を書いてくださった皆さん、 編集者の中山さん、共著者のみなさん、 SRE LoungeやSRE NEXTで実践知を共有してくれたみなさん、 すべての方との関わりがあったからこそ、 書籍ができ上がった感覚を強く持っています。 書籍発売にあたってお世話になった皆さん 本当にありがとうございました

Slide 25

Slide 25 text

#SREの旅 書籍のレビューに参加してくださった皆さん、 推薦の言葉を書いてくださった皆さん、 編集者の中山さん、共著者のみなさん、 SRE LoungeやSRE NEXTで実践知を共有してくれたみなさん、 すべての方との関わりがあったからこそ、 書籍ができ上がった感覚を強く持っています。 書籍発売にあたってお世話になった皆さん 本当にありがとうございました レビュアーのみなさんが 最高の仕事をしてくださった。 本当に何度感謝してもしきれません。 (本当はレビュアーの皆さんとのやり取りのGitHub Issue、 ぜんぶ公開したいくらいおもしろい)

Slide 26

Slide 26 text

#SREの旅 ぜひ書籍の感想を SNSで教えてください! #SREの知識地図