Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
超入門SRE 2025
Search
ryuichi1208
February 26, 2025
1
370
超入門SRE 2025
ryuichi1208
February 26, 2025
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
Goで作って学ぶWebSocket
ryuichi1208
3
2.3k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
8.9k
AI前提のサービス運用ってなんだろう?
ryuichi1208
9
1.7k
入門 バックアップ
ryuichi1208
22
10k
効果的なオンコール対応と障害対応
ryuichi1208
9
3.7k
コロナ禍とその後:地方エンジニアが学んだキャリア戦略の変遷
ryuichi1208
6
410
入門オンコール対応
ryuichi1208
10
3.6k
MySQLのOOMと戦った話
ryuichi1208
7
3.1k
障害対応を楽しむ7つのコツ
ryuichi1208
9
4.8k
Featured
See All Featured
KATA
mclloyd
29
14k
Adopting Sorbet at Scale
ufuk
74
9.2k
Fireside Chat
paigeccino
34
3.2k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
560
Rebuilding a faster, lazier Slack
samanthasiow
80
8.8k
GraphQLの誤解/rethinking-graphql
sonatard
68
10k
We Have a Design System, Now What?
morganepeng
51
7.4k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
Statistics for Hackers
jakevdp
797
220k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.3k
Transcript
超⼊⾨SRE 2025 SREって結局必要あるんだっけ?編 渡部⿓⼀ 2025/02/26 はじめてのIT勉強会
• 名前: 渡部⿓⼀ • 株式会社IVRy SRE • SRE NEXT Co-Chair
• 蒲町あたりに住んでます • 障害対応、EOL対応 • 2回⽬の登壇 ◦ 去年も同じようなタイトルで話しました ⾃⼰紹介
ソフトウェアを障害なく運⽤したい!
ソフトウェアは複雑
⼀般的なエンジニアの本棚(N=1)
全部読めば完璧!
そんなことはない
• ソフトウェアは複数のコンポーネントから成り⽴つ ◦ ブラウザから⾒えるHTML、ユーザーデータを保存するDB • 特定の分野だけに詳しいだけでは実際にそれでお⾦を稼ぐのは難しい • 当たり前だが本から得られる知識だけでの運⽤は難しい • 本読んだだけでプロダクション環境の運⽤をやると?
ソフトウェアの複雑性
None
• 座学でなんとかやってきたエンジニアが受けがちな洗礼 ◦ 私も受けた • たくさん本を読んだだけでは実運⽤は違う • ソフトウェアにはたくさんの専⾨分野が存在する • 全分野を学び経験をたくさん積んだら障害0でサービス運⽤できるのか?
結構あるある
ではない
障害は発⽣して当たり前
• 世界中の天才たちが作っているインターネットも時々壊れる • GoogleだってAmazonだって壊れる ◦ 例) Gmail届かない、サイトに繋がらない... • 世界的にすごい⼈たちが集まっている企業でそれ •
その中で障害が発⽣しないサービスを⽬指すとどうなるか? 障害は発⽣して当たり前
A社: スタートアップ B社: 新規参⼊してくる会社
イケてるいい感じのサービスを作れた! 競合もいなそうだしめっちゃ売って⾏くぞ!
ユーザー数は順調増加! 今度CM放映でさらに成⻑加速!
CM放映
None
CMが流れた瞬間アクセス増加でサーバ落ちた CMにお⾦かけたけど落ちてたせいでユーザー も全然増えなかった...
アクセス捌けないと困るので新機能開発は ⼀旦やめて全員で対応しよう
A社がやってる業界まだまだ伸びそう! 参⼊しよう!
3ヶ⽉後
サーバ強化、パフォーマンスチューニング! 絶対に落ちないサーバができたぞ!
圧倒的成⻑! ユーザー獲得!
全然ユーザー増えない... B社のやつ後発でめっちゃ機能豊富だ...
• 機能開発が重要なフェーズで耐障害性を過剰に上げてしまった • ⼀⽅でどこが過剰かの判断は難しい • ⾃分たちでサービスレベルを定義していい感じに運⽤する必要が出てくる • それはつまりSRE 負けてしまう可能性がある
SREって何?
• 信頼性⼯学の専⾨家としてサービスの信頼性と向き合っていく • 信頼性 ◦ 要求された機能を安定して果たすことができる能⼒のこと ◦ 電話をかけたら絶対に相⼿に着信がなる = 信頼性が⾼い
◦ アクセスしてもエラーばかりのWebサイト = 信頼性が低い SRE(site reliability engineer)
どうやって信頼性をエンジニアリングしていくのか
• SLI/SLO • SLI = サービスレベル指標 ◦ ECサイトで⾔うなら商品ページが表⽰されるまでの時間 • SLO
= サービスレベル⽬標 ◦ SLIの具体的な⽬標レベルを設定する ▪ p99で500ms以下を⽉間99.9%で達成させる ◦ あくまでも⾃分たちがユーザーに提供していきたい体験をSLOとする サービスレベルを定義しそれを元に運⽤をしていく
ユーザーが満⾜するいい感じのところ⾒つけよう
None
ご清聴ありがとうございました