Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
超⼊⾨SRE 2025 SREって結局必要あるんだっけ?編 渡部⿓⼀ 2025/02/26 はじめてのIT勉強会
Slide 2
Slide 2 text
● 名前: 渡部⿓⼀ ● 株式会社IVRy SRE ● SRE NEXT Co-Chair ● 蒲町あたりに住んでます ● 障害対応、EOL対応 ● 2回⽬の登壇 ○ 去年も同じようなタイトルで話しました ⾃⼰紹介
Slide 3
Slide 3 text
ソフトウェアを障害なく運⽤したい!
Slide 4
Slide 4 text
ソフトウェアは複雑
Slide 5
Slide 5 text
⼀般的なエンジニアの本棚(N=1)
Slide 6
Slide 6 text
全部読めば完璧!
Slide 7
Slide 7 text
そんなことはない
Slide 8
Slide 8 text
● ソフトウェアは複数のコンポーネントから成り⽴つ ○ ブラウザから⾒えるHTML、ユーザーデータを保存するDB ● 特定の分野だけに詳しいだけでは実際にそれでお⾦を稼ぐのは難しい ● 当たり前だが本から得られる知識だけでの運⽤は難しい ● 本読んだだけでプロダクション環境の運⽤をやると? ソフトウェアの複雑性
Slide 9
Slide 9 text
No content
Slide 10
Slide 10 text
● 座学でなんとかやってきたエンジニアが受けがちな洗礼 ○ 私も受けた ● たくさん本を読んだだけでは実運⽤は違う ● ソフトウェアにはたくさんの専⾨分野が存在する ● 全分野を学び経験をたくさん積んだら障害0でサービス運⽤できるのか? 結構あるある
Slide 11
Slide 11 text
ではない
Slide 12
Slide 12 text
障害は発⽣して当たり前
Slide 13
Slide 13 text
● 世界中の天才たちが作っているインターネットも時々壊れる ● GoogleだってAmazonだって壊れる ○ 例) Gmail届かない、サイトに繋がらない... ● 世界的にすごい⼈たちが集まっている企業でそれ ● その中で障害が発⽣しないサービスを⽬指すとどうなるか? 障害は発⽣して当たり前
Slide 14
Slide 14 text
A社: スタートアップ B社: 新規参⼊してくる会社
Slide 15
Slide 15 text
イケてるいい感じのサービスを作れた! 競合もいなそうだしめっちゃ売って⾏くぞ!
Slide 16
Slide 16 text
ユーザー数は順調増加! 今度CM放映でさらに成⻑加速!
Slide 17
Slide 17 text
CM放映
Slide 18
Slide 18 text
No content
Slide 19
Slide 19 text
CMが流れた瞬間アクセス増加でサーバ落ちた CMにお⾦かけたけど落ちてたせいでユーザー も全然増えなかった...
Slide 20
Slide 20 text
アクセス捌けないと困るので新機能開発は ⼀旦やめて全員で対応しよう
Slide 21
Slide 21 text
A社がやってる業界まだまだ伸びそう! 参⼊しよう!
Slide 22
Slide 22 text
3ヶ⽉後
Slide 23
Slide 23 text
サーバ強化、パフォーマンスチューニング! 絶対に落ちないサーバができたぞ!
Slide 24
Slide 24 text
圧倒的成⻑! ユーザー獲得!
Slide 25
Slide 25 text
全然ユーザー増えない... B社のやつ後発でめっちゃ機能豊富だ...
Slide 26
Slide 26 text
● 機能開発が重要なフェーズで耐障害性を過剰に上げてしまった ● ⼀⽅でどこが過剰かの判断は難しい ● ⾃分たちでサービスレベルを定義していい感じに運⽤する必要が出てくる ● それはつまりSRE 負けてしまう可能性がある
Slide 27
Slide 27 text
SREって何?
Slide 28
Slide 28 text
● 信頼性⼯学の専⾨家としてサービスの信頼性と向き合っていく ● 信頼性 ○ 要求された機能を安定して果たすことができる能⼒のこと ○ 電話をかけたら絶対に相⼿に着信がなる = 信頼性が⾼い ○ アクセスしてもエラーばかりのWebサイト = 信頼性が低い SRE(site reliability engineer)
Slide 29
Slide 29 text
どうやって信頼性をエンジニアリングしていくのか
Slide 30
Slide 30 text
● SLI/SLO ● SLI = サービスレベル指標 ○ ECサイトで⾔うなら商品ページが表⽰されるまでの時間 ● SLO = サービスレベル⽬標 ○ SLIの具体的な⽬標レベルを設定する ■ p99で500ms以下を⽉間99.9%で達成させる ○ あくまでも⾃分たちがユーザーに提供していきたい体験をSLOとする サービスレベルを定義しそれを元に運⽤をしていく
Slide 31
Slide 31 text
ユーザーが満⾜するいい感じのところ⾒つけよう
Slide 32
Slide 32 text
No content
Slide 33
Slide 33 text
ご清聴ありがとうございました