Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREという働き方
Search
ryuichi1208
July 09, 2023
Technology
4
460
SREという働き方
ryuichi1208
July 09, 2023
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
Goで作って学ぶWebSocket
ryuichi1208
0
180
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
19
8.8k
AI前提のサービス運用ってなんだろう?
ryuichi1208
9
1.7k
入門 バックアップ
ryuichi1208
22
10k
効果的なオンコール対応と障害対応
ryuichi1208
9
3.7k
コロナ禍とその後:地方エンジニアが学んだキャリア戦略の変遷
ryuichi1208
6
410
入門オンコール対応
ryuichi1208
10
3.6k
MySQLのOOMと戦った話
ryuichi1208
7
3.1k
障害対応を楽しむ7つのコツ
ryuichi1208
9
4.8k
Other Decks in Technology
See All in Technology
リーダブルテストコード 〜メンテナンスしやすい テストコードを作成する方法を考える〜 #DevSumi #DevSumiB / Readable test code
nihonbuson
11
7.2k
Moved to https://speakerdeck.com/toshihue/presales-engineer-career-bridging-tech-biz-ja
toshihue
2
740
運用しているアプリケーションのDBのリプレイスをやってみた
miura55
1
720
白金鉱業Meetup Vol.17_あるデータサイエンティストのデータマネジメントとの向き合い方
brainpadpr
5
740
プロダクトエンジニア構想を立ち上げ、プロダクト志向な組織への成長を続けている話 / grow into a product-oriented organization
hiro_torii
1
170
オブザーバビリティの観点でみるAWS / AWS from observability perspective
ymotongpoo
8
1.5k
2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇
smiyawaki0820
13
3.3k
プロセス改善による品質向上事例
tomasagi
2
2.5k
「海外登壇」という 選択肢を与えるために 〜Gophers EX
logica0419
0
700
Platform Engineeringは自由のめまい
nwiizo
4
2.1k
MC906491 を見据えた Microsoft Entra Connect アップグレード対応
tamaiyutaro
1
540
利用終了したドメイン名の最強終活〜観測環境を育てて、分析・供養している件〜 / The Ultimate End-of-Life Preparation for Discontinued Domain Names
nttcom
2
190
Featured
See All Featured
Writing Fast Ruby
sferik
628
61k
Visualization
eitanlees
146
15k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Agile that works and the tools we love
rasmusluckow
328
21k
Building Your Own Lightsaber
phodgson
104
6.2k
Automating Front-end Workflow
addyosmani
1368
200k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
4
330
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.6k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.1k
Transcript
1 SREという働き方 渡部 龍一 / GMO PEPABO inc.
2 • SREとは「Site Reliability Engineering」の頭文字をとった言葉 • 日本語では「サイト信頼性エンジニアリング」 • チームトポロジーの分類で考えると2つの側面があるチーム ◦
イネイブリングチーム ◦ プラットフォームチーム プラットフォームグループにおけるSRE
3 やってること
4 • PdM + SREチーム + アプリケーションチームで週次で実施 • サービスの信頼性に関する内容を共有する会 ◦
可用性に関連するイベントの共有 (メンテやアプデ)、各SLIの確認 ◦ SLO違反した際は事前に定義したポリシーに従って担当者をアサインして対応 ◦ インフラのコストなどもこの会で確認し削減出来そうなものがないかを確認 • SLI/SLOは四半期ごとに見直しを実施 SLI/SLOキープ
5 • パブリッククラウド(AWS/GCP)とプライベートクラウドの管理 ◦ キャパシティプランニング ◦ Terraform/Puppet/Ansibleの実装/レビュー ◦ 監視システムの設計 /構築やアラートの設定
◦ コストの最適化 ◦ オンコール対応 インフラ管理
6 • 便利CLIツール ◦ プライベートクラウド向けツール • 監視ツール ◦ MackerelプラグインやPrometheusプラグインを実装 •
Kubernetes関連 ◦ kubectlのプラグイン ◦ カスタムコントローラー • 便利SlackBot ◦ ChatOPSが盛んなのでSlackから使える便利Botを実装 • パフォーマンスチューニング ◦ N+1の改善/スロークエリ対応 ソフトウェアエンジニアリング
7 • k8s Operatorで運用負担減&ハイブリッドクラウドのコスト最適化をした話 • オンプレk8sとEKSの並行運用の実際 • SUZURIのマルチクラウド化で乗り越えたクラウド毎の「差分」を紹介します • Amazon
EFS を利用して管理運用をスリム化する • 入門障害対応 • オンコール体制をアップデートした話 チームメンバーの登壇資料/テックブログとか
8 最後に
9 • 中途 ◦ https://open.talentio.com/r/1/c/pepabo/pages/45336 • 新卒 ◦ https://recruit.pepabo.com/features/graduate/ 採用やってます!