Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREという働き方
Search
ryuichi1208
July 09, 2023
Technology
4
460
SREという働き方
ryuichi1208
July 09, 2023
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
超入門SRE 2025
ryuichi1208
0
320
Goで作って学ぶWebSocket
ryuichi1208
3
2.3k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
8.9k
AI前提のサービス運用ってなんだろう?
ryuichi1208
9
1.7k
入門 バックアップ
ryuichi1208
22
10k
効果的なオンコール対応と障害対応
ryuichi1208
9
3.7k
コロナ禍とその後:地方エンジニアが学んだキャリア戦略の変遷
ryuichi1208
6
410
入門オンコール対応
ryuichi1208
10
3.6k
MySQLのOOMと戦った話
ryuichi1208
7
3.1k
Other Decks in Technology
See All in Technology
抽象化をするということ - 具体と抽象の往復を身につける / Abstraction and concretization
soudai
27
14k
JEDAI Meetup! Databricks AI/BI概要
databricksjapan
0
280
OpenID Connect for Identity Assurance の概要と翻訳版のご紹介 / 20250219-BizDay17-OIDC4IDA-Intro
oidfj
0
370
RSNA2024振り返り
nanachi
0
620
Tech Blogを書きやすい環境づくり
lycorptech_jp
PRO
1
260
ESXi で仮想化した ARM 環境で LLM を動作させてみるぞ
unnowataru
0
130
短縮URLをお手軽に導入しよう
nakasho
0
110
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
150
人はなぜISUCONに夢中になるのか
kakehashi
PRO
6
1.7k
N=1から解き明かすAWS ソリューションアーキテクトの魅力
kiiwami
0
140
オブザーバビリティの観点でみるAWS / AWS from observability perspective
ymotongpoo
9
1.6k
生成 AI プロダクトを育てる技術 〜データ品質向上による継続的な価値創出の実践〜
icoxfog417
PRO
5
1.8k
Featured
See All Featured
KATA
mclloyd
29
14k
A designer walks into a library…
pauljervisheath
205
24k
Statistics for Hackers
jakevdp
797
220k
Testing 201, or: Great Expectations
jmmastey
42
7.2k
Optimizing for Happiness
mojombo
376
70k
The Invisible Side of Design
smashingmag
299
50k
Music & Morning Musume
bryan
46
6.4k
Embracing the Ebb and Flow
colly
84
4.6k
RailsConf 2023
tenderlove
29
1k
Scaling GitHub
holman
459
140k
Building a Scalable Design System with Sketch
lauravandoore
461
33k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Transcript
1 SREという働き方 渡部 龍一 / GMO PEPABO inc.
2 • SREとは「Site Reliability Engineering」の頭文字をとった言葉 • 日本語では「サイト信頼性エンジニアリング」 • チームトポロジーの分類で考えると2つの側面があるチーム ◦
イネイブリングチーム ◦ プラットフォームチーム プラットフォームグループにおけるSRE
3 やってること
4 • PdM + SREチーム + アプリケーションチームで週次で実施 • サービスの信頼性に関する内容を共有する会 ◦
可用性に関連するイベントの共有 (メンテやアプデ)、各SLIの確認 ◦ SLO違反した際は事前に定義したポリシーに従って担当者をアサインして対応 ◦ インフラのコストなどもこの会で確認し削減出来そうなものがないかを確認 • SLI/SLOは四半期ごとに見直しを実施 SLI/SLOキープ
5 • パブリッククラウド(AWS/GCP)とプライベートクラウドの管理 ◦ キャパシティプランニング ◦ Terraform/Puppet/Ansibleの実装/レビュー ◦ 監視システムの設計 /構築やアラートの設定
◦ コストの最適化 ◦ オンコール対応 インフラ管理
6 • 便利CLIツール ◦ プライベートクラウド向けツール • 監視ツール ◦ MackerelプラグインやPrometheusプラグインを実装 •
Kubernetes関連 ◦ kubectlのプラグイン ◦ カスタムコントローラー • 便利SlackBot ◦ ChatOPSが盛んなのでSlackから使える便利Botを実装 • パフォーマンスチューニング ◦ N+1の改善/スロークエリ対応 ソフトウェアエンジニアリング
7 • k8s Operatorで運用負担減&ハイブリッドクラウドのコスト最適化をした話 • オンプレk8sとEKSの並行運用の実際 • SUZURIのマルチクラウド化で乗り越えたクラウド毎の「差分」を紹介します • Amazon
EFS を利用して管理運用をスリム化する • 入門障害対応 • オンコール体制をアップデートした話 チームメンバーの登壇資料/テックブログとか
8 最後に
9 • 中途 ◦ https://open.talentio.com/r/1/c/pepabo/pages/45336 • 新卒 ◦ https://recruit.pepabo.com/features/graduate/ 採用やってます!