Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
横断的なSRE推進と成熟度評価
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ryosuke Suto
March 12, 2022
Technology
8.7k
9
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
横断的なSRE推進と成熟度評価
Ryosuke Suto
March 12, 2022
More Decks by Ryosuke Suto
See All by Ryosuke Suto
GKEを利用したサービスの運用
strsk8
1
700
パブリック/プライベートクラウドでつかうKubernetes
strsk8
1
2.5k
GKE@AbemaTV
strsk8
12
9.7k
re:Invent2015参加レポ
strsk8
0
350
成長し続けるインフラの安定運用事情
strsk8
19
5.3k
ソーシャルゲームDBの危機回避
strsk8
10
15k
Other Decks in Technology
See All in Technology
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.2k
自律型AIエージェントは何を破壊するのか
kojira
0
150
爆速でマルチプロダクトを立ち上げる時 事業・CTO目線で大事にしたい事
miyatakoji
0
100
AIはどのように 組織のアジリティを変えるのか?
junki
1
490
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
170
200個のGitHubリポジトリを横断調査したかった
icck
0
110
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
620
How Timee Delivers Day 1 Production Ready LLM Features
tomoyks
0
150
RSA暗号を手計算したくなること、ありますよね?? (20260615_orestudy6_rsa)
thousanda
0
280
自宅LLMの話
jacopen
1
450
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
840
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
2
590
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Producing Creativity
orderedlist
PRO
348
40k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
1
1.7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1.1k
Transcript
横断的なSRE推進と成熟度評価 SRE Promotion & Maturity Assessment Ryosuke Suto
須藤 涼介/Ryosuke Suto •Service Reliability Group(SRG) - Manager •勤続16年 •CA麻雀部(A1)
今日話すこと 組織改善 プロダクト SRE導入 横断的 SRE推進 • インフラ→SREs変化 • SREsとしての職務
• SREの定義 • SREのススメ方 • SRE成熟度評価 • 今後の展望
1.プロダクトチームとSREs 2.インフラチーム→SREsになるまで 3.SREを組織としてどう捉えるか 4.横断的なSRE推進 5.今後の展望
表記の注意 •SRE Site Reliability Engineering 職種ではなく一連の概念の総称 •SREs 概念ではなく職種 この記事内ではSRGのメンバーや組織を表す
プロダクトチームとSREs
メディア事業
Ameba Product A Product B Product C AWA Pigg CL
Hayabusa SREs ・DC移設 ・負荷対策 ・アラート改善 ・SLI/SLO設定 ・インシデント対応の改善 ・アラート改善 ・ベストプラクティスの開発と展開 ・SRE ・クラウドネイティブ ・DB、監視、その他… Embedded SRE Embedded SRE SRE Center of Practice Project Project ※一部の例であり、実際はこれと異なる部分もあります。 Project : 半期ごとに各開発チームと対話し更新する プロダクトチームとの関わり方 12名
インフラチーム→SREsになるまで
インフラチーム時代の関わり方 組織改善 プロダクト SRE導入 横断的 SRE推進
インフラチーム時代の関わり方 •メディア全プロダクトの運用を全員が兼務でカバー 認知負荷MAX 運用の差し込みで1日が終了 Joinしているアラート用チャンネルの多さに疲弊or麻痺 •各チームごとに独立した活動 チーム内のプロダクトで手いっぱい 技術的なシナジーが生み出しづらい
担当制の廃止 •基礎的な運用はプロダクトチームにエスカレーション やらなくなったこと(基礎的な運用) ・スケーリングや既存アーキテクチャへの新規構築(専門性Low) ・オンコール やること(ニーズベース) ・アーキテクチャの初期設計やIaCのベース提供 ・運用プラクティスの改善 ・パフォーマンスチューニングや負荷対策 ・SRE導入
プロジェクト制の導入 •半年ごとにニーズをヒアリングしプロジェクト化 担当制だと不明瞭だったコミットメントが明確になる システム責任者にも運用面の課題を考えてもらうきっかけになる SREsを流動的に配置できる プロダクト側とのコミュニケーションが希薄にならない
プロジェクトライフサイクル プロジェクト 合意 定期的な 進捗報告 プロジェクト 開始 期末報告 プロダクトFB プロジェクト
完了 メンバーアサイン プロジェクト更新 6ヶ月
職務の明確化とワーキンググループ •Embedded SREs 担当プロダクトの信頼性改善におけるリーダーシップの発揮 SRE導入 プロジェクトのミッション遂行 •SRE Center of Practice
横断的事業課題解決における技術的専門性の発揮 ベストプラクティスの開発(手法、ツール含む) ワーキンググループでの横断的課題発見、解決 現在はDBと運用監視のワーキンググループを運用中
SREを組織としてどう捉えるか
SREを組織としてどう捉えるか 組織改善 プロダクト SRE導入 横断的 SRE推進
SREという言葉の曖昧さ •組織内で統一された認識がない Ω「言葉だけは知ってます」 Ω「ソフトウェアエンジニアに運用チームの設計を…?」 Ω「SREsがなんかええ感じにやってくれるやつ」 •何から手を付けていいかわからない(プラクティスが多い) Ω「とりあえずAPIのレイテンシー全部測ればいいんだっけ?」 Ω「最近障害が多いから改善したい…が…?」
この組織の「SRE」定義する •SREとは信頼性を機能として扱うためのプラクティスや組織文化 •と信頼性を直接的/間接的に改善していくためのプラクティス •SREsはSREを推進するための役割でSREを実行する役割ではない •SREsはプロダクトチームにSREをインストールする
自分たちの現在地を知る •目標を設定するにはまず現在地を知る必要がある •何から始めるべきか議論がしやすい •各階層の理想状態がわかればアクションが決めやすい
実プロダクトでのSREの始め方 ①プロダクトチーム全体へのコンセプト説明 SREとは?信頼性とは?メリットは?どのように進めるか? バックエンド→開発チーム→プロダクト全体で抽象度を上げる ②導入ステップの設計 コンセプト理解→プロダクト分析(課題抽出)→優先度設定 ③導入フェーズ 例:インシデントルールの整備、CUJの分析、SLO設定…
横断的なSRE推進
横断的なSRE推進への挑戦 組織改善 プロダクト SRE導入 横断的 SRE推進
横断的なSRE推進への挑戦 •プロジェクト単体で進めていることを横断的に展開したい •物理的に全プロダクトへEmbeddedすることは難しい •全体を俯瞰しデータ化することで力点を見極めたい •プロダクト責任者と現状認識をすり合わせておきたい
SRE成熟度評価
•能力成熟度モデル統合をベースに作成 •信頼性の階層等を参考にSREに必要な項目をリスト化 •評価しやすくするために極力シンプルにする •Lv.3を定義するためにSREsは情報を集約する必要性が出てくる
Lv.3ガイドライン
評価をしてみて •まざまざとウィークポイントが明らかになる •中長期的な計画が立てやすくなる •Lv.3の整備が急務 •評価の間隔は3ヶ月〜6ヶ月が良さそう
今後の展望
続・SRE推進 •Lv.3(ベストプラクティス)の作成/ブラッシュアップ •横断的な成熟度改善計画の実行 •改善目標の定量化 •向こう1年でLv.1がほぼない状態を目指す
クラウドネイティブ技術との付き合い方 •CNCFのプロジェクト数は42増えて120に(CNCF Annual Report 2021) •技術選定の自由度とベストプラクティス(標準化)のバランスを 取らないとカオス化が想定される •情報のキャッチアップ速度、精度 •SREsがリードしていける形にしたい
ありがとうございました