Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
横断的なSRE推進と成熟度評価
Search
Ryosuke Suto
March 12, 2022
Technology
8.7k
9
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
横断的なSRE推進と成熟度評価
Ryosuke Suto
March 12, 2022
More Decks by Ryosuke Suto
See All by Ryosuke Suto
GKEを利用したサービスの運用
strsk8
1
700
パブリック/プライベートクラウドでつかうKubernetes
strsk8
1
2.5k
GKE@AbemaTV
strsk8
12
9.7k
re:Invent2015参加レポ
strsk8
0
350
成長し続けるインフラの安定運用事情
strsk8
19
5.3k
ソーシャルゲームDBの危機回避
strsk8
10
15k
Other Decks in Technology
See All in Technology
2026.06.13_AI時代に事業会社が「SIer出身エンジニア」を求める理由 / Why Businesses Seek Engineers with a System Integrator Background in the AI Era
jumtech
0
1k
Amazon Bedrock AgentCore ワークショップ JAWS UG TOHOKU / amazon-bedrock-agentcore-workshop-jawsug-tohoku-2026
gawa
9
610
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
1.3k
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
680
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
580
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
1.2k
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
600
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
19
6.4k
Agent Skills設計で柔軟性と硬さのバランスが難しい話
nassy20
0
110
フロンティアAIのゲート化と地政学リスク
nagatsu
0
110
新しいVibe Codingと”自走”について
watany
5
290
データサイエンスを価値につなげるプロジェクト設計 〜 DS一年目が現場で得た気づき 〜
ysd113
1
120
Featured
See All Featured
Balancing Empowerment & Direction
lara
6
1.2k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Exploring anti-patterns in Rails
aemeredith
3
400
Building AI with AI
inesmontani
PRO
1
1.1k
Paper Plane
katiecoart
PRO
1
51k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Transcript
横断的なSRE推進と成熟度評価 SRE Promotion & Maturity Assessment Ryosuke Suto
須藤 涼介/Ryosuke Suto •Service Reliability Group(SRG) - Manager •勤続16年 •CA麻雀部(A1)
今日話すこと 組織改善 プロダクト SRE導入 横断的 SRE推進 • インフラ→SREs変化 • SREsとしての職務
• SREの定義 • SREのススメ方 • SRE成熟度評価 • 今後の展望
1.プロダクトチームとSREs 2.インフラチーム→SREsになるまで 3.SREを組織としてどう捉えるか 4.横断的なSRE推進 5.今後の展望
表記の注意 •SRE Site Reliability Engineering 職種ではなく一連の概念の総称 •SREs 概念ではなく職種 この記事内ではSRGのメンバーや組織を表す
プロダクトチームとSREs
メディア事業
Ameba Product A Product B Product C AWA Pigg CL
Hayabusa SREs ・DC移設 ・負荷対策 ・アラート改善 ・SLI/SLO設定 ・インシデント対応の改善 ・アラート改善 ・ベストプラクティスの開発と展開 ・SRE ・クラウドネイティブ ・DB、監視、その他… Embedded SRE Embedded SRE SRE Center of Practice Project Project ※一部の例であり、実際はこれと異なる部分もあります。 Project : 半期ごとに各開発チームと対話し更新する プロダクトチームとの関わり方 12名
インフラチーム→SREsになるまで
インフラチーム時代の関わり方 組織改善 プロダクト SRE導入 横断的 SRE推進
インフラチーム時代の関わり方 •メディア全プロダクトの運用を全員が兼務でカバー 認知負荷MAX 運用の差し込みで1日が終了 Joinしているアラート用チャンネルの多さに疲弊or麻痺 •各チームごとに独立した活動 チーム内のプロダクトで手いっぱい 技術的なシナジーが生み出しづらい
担当制の廃止 •基礎的な運用はプロダクトチームにエスカレーション やらなくなったこと(基礎的な運用) ・スケーリングや既存アーキテクチャへの新規構築(専門性Low) ・オンコール やること(ニーズベース) ・アーキテクチャの初期設計やIaCのベース提供 ・運用プラクティスの改善 ・パフォーマンスチューニングや負荷対策 ・SRE導入
プロジェクト制の導入 •半年ごとにニーズをヒアリングしプロジェクト化 担当制だと不明瞭だったコミットメントが明確になる システム責任者にも運用面の課題を考えてもらうきっかけになる SREsを流動的に配置できる プロダクト側とのコミュニケーションが希薄にならない
プロジェクトライフサイクル プロジェクト 合意 定期的な 進捗報告 プロジェクト 開始 期末報告 プロダクトFB プロジェクト
完了 メンバーアサイン プロジェクト更新 6ヶ月
職務の明確化とワーキンググループ •Embedded SREs 担当プロダクトの信頼性改善におけるリーダーシップの発揮 SRE導入 プロジェクトのミッション遂行 •SRE Center of Practice
横断的事業課題解決における技術的専門性の発揮 ベストプラクティスの開発(手法、ツール含む) ワーキンググループでの横断的課題発見、解決 現在はDBと運用監視のワーキンググループを運用中
SREを組織としてどう捉えるか
SREを組織としてどう捉えるか 組織改善 プロダクト SRE導入 横断的 SRE推進
SREという言葉の曖昧さ •組織内で統一された認識がない Ω「言葉だけは知ってます」 Ω「ソフトウェアエンジニアに運用チームの設計を…?」 Ω「SREsがなんかええ感じにやってくれるやつ」 •何から手を付けていいかわからない(プラクティスが多い) Ω「とりあえずAPIのレイテンシー全部測ればいいんだっけ?」 Ω「最近障害が多いから改善したい…が…?」
この組織の「SRE」定義する •SREとは信頼性を機能として扱うためのプラクティスや組織文化 •と信頼性を直接的/間接的に改善していくためのプラクティス •SREsはSREを推進するための役割でSREを実行する役割ではない •SREsはプロダクトチームにSREをインストールする
自分たちの現在地を知る •目標を設定するにはまず現在地を知る必要がある •何から始めるべきか議論がしやすい •各階層の理想状態がわかればアクションが決めやすい
実プロダクトでのSREの始め方 ①プロダクトチーム全体へのコンセプト説明 SREとは?信頼性とは?メリットは?どのように進めるか? バックエンド→開発チーム→プロダクト全体で抽象度を上げる ②導入ステップの設計 コンセプト理解→プロダクト分析(課題抽出)→優先度設定 ③導入フェーズ 例:インシデントルールの整備、CUJの分析、SLO設定…
横断的なSRE推進
横断的なSRE推進への挑戦 組織改善 プロダクト SRE導入 横断的 SRE推進
横断的なSRE推進への挑戦 •プロジェクト単体で進めていることを横断的に展開したい •物理的に全プロダクトへEmbeddedすることは難しい •全体を俯瞰しデータ化することで力点を見極めたい •プロダクト責任者と現状認識をすり合わせておきたい
SRE成熟度評価
•能力成熟度モデル統合をベースに作成 •信頼性の階層等を参考にSREに必要な項目をリスト化 •評価しやすくするために極力シンプルにする •Lv.3を定義するためにSREsは情報を集約する必要性が出てくる
Lv.3ガイドライン
評価をしてみて •まざまざとウィークポイントが明らかになる •中長期的な計画が立てやすくなる •Lv.3の整備が急務 •評価の間隔は3ヶ月〜6ヶ月が良さそう
今後の展望
続・SRE推進 •Lv.3(ベストプラクティス)の作成/ブラッシュアップ •横断的な成熟度改善計画の実行 •改善目標の定量化 •向こう1年でLv.1がほぼない状態を目指す
クラウドネイティブ技術との付き合い方 •CNCFのプロジェクト数は42増えて120に(CNCF Annual Report 2021) •技術選定の自由度とベストプラクティス(標準化)のバランスを 取らないとカオス化が想定される •情報のキャッチアップ速度、精度 •SREsがリードしていける形にしたい
ありがとうございました