Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
Search
ニフティ株式会社
PRO
November 27, 2023
Video
Resources
Technology
0
450
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
ニフティ株式会社
PRO
November 27, 2023
Tweet
Share
Video
Resources
NIFTY Tech Day 2023
https://techday.nifty.co.jp/2023/
More Decks by ニフティ株式会社
See All by ニフティ株式会社
会員管理基盤をオンプレからクラウド移行した時に起きた障害たち - asken tech talk vol.13
niftycorp
PRO
0
2.5k
モニタリング統一への道のり - 分散モニタリングツール統合のためのオブザーバビリティプロジェクト
niftycorp
PRO
1
900
2025-07-08 InnerSource Commons Japan Meetup #14 【OST】チームの壁、ぶっ壊そ!壁の乗り越え方、一緒に考えよう!
niftycorp
PRO
0
92
2025-04-25 NIFTY's InnerSource Activites
niftycorp
PRO
0
310
外コミュニティ活動や登壇活動が技術 広報として大事だよ、と改めて周囲に伝 えられた件 - EM Oasis 特別会
niftycorp
PRO
0
190
Dify触ってみた。
niftycorp
PRO
1
290
Amazon Bedrockを使用して、 運用対応を楽にしてみた
niftycorp
PRO
1
300
自社製CMSからの脱却:10件のWebサイト再構築に学ぶ運用重視の技術選定 - NIFTY Tech Day 2025
niftycorp
PRO
0
140
エンジニアの殻を破る:インナーソースと社外活動がもたらした成長 - NIFTY Tech Day 2025
niftycorp
PRO
0
110
Other Decks in Technology
See All in Technology
Implementing and Evaluating a High-Level Language with WasmGC and the Wasm Component Model: Scala’s Case
tanishiking
0
110
生成AI時代のセキュアコーディングとDevSecOps
yuriemori
0
120
Geospatialの世界最前線を探る [2025年版]
dayjournal
1
240
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
それでも私が品質保証プロセスを作り続ける理由 #テストラジオ / Why I still continue to create QA process
pineapplecandy
0
130
ガバメントクラウドの概要と自治体事例(名古屋市)
techniczna
3
240
なぜAWSを活かしきれないのか?技術と組織への処方箋
nrinetcom
PRO
5
970
OAuthからOIDCへ ― 認可の仕組みが認証に拡張されるまで
yamatai1212
0
130
FinOps について (ちょっと) 本気出して考えてみた
skmkzyk
0
100
AI Agent Dojo #2 watsonx Orchestrateフローの作成
oniak3ibm
PRO
0
130
新規事業におけるGORM+SQLx併用アーキテクチャ
hacomono
PRO
0
330
「使い方教えて」「事例教えて」じゃもう遅い! Microsoft 365 Copilot を触り倒そう!
taichinakamura
0
430
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Done Done
chrislema
185
16k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
A better future with KSS
kneath
239
18k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
KATA
mclloyd
PRO
32
15k
Fireside Chat
paigeccino
40
3.7k
The Invisible Side of Design
smashingmag
302
51k
Code Review Best Practice
trishagee
72
19k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Transcript
Copyright ©NIFTY Corporation All Rights Reserved. SRE推進における失敗と成功 〜く"し"け"な"い"〜 会員システムグループ SREチーム 2023-11-18
浅見 則彦
浅見 則彦 / Asami Norihiko • Work ◦ 会員システムグループ /
SREチーム - Tech Lead ◦ SREギルドマスター ◦ NIFTY Tech Talk 運営 • Communiy ◦ AWS community builder | Cloud Operations rubihiko @rubihiko
Copyright © NIFTY Corporation All Rights Reserved. 経緯・歴史 3
AWS PoC・移行〜 2022 2018 2019 2020 2021 AWS移行中〜安定化 SRE推進〜 SRE横展開〜 SRE推進チームができるまで サービス毎のAWS移行が始まる PoC・サービス移行を全員で実施 1サービス単位で移行を進め、 1人大体3〜5サービスを担当する SREを全社的に横展開を進める SLI/SLOの設定、モニタリング、ポスト モーテム、障害対応ロールプレイングな どを中心に、SREアプローチの提案や SREsを増やすための活動を行う 移行も大部分が完了 システム不安定な部分が気になり始める クラウドに適した構成や自動化が求められる 安定化PJを立ち上げシステム安定化を進める。 SRE推進チームの前身となる活動がこれ
2023
重点的に(意識して)取り組んでいる要素 • コミュニケーション • イベント • 環境
〜2023の状況 コミュニケーション • SREチーム人数増える • SREギルド • システム安定化WG • SREs育成
◦ SRE本輪読会 ◦ SLO本輪読会 ◦ クラウドネイティブ勉強会 • Enabling SRE / Embedded SRE • Slack問い合わせ窓口 環境 • SLI/SLO, FourKeys • Production Readiness Checklist • インシデント管理(PagerDuty) イベント • SLO Workshop • ポストモーテム共有会 • AWS GameDay(社内開催) • SRE NEXT協賛
失敗と成功(改善)
コミュニケーション
コミュニケーション・文化醸造 🤨失敗 • 浸透を急かしてしまった • 複数のアプローチを同時に進行 • チーム目標に入れる約束ができな かった •
成熟度の測定が進まなかった 😁改善していきたいこと • 文化浸透はゆっくり確実に • ニフティの文化を尊重する • スクラム実践しているチームでは導 入はスムーズだった • チーム目標に入れてもらう • 成熟度は全体的なものではなく、 チーム毎に決めるべきだった
どの戦略を使った? ボトムアップで進める Embedded (Embedded SRE, Enabling SRE) とConsulting を使っていた https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-h
ow-to-get-started?hl=en どうして? 組織で見るとサービスやシステムが沢山 あるものの、チーム単位でプラットフォー ム、言語、DevOps体制が独立・異なって るため、小さい単位で始め、成功のモデ ルケースを増やしていき浸透させたかっ た
改善
• 上司や上司にお願いして回る • 各チームからSREsを選出してもらう • 横の連携を強くしないといけない • ギルドの体制を整備する 仲間を増やして活動を広げる •
社内の公募制度を活用 ◦ 社内のチームを異動できる制度があります • キャリア採用を活用 SREギルド (各チームSREsの集まり) SRE推進チーム SREチームメンバー増加 / SREギルド結成 / 安定化WG
SREギルド サービスA サービスB サービスC SRE(推進)チーム WG 開発チーム(パートナー) 運用チーム インフラチーム 開発・運用チーム
開発・運用・インフラチーム SREs SREs ※色々な部署のメンバー ※SREsの集まり SREs SREs SREs 技術・戦術支援 ギルド運営 チームで実践 導入支援 全社向けのガイドラインなど発信
地道な活動の継続 Enabling SRE / Embedded SRE / 勉強会 / 問い合わせ窓口
SREアプローチの支援・導入活動、SREsの勉強会をコツコツ続ける、気軽にSREチーム とコミュニケーションができる問い合わせ窓口の整備など
イベント
イベント 🤨失敗 • イベント運営難しい ◦ 盛り上げっているような、いな いような ◦ 参加人数が安定しない ◦
進んでいる感がない • 世の中の動き見てる? 😁改善していきたいこと • 少なくとも自分は盛り上がる(あげ る) • サクラを仕込む • 参加ハードルを下げる ◦ 事前課題などは無し • イベント協賛
改善
イベントを通じて学ぶ SLO Workshop / ポストモーテム共有会 / AWS GameDay(社内開催) / SRE
NEXT協賛 SRE・DevOps・品質に関係したワークショップを開催手を動かして学ぶ AWS様協力のもと、社内GameDay開催し実践しながら学ぶ SRE NEXTでは世の企業の取り組みを知り、広い知見を得てもらう ♥SRE NEXT 2023 🦄社内GameDay
ポストモーテム共有会 みんなで共有にしない ともったいない
ポストモーテム共有会 会員システムG: 51名 サブチーム: 11 くらいのボリューム
環境
環境 🤨失敗 • 導入進捗が2極化 • メリットが伝わっていない • 活用まで行かないケース • 小さく始められない
• インシデント振り返りできていない 😁改善していきたいこと • SREsの育成や支援強化 • メリットを理解する • お客様目線で考えてもらう • 信頼性の価値 • テスト手法などの学習
改善
環境の変化 SLI/SLO / FourKeys / Production Readiness Checklist / PagerDuty
全社的にSLI/SLOを設定していく・活用しましょうという流れ FourKeysも試験的に導入進めています(+SLO) インシデント管理・分析、エスカレーション高速化 e-learning(テスト・障害対応) Udemyのラーニングパスでの学習 UdemyはUdemy, Inc.の商標です
SLI/SLO FourKeys Production Readiness Checklist PagerDuty ※サンプルデータが含まれており、実際の品質を提示するものではありません
まとめ • 文化の浸透は一気に効率よくやろうとすると逆に遅くなる ◦ 変化は少しずつ起こす • 環境への適用 ◦ 導入した、で終わらない体制を整える、改善のサイクルを回す •
成長できる環境を作る ◦ お願いベースではなく、一緒に成長できる環境を用意する • イベント ◦ 不定期よりも定期に継続したほうがよい