Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
Search
ニフティ株式会社
PRO
November 27, 2023
Video
Resources
Technology
0
380
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
ニフティ株式会社
PRO
November 27, 2023
Tweet
Share
Video
Resources
NIFTY Tech Day 2023
https://techday.nifty.co.jp/2023/
More Decks by ニフティ株式会社
See All by ニフティ株式会社
2025-04-25 NIFTY's InnerSource Activites
niftycorp
PRO
0
34
外コミュニティ活動や登壇活動が技術 広報として大事だよ、と改めて周囲に伝 えられた件 - EM Oasis 特別会
niftycorp
PRO
0
40
Dify触ってみた。
niftycorp
PRO
1
170
Amazon Bedrockを使用して、 運用対応を楽にしてみた
niftycorp
PRO
1
160
自社製CMSからの脱却:10件のWebサイト再構築に学ぶ運用重視の技術選定 - NIFTY Tech Day 2025
niftycorp
PRO
0
75
エンジニアの殻を破る:インナーソースと社外活動がもたらした成長 - NIFTY Tech Day 2025
niftycorp
PRO
0
48
システム全体像把握の超高速化〜システム関連図を使い倒そう (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
47
Rust で生成 AI の社内 chatbot をメンテしている話 (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
50
メタバースは仕事に使える?〜100日間でバーチャルオフィスへの挑戦〜 (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
36
Other Decks in Technology
See All in Technology
Would you THINK such a demonstration interesting ?
shumpei3
1
230
生成AIによるCloud Native基盤構築の可能性と実践的ガードレールの敷設について
nwiizo
7
1.1k
Notion x ポストモーテムで広げる組織の学び / Notion x Postmortem
isaoshimizu
1
120
CodePipelineのアクション統合から学ぶAWS CDKの抽象化技術 / codepipeline-actions-cdk-abstraction
gotok365
5
290
エンジニアリングで組織のアウトカムを最速で最大化する!
ham0215
1
160
彩の国で始めよう。おっさんエンジニアから共有したい、当たり前のことを当たり前にする技術
otsuki
0
150
LiteXとオレオレCPUで作る自作SoC奮闘記
msyksphinz
0
740
コスト最適重視でAurora PostgreSQLのログ分析基盤を作ってみた #jawsug_tokyo
non97
1
570
2025-04-24 "Manga AI Understanding & Localization" Furukawa Arata (CyberAgent, Inc)
ornew
2
240
Linuxのパッケージ管理とアップデート基礎知識
go_nishimoto
0
430
AWS全冠芸人が見た世界 ~資格取得より大切なこと~
masakiokuda
5
6.4k
Bazel for Ruby (RubyKaigi 2025)
p0deje
0
110
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.3k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.1k
Unsuck your backbone
ammeep
670
57k
How to Ace a Technical Interview
jacobian
276
23k
Done Done
chrislema
183
16k
The Cult of Friendly URLs
andyhume
78
6.3k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
13
1.4k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Transcript
Copyright ©NIFTY Corporation All Rights Reserved. SRE推進における失敗と成功 〜く"し"け"な"い"〜 会員システムグループ SREチーム 2023-11-18
浅見 則彦
浅見 則彦 / Asami Norihiko • Work ◦ 会員システムグループ /
SREチーム - Tech Lead ◦ SREギルドマスター ◦ NIFTY Tech Talk 運営 • Communiy ◦ AWS community builder | Cloud Operations rubihiko @rubihiko
Copyright © NIFTY Corporation All Rights Reserved. 経緯・歴史 3
AWS PoC・移行〜 2022 2018 2019 2020 2021 AWS移行中〜安定化 SRE推進〜 SRE横展開〜 SRE推進チームができるまで サービス毎のAWS移行が始まる PoC・サービス移行を全員で実施 1サービス単位で移行を進め、 1人大体3〜5サービスを担当する SREを全社的に横展開を進める SLI/SLOの設定、モニタリング、ポスト モーテム、障害対応ロールプレイングな どを中心に、SREアプローチの提案や SREsを増やすための活動を行う 移行も大部分が完了 システム不安定な部分が気になり始める クラウドに適した構成や自動化が求められる 安定化PJを立ち上げシステム安定化を進める。 SRE推進チームの前身となる活動がこれ
2023
重点的に(意識して)取り組んでいる要素 • コミュニケーション • イベント • 環境
〜2023の状況 コミュニケーション • SREチーム人数増える • SREギルド • システム安定化WG • SREs育成
◦ SRE本輪読会 ◦ SLO本輪読会 ◦ クラウドネイティブ勉強会 • Enabling SRE / Embedded SRE • Slack問い合わせ窓口 環境 • SLI/SLO, FourKeys • Production Readiness Checklist • インシデント管理(PagerDuty) イベント • SLO Workshop • ポストモーテム共有会 • AWS GameDay(社内開催) • SRE NEXT協賛
失敗と成功(改善)
コミュニケーション
コミュニケーション・文化醸造 🤨失敗 • 浸透を急かしてしまった • 複数のアプローチを同時に進行 • チーム目標に入れる約束ができな かった •
成熟度の測定が進まなかった 😁改善していきたいこと • 文化浸透はゆっくり確実に • ニフティの文化を尊重する • スクラム実践しているチームでは導 入はスムーズだった • チーム目標に入れてもらう • 成熟度は全体的なものではなく、 チーム毎に決めるべきだった
どの戦略を使った? ボトムアップで進める Embedded (Embedded SRE, Enabling SRE) とConsulting を使っていた https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-h
ow-to-get-started?hl=en どうして? 組織で見るとサービスやシステムが沢山 あるものの、チーム単位でプラットフォー ム、言語、DevOps体制が独立・異なって るため、小さい単位で始め、成功のモデ ルケースを増やしていき浸透させたかっ た
改善
• 上司や上司にお願いして回る • 各チームからSREsを選出してもらう • 横の連携を強くしないといけない • ギルドの体制を整備する 仲間を増やして活動を広げる •
社内の公募制度を活用 ◦ 社内のチームを異動できる制度があります • キャリア採用を活用 SREギルド (各チームSREsの集まり) SRE推進チーム SREチームメンバー増加 / SREギルド結成 / 安定化WG
SREギルド サービスA サービスB サービスC SRE(推進)チーム WG 開発チーム(パートナー) 運用チーム インフラチーム 開発・運用チーム
開発・運用・インフラチーム SREs SREs ※色々な部署のメンバー ※SREsの集まり SREs SREs SREs 技術・戦術支援 ギルド運営 チームで実践 導入支援 全社向けのガイドラインなど発信
地道な活動の継続 Enabling SRE / Embedded SRE / 勉強会 / 問い合わせ窓口
SREアプローチの支援・導入活動、SREsの勉強会をコツコツ続ける、気軽にSREチーム とコミュニケーションができる問い合わせ窓口の整備など
イベント
イベント 🤨失敗 • イベント運営難しい ◦ 盛り上げっているような、いな いような ◦ 参加人数が安定しない ◦
進んでいる感がない • 世の中の動き見てる? 😁改善していきたいこと • 少なくとも自分は盛り上がる(あげ る) • サクラを仕込む • 参加ハードルを下げる ◦ 事前課題などは無し • イベント協賛
改善
イベントを通じて学ぶ SLO Workshop / ポストモーテム共有会 / AWS GameDay(社内開催) / SRE
NEXT協賛 SRE・DevOps・品質に関係したワークショップを開催手を動かして学ぶ AWS様協力のもと、社内GameDay開催し実践しながら学ぶ SRE NEXTでは世の企業の取り組みを知り、広い知見を得てもらう ♥SRE NEXT 2023 🦄社内GameDay
ポストモーテム共有会 みんなで共有にしない ともったいない
ポストモーテム共有会 会員システムG: 51名 サブチーム: 11 くらいのボリューム
環境
環境 🤨失敗 • 導入進捗が2極化 • メリットが伝わっていない • 活用まで行かないケース • 小さく始められない
• インシデント振り返りできていない 😁改善していきたいこと • SREsの育成や支援強化 • メリットを理解する • お客様目線で考えてもらう • 信頼性の価値 • テスト手法などの学習
改善
環境の変化 SLI/SLO / FourKeys / Production Readiness Checklist / PagerDuty
全社的にSLI/SLOを設定していく・活用しましょうという流れ FourKeysも試験的に導入進めています(+SLO) インシデント管理・分析、エスカレーション高速化 e-learning(テスト・障害対応) Udemyのラーニングパスでの学習 UdemyはUdemy, Inc.の商標です
SLI/SLO FourKeys Production Readiness Checklist PagerDuty ※サンプルデータが含まれており、実際の品質を提示するものではありません
まとめ • 文化の浸透は一気に効率よくやろうとすると逆に遅くなる ◦ 変化は少しずつ起こす • 環境への適用 ◦ 導入した、で終わらない体制を整える、改善のサイクルを回す •
成長できる環境を作る ◦ お願いベースではなく、一緒に成長できる環境を用意する • イベント ◦ 不定期よりも定期に継続したほうがよい