Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
Search
ニフティ株式会社
PRO
November 27, 2023
Video
Resources
Technology
0
410
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
ニフティ株式会社
PRO
November 27, 2023
Tweet
Share
Video
Resources
NIFTY Tech Day 2023
https://techday.nifty.co.jp/2023/
More Decks by ニフティ株式会社
See All by ニフティ株式会社
2025-04-25 NIFTY's InnerSource Activites
niftycorp
PRO
0
230
外コミュニティ活動や登壇活動が技術 広報として大事だよ、と改めて周囲に伝 えられた件 - EM Oasis 特別会
niftycorp
PRO
0
110
Dify触ってみた。
niftycorp
PRO
1
220
Amazon Bedrockを使用して、 運用対応を楽にしてみた
niftycorp
PRO
1
240
自社製CMSからの脱却:10件のWebサイト再構築に学ぶ運用重視の技術選定 - NIFTY Tech Day 2025
niftycorp
PRO
0
110
エンジニアの殻を破る:インナーソースと社外活動がもたらした成長 - NIFTY Tech Day 2025
niftycorp
PRO
0
77
システム全体像把握の超高速化〜システム関連図を使い倒そう (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
75
Rust で生成 AI の社内 chatbot をメンテしている話 (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
82
メタバースは仕事に使える?〜100日間でバーチャルオフィスへの挑戦〜 (LT) - NIFTY Tech Day 2025
niftycorp
PRO
0
71
Other Decks in Technology
See All in Technology
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
27k
第4回Snowflake 金融ユーザー会 Snowflake summit recap
tamaoki
1
240
使いたいMCPサーバーはWeb APIをラップして自分で作る #QiitaBash
bengo4com
0
1.6k
PO初心者が考えた ”POらしさ”
nb_rady
0
190
Lufthansa ®️ USA Contact Numbers: Complete 2025 Support Guide
lufthanahelpsupport
0
140
KubeCon + CloudNativeCon Japan 2025 Recap by CA
ponkio_o
PRO
0
290
Tokyo_reInforce_2025_recap_iam_access_analyzer
hiashisan
0
180
プライベートクラウドでの効率的な証明書配布戦略 / Efficient Certificate Distribution Strategy in Private Cloud
lycorptech_jp
PRO
0
110
成長し続けるアプリのためのテストと設計の関係、そして意思決定の記録。
sansantech
PRO
0
100
AWS認定を取る中で感じたこと
siromi
1
180
面倒な作業はAIにおまかせ。Flutter開発をスマートに効率化
ruideengineer
0
210
ビズリーチにおけるリアーキテクティング実践事例 / JJUG CCC 2025 Spring
visional_engineering_and_design
1
110
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
462
33k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
How GitHub (no longer) Works
holman
314
140k
We Have a Design System, Now What?
morganepeng
53
7.7k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Visualization
eitanlees
146
16k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
53k
The Language of Interfaces
destraynor
158
25k
GraphQLとの向き合い方2022年版
quramy
49
14k
KATA
mclloyd
30
14k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
Copyright ©NIFTY Corporation All Rights Reserved. SRE推進における失敗と成功 〜く"し"け"な"い"〜 会員システムグループ SREチーム 2023-11-18
浅見 則彦
浅見 則彦 / Asami Norihiko • Work ◦ 会員システムグループ /
SREチーム - Tech Lead ◦ SREギルドマスター ◦ NIFTY Tech Talk 運営 • Communiy ◦ AWS community builder | Cloud Operations rubihiko @rubihiko
Copyright © NIFTY Corporation All Rights Reserved. 経緯・歴史 3
AWS PoC・移行〜 2022 2018 2019 2020 2021 AWS移行中〜安定化 SRE推進〜 SRE横展開〜 SRE推進チームができるまで サービス毎のAWS移行が始まる PoC・サービス移行を全員で実施 1サービス単位で移行を進め、 1人大体3〜5サービスを担当する SREを全社的に横展開を進める SLI/SLOの設定、モニタリング、ポスト モーテム、障害対応ロールプレイングな どを中心に、SREアプローチの提案や SREsを増やすための活動を行う 移行も大部分が完了 システム不安定な部分が気になり始める クラウドに適した構成や自動化が求められる 安定化PJを立ち上げシステム安定化を進める。 SRE推進チームの前身となる活動がこれ
2023
重点的に(意識して)取り組んでいる要素 • コミュニケーション • イベント • 環境
〜2023の状況 コミュニケーション • SREチーム人数増える • SREギルド • システム安定化WG • SREs育成
◦ SRE本輪読会 ◦ SLO本輪読会 ◦ クラウドネイティブ勉強会 • Enabling SRE / Embedded SRE • Slack問い合わせ窓口 環境 • SLI/SLO, FourKeys • Production Readiness Checklist • インシデント管理(PagerDuty) イベント • SLO Workshop • ポストモーテム共有会 • AWS GameDay(社内開催) • SRE NEXT協賛
失敗と成功(改善)
コミュニケーション
コミュニケーション・文化醸造 🤨失敗 • 浸透を急かしてしまった • 複数のアプローチを同時に進行 • チーム目標に入れる約束ができな かった •
成熟度の測定が進まなかった 😁改善していきたいこと • 文化浸透はゆっくり確実に • ニフティの文化を尊重する • スクラム実践しているチームでは導 入はスムーズだった • チーム目標に入れてもらう • 成熟度は全体的なものではなく、 チーム毎に決めるべきだった
どの戦略を使った? ボトムアップで進める Embedded (Embedded SRE, Enabling SRE) とConsulting を使っていた https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-h
ow-to-get-started?hl=en どうして? 組織で見るとサービスやシステムが沢山 あるものの、チーム単位でプラットフォー ム、言語、DevOps体制が独立・異なって るため、小さい単位で始め、成功のモデ ルケースを増やしていき浸透させたかっ た
改善
• 上司や上司にお願いして回る • 各チームからSREsを選出してもらう • 横の連携を強くしないといけない • ギルドの体制を整備する 仲間を増やして活動を広げる •
社内の公募制度を活用 ◦ 社内のチームを異動できる制度があります • キャリア採用を活用 SREギルド (各チームSREsの集まり) SRE推進チーム SREチームメンバー増加 / SREギルド結成 / 安定化WG
SREギルド サービスA サービスB サービスC SRE(推進)チーム WG 開発チーム(パートナー) 運用チーム インフラチーム 開発・運用チーム
開発・運用・インフラチーム SREs SREs ※色々な部署のメンバー ※SREsの集まり SREs SREs SREs 技術・戦術支援 ギルド運営 チームで実践 導入支援 全社向けのガイドラインなど発信
地道な活動の継続 Enabling SRE / Embedded SRE / 勉強会 / 問い合わせ窓口
SREアプローチの支援・導入活動、SREsの勉強会をコツコツ続ける、気軽にSREチーム とコミュニケーションができる問い合わせ窓口の整備など
イベント
イベント 🤨失敗 • イベント運営難しい ◦ 盛り上げっているような、いな いような ◦ 参加人数が安定しない ◦
進んでいる感がない • 世の中の動き見てる? 😁改善していきたいこと • 少なくとも自分は盛り上がる(あげ る) • サクラを仕込む • 参加ハードルを下げる ◦ 事前課題などは無し • イベント協賛
改善
イベントを通じて学ぶ SLO Workshop / ポストモーテム共有会 / AWS GameDay(社内開催) / SRE
NEXT協賛 SRE・DevOps・品質に関係したワークショップを開催手を動かして学ぶ AWS様協力のもと、社内GameDay開催し実践しながら学ぶ SRE NEXTでは世の企業の取り組みを知り、広い知見を得てもらう ♥SRE NEXT 2023 🦄社内GameDay
ポストモーテム共有会 みんなで共有にしない ともったいない
ポストモーテム共有会 会員システムG: 51名 サブチーム: 11 くらいのボリューム
環境
環境 🤨失敗 • 導入進捗が2極化 • メリットが伝わっていない • 活用まで行かないケース • 小さく始められない
• インシデント振り返りできていない 😁改善していきたいこと • SREsの育成や支援強化 • メリットを理解する • お客様目線で考えてもらう • 信頼性の価値 • テスト手法などの学習
改善
環境の変化 SLI/SLO / FourKeys / Production Readiness Checklist / PagerDuty
全社的にSLI/SLOを設定していく・活用しましょうという流れ FourKeysも試験的に導入進めています(+SLO) インシデント管理・分析、エスカレーション高速化 e-learning(テスト・障害対応) Udemyのラーニングパスでの学習 UdemyはUdemy, Inc.の商標です
SLI/SLO FourKeys Production Readiness Checklist PagerDuty ※サンプルデータが含まれており、実際の品質を提示するものではありません
まとめ • 文化の浸透は一気に効率よくやろうとすると逆に遅くなる ◦ 変化は少しずつ起こす • 環境への適用 ◦ 導入した、で終わらない体制を整える、改善のサイクルを回す •
成長できる環境を作る ◦ お願いベースではなく、一緒に成長できる環境を用意する • イベント ◦ 不定期よりも定期に継続したほうがよい