$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
Search
ニフティ株式会社
PRO
November 27, 2023
Video
Resources
Technology
0
460
SRE推進における失敗と成功 〜く"し"け"な"い"〜 - NIFTY Tech Day 2023
ニフティ株式会社
PRO
November 27, 2023
Tweet
Share
Video
Resources
NIFTY Tech Day 2023
https://techday.nifty.co.jp/2023/
More Decks by ニフティ株式会社
See All by ニフティ株式会社
なぜISPでオリジナルカードゲームを作ったのか?制作者と対談 - NIFTY Tech Talk #25
niftycorp
PRO
0
32
「なぜかネットが遅い」を“見える化”する 〜マイ ニフティが繋ぐサポートと暮らし〜 - NIKKEI Tech Talk #39
niftycorp
PRO
0
98
InnerSource Summit 2025 Three points that promoted innersource activities
niftycorp
PRO
0
30
Maker Faire Tokyo 2025 出展うらばなし - NIFTY Tech Talk #25
niftycorp
PRO
0
69
Private Status Pageの設定と活用 〜インシデントレスポンスへの活用とStatus Page運用をどうするか?〜
niftycorp
PRO
0
97
ニフティのPagerDuty活用状況
niftycorp
PRO
0
110
会員管理基盤をオンプレからクラウド移行した時に起きた障害たち - asken tech talk vol.13
niftycorp
PRO
0
2.6k
モニタリング統一への道のり - 分散モニタリングツール統合のためのオブザーバビリティプロジェクト
niftycorp
PRO
1
970
2025-07-08 InnerSource Commons Japan Meetup #14 【OST】チームの壁、ぶっ壊そ!壁の乗り越え方、一緒に考えよう!
niftycorp
PRO
0
100
Other Decks in Technology
See All in Technology
Oracle Cloud Infrastructure:2025年11月度サービス・アップデート
oracle4engineer
PRO
1
120
モバイルゲーム開発におけるエージェント技術活用への試行錯誤 ~開発効率化へのアプローチの紹介と未来に向けた展望~
qualiarts
0
310
pmconf2025 - データを活用し「価値」へ繋げる
glorypulse
0
460
バグハンター視点によるサプライチェーンの脆弱性
scgajge12
2
510
Symfony AI in Action
el_stoffel
2
370
freeeにおけるファンクションを超えた一気通貫でのAI活用
jaxx2104
3
800
A Compass of Thought: Guiding the Future of Test Automation ( #jassttokai25 , #jassttokai )
teyamagu
PRO
1
200
手動から自動へ、そしてその先へ
moritamasami
0
200
AI 時代のデータ戦略
na0
8
3.3k
M5UnifiedとPicoRubyで楽しむM5シリーズ
kishima
0
120
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
37k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
0
120
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
Mobile First: as difficult as doing things right
swwweet
225
10k
Building Flexible Design Systems
yeseniaperezcruz
329
39k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
It's Worth the Effort
3n
187
29k
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
Typedesign – Prime Four
hannesfritz
42
2.9k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
Transcript
Copyright ©NIFTY Corporation All Rights Reserved. SRE推進における失敗と成功 〜く"し"け"な"い"〜 会員システムグループ SREチーム 2023-11-18
浅見 則彦
浅見 則彦 / Asami Norihiko • Work ◦ 会員システムグループ /
SREチーム - Tech Lead ◦ SREギルドマスター ◦ NIFTY Tech Talk 運営 • Communiy ◦ AWS community builder | Cloud Operations rubihiko @rubihiko
Copyright © NIFTY Corporation All Rights Reserved. 経緯・歴史 3
AWS PoC・移行〜 2022 2018 2019 2020 2021 AWS移行中〜安定化 SRE推進〜 SRE横展開〜 SRE推進チームができるまで サービス毎のAWS移行が始まる PoC・サービス移行を全員で実施 1サービス単位で移行を進め、 1人大体3〜5サービスを担当する SREを全社的に横展開を進める SLI/SLOの設定、モニタリング、ポスト モーテム、障害対応ロールプレイングな どを中心に、SREアプローチの提案や SREsを増やすための活動を行う 移行も大部分が完了 システム不安定な部分が気になり始める クラウドに適した構成や自動化が求められる 安定化PJを立ち上げシステム安定化を進める。 SRE推進チームの前身となる活動がこれ
2023
重点的に(意識して)取り組んでいる要素 • コミュニケーション • イベント • 環境
〜2023の状況 コミュニケーション • SREチーム人数増える • SREギルド • システム安定化WG • SREs育成
◦ SRE本輪読会 ◦ SLO本輪読会 ◦ クラウドネイティブ勉強会 • Enabling SRE / Embedded SRE • Slack問い合わせ窓口 環境 • SLI/SLO, FourKeys • Production Readiness Checklist • インシデント管理(PagerDuty) イベント • SLO Workshop • ポストモーテム共有会 • AWS GameDay(社内開催) • SRE NEXT協賛
失敗と成功(改善)
コミュニケーション
コミュニケーション・文化醸造 🤨失敗 • 浸透を急かしてしまった • 複数のアプローチを同時に進行 • チーム目標に入れる約束ができな かった •
成熟度の測定が進まなかった 😁改善していきたいこと • 文化浸透はゆっくり確実に • ニフティの文化を尊重する • スクラム実践しているチームでは導 入はスムーズだった • チーム目標に入れてもらう • 成熟度は全体的なものではなく、 チーム毎に決めるべきだった
どの戦略を使った? ボトムアップで進める Embedded (Embedded SRE, Enabling SRE) とConsulting を使っていた https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-h
ow-to-get-started?hl=en どうして? 組織で見るとサービスやシステムが沢山 あるものの、チーム単位でプラットフォー ム、言語、DevOps体制が独立・異なって るため、小さい単位で始め、成功のモデ ルケースを増やしていき浸透させたかっ た
改善
• 上司や上司にお願いして回る • 各チームからSREsを選出してもらう • 横の連携を強くしないといけない • ギルドの体制を整備する 仲間を増やして活動を広げる •
社内の公募制度を活用 ◦ 社内のチームを異動できる制度があります • キャリア採用を活用 SREギルド (各チームSREsの集まり) SRE推進チーム SREチームメンバー増加 / SREギルド結成 / 安定化WG
SREギルド サービスA サービスB サービスC SRE(推進)チーム WG 開発チーム(パートナー) 運用チーム インフラチーム 開発・運用チーム
開発・運用・インフラチーム SREs SREs ※色々な部署のメンバー ※SREsの集まり SREs SREs SREs 技術・戦術支援 ギルド運営 チームで実践 導入支援 全社向けのガイドラインなど発信
地道な活動の継続 Enabling SRE / Embedded SRE / 勉強会 / 問い合わせ窓口
SREアプローチの支援・導入活動、SREsの勉強会をコツコツ続ける、気軽にSREチーム とコミュニケーションができる問い合わせ窓口の整備など
イベント
イベント 🤨失敗 • イベント運営難しい ◦ 盛り上げっているような、いな いような ◦ 参加人数が安定しない ◦
進んでいる感がない • 世の中の動き見てる? 😁改善していきたいこと • 少なくとも自分は盛り上がる(あげ る) • サクラを仕込む • 参加ハードルを下げる ◦ 事前課題などは無し • イベント協賛
改善
イベントを通じて学ぶ SLO Workshop / ポストモーテム共有会 / AWS GameDay(社内開催) / SRE
NEXT協賛 SRE・DevOps・品質に関係したワークショップを開催手を動かして学ぶ AWS様協力のもと、社内GameDay開催し実践しながら学ぶ SRE NEXTでは世の企業の取り組みを知り、広い知見を得てもらう ♥SRE NEXT 2023 🦄社内GameDay
ポストモーテム共有会 みんなで共有にしない ともったいない
ポストモーテム共有会 会員システムG: 51名 サブチーム: 11 くらいのボリューム
環境
環境 🤨失敗 • 導入進捗が2極化 • メリットが伝わっていない • 活用まで行かないケース • 小さく始められない
• インシデント振り返りできていない 😁改善していきたいこと • SREsの育成や支援強化 • メリットを理解する • お客様目線で考えてもらう • 信頼性の価値 • テスト手法などの学習
改善
環境の変化 SLI/SLO / FourKeys / Production Readiness Checklist / PagerDuty
全社的にSLI/SLOを設定していく・活用しましょうという流れ FourKeysも試験的に導入進めています(+SLO) インシデント管理・分析、エスカレーション高速化 e-learning(テスト・障害対応) Udemyのラーニングパスでの学習 UdemyはUdemy, Inc.の商標です
SLI/SLO FourKeys Production Readiness Checklist PagerDuty ※サンプルデータが含まれており、実際の品質を提示するものではありません
まとめ • 文化の浸透は一気に効率よくやろうとすると逆に遅くなる ◦ 変化は少しずつ起こす • 環境への適用 ◦ 導入した、で終わらない体制を整える、改善のサイクルを回す •
成長できる環境を作る ◦ お願いベースではなく、一緒に成長できる環境を用意する • イベント ◦ 不定期よりも定期に継続したほうがよい