Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから1年の取り組みとこれからの課題
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Tech Leverages
August 25, 2024
Technology
1
5.1k
SREチームの立ち上げから1年の取り組みとこれからの課題
# SRE meetup 〜サービス事業会社のSREが向き合う課題〜
レバレジーズ(株) / 金澤 伸行 SREチームの立ち上げから1年の取り組みとこれからの課題
Tech Leverages
August 25, 2024
Tweet
Share
More Decks by Tech Leverages
See All by Tech Leverages
Google ADKのSub Agentを Agentic Workflowに移行し、 遷移成功率を改善した話
leveragestech
0
43
ハッカソンから社内プロダクトへ AIエージェント ko☆shi 開発で学んだ4つの重要要素
leveragestech
0
1.4k
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
1.6k
ディメンショナルモデリングを採用してない組織がモデリング本を通じて得られたこと
leveragestech
0
1.5k
レバレジーズのLangfuse活用事例
leveragestech
0
1.4k
CloudComposerによる大規模ETL 「制御と実行の分離」の実践
leveragestech
0
1.7k
「ELT職人」から卒業!Fivetranでデータパイプラインの構築・運用から解放され、 本来の価値創造に集中できる ようになった事例
leveragestech
0
1.4k
SpecKitでどこまでできる? コストはどれくらい?
leveragestech
2
4.6k
未来を拓くAI技術〜エージェント開発とAI駆動開発〜
leveragestech
2
330
Other Decks in Technology
See All in Technology
Cosmos World Foundation Model Platform for Physical AI
takmin
0
980
Context Engineeringの取り組み
nutslove
0
380
Tebiki Engineering Team Deck
tebiki
0
24k
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.6k
[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)
abemii
0
150
Agent Skils
dip_tech
PRO
0
140
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.6k
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
Bedrock PolicyでAmazon Bedrock Guardrails利用を強制してみた
yuu551
0
260
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
480
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
390
生成AIと余白 〜開発スピードが向上した今、何に向き合う?〜
kakehashi
PRO
0
170
Featured
See All Featured
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
90
Navigating Team Friction
lara
192
16k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Utilizing Notion as your number one productivity tool
mfonobong
3
220
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
310
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Mind Mapping
helmedeiros
PRO
0
90
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
68
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Become a Pro
speakerdeck
PRO
31
5.8k
Transcript
SREチームの立ち上げ から1年の取り組みと これからの課題 レバレジーズ株式会社 システム本部 / レバテック開発部 / レバテックSRE 金澤伸行
| © 2024 Levtech Co., Ltd. 2 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 海外サッカーとピザが好きです 最近サイクリングにハマりました 実は初の外部登壇で緊張しています
| © 2024 Levtech Co., Ltd. 3 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 ここでの取り組みについてお話します!
| © 2024 Levtech Co., Ltd. 4 事業ポートフォリオ レバテックについて エージェント プログラミング
スクール コンテンツ メディア プラット フォーム ダイレクト リクルーティング ITエンジニア・クリエイターの フリーランス・転職・就職・教育の すべてを備える採用プラットフォーム エージェントを中心に、求人媒体、 プログラミング教育まで IT専門職のキャリアを厚くサポート。
| © 2024 Levtech Co., Ltd. 5 1. SREチーム立ち上げ前のお話 2. EmbeddedSRE
3. レバテック開発部SREチーム発足 4. 1年間の成果 5. これからの課題 目次 INDEX
SREチーム立ち上げ前のお話・・・
| © 2024 Levtech Co., Ltd. 7 実は・・・ SREチーム立ち上げ前のお話・・・ SREチームは既に存在していました
| © 2024 Levtech Co., Ltd. 8 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 9 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部 MySQLのバージョンアップ メンテナンス 障害対応 障害対応 メンテナンス MySQLのバージョンアップ
| © 2024 Levtech Co., Ltd. 10 お悩み SREチーム立ち上げ前のお話・・・ サービスの規模拡大にともない各開発部も抱えるシステムが増え、社内 全てのサービスをSREだけで管理することが難しくなっていった
| © 2024 Levtech Co., Ltd. 11 お悩み SREチーム立ち上げ前のお話・・・ SRE 管理しきれない・・・
事業との調整やドメイン理解までは手が出せない・・
| © 2024 Levtech Co., Ltd. 12 お悩み SREチーム立ち上げ前のお話・・・ 開発チーム インフラはよくわからんし待つしかできない・・・
インフラ以外にも解消したい運用課題はあるけ ど機能開発で精一杯・・・
| © 2024 Levtech Co., Ltd. 13 お悩み SREチーム立ち上げ前のお話・・・ インフラ管理の課題解消と、事業と開発の課題感のすり合わせが必要
EmbeddedSRE
| © 2024 Levtech Co., Ltd. 15 Embedded SRE始動 EmbeddedSRE 大きなシステム運用課題を持つチームにSRE人材を配置し
て、開発チームの近くでSREとして動ける体制を作ろう
| © 2024 Levtech Co., Ltd. 16 Embedded SRE始動 EmbeddedSRE
| © 2024 Levtech Co., Ltd. 17 Embedded SRE始動 EmbeddedSRE なんかよさそう!
| © 2024 Levtech Co., Ltd. 18 Embedded SRE始動 EmbeddedSRE でも誰がやるの?
| © 2024 Levtech Co., Ltd. 19 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 20 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 21 Embedded SRE始動 EmbeddedSRE 対象は運用課題が多いシステムに絞り、技術的(イ
ンフラ)問題をまず解決する
| © 2024 Levtech Co., Ltd. 22 Embedded SREとしての活動 EmbeddedSRE •
育成観点 ◦ 読書課題 ▪ 社内勉強会として内容を共有する時間を設ける ◦ 現在稼働しているサービスのインフラ構成を再現する • 業務観点(3ヶ月1セット) ◦ 課題として挙げられているタスクの対応(1ヶ月) ▪ IaC化および推進 • Ansible • Terraform ▪ CICDの構築 ▪ モニタリング体制の整備 ◦ 各チームに戻り運用課題を抽出して解決する(2ヶ月) ▪ 所属チームへの共有も行う
| © 2024 Levtech Co., Ltd. 23 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE アプリケーションとインフラの管理が分かれてい
たことで、見えていなかった課題が見えてくる バッチ処理を実行してるインスタンスはスペック上げてるけど負荷分 散の設定が良くなくてリソース持て余しているな・・・
| © 2024 Levtech Co., Ltd. 24 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE 作業やインフラがコード化されることで誰でも見
れば何をしているかわかる状態に Apacheの設定めっちゃ環境差分あるやん・・・ リリースがワークフローに実行でできるようになったので作業手順書 がいらなくなりました
| © 2024 Levtech Co., Ltd. 25 EmbeddedSREの課題 EmbeddedSRE 他のチームにも導入していきたいがEmbeddedの形だと 現時点ではどうしてもリソースが足りない
| © 2024 Levtech Co., Ltd. 26 EmbeddedSREの課題 EmbeddedSRE 各チームのミクロな問題解決はできる一方、踏み込んだSRE としての活動をするにはマクロで動く必要がある
オブザーバビリティとかSLMも 進めていきたいなあ・・・
| © 2024 Levtech Co., Ltd. 27 EmbeddedSREの課題 EmbeddedSRE 運用課題の大きいチームはEmbeddedSREである程度解決で きたので、これからはマクロな動きをしていこう
レバテック開発部SREチーム発足
| © 2024 Levtech Co., Ltd. 29 集合! レバテック開発部SREチーム発足 EvangelistSRE1名+EmbeddedSREとして活動したメンバーで レバテックSREを結成(2023年9月)
| © 2024 Levtech Co., Ltd. 30 結成の目的 レバテック開発部SREチーム発足 開発部内において、横断的に活動できる状態を作り、生産性 やサービスの信頼性に寄与する活動をしていく
| © 2024 Levtech Co., Ltd. 31 結成時点での目標 レバテック開発部SREチーム発足 解散!! SREグループが解散して各チームで信頼性の管理と運用課題への効果的な取り組みができている状態を目指す
| © 2024 Levtech Co., Ltd. 32 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 33 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(事業軸とは別で全社的な取り組み)
hoge開発部 fuga開発部 レバテックSRE サービスA サービスB サービスC サービスD レバテック開発部
| © 2024 Levtech Co., Ltd. 34 レバテック開発部が抱えていた課題 レバテック開発部SREチーム発足 • 障害対応
◦ 暗黙知が多くベテランに依存 ◦ 関係者への周知の遅れ ◦ 手作業によるミスが原因で障害になることも ◦ インフラメトリクスやエラーログによる検知でノイズが多い ◦ ユーザー影響を十分に検知できていない • インフラの自走運用 ◦ チームだけで運用完結できる状態ではない
| © 2024 Levtech Co., Ltd. 35 課題に対しての取り組み レバテック開発部SREチーム発足 • インフラ管理
◦ IaCとしてのTerraformへの共通化 ◦ ペアプロ/モブプロ/レビューによるイネイブリング • インシデント対応の整備 ◦ 障害報告のワークフロー化 ▪ 役割分担や何をするべきなのかを明確にする意図 • ポストモーテムの布教 ◦ 障害発生時のポストモーテムの雛形作成 ◦ 各チームのポストモーテムに参加
| © 2024 Levtech Co., Ltd. 36 課題に対しての取り組み レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ 従来の監視で使用していたDatadogからNewrelicへの移行 ▪ (詳細はテックブログを参照) ◦ 勉強会や障害対応訓練の実施 ◦ 事例共有会を通した情報共有の機会作り • SLMの導入 ◦ SLO勉強会の実施 ◦ SLI/SLOの導入サポート
1年間の成果
| © 2024 Levtech Co., Ltd. 38 課題に対しての成果 レバテック開発部SREチーム発足 • インフラ管理
◦ 既存リソースに関しては各チームで運用できる状態に ◦ つきっきりではなく必要な場合に相談を受ける形で運用 • インシデント対応の整備 ◦ 開発部全体で障害の発生を把握できる状態 ◦ 緊急時にはチームをまたいだ連携が取れる ◦ マーケティングや営業などとのコミュニケーション漏れなく取れるように • ポストモーテムの布教 ◦ 障害から学ぶを文化にすることができた ◦ ドキュメントを残すことで開発部全体で学びに
| © 2024 Levtech Co., Ltd. 39 課題に対しての成果 レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ Newrelicへの移行完了 ◦ 各チームで独立して活用できる状態になっている ◦ 監視では把握しきれなかったユーザー影響の検知 ◦ ログに頼っていた障害対応からの脱却 ◦ メトリクス確認会の実施による問題の事前検知 • SLMの導入 ◦ 開発チームと協力して流入経路に対するSLI/SLOを設定 ◦ Newrelicを活用して8月から運用を開始 ◦ 今後SLOを活用しながら事業部と開発部の意思決定に活用し、適用範囲も広げて いく想定
これからの課題
| © 2024 Levtech Co., Ltd. 41 改善は進んだけど・・・ これからの課題 • マクロで物事を進めるとミクロの問題が気になってくる、SREチームとして
の関わり方の距離感を考えている ◦ 特定のチームだけオブザーバビリティの活用が進んでいない ◦ 特定のチームだけ障害多い ◦ これらの解消のためにSREチームとしてどのように関わるべきか ▪ 長期的にはサポートはしながらチームで運用できることが望ましい ▪ 一方で現状うまく行っておらず時間がかかっている ▪ この状態のままであることがリスクな場合も多い
| © 2024 Levtech Co., Ltd. 42 改善は進んだけど・・・ これからの課題 • ある程度チームへの移譲が進んだけど、どこまで任せるべきなのか
◦ インフラ周りはセキュリティやコストも関わってくる ◦ 最終目標は解散だったが、現時点ではガードレールにはならないと行けない ◦ 最終的にはチームで責任を持つべきなのか?
| © 2024 Levtech Co., Ltd. 43 改善は進んだけど・・・ これからの課題 • 事業のKPIとシステムの運用課題が結びついていないため、共通のSLO設定
が難しい ◦ 事業拡大のための運用の必要性を共通認識として持てるように ◦ 設定したSLOも改善を続けていく
| © 2024 Levtech Co., Ltd. 44 レバテック開発部におけるSREのあり方の再考 これからの課題 一般的なSREの定義に縛られず、レバテックのサービスの信頼性を高 め、価値を提供するためにやるべきことの再定義を行い続ける
| © 2024 Levtech Co., Ltd. 45 最後に これからの課題 皆さんのご意見聞かせてください!!