Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから1年の取り組みとこれからの課題
Search
Tech Leverages
August 25, 2024
Technology
1
1.8k
SREチームの立ち上げから1年の取り組みとこれからの課題
# SRE meetup 〜サービス事業会社のSREが向き合う課題〜
レバレジーズ(株) / 金澤 伸行 SREチームの立ち上げから1年の取り組みとこれからの課題
Tech Leverages
August 25, 2024
Tweet
Share
More Decks by Tech Leverages
See All by Tech Leverages
データエンジニアとしてのキャリア戦略 〜これからの挑戦〜
leveragestech
0
66
ドメインロジックで考えるテスタビリティ
leveragestech
1
300
専門領域に特化したチームの挑戦
leveragestech
0
400
もう一度、 事業を支えるシステムに。
leveragestech
6
3.5k
ログに対する誤解とベストプラクティス
leveragestech
0
130
We Are PdE!! 〜高価値なプロダクトを作れるようになるための勉強会〜
leveragestech
1
650
Prisma Typed SQLのススメ
leveragestech
1
170
今日から始める技術的負債の解消
leveragestech
4
560
ドキュメントとの付き合い方を考える
leveragestech
3
230
Other Decks in Technology
See All in Technology
株式会社ログラス − エンジニア向け会社説明資料 / Loglass Comapany Deck for Engineer
loglass2019
3
32k
能動的ドメイン名ライフサイクル管理のすゝめ / Practice on Active Domain Name Lifecycle Management
nttcom
0
240
Opcodeを読んでいたら何故かphp-srcを読んでいた話
murashotaro
0
320
サーバーなしでWordPress運用、できますよ。
sogaoh
PRO
0
120
生成AIのガバナンスの全体像と現実解
fnifni
1
210
2024年にチャレンジしたことを振り返るぞ
mitchan
0
150
[JAWS-UG新潟#20] re:Invent2024 -CloudOperationsアップデートについて-
shintaro_fukatsu
0
120
なぜCodeceptJSを選んだか
goataka
0
180
Storage Browser for Amazon S3
miu_crescent
1
290
【re:Invent 2024 アプデ】 Prompt Routing の紹介
champ
0
160
LINEスキマニにおけるフロントエンド開発
lycorptech_jp
PRO
0
340
開発生産性向上! 育成を「改善」と捉えるエンジニア育成戦略
shoota
2
460
Featured
See All Featured
The Language of Interfaces
destraynor
154
24k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
Optimizing for Happiness
mojombo
376
70k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
Bash Introduction
62gerente
609
210k
The Invisible Side of Design
smashingmag
298
50k
Facilitating Awesome Meetings
lara
50
6.1k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
BBQ
matthewcrist
85
9.4k
4 Signs Your Business is Dying
shpigford
182
21k
Transcript
SREチームの立ち上げ から1年の取り組みと これからの課題 レバレジーズ株式会社 システム本部 / レバテック開発部 / レバテックSRE 金澤伸行
| © 2024 Levtech Co., Ltd. 2 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 海外サッカーとピザが好きです 最近サイクリングにハマりました 実は初の外部登壇で緊張しています
| © 2024 Levtech Co., Ltd. 3 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 ここでの取り組みについてお話します!
| © 2024 Levtech Co., Ltd. 4 事業ポートフォリオ レバテックについて エージェント プログラミング
スクール コンテンツ メディア プラット フォーム ダイレクト リクルーティング ITエンジニア・クリエイターの フリーランス・転職・就職・教育の すべてを備える採用プラットフォーム エージェントを中心に、求人媒体、 プログラミング教育まで IT専門職のキャリアを厚くサポート。
| © 2024 Levtech Co., Ltd. 5 1. SREチーム立ち上げ前のお話 2. EmbeddedSRE
3. レバテック開発部SREチーム発足 4. 1年間の成果 5. これからの課題 目次 INDEX
SREチーム立ち上げ前のお話・・・
| © 2024 Levtech Co., Ltd. 7 実は・・・ SREチーム立ち上げ前のお話・・・ SREチームは既に存在していました
| © 2024 Levtech Co., Ltd. 8 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 9 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部 MySQLのバージョンアップ メンテナンス 障害対応 障害対応 メンテナンス MySQLのバージョンアップ
| © 2024 Levtech Co., Ltd. 10 お悩み SREチーム立ち上げ前のお話・・・ サービスの規模拡大にともない各開発部も抱えるシステムが増え、社内 全てのサービスをSREだけで管理することが難しくなっていった
| © 2024 Levtech Co., Ltd. 11 お悩み SREチーム立ち上げ前のお話・・・ SRE 管理しきれない・・・
事業との調整やドメイン理解までは手が出せない・・
| © 2024 Levtech Co., Ltd. 12 お悩み SREチーム立ち上げ前のお話・・・ 開発チーム インフラはよくわからんし待つしかできない・・・
インフラ以外にも解消したい運用課題はあるけ ど機能開発で精一杯・・・
| © 2024 Levtech Co., Ltd. 13 お悩み SREチーム立ち上げ前のお話・・・ インフラ管理の課題解消と、事業と開発の課題感のすり合わせが必要
EmbeddedSRE
| © 2024 Levtech Co., Ltd. 15 Embedded SRE始動 EmbeddedSRE 大きなシステム運用課題を持つチームにSRE人材を配置し
て、開発チームの近くでSREとして動ける体制を作ろう
| © 2024 Levtech Co., Ltd. 16 Embedded SRE始動 EmbeddedSRE
| © 2024 Levtech Co., Ltd. 17 Embedded SRE始動 EmbeddedSRE なんかよさそう!
| © 2024 Levtech Co., Ltd. 18 Embedded SRE始動 EmbeddedSRE でも誰がやるの?
| © 2024 Levtech Co., Ltd. 19 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 20 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 21 Embedded SRE始動 EmbeddedSRE 対象は運用課題が多いシステムに絞り、技術的(イ
ンフラ)問題をまず解決する
| © 2024 Levtech Co., Ltd. 22 Embedded SREとしての活動 EmbeddedSRE •
育成観点 ◦ 読書課題 ▪ 社内勉強会として内容を共有する時間を設ける ◦ 現在稼働しているサービスのインフラ構成を再現する • 業務観点(3ヶ月1セット) ◦ 課題として挙げられているタスクの対応(1ヶ月) ▪ IaC化および推進 • Ansible • Terraform ▪ CICDの構築 ▪ モニタリング体制の整備 ◦ 各チームに戻り運用課題を抽出して解決する(2ヶ月) ▪ 所属チームへの共有も行う
| © 2024 Levtech Co., Ltd. 23 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE アプリケーションとインフラの管理が分かれてい
たことで、見えていなかった課題が見えてくる バッチ処理を実行してるインスタンスはスペック上げてるけど負荷分 散の設定が良くなくてリソース持て余しているな・・・
| © 2024 Levtech Co., Ltd. 24 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE 作業やインフラがコード化されることで誰でも見
れば何をしているかわかる状態に Apacheの設定めっちゃ環境差分あるやん・・・ リリースがワークフローに実行でできるようになったので作業手順書 がいらなくなりました
| © 2024 Levtech Co., Ltd. 25 EmbeddedSREの課題 EmbeddedSRE 他のチームにも導入していきたいがEmbeddedの形だと 現時点ではどうしてもリソースが足りない
| © 2024 Levtech Co., Ltd. 26 EmbeddedSREの課題 EmbeddedSRE 各チームのミクロな問題解決はできる一方、踏み込んだSRE としての活動をするにはマクロで動く必要がある
オブザーバビリティとかSLMも 進めていきたいなあ・・・
| © 2024 Levtech Co., Ltd. 27 EmbeddedSREの課題 EmbeddedSRE 運用課題の大きいチームはEmbeddedSREである程度解決で きたので、これからはマクロな動きをしていこう
レバテック開発部SREチーム発足
| © 2024 Levtech Co., Ltd. 29 集合! レバテック開発部SREチーム発足 EvangelistSRE1名+EmbeddedSREとして活動したメンバーで レバテックSREを結成(2023年9月)
| © 2024 Levtech Co., Ltd. 30 結成の目的 レバテック開発部SREチーム発足 開発部内において、横断的に活動できる状態を作り、生産性 やサービスの信頼性に寄与する活動をしていく
| © 2024 Levtech Co., Ltd. 31 結成時点での目標 レバテック開発部SREチーム発足 解散!! SREグループが解散して各チームで信頼性の管理と運用課題への効果的な取り組みができている状態を目指す
| © 2024 Levtech Co., Ltd. 32 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 33 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(事業軸とは別で全社的な取り組み)
hoge開発部 fuga開発部 レバテックSRE サービスA サービスB サービスC サービスD レバテック開発部
| © 2024 Levtech Co., Ltd. 34 レバテック開発部が抱えていた課題 レバテック開発部SREチーム発足 • 障害対応
◦ 暗黙知が多くベテランに依存 ◦ 関係者への周知の遅れ ◦ 手作業によるミスが原因で障害になることも ◦ インフラメトリクスやエラーログによる検知でノイズが多い ◦ ユーザー影響を十分に検知できていない • インフラの自走運用 ◦ チームだけで運用完結できる状態ではない
| © 2024 Levtech Co., Ltd. 35 課題に対しての取り組み レバテック開発部SREチーム発足 • インフラ管理
◦ IaCとしてのTerraformへの共通化 ◦ ペアプロ/モブプロ/レビューによるイネイブリング • インシデント対応の整備 ◦ 障害報告のワークフロー化 ▪ 役割分担や何をするべきなのかを明確にする意図 • ポストモーテムの布教 ◦ 障害発生時のポストモーテムの雛形作成 ◦ 各チームのポストモーテムに参加
| © 2024 Levtech Co., Ltd. 36 課題に対しての取り組み レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ 従来の監視で使用していたDatadogからNewrelicへの移行 ▪ (詳細はテックブログを参照) ◦ 勉強会や障害対応訓練の実施 ◦ 事例共有会を通した情報共有の機会作り • SLMの導入 ◦ SLO勉強会の実施 ◦ SLI/SLOの導入サポート
1年間の成果
| © 2024 Levtech Co., Ltd. 38 課題に対しての成果 レバテック開発部SREチーム発足 • インフラ管理
◦ 既存リソースに関しては各チームで運用できる状態に ◦ つきっきりではなく必要な場合に相談を受ける形で運用 • インシデント対応の整備 ◦ 開発部全体で障害の発生を把握できる状態 ◦ 緊急時にはチームをまたいだ連携が取れる ◦ マーケティングや営業などとのコミュニケーション漏れなく取れるように • ポストモーテムの布教 ◦ 障害から学ぶを文化にすることができた ◦ ドキュメントを残すことで開発部全体で学びに
| © 2024 Levtech Co., Ltd. 39 課題に対しての成果 レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ Newrelicへの移行完了 ◦ 各チームで独立して活用できる状態になっている ◦ 監視では把握しきれなかったユーザー影響の検知 ◦ ログに頼っていた障害対応からの脱却 ◦ メトリクス確認会の実施による問題の事前検知 • SLMの導入 ◦ 開発チームと協力して流入経路に対するSLI/SLOを設定 ◦ Newrelicを活用して8月から運用を開始 ◦ 今後SLOを活用しながら事業部と開発部の意思決定に活用し、適用範囲も広げて いく想定
これからの課題
| © 2024 Levtech Co., Ltd. 41 改善は進んだけど・・・ これからの課題 • マクロで物事を進めるとミクロの問題が気になってくる、SREチームとして
の関わり方の距離感を考えている ◦ 特定のチームだけオブザーバビリティの活用が進んでいない ◦ 特定のチームだけ障害多い ◦ これらの解消のためにSREチームとしてどのように関わるべきか ▪ 長期的にはサポートはしながらチームで運用できることが望ましい ▪ 一方で現状うまく行っておらず時間がかかっている ▪ この状態のままであることがリスクな場合も多い
| © 2024 Levtech Co., Ltd. 42 改善は進んだけど・・・ これからの課題 • ある程度チームへの移譲が進んだけど、どこまで任せるべきなのか
◦ インフラ周りはセキュリティやコストも関わってくる ◦ 最終目標は解散だったが、現時点ではガードレールにはならないと行けない ◦ 最終的にはチームで責任を持つべきなのか?
| © 2024 Levtech Co., Ltd. 43 改善は進んだけど・・・ これからの課題 • 事業のKPIとシステムの運用課題が結びついていないため、共通のSLO設定
が難しい ◦ 事業拡大のための運用の必要性を共通認識として持てるように ◦ 設定したSLOも改善を続けていく
| © 2024 Levtech Co., Ltd. 44 レバテック開発部におけるSREのあり方の再考 これからの課題 一般的なSREの定義に縛られず、レバテックのサービスの信頼性を高 め、価値を提供するためにやるべきことの再定義を行い続ける
| © 2024 Levtech Co., Ltd. 45 最後に これからの課題 皆さんのご意見聞かせてください!!