Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREチームの立ち上げから1年の取り組みとこれからの課題
Search
Tech Leverages
August 25, 2024
Technology
1
4.9k
SREチームの立ち上げから1年の取り組みとこれからの課題
# SRE meetup 〜サービス事業会社のSREが向き合う課題〜
レバレジーズ(株) / 金澤 伸行 SREチームの立ち上げから1年の取り組みとこれからの課題
Tech Leverages
August 25, 2024
Tweet
Share
More Decks by Tech Leverages
See All by Tech Leverages
「ELT職人」から卒業!Fivetranでデータパイプラインの構築・運用から解放され、 本来の価値創造に集中できる ようになった事例
leveragestech
0
14
SpecKitでどこまでできる? コストはどれくらい?
leveragestech
0
1.2k
未来を拓くAI技術〜エージェント開発とAI駆動開発〜
leveragestech
2
250
コンテキストエンジニアリングで変わるAI活用 リファクタリングワークフローの実践から学んだ形式知
leveragestech
0
140
AirflowでDataformを制御するポイント
leveragestech
0
120
古き良き Laravel のシステムは関数型スタイルでリファクタできるのか
leveragestech
1
1.3k
リファクタリングいつやるの? 〜依存の整理〜
leveragestech
0
150
ディメンショナルモデリングを軽く語る
leveragestech
2
5.3k
アクターモデルによる効率的な分散システム設計
leveragestech
0
5.1k
Other Decks in Technology
See All in Technology
Implementing and Evaluating a High-Level Language with WasmGC and the Wasm Component Model: Scala’s Case
tanishiking
0
170
AI時代、“平均値”ではいられない
uhyo
8
2.3k
AIエージェント入門 〜基礎からMCP・A2Aまで〜
shukob
1
160
OpenTelemetry が拡げる Gemini CLI の可観測性
phaya72
2
1.9k
QA業務を変える(!?)AIを併用した不具合分析の実践
ma2ri
0
110
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
310
Azureコストと向き合った、4年半のリアル / Four and a half years of dealing with Azure costs
aeonpeople
1
260
知覚とデザイン
rinchoku
1
150
Introduction to Bill One Development Engineer
sansan33
PRO
0
300
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
14k
SQLAlchemy の select(User).where(User.id =="123") を理解してみる/sqlalchemy deep dive
3l4l5
3
260
初めてのDatabricks Apps開発
taka_aki
1
240
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
A Modern Web Designer's Workflow
chriscoyier
697
190k
Scaling GitHub
holman
463
140k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Code Review Best Practice
trishagee
72
19k
Facilitating Awesome Meetings
lara
57
6.6k
Designing for Performance
lara
610
69k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
How to Think Like a Performance Engineer
csswizardry
27
2.1k
Transcript
SREチームの立ち上げ から1年の取り組みと これからの課題 レバレジーズ株式会社 システム本部 / レバテック開発部 / レバテックSRE 金澤伸行
| © 2024 Levtech Co., Ltd. 2 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 海外サッカーとピザが好きです 最近サイクリングにハマりました 実は初の外部登壇で緊張しています
| © 2024 Levtech Co., Ltd. 3 システム本部 / レバテック開発部 /
レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 • 2022年9月 入社 • 2022年9月〜 社内業務システム開発 • 2023年3月〜 EmbeddedSREと兼任開始 • 2024年9月〜 レバテックSREチーム発足 ここでの取り組みについてお話します!
| © 2024 Levtech Co., Ltd. 4 事業ポートフォリオ レバテックについて エージェント プログラミング
スクール コンテンツ メディア プラット フォーム ダイレクト リクルーティング ITエンジニア・クリエイターの フリーランス・転職・就職・教育の すべてを備える採用プラットフォーム エージェントを中心に、求人媒体、 プログラミング教育まで IT専門職のキャリアを厚くサポート。
| © 2024 Levtech Co., Ltd. 5 1. SREチーム立ち上げ前のお話 2. EmbeddedSRE
3. レバテック開発部SREチーム発足 4. 1年間の成果 5. これからの課題 目次 INDEX
SREチーム立ち上げ前のお話・・・
| © 2024 Levtech Co., Ltd. 7 実は・・・ SREチーム立ち上げ前のお話・・・ SREチームは既に存在していました
| © 2024 Levtech Co., Ltd. 8 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 9 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部 MySQLのバージョンアップ メンテナンス 障害対応 障害対応 メンテナンス MySQLのバージョンアップ
| © 2024 Levtech Co., Ltd. 10 お悩み SREチーム立ち上げ前のお話・・・ サービスの規模拡大にともない各開発部も抱えるシステムが増え、社内 全てのサービスをSREだけで管理することが難しくなっていった
| © 2024 Levtech Co., Ltd. 11 お悩み SREチーム立ち上げ前のお話・・・ SRE 管理しきれない・・・
事業との調整やドメイン理解までは手が出せない・・
| © 2024 Levtech Co., Ltd. 12 お悩み SREチーム立ち上げ前のお話・・・ 開発チーム インフラはよくわからんし待つしかできない・・・
インフラ以外にも解消したい運用課題はあるけ ど機能開発で精一杯・・・
| © 2024 Levtech Co., Ltd. 13 お悩み SREチーム立ち上げ前のお話・・・ インフラ管理の課題解消と、事業と開発の課題感のすり合わせが必要
EmbeddedSRE
| © 2024 Levtech Co., Ltd. 15 Embedded SRE始動 EmbeddedSRE 大きなシステム運用課題を持つチームにSRE人材を配置し
て、開発チームの近くでSREとして動ける体制を作ろう
| © 2024 Levtech Co., Ltd. 16 Embedded SRE始動 EmbeddedSRE
| © 2024 Levtech Co., Ltd. 17 Embedded SRE始動 EmbeddedSRE なんかよさそう!
| © 2024 Levtech Co., Ltd. 18 Embedded SRE始動 EmbeddedSRE でも誰がやるの?
| © 2024 Levtech Co., Ltd. 19 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 20 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、
ドメイン理解のある人をSREに育てるか
| © 2024 Levtech Co., Ltd. 21 Embedded SRE始動 EmbeddedSRE 対象は運用課題が多いシステムに絞り、技術的(イ
ンフラ)問題をまず解決する
| © 2024 Levtech Co., Ltd. 22 Embedded SREとしての活動 EmbeddedSRE •
育成観点 ◦ 読書課題 ▪ 社内勉強会として内容を共有する時間を設ける ◦ 現在稼働しているサービスのインフラ構成を再現する • 業務観点(3ヶ月1セット) ◦ 課題として挙げられているタスクの対応(1ヶ月) ▪ IaC化および推進 • Ansible • Terraform ▪ CICDの構築 ▪ モニタリング体制の整備 ◦ 各チームに戻り運用課題を抽出して解決する(2ヶ月) ▪ 所属チームへの共有も行う
| © 2024 Levtech Co., Ltd. 23 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE アプリケーションとインフラの管理が分かれてい
たことで、見えていなかった課題が見えてくる バッチ処理を実行してるインスタンスはスペック上げてるけど負荷分 散の設定が良くなくてリソース持て余しているな・・・
| © 2024 Levtech Co., Ltd. 24 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE 作業やインフラがコード化されることで誰でも見
れば何をしているかわかる状態に Apacheの設定めっちゃ環境差分あるやん・・・ リリースがワークフローに実行でできるようになったので作業手順書 がいらなくなりました
| © 2024 Levtech Co., Ltd. 25 EmbeddedSREの課題 EmbeddedSRE 他のチームにも導入していきたいがEmbeddedの形だと 現時点ではどうしてもリソースが足りない
| © 2024 Levtech Co., Ltd. 26 EmbeddedSREの課題 EmbeddedSRE 各チームのミクロな問題解決はできる一方、踏み込んだSRE としての活動をするにはマクロで動く必要がある
オブザーバビリティとかSLMも 進めていきたいなあ・・・
| © 2024 Levtech Co., Ltd. 27 EmbeddedSREの課題 EmbeddedSRE 運用課題の大きいチームはEmbeddedSREである程度解決で きたので、これからはマクロな動きをしていこう
レバテック開発部SREチーム発足
| © 2024 Levtech Co., Ltd. 29 集合! レバテック開発部SREチーム発足 EvangelistSRE1名+EmbeddedSREとして活動したメンバーで レバテックSREを結成(2023年9月)
| © 2024 Levtech Co., Ltd. 30 結成の目的 レバテック開発部SREチーム発足 開発部内において、横断的に活動できる状態を作り、生産性 やサービスの信頼性に寄与する活動をしていく
| © 2024 Levtech Co., Ltd. 31 結成時点での目標 レバテック開発部SREチーム発足 解散!! SREグループが解散して各チームで信頼性の管理と運用課題への効果的な取り組みができている状態を目指す
| © 2024 Levtech Co., Ltd. 32 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(主にインフラサポート)
レバテック開発部 hoge開発部 fuga開発部
| © 2024 Levtech Co., Ltd. 33 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(事業軸とは別で全社的な取り組み)
hoge開発部 fuga開発部 レバテックSRE サービスA サービスB サービスC サービスD レバテック開発部
| © 2024 Levtech Co., Ltd. 34 レバテック開発部が抱えていた課題 レバテック開発部SREチーム発足 • 障害対応
◦ 暗黙知が多くベテランに依存 ◦ 関係者への周知の遅れ ◦ 手作業によるミスが原因で障害になることも ◦ インフラメトリクスやエラーログによる検知でノイズが多い ◦ ユーザー影響を十分に検知できていない • インフラの自走運用 ◦ チームだけで運用完結できる状態ではない
| © 2024 Levtech Co., Ltd. 35 課題に対しての取り組み レバテック開発部SREチーム発足 • インフラ管理
◦ IaCとしてのTerraformへの共通化 ◦ ペアプロ/モブプロ/レビューによるイネイブリング • インシデント対応の整備 ◦ 障害報告のワークフロー化 ▪ 役割分担や何をするべきなのかを明確にする意図 • ポストモーテムの布教 ◦ 障害発生時のポストモーテムの雛形作成 ◦ 各チームのポストモーテムに参加
| © 2024 Levtech Co., Ltd. 36 課題に対しての取り組み レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ 従来の監視で使用していたDatadogからNewrelicへの移行 ▪ (詳細はテックブログを参照) ◦ 勉強会や障害対応訓練の実施 ◦ 事例共有会を通した情報共有の機会作り • SLMの導入 ◦ SLO勉強会の実施 ◦ SLI/SLOの導入サポート
1年間の成果
| © 2024 Levtech Co., Ltd. 38 課題に対しての成果 レバテック開発部SREチーム発足 • インフラ管理
◦ 既存リソースに関しては各チームで運用できる状態に ◦ つきっきりではなく必要な場合に相談を受ける形で運用 • インシデント対応の整備 ◦ 開発部全体で障害の発生を把握できる状態 ◦ 緊急時にはチームをまたいだ連携が取れる ◦ マーケティングや営業などとのコミュニケーション漏れなく取れるように • ポストモーテムの布教 ◦ 障害から学ぶを文化にすることができた ◦ ドキュメントを残すことで開発部全体で学びに
| © 2024 Levtech Co., Ltd. 39 課題に対しての成果 レバテック開発部SREチーム発足 • オブザーバビリティの導入
◦ Newrelicへの移行完了 ◦ 各チームで独立して活用できる状態になっている ◦ 監視では把握しきれなかったユーザー影響の検知 ◦ ログに頼っていた障害対応からの脱却 ◦ メトリクス確認会の実施による問題の事前検知 • SLMの導入 ◦ 開発チームと協力して流入経路に対するSLI/SLOを設定 ◦ Newrelicを活用して8月から運用を開始 ◦ 今後SLOを活用しながら事業部と開発部の意思決定に活用し、適用範囲も広げて いく想定
これからの課題
| © 2024 Levtech Co., Ltd. 41 改善は進んだけど・・・ これからの課題 • マクロで物事を進めるとミクロの問題が気になってくる、SREチームとして
の関わり方の距離感を考えている ◦ 特定のチームだけオブザーバビリティの活用が進んでいない ◦ 特定のチームだけ障害多い ◦ これらの解消のためにSREチームとしてどのように関わるべきか ▪ 長期的にはサポートはしながらチームで運用できることが望ましい ▪ 一方で現状うまく行っておらず時間がかかっている ▪ この状態のままであることがリスクな場合も多い
| © 2024 Levtech Co., Ltd. 42 改善は進んだけど・・・ これからの課題 • ある程度チームへの移譲が進んだけど、どこまで任せるべきなのか
◦ インフラ周りはセキュリティやコストも関わってくる ◦ 最終目標は解散だったが、現時点ではガードレールにはならないと行けない ◦ 最終的にはチームで責任を持つべきなのか?
| © 2024 Levtech Co., Ltd. 43 改善は進んだけど・・・ これからの課題 • 事業のKPIとシステムの運用課題が結びついていないため、共通のSLO設定
が難しい ◦ 事業拡大のための運用の必要性を共通認識として持てるように ◦ 設定したSLOも改善を続けていく
| © 2024 Levtech Co., Ltd. 44 レバテック開発部におけるSREのあり方の再考 これからの課題 一般的なSREの定義に縛られず、レバテックのサービスの信頼性を高 め、価値を提供するためにやるべきことの再定義を行い続ける
| © 2024 Levtech Co., Ltd. 45 最後に これからの課題 皆さんのご意見聞かせてください!!