Slide 1

Slide 1 text

SREチームの立ち上げ から1年の取り組みと これからの課題 レバレジーズ株式会社 システム本部 / レバテック開発部 / レバテックSRE 金澤伸行

Slide 2

Slide 2 text

| © 2024 Levtech Co., Ltd. 2 システム本部 / レバテック開発部 / レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 ● 2022年9月  入社 ● 2022年9月〜 社内業務システム開発 ● 2023年3月〜 EmbeddedSREと兼任開始 ● 2024年9月〜 レバテックSREチーム発足 海外サッカーとピザが好きです 最近サイクリングにハマりました 実は初の外部登壇で緊張しています

Slide 3

Slide 3 text

| © 2024 Levtech Co., Ltd. 3 システム本部 / レバテック開発部 / レバテックSRE 金澤 伸行 NOBUYUKI KANAZAWA 社内での経歴 ● 2022年9月  入社 ● 2022年9月〜 社内業務システム開発 ● 2023年3月〜 EmbeddedSREと兼任開始 ● 2024年9月〜 レバテックSREチーム発足 ここでの取り組みについてお話します!

Slide 4

Slide 4 text

| © 2024 Levtech Co., Ltd. 4 事業ポートフォリオ レバテックについて エージェント プログラミング スクール コンテンツ メディア プラット フォーム ダイレクト リクルーティング ITエンジニア・クリエイターの フリーランス・転職・就職・教育の すべてを備える採用プラットフォーム エージェントを中心に、求人媒体、 プログラミング教育まで IT専門職のキャリアを厚くサポート。

Slide 5

Slide 5 text

| © 2024 Levtech Co., Ltd. 5 1. SREチーム立ち上げ前のお話 2. EmbeddedSRE 3. レバテック開発部SREチーム発足 4. 1年間の成果 5. これからの課題 目次 INDEX

Slide 6

Slide 6 text

SREチーム立ち上げ前のお話・・・

Slide 7

Slide 7 text

| © 2024 Levtech Co., Ltd. 7 実は・・・ SREチーム立ち上げ前のお話・・・ SREチームは既に存在していました

Slide 8

Slide 8 text

| © 2024 Levtech Co., Ltd. 8 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート) レバテック開発部 hoge開発部 fuga開発部

Slide 9

Slide 9 text

| © 2024 Levtech Co., Ltd. 9 当時のすごくざっくりな組織図 SREチーム立ち上げ前のお話・・・ システム本部 SRE(主にインフラサポート) レバテック開発部 hoge開発部 fuga開発部 MySQLのバージョンアップ メンテナンス 障害対応 障害対応 メンテナンス MySQLのバージョンアップ

Slide 10

Slide 10 text

| © 2024 Levtech Co., Ltd. 10 お悩み SREチーム立ち上げ前のお話・・・ サービスの規模拡大にともない各開発部も抱えるシステムが増え、社内 全てのサービスをSREだけで管理することが難しくなっていった

Slide 11

Slide 11 text

| © 2024 Levtech Co., Ltd. 11 お悩み SREチーム立ち上げ前のお話・・・ SRE 管理しきれない・・・ 事業との調整やドメイン理解までは手が出せない・・

Slide 12

Slide 12 text

| © 2024 Levtech Co., Ltd. 12 お悩み SREチーム立ち上げ前のお話・・・ 開発チーム インフラはよくわからんし待つしかできない・・・ インフラ以外にも解消したい運用課題はあるけ ど機能開発で精一杯・・・

Slide 13

Slide 13 text

| © 2024 Levtech Co., Ltd. 13 お悩み SREチーム立ち上げ前のお話・・・ インフラ管理の課題解消と、事業と開発の課題感のすり合わせが必要

Slide 14

Slide 14 text

EmbeddedSRE

Slide 15

Slide 15 text

| © 2024 Levtech Co., Ltd. 15 Embedded SRE始動 EmbeddedSRE 大きなシステム運用課題を持つチームにSRE人材を配置し て、開発チームの近くでSREとして動ける体制を作ろう

Slide 16

Slide 16 text

| © 2024 Levtech Co., Ltd. 16 Embedded SRE始動 EmbeddedSRE

Slide 17

Slide 17 text

| © 2024 Levtech Co., Ltd. 17 Embedded SRE始動 EmbeddedSRE なんかよさそう!

Slide 18

Slide 18 text

| © 2024 Levtech Co., Ltd. 18 Embedded SRE始動 EmbeddedSRE でも誰がやるの?

Slide 19

Slide 19 text

| © 2024 Levtech Co., Ltd. 19 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、 ドメイン理解のある人をSREに育てるか

Slide 20

Slide 20 text

| © 2024 Levtech Co., Ltd. 20 Embedded SRE始動 EmbeddedSRE 採用してドメイン理解してもらうか、 ドメイン理解のある人をSREに育てるか

Slide 21

Slide 21 text

| © 2024 Levtech Co., Ltd. 21 Embedded SRE始動 EmbeddedSRE 対象は運用課題が多いシステムに絞り、技術的(イ ンフラ)問題をまず解決する

Slide 22

Slide 22 text

| © 2024 Levtech Co., Ltd. 22 Embedded SREとしての活動 EmbeddedSRE ● 育成観点 ○ 読書課題 ■ 社内勉強会として内容を共有する時間を設ける ○ 現在稼働しているサービスのインフラ構成を再現する ● 業務観点(3ヶ月1セット) ○ 課題として挙げられているタスクの対応(1ヶ月) ■ IaC化および推進 ● Ansible ● Terraform ■ CICDの構築 ■ モニタリング体制の整備 ○ 各チームに戻り運用課題を抽出して解決する(2ヶ月) ■ 所属チームへの共有も行う

Slide 23

Slide 23 text

| © 2024 Levtech Co., Ltd. 23 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE アプリケーションとインフラの管理が分かれてい たことで、見えていなかった課題が見えてくる バッチ処理を実行してるインスタンスはスペック上げてるけど負荷分 散の設定が良くなくてリソース持て余しているな・・・

Slide 24

Slide 24 text

| © 2024 Levtech Co., Ltd. 24 Embedded SREを半年ほどやってみて・・・ EmbeddedSRE 作業やインフラがコード化されることで誰でも見 れば何をしているかわかる状態に Apacheの設定めっちゃ環境差分あるやん・・・ リリースがワークフローに実行でできるようになったので作業手順書 がいらなくなりました

Slide 25

Slide 25 text

| © 2024 Levtech Co., Ltd. 25 EmbeddedSREの課題 EmbeddedSRE 他のチームにも導入していきたいがEmbeddedの形だと 現時点ではどうしてもリソースが足りない

Slide 26

Slide 26 text

| © 2024 Levtech Co., Ltd. 26 EmbeddedSREの課題 EmbeddedSRE 各チームのミクロな問題解決はできる一方、踏み込んだSRE としての活動をするにはマクロで動く必要がある オブザーバビリティとかSLMも 進めていきたいなあ・・・

Slide 27

Slide 27 text

| © 2024 Levtech Co., Ltd. 27 EmbeddedSREの課題 EmbeddedSRE 運用課題の大きいチームはEmbeddedSREである程度解決で きたので、これからはマクロな動きをしていこう

Slide 28

Slide 28 text

レバテック開発部SREチーム発足

Slide 29

Slide 29 text

| © 2024 Levtech Co., Ltd. 29 集合! レバテック開発部SREチーム発足 EvangelistSRE1名+EmbeddedSREとして活動したメンバーで レバテックSREを結成(2023年9月)

Slide 30

Slide 30 text

| © 2024 Levtech Co., Ltd. 30 結成の目的 レバテック開発部SREチーム発足 開発部内において、横断的に活動できる状態を作り、生産性 やサービスの信頼性に寄与する活動をしていく

Slide 31

Slide 31 text

| © 2024 Levtech Co., Ltd. 31 結成時点での目標 レバテック開発部SREチーム発足 解散!! SREグループが解散して各チームで信頼性の管理と運用課題への効果的な取り組みができている状態を目指す

Slide 32

Slide 32 text

| © 2024 Levtech Co., Ltd. 32 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(主にインフラサポート) レバテック開発部 hoge開発部 fuga開発部

Slide 33

Slide 33 text

| © 2024 Levtech Co., Ltd. 33 すごくざっくりな組織図 レバテック開発部SREチーム発足 システム本部 SRE(事業軸とは別で全社的な取り組み) hoge開発部 fuga開発部 レバテックSRE サービスA サービスB サービスC サービスD レバテック開発部

Slide 34

Slide 34 text

| © 2024 Levtech Co., Ltd. 34 レバテック開発部が抱えていた課題 レバテック開発部SREチーム発足 ● 障害対応 ○ 暗黙知が多くベテランに依存 ○ 関係者への周知の遅れ ○ 手作業によるミスが原因で障害になることも ○ インフラメトリクスやエラーログによる検知でノイズが多い ○ ユーザー影響を十分に検知できていない ● インフラの自走運用 ○ チームだけで運用完結できる状態ではない

Slide 35

Slide 35 text

| © 2024 Levtech Co., Ltd. 35 課題に対しての取り組み レバテック開発部SREチーム発足 ● インフラ管理 ○ IaCとしてのTerraformへの共通化 ○ ペアプロ/モブプロ/レビューによるイネイブリング ● インシデント対応の整備 ○ 障害報告のワークフロー化 ■ 役割分担や何をするべきなのかを明確にする意図 ● ポストモーテムの布教 ○ 障害発生時のポストモーテムの雛形作成 ○ 各チームのポストモーテムに参加

Slide 36

Slide 36 text

| © 2024 Levtech Co., Ltd. 36 課題に対しての取り組み レバテック開発部SREチーム発足 ● オブザーバビリティの導入 ○ 従来の監視で使用していたDatadogからNewrelicへの移行 ■ (詳細はテックブログを参照) ○ 勉強会や障害対応訓練の実施 ○ 事例共有会を通した情報共有の機会作り ● SLMの導入 ○ SLO勉強会の実施 ○ SLI/SLOの導入サポート

Slide 37

Slide 37 text

1年間の成果

Slide 38

Slide 38 text

| © 2024 Levtech Co., Ltd. 38 課題に対しての成果 レバテック開発部SREチーム発足 ● インフラ管理 ○ 既存リソースに関しては各チームで運用できる状態に ○ つきっきりではなく必要な場合に相談を受ける形で運用 ● インシデント対応の整備 ○ 開発部全体で障害の発生を把握できる状態 ○ 緊急時にはチームをまたいだ連携が取れる ○ マーケティングや営業などとのコミュニケーション漏れなく取れるように ● ポストモーテムの布教 ○ 障害から学ぶを文化にすることができた ○ ドキュメントを残すことで開発部全体で学びに

Slide 39

Slide 39 text

| © 2024 Levtech Co., Ltd. 39 課題に対しての成果 レバテック開発部SREチーム発足 ● オブザーバビリティの導入 ○ Newrelicへの移行完了 ○ 各チームで独立して活用できる状態になっている ○ 監視では把握しきれなかったユーザー影響の検知 ○ ログに頼っていた障害対応からの脱却 ○ メトリクス確認会の実施による問題の事前検知 ● SLMの導入 ○ 開発チームと協力して流入経路に対するSLI/SLOを設定 ○ Newrelicを活用して8月から運用を開始 ○ 今後SLOを活用しながら事業部と開発部の意思決定に活用し、適用範囲も広げて いく想定

Slide 40

Slide 40 text

これからの課題

Slide 41

Slide 41 text

| © 2024 Levtech Co., Ltd. 41 改善は進んだけど・・・ これからの課題 ● マクロで物事を進めるとミクロの問題が気になってくる、SREチームとして の関わり方の距離感を考えている ○ 特定のチームだけオブザーバビリティの活用が進んでいない ○ 特定のチームだけ障害多い ○ これらの解消のためにSREチームとしてどのように関わるべきか ■ 長期的にはサポートはしながらチームで運用できることが望ましい ■ 一方で現状うまく行っておらず時間がかかっている ■ この状態のままであることがリスクな場合も多い

Slide 42

Slide 42 text

| © 2024 Levtech Co., Ltd. 42 改善は進んだけど・・・ これからの課題 ● ある程度チームへの移譲が進んだけど、どこまで任せるべきなのか ○ インフラ周りはセキュリティやコストも関わってくる ○ 最終目標は解散だったが、現時点ではガードレールにはならないと行けない ○ 最終的にはチームで責任を持つべきなのか?

Slide 43

Slide 43 text

| © 2024 Levtech Co., Ltd. 43 改善は進んだけど・・・ これからの課題 ● 事業のKPIとシステムの運用課題が結びついていないため、共通のSLO設定 が難しい ○ 事業拡大のための運用の必要性を共通認識として持てるように ○ 設定したSLOも改善を続けていく

Slide 44

Slide 44 text

| © 2024 Levtech Co., Ltd. 44 レバテック開発部におけるSREのあり方の再考 これからの課題 一般的なSREの定義に縛られず、レバテックのサービスの信頼性を高 め、価値を提供するためにやるべきことの再定義を行い続ける

Slide 45

Slide 45 text

| © 2024 Levtech Co., Ltd. 45 最後に これからの課題 皆さんのご意見聞かせてください!!