Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE を立ち上げた4ヶ月後の世界

ryurock
December 20, 2023

SRE を立ち上げた4ヶ月後の世界

2023年9月に株式会社 Magic Moment では、SRE チームを組閣して、SRE 活動を組織化しました。
4ヶ月の間にSRE チームを立ち上げたときの変化についてまとめています。

ブログに関してはこちら「SRE を立ち上げた4ヶ月後の世界

ryurock

December 20, 2023
Tweet

More Decks by ryurock

Other Decks in Technology

Transcript

  1. © Magic Moment 2021 SRE を立ち上げた4ヶ月後の世界 © Magic Moment 2021

    Ryusuke Kimura (@ryurock) 株式会社 Magic Moment Senior Engineering Manager & SRE Engineering Manager
  2. © Magic Moment 2021 自己紹介とサービス概要 3 木村 竜介 (Ryusuke Kimura)

    SRE Engineering Manager 兼 Senior Engineering Manager 高校卒業後、クライミングにハマりフリーターをし ながら海外クライミングに明け暮れる。その後、シ ステムエンジニアとして様々な業務に従事。最近は インフラ領域を主戦場としており、前職ビザスクで は SRE 責任者も経験。 2023 年 1 月に現職である Magic Moment へ入社 し、営業支援 SaaS プロダクト 「Magic Moment Playbook」 の EM を担当。9月より SRE 責任者。 11 月より「Magic Moment Playbook」の複数チー ムの EM 総括に従事。
  3. © Magic Moment 2021 自己紹介とサービス概要 4 営業組織の出力を最大化する Magic Moment Playbook

    営業活動量を圧倒的に増やし、 全ての営業活動から優れた顧客体験を生み出す セールスオペレーションクラウド 最適な営業オペレーションを組織に実装し 大量行動が可能になる仕組みを提供する SaaS を提供
  4. © Magic Moment 2021 自己紹介とサービス概要 5 成果の出る営業オペレーションを組織に実装 誰もが実行可能な“営業の型”を組織に実装 「営業活動の結果 =

    顧客の反応」を瞬時に記録 多種多様な業界の営業活動を支援してきた Magic Moment の業界知見と営業フレームワークを融合した営 業プロセスを組織に即実装。 項目やトークの個別カスタマイズをサポートし、早期の 成果創出を可能とする営業手法を確立します。 プレイブックコア機能
  5. © Magic Moment 2021 自己紹介とサービス概要 6 オペレーションに沿った活動を Playbook がサポート 今、どの顧客に、何をしたら

    成果が最大化するのかを自動提案 顧客フォローやお礼などの 連絡を自動化し工数を大幅に削減 Next Best Action 機能 シーケンス機能
  6. © Magic Moment 2021 SRE チームの立ち上げの経緯 11 2023/08/01 に事態を重くみて 緊急対策チームが発足

    各チームの Tech Lead をメインに 招集 原因調査・及び特定をす る 障害対応で手動で大 量のデータ 不整合の対応 バックエンドエンジニア ほぼ全員で手動対応 各種関係チームの スケジュール調整 ロードマップの調整・及 び関係各所の説明 体制も調整したが 原因が わからない
  7. © Magic Moment 2021 SRE チームの立ち上げの経緯 12 過去の Merge したリリース内容が容易に

    Revert できない Micro Service で関係性が複雑で原因を特定する ことがそもそも難しい Service の監視が一元化されておらず、みんな言 う事がバラバラ
  8. © Magic Moment 2021 SRE チームの立ち上げの経緯 13 諦めなかった Tech Lead

    が仮説ベースで原因を究明 事態は落ち着いた!!!!
  9. © Magic Moment 2021 SRE チームの立ち上げの経緯 14 今回の事態を反省して、2023 年 9

    月に SRE チームが発足 運用・保守の部分がおざなりに なっていた 成長フェーズなのでしょうがない。の積み重ねが Toil やノイズを膨 らませて、原因特定に大きく時間がかかった システムパフォーマンスの定点チェックを 行っておらず、システムの状態変化に気づ けなかった Datadog の導入で解決しようとしていたが 間に合わなかった アプリケーションや組織拡大に伴い、SRE 活動の整備が追いついていなかった SRE 活動が兼任だと、優先順位が下がってしまう その他多数反省事項があった...........
  10. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 16

    SRE活動という名目から、SRE チームに変更 Core SRE (3人) サービス全体に影響するものをメインで対応する SRE Embedded SRE (5 人) 開発チームに属しながら、そのチームの SRE 活動を行う SRE 組織的にまずやる。というのを明示し宣言した
  11. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 17

    SRE チームを立ち上げると各チームがなんとなくやっていた SRE 活動を整理・整頓しやすい 聖ベルナルドゥス アプリケーションや組織拡大に伴い、SRE 活動の整備が追いついていなかった 地獄への道は善意で舗装されている 反省点 SRE プラクティス の整理整頓と優先順位のトリアージ 顧客が本当に必要だったもの
  12. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 18

    なぜやるのか?(Why) 何をやるべきか?(What) SRE活動からSRE チームで 意思統一をしやすい状態にした
  13. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 見える化 監視 -

    20 システム監視で Datadog を本格導入して、System Alert を整備 2023/9月 時点で 13 個の Alert ↓ 2023/11月時点で 240 個の Alert 運用・保守の部分がおざなりに なっていた 反省点 見える化の第一歩は監視から
  14. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 21

    【重要】Alert (How)を作りたいのではない Alert を作る事によって運用・保 守のおざなりとは?の認識を合わ せたかった 運用・保守の部分がおざなりに なっていた 反省点 見えていなかった現実を Alert で 見える化 顧客が本当に必要だったもの なぜやるのか?(Why) 何をやるべきか?(What)
  15. © Magic Moment 2021 SRE チームの立ち上げの経緯 23 過去の Merge したリリース内容が容易に

    Revert できない Micro Service で関係性が複雑で原因を特定する ことがそもそも難しい Service の監視が一元化されておらず、みんな言 う事がバラバラ
  16. © Magic Moment 2021 SRE チームの立ち上げの経緯 24 過去の Merge したリリース内容が容易に

    Revert できない Micro Service で関係性が複雑で原因を特定する ことがそもそも難しい Service の監視が一元化されておらず、みんな言 う事がバラバラ
  17. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 25

    Datadog を APM 本格導入して、Micro Service 間の Trace 情報を見える化 Micro Service で関係性が複雑で 原因を特定することがそもそも難 しい 運用・保守の部分がおざなりに なっていた 反省点 仮説のボトルネック
  18. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 26

    【重要】まずは参入障壁を減らして、仲間を増やせる状態にする Micro Service で関係性 が複雑で原因を特定する ことがそもそも難しい エンジニアの声 エラーを1人で闘うのが 「怖い・辛い・先が見え ない」 本当の声 開発チーム A 開発チーム B コラボレーションの 導線をツールで作る
  19. © Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げた後に

    やったこと 27 見える化 - Performance Dashboard の作成 -
  20. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 見える化 - Performance

    Dashboard の作成 - 28 Datadog Dashboard で全ての Micro Service の統一的に見るべき指標を作成 定期リリース後の翌日に、 システムパフォーマンス Dashboard を 全てのチームで確認して デグレードや、 パフォーマンス劣化していない か?をチェックする システムパフォーマンスの定点チェックを 行っておらず、システムの状態変化に気づ けなかった 反省点 統一的な指標で状態変化が見えるもの 顧客が本当に必要だったもの
  21. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 29

    障害は単一的な条件で 発生するんではない 複合的な要因で 発生するんだ!!!!!!!!!!!
  22. © Magic Moment 2021 SRE チームの立ち上げた後の変化 31 やったのは 「可視化」、「整理」、「つなぐ」だけ 運用・保守の部分がおざな

    りに なっていた • 見えていなかった現実を Alert で見える化 • エラーを1人で闘わないコラボレーション ツール(APM)の導入 システムパフォーマンスの 定点チェックを行っておら ず、システムの状態変化に 気づけなかった • 統一的な指標でシステムの状態変化が見える ダッシュボードの用意 アプリケーションや組織拡 大に伴い、SRE 活動の整備 が追いついていなかった • SRE プラクティスの整理整頓と優先順位の トリアージ ムダ・ムラをなくす チーム間コラボレーション 見える化
  23. © Magic Moment 2021 SRE チームの立ち上げた後の変化 32 障害件数は劇的に減った 障害発生月 障害件数

    2023年7月以前 6.28 件 (平均) 2023年8月 3 件 2023年9月 3 件 2023年10月 3 件 2023年11月 1 件 SRE チーム 立ち上げ 以前 SRE チーム 立ち上げ後
  24. © Magic Moment 2021 SRE チームの立ち上げた後の変化 34 不都合な事実を紡ぐと次の大きな挑戦も見えてくる 大容量データ要件に対し てノイジーネイバー問題

    が発生している 本当のボトルネック SRE 活動を通して、問題に直視できるようになったので 現在リアーキテクトを策定中
  25. © Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 35

    今 あなたは SRE チームを立ち上げるべきか 悩んでいますか?