Slide 1

Slide 1 text

© Magic Moment 2021 SRE を立ち上げた4ヶ月後の世界 © Magic Moment 2021 Ryusuke Kimura (@ryurock) 株式会社 Magic Moment Senior Engineering Manager & SRE Engineering Manager

Slide 2

Slide 2 text

© Magic Moment 2021 © Magic Moment 2021 自己紹介とサービス概要 2

Slide 3

Slide 3 text

© Magic Moment 2021 自己紹介とサービス概要 3 木村 竜介 (Ryusuke Kimura) SRE Engineering Manager 兼 Senior Engineering Manager 高校卒業後、クライミングにハマりフリーターをし ながら海外クライミングに明け暮れる。その後、シ ステムエンジニアとして様々な業務に従事。最近は インフラ領域を主戦場としており、前職ビザスクで は SRE 責任者も経験。 2023 年 1 月に現職である Magic Moment へ入社 し、営業支援 SaaS プロダクト 「Magic Moment Playbook」 の EM を担当。9月より SRE 責任者。 11 月より「Magic Moment Playbook」の複数チー ムの EM 総括に従事。

Slide 4

Slide 4 text

© Magic Moment 2021 自己紹介とサービス概要 4 営業組織の出力を最大化する Magic Moment Playbook 営業活動量を圧倒的に増やし、 全ての営業活動から優れた顧客体験を生み出す セールスオペレーションクラウド 最適な営業オペレーションを組織に実装し 大量行動が可能になる仕組みを提供する SaaS を提供

Slide 5

Slide 5 text

© Magic Moment 2021 自己紹介とサービス概要 5 成果の出る営業オペレーションを組織に実装 誰もが実行可能な“営業の型”を組織に実装 「営業活動の結果 = 顧客の反応」を瞬時に記録 多種多様な業界の営業活動を支援してきた Magic Moment の業界知見と営業フレームワークを融合した営 業プロセスを組織に即実装。 項目やトークの個別カスタマイズをサポートし、早期の 成果創出を可能とする営業手法を確立します。 プレイブックコア機能

Slide 6

Slide 6 text

© Magic Moment 2021 自己紹介とサービス概要 6 オペレーションに沿った活動を Playbook がサポート 今、どの顧客に、何をしたら 成果が最大化するのかを自動提案 顧客フォローやお礼などの 連絡を自動化し工数を大幅に削減 Next Best Action 機能 シーケンス機能

Slide 7

Slide 7 text

© Magic Moment 2021 自己紹介とサービス概要 7 状況をリアルタイムで可視化し、的確な方針を策定 営業成果をいつでも確認 適切なKPIマネジメントを実現 ブラックボックス化しがちな 商談やヒアリング内容も可視化 レポート機能

Slide 8

Slide 8 text

© Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げの経緯 8

Slide 9

Slide 9 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 9 7月頃からコアデータが連続してうまく更新できない 事態が相次ぐ

Slide 10

Slide 10 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 10 急激な顧客の受け入れに精一杯な状況

Slide 11

Slide 11 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 11 2023/08/01 に事態を重くみて 緊急対策チームが発足 各チームの Tech Lead をメインに 招集 原因調査・及び特定をす る 障害対応で手動で大 量のデータ 不整合の対応 バックエンドエンジニア ほぼ全員で手動対応 各種関係チームの スケジュール調整 ロードマップの調整・及 び関係各所の説明 体制も調整したが 原因が わからない

Slide 12

Slide 12 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 12 過去の Merge したリリース内容が容易に Revert できない Micro Service で関係性が複雑で原因を特定する ことがそもそも難しい Service の監視が一元化されておらず、みんな言 う事がバラバラ

Slide 13

Slide 13 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 13 諦めなかった Tech Lead が仮説ベースで原因を究明 事態は落ち着いた!!!!

Slide 14

Slide 14 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 14 今回の事態を反省して、2023 年 9 月に SRE チームが発足 運用・保守の部分がおざなりに なっていた 成長フェーズなのでしょうがない。の積み重ねが Toil やノイズを膨 らませて、原因特定に大きく時間がかかった システムパフォーマンスの定点チェックを 行っておらず、システムの状態変化に気づ けなかった Datadog の導入で解決しようとしていたが 間に合わなかった アプリケーションや組織拡大に伴い、SRE 活動の整備が追いついていなかった SRE 活動が兼任だと、優先順位が下がってしまう その他多数反省事項があった...........

Slide 15

Slide 15 text

© Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げた後に やったこと 15 組織的な編成

Slide 16

Slide 16 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 16 SRE活動という名目から、SRE チームに変更 Core SRE (3人) サービス全体に影響するものをメインで対応する SRE Embedded SRE (5 人) 開発チームに属しながら、そのチームの SRE 活動を行う SRE 組織的にまずやる。というのを明示し宣言した

Slide 17

Slide 17 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 17 SRE チームを立ち上げると各チームがなんとなくやっていた SRE 活動を整理・整頓しやすい 聖ベルナルドゥス アプリケーションや組織拡大に伴い、SRE 活動の整備が追いついていなかった 地獄への道は善意で舗装されている 反省点 SRE プラクティス の整理整頓と優先順位のトリアージ 顧客が本当に必要だったもの

Slide 18

Slide 18 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 18 なぜやるのか?(Why) 何をやるべきか?(What) SRE活動からSRE チームで 意思統一をしやすい状態にした

Slide 19

Slide 19 text

© Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げた後に やったこと 19 見える化 - 監視 -

Slide 20

Slide 20 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 見える化 監視 - 20 システム監視で Datadog を本格導入して、System Alert を整備 2023/9月 時点で 13 個の Alert ↓ 2023/11月時点で 240 個の Alert 運用・保守の部分がおざなりに なっていた 反省点 見える化の第一歩は監視から

Slide 21

Slide 21 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 21 【重要】Alert (How)を作りたいのではない Alert を作る事によって運用・保 守のおざなりとは?の認識を合わ せたかった 運用・保守の部分がおざなりに なっていた 反省点 見えていなかった現実を Alert で 見える化 顧客が本当に必要だったもの なぜやるのか?(Why) 何をやるべきか?(What)

Slide 22

Slide 22 text

© Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げた後に やったこと 22 見える化 - APMの導入 -

Slide 23

Slide 23 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 23 過去の Merge したリリース内容が容易に Revert できない Micro Service で関係性が複雑で原因を特定する ことがそもそも難しい Service の監視が一元化されておらず、みんな言 う事がバラバラ

Slide 24

Slide 24 text

© Magic Moment 2021 SRE チームの立ち上げの経緯 24 過去の Merge したリリース内容が容易に Revert できない Micro Service で関係性が複雑で原因を特定する ことがそもそも難しい Service の監視が一元化されておらず、みんな言 う事がバラバラ

Slide 25

Slide 25 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 25 Datadog を APM 本格導入して、Micro Service 間の Trace 情報を見える化 Micro Service で関係性が複雑で 原因を特定することがそもそも難 しい 運用・保守の部分がおざなりに なっていた 反省点 仮説のボトルネック

Slide 26

Slide 26 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 26 【重要】まずは参入障壁を減らして、仲間を増やせる状態にする Micro Service で関係性 が複雑で原因を特定する ことがそもそも難しい エンジニアの声 エラーを1人で闘うのが 「怖い・辛い・先が見え ない」 本当の声 開発チーム A 開発チーム B コラボレーションの 導線をツールで作る

Slide 27

Slide 27 text

© Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げた後に やったこと 27 見える化 - Performance Dashboard の作成 -

Slide 28

Slide 28 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 見える化 - Performance Dashboard の作成 - 28 Datadog Dashboard で全ての Micro Service の統一的に見るべき指標を作成 定期リリース後の翌日に、 システムパフォーマンス Dashboard を 全てのチームで確認して デグレードや、 パフォーマンス劣化していない か?をチェックする システムパフォーマンスの定点チェックを 行っておらず、システムの状態変化に気づ けなかった 反省点 統一的な指標で状態変化が見えるもの 顧客が本当に必要だったもの

Slide 29

Slide 29 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 29 障害は単一的な条件で 発生するんではない 複合的な要因で 発生するんだ!!!!!!!!!!!

Slide 30

Slide 30 text

© Magic Moment 2021 © Magic Moment 2021 SRE チームの立ち上げた後の変化 30 施策後の変化について

Slide 31

Slide 31 text

© Magic Moment 2021 SRE チームの立ち上げた後の変化 31 やったのは 「可視化」、「整理」、「つなぐ」だけ 運用・保守の部分がおざな りに なっていた ● 見えていなかった現実を Alert で見える化 ● エラーを1人で闘わないコラボレーション ツール(APM)の導入 システムパフォーマンスの 定点チェックを行っておら ず、システムの状態変化に 気づけなかった ● 統一的な指標でシステムの状態変化が見える ダッシュボードの用意 アプリケーションや組織拡 大に伴い、SRE 活動の整備 が追いついていなかった ● SRE プラクティスの整理整頓と優先順位の トリアージ ムダ・ムラをなくす チーム間コラボレーション 見える化

Slide 32

Slide 32 text

© Magic Moment 2021 SRE チームの立ち上げた後の変化 32 障害件数は劇的に減った 障害発生月 障害件数 2023年7月以前 6.28 件 (平均) 2023年8月 3 件 2023年9月 3 件 2023年10月 3 件 2023年11月 1 件 SRE チーム 立ち上げ 以前 SRE チーム 立ち上げ後

Slide 33

Slide 33 text

© Magic Moment 2021 SRE チームの立ち上げた後の変化 33 が見えなかった不都合な事実が可視化されているのも事実 ノイズが多くて SLO が 壊滅的 放置している Toil Error がまだある

Slide 34

Slide 34 text

© Magic Moment 2021 SRE チームの立ち上げた後の変化 34 不都合な事実を紡ぐと次の大きな挑戦も見えてくる 大容量データ要件に対し てノイジーネイバー問題 が発生している 本当のボトルネック SRE 活動を通して、問題に直視できるようになったので 現在リアーキテクトを策定中

Slide 35

Slide 35 text

© Magic Moment 2021 SRE チームの立ち上げた後にやったこと - 組織編成 - 35 今 あなたは SRE チームを立ち上げるべきか 悩んでいますか?

Slide 36

Slide 36 text

© Magic Moment 2021 変わる事は できるはず © Magic Moment 2021 36

Slide 37

Slide 37 text

© Magic Moment 2021 THANK YOU © Magic Moment 2021 37