Slide 1

Slide 1 text

悩ましきSLO @HomMarkHunt #hrmos_mitene [ HRMOS(BizReach) x みてね(MIXI) ] SREのお悩みぶっつけ合いLT大会

Slide 2

Slide 2 text

About Me Masateru Homma 株式会社MIXI 2022/05 ~『家族アルバム みてね』 SRE Twitter : @HonMarkHunt 2 4歳と1歳の娘がいます。 日々の業務と子育てに追われ、 先日満を持してゼルダの伝説 ブレス オブ ザ ワイルドをプレイ開始。 チームでは主に飲み会の企画を担当。

Slide 3

Slide 3 text

サービス紹介 3

Slide 4

Slide 4 text

4 家族アルバム みてねはスマホで撮った子どもの写真や動画を家族と共有し、 コミュニケーションして楽しむ家族アルバムサービスです。

Slide 5

Slide 5 text

5 家族アルバム みてねの利用者数推移 2015年にリリース。7言語・175の国と地域で2,000万人以上の方にご利用いただいています。 2015.4 20,000,000 15,000,000 10,000,000 5,000,000 0 2016 2017 2018 2019 2020 2021 2022 国内 海外 ※ iOS・Android™ アプリ登録者数、ブラウザ版登録者数の合計 2023.11 2,000万人 突破

Slide 6

Slide 6 text

MIXI, Inc. 世界中の家族のこころのインフラをつくる みてね事業のMVV | Mission

Slide 7

Slide 7 text

Agenda 1. みてねSREの立ち位置 2. SLI/SLOの取り組み 3. お悩み 4. 今後の展望 5. まとめ 7

Slide 8

Slide 8 text

みてねSREの立ち位置 8

Slide 9

Slide 9 text

9 組織図 デザイン Data Engineering 開発 みてねプロダクト開発 ユーザー コミュニケーション みてねマーケティング ユーザー グロース みてね事業開発 組織支援 CS 事業開発 アジャイル 変革 事業責任者 ローカライズ プラット フォーム SREチーム

Slide 10

Slide 10 text

10 ドメイン組織 デジタルアルバム ドメインチーム (DAD) マーチャンダイジング ドメインチーム (MERCH) 職能横断で領域に特化した開発チーム 他にも新規事業など複数のドメインが存在します デザイナー エンジニア マネージャー (デザイン・エンジニア) QA PdM SM デザイナー エンジニア マネージャー (デザイン・エンジニア) QA PdM SM

Slide 11

Slide 11 text

11 SREの立ち位置 ドメインチーム A ドメインチーム B SREチーム ドメインチーム C ドメインチーム D ● ドメインチームは複数存在している ● SREチームメンバーはドメインチームには所属していない ● 独立チームとして各ドメインチームをサポート ● アラート検知、メトリクス異常を見つけた場合はSREチームから修正依頼 修正依頼・ サポート 問い合わせ 検知・観測 メトリクス管理

Slide 12

Slide 12 text

SLI/SLOの取り組み 12

Slide 13

Slide 13 text

13 課題感 ● ドメインチームは増えていくがSREチームは増え続けられない ● 追うべきメトリクスも増え続け得る ● システムのメトリクスは見ているがユーザー幸福度と直結した指標を定義できていない ● 所謂教科書的なSREの活動ができていない ドメインチーム A ドメインチーム B 増えない SREチーム ドメインチーム C ドメインチーム D 増えるメトリクス 増えるドメインチーム

Slide 14

Slide 14 text

14 理想像 ドメインチーム A ドメインチーム B SREチーム ドメインチーム C ドメインチーム D SLI/SLO導入支援 ドメインチームが独立して指標を持ち、ユーザー満足度の高い状態で運用できる体制を整えたい! SLI : みてねユーザーの幸福度を表す指標 SLO : みてねユーザーの幸福度を表す指標の目標値 (SLIの目標値) 理想 問い合わせ

Slide 15

Slide 15 text

15 導入までの取り組み 1. クリティカルユーザージャーニーの設定 2. SLIの策定 3. 必要なメトリクス収集とグラフ化の支援 4. SLOの設定 5. 定例MTGを設けて運用までの支援

Slide 16

Slide 16 text

16 現在の運用

Slide 17

Slide 17 text

17 ドメインチームごとのSLO/SLIの運用はできていません 各ドメインチームごとに「必要なメトリクス収集とグラフ化の支援」までは行った それ以降SLOの設定 ~ 見直しがフローに乗らず立ち消えになってしまった SREチーム内からも「あれこれなんのためにやってんだっけ?」の声 引き続きSREチームが メトリクス監視/アラート対応 を実施している

Slide 18

Slide 18 text

お悩み 18

Slide 19

Slide 19 text

19 SLOの運用を根付かせるの難しい 自チーム内だけで 運用するならやれそうだが 他チームに根付かせるのむずい 他チームへの説明の時 間も 無限に取れるわけでは ない Embedded SRE? やらされてる感で 運用して欲しくない...

Slide 20

Slide 20 text

今後の展望 20

Slide 21

Slide 21 text

21 ドメインチームの数が増えているため、 それぞれのチームの動き全てを把握することはできない。 一定の運用担保は委譲していく機運は高まっている。 再度SLI/SLOの導入を実行していく可能性は十分にある。 まずはSREチーム内で目指すべき状態のすり合わせとSLI/SLOがなぜ必要なのか、 どんなメリットがあるか、の認識をそろえてからアクションを始めるべき。 SRE本に書いてあるからやるわけではない。

Slide 22

Slide 22 text

22