Slide 1

Slide 1 text

©MIXI 再考: みてねにおけるSLI/SLO 2024/10/30 - SRE NEXT 2024をふりかえって 〜学びをもとにした 取り組み事例紹介〜 株式会社MIXI Vantageスタジオ みてねプロダクト開発部 プラットフォームグループ SREチーム ⽊村有希

Slide 2

Slide 2 text

2 ©MIXI ⾃⼰紹介 名前 ⽊村 有希 (@kimuson_13) 所属 株式会社MIXI Vantageスタジオ みてねプロダクト開発部 プラットフォームグループ SREチーム ⽊村 有希 (@kimuson_13) 経歴 • 2024/04に株式会社MIXIに新卒⼊社。 • ⼊社前はMIXIのモンストの解析グループで内定者アルバイトをしていた • データ基盤のCD実装やデータマートのテスト実装などSREっぽいことをしていた • 他にもいろいろな企業でエンジニアとしてインターンを経験

Slide 3

Slide 3 text

©MIXI 家族アルバム みてねはスマホで撮った⼦どもの写真や動画を家族と共有し、 コミュニケーションして楽しむ家族アルバムサービスです。

Slide 4

Slide 4 text

4 ©MIXI 家族アルバム みてねの利用者数推移 2015年にリリース。7⾔語‧175の国と地域で2,300万⼈以上の⽅にご利⽤いただいています。 2015 20,000,000 15,000,000 10,000,000 5,000,000 0 2016 2017 2018 2019 2020 2021 2022 国内 海外 ※ iOS・Android™ アプリ登録者数、ブラウザ版登録者数の合計 2023 2024.7 25,000,000

Slide 5

Slide 5 text

5 ©MIXI みてねには直接プロダクト開発に関わるチームがおおまかに4つある • ドメインチーム(実際に機能開発を⾏うチーム)が3つ • Data EngineeringグループというAI/MLをサービスに組み込むチーム • (SRE‧CRE‧セキュリティはプラットフォームグループという横断組織の扱い) 必要なメトリクスの収集とそれをグラフ化できるGrafanaはある ただ、うまくそれぞれのチームで運⽤に乗せることができずに断念した過去が。。。 →そのため、ガッツリSLI/SLOに向きあって導⼊から運⽤までやっている事例を知りたかった みてねにはSLOがありません ⼤前提

Slide 6

Slide 6 text

6 ©MIXI 「⼤きな組織にSLOを導⼊し 運⽤するということ、その難しさ」というセッションを聞いた その中で以下のようなことを学んだ • SLOを検知できるか?で考えるのではなくて、サービスとしてあるべき姿‧品質から考えること • SLOの導⼊を進めて、各チームで管理してもらうためにはSLI/SLOに関する知識を共有し、共通認識を作らないと いけない。問題を問題と捉えるには知識が必要 • SLOを導⼊後の運⽤にも広範囲の知識が求められる。(ex: アラートの偽陽性発⽕の修正) → 正直⾃分たちのリソース量でそこまで実現できるのか?と不安になってしまった SLOについて SRE NEXT 2024での学び

Slide 7

Slide 7 text

7 ©MIXI • SRE NEXT 2024の全体の振り返り(1万字くらい)やみてねに活かせそうなことをドキュメントに書いた • チームのレトロスペクティブで正直な気持ちを共有 • その気持ちを元にチームで今のみてねSREにとってのSLI/SLOとはどういうものになりそうか?を議論 共有と議論 やったこと

Slide 8

Slide 8 text

8 ©MIXI みてねSREでは実際にGrafanaで毎朝各種メトリクス(レスポンスタイムなど)を確認している ダッシュボードの数値からユーザーの満⾜度(≒体験)に影響があるかどうかをこれまでの実績を踏まえた上での感覚で判 断している (ex: レスポンスタイムがxxまで上がってしまっているから、調査しよう) これに対して定量的なわかりやすい基準値を決め、それを運⽤していくところから始めるのがよさそう! そして、この値はアラートとは分けて考える必要がありそう • アラート: 早急な対応が必要なもの • SLO: ⽬標値であり、⽬標が達成できそうかどうかでアクションを変えるもの SREチームにとってのあるべき状態を定義する NEXT ACTION

Slide 9

Slide 9 text

9 ©MIXI SLI/SLOの導⼊‧運⽤は⼀朝⼀⼣でうまくできるものではない。ずっと向き合っていくもの そして初めから完璧に全プロダクトチームに導⼊、それぞれで管理してもらう状態を⽬指すのは難しい SREチーム内で完結することから初めて、まずは運⽤実績を作っていくことが⼤事 その⼀歩が今は感覚値になっている指標の良し悪しの判断基準を作るところから! できることからやっていく まとめ

Slide 10

Slide 10 text

10 ©MIXI • SLI/SLOの導⼊やその後の運⽤までどれくらい稼働の割合をさくか • SLI/SLOの導⼊作業‧取り組みの他のやるべきことたちとの優先度の付け⽅ • 他のやるべきことと同列に扱うのか? • 多くの⼈を巻き込むことになるので、別枠で捉えるべきか? • SLOの値を決めるにあたって、ユーザーの満⾜度をどのように測るか? SLI/SLOに限らずざっくばらんにお話しましょう!!! 懇親会でぜひお話したいことたち 懇親会等で話したいこと

Slide 11

Slide 11 text

©MIXI