Slide 1

Slide 1 text

©MIXI 1 オンコール⼊⾨ ページャーが鳴る前に、あなたが備えられること SRE NEXT 2025 Yuuki Takahashi / @yktakaha4

Slide 2

Slide 2 text

2 ©MIXI ⾃⼰紹介 ⾼橋 祐輝 / Yuuki Takahashi / @yktakaha4 - 株式会社MIXI みてね事業本部 みてねプラットフォーム部 SREグループ - 2025年1⽉⼊社 - SRE歴は約4年 - エンジニア歴は10年〜 - 好きなもの - ⾳楽 - ⾷ - 猫

Slide 3

Slide 3 text

3 ©MIXI 本セッションの⽬的 オンコール対応のオンボーディングについて共に考えましょう - 話すこと - トレーニーが知っておくとよい考え⽅や学習⽅法 - トレーナーや組織が整備できるとよい環境や体制 - 話さないこと - 要素技術の詳細やシステムパフォーマンス分析の具体的⼿法 - インシデント対応

Slide 4

Slide 4 text

4 ©MIXI 本セッションの流れ アジェンダ 1. 『家族アルバム みてね』におけるオンコール対応 2. オンコールシフトに⼊るまでに取り組んだこと 3. オンコールシフトに⼊ってから取り組んだこと 4. まとめ

Slide 5

Slide 5 text

©MIXI 5 『家族アルバム みてね』における  オンコール対応

Slide 6

Slide 6 text

6 ©MIXI 『家族アルバム みてね』について 家族アルバム みてねはスマホで撮った⼦どもの写真や動画を家族と共有し、 コミュニケーションして楽しむ家族アルバムサービスです。

Slide 7

Slide 7 text

7 ©MIXI 『家族アルバム みてね』について

Slide 8

Slide 8 text

8 ©MIXI 『家族アルバム みてね』について みてねに固有の特性 - 2015年にリリース。今年で10周年のプロダクト - 7⾔語‧175の国と地域で展開され、累計2,500万⼈以上の利⽤者がいる - AWSの各種サービスを活⽤しマルチリージョン構成で稼働 - 〜『世界中の家族のこころのインフラ』を⽬指して”次の10年”へ〜 SREが導いたグローバルサービス の信頼性向上戦略とその舞台裏(SRE NEXT 2025) - エンジニア50名‧全体で100名規模の組織 家族アルバム みてね 事業紹介 / Our Business. (2025). Speaker Deck. https://speakerdeck.com/familyalbum/our-business

Slide 9

Slide 9 text

9 ©MIXI 『家族アルバム みてね』におけるオンコール対応 オンコール対応とは - システムに問題が発⽣した際に、迅速に初動対応をおこなうこと - ⼀次対応者を当番制で割り当てる - 解決が難しい場合はインシデント対応へ移⾏ 杉本浩平. (2024). 悩ましきインシデント管理 みてねのケース / Incident Management Is a Tough. Speaker Deck. https://speakerdeck.com/kohbis/insident-management-is-a-tough オンコール対応 インシデント対応

Slide 10

Slide 10 text

10 ©MIXI 『家族アルバム みてね』におけるオンコール対応 みてねのオンコール制度 - 2020年11⽉から運⽤開始 - SRE(5名)で1週間ごとのローテーション - プライマリ1名→セカンダリ(SRE全員)→役職者へエスカレーション - 社内の他サービスで培われた運⽤ノウハウがベースにある - 待機⼿当 - PagerDuty(インシデント管理プラットフォーム)の活⽤ - 約10年間MIXIのインフラを⽀えてきたPagerDutyの活⽤事例

Slide 11

Slide 11 text

11 ©MIXI 『家族アルバム みてね』におけるオンコール対応 アラート通知基盤のシステム構成 清⽔勲. (2024). 約10年間MIXIのインフラを⽀えてきたPagerDutyの活⽤事例 / PagerDuty on Tour TOKYO 2024. Speaker Deck. https://speakerdeck.com/isaoshimizu/pagerduty-on-tour-2024

Slide 12

Slide 12 text

12 ©MIXI 『家族アルバム みてね』におけるオンコール対応 新規着任者としてありがたかったこと - 悩んだらとりあえずエスカレーションするカルチャー - インシデント対応やポストモーテム作成について明⽂化されている - 悩ましきインシデント管理 - Notion x ポストモーテムで広げる組織の学び “重要なのは、オンコールを担当するという負担を思ったよりも軽いものにしてくれるようなリソースがあり、それらを頼りにできる、とオンコールのSREが理解するこ とです。最も重要なオンコールのリソースには、以下のようなものがあります。 - 明確なエスカレーションパス - しっかりと規定されたインシデント管理の⼿順 - ⾮難を伴わないポストモーテム⽂化” Beyer, B., Jones, C., Petoff, J., & Murphy, N. R. (2023). SRE サイトライアビリティエンジニアリング: Googleの信頼性を⽀えるエンジニアリングチーム (⽟川⻯司, Trans.). オライリー‧ジャパン.

Slide 13

Slide 13 text

13 ©MIXI めっっちゃ整ってるな〜 (⼊社直後の感想)

Slide 14

Slide 14 text

14 ©MIXI 『家族アルバム みてね』におけるオンコール対応 みてねのSREになったら - ⼊社⼿続き - みてね共通のオンボーディング - SREグループのスクラムチームの⼀員として開発タスクをこなす - 20%ルールあり - ⼊社3ヶ⽉を⽬安にオンコールシフトへ… 漠然とした不安

Slide 15

Slide 15 text

15 ©MIXI 漠然とした不安 の⾔語化 ⽇々の業務だけでシステム理解を深めるのは難しそう - SREチームで導⼊しているスクラム開発との相性 - プロダクトのバックログとは異なる課題管理が必要そう 本間匡晃. (2025). 2,500万ユーザーを⽀えるSREチームの6年間のスクラムのカイゼン. Speaker Deck. https://speakerdeck.com/honmarkhunt/2500mo-yuzawozhi-erusretimuno6nian-jian-nosukuramunokaizen

Slide 16

Slide 16 text

16 ©MIXI 漠然とした不安 の⾔語化 ページャーが鳴ったらどうすればいいんだろう - ドキュメントは沢⼭あるけど、何から理解すべきかわからない - データ‧ログ‧メトリクスを⾒る⽅法が⾊々あって混乱 清⽔勲. (2024). 「家族アルバム みてね」における運⽤管理‧オブザーバビリティの全貌. Speaker Deck. https://speakerdeck.com/isaoshimizu/overview-of-operation-management-and-observability-in-familyalbum

Slide 17

Slide 17 text

17 ©MIXI 漠然とした不安 の⾔語化 課題を感じているのは⾃分だけなんじゃないか - 状況によって課題は変わる - 組織規模、フェーズ、⼊社歴、在籍年数... - 3ヶ⽉後に⾃分はパフォーマンスを発揮できるだろうか 家族アルバム みてね 事業紹介 / Our Business. (2025). Speaker Deck. https://speakerdeck.com/familyalbum/our-business 3年 SRE Mgr 6年 SRE 6ヶ月 SRE(わたし ) 7年 SRE 3年 SRE

Slide 18

Slide 18 text

18 ©MIXI ひとつずつ対処していきましょう

Slide 19

Slide 19 text

©MIXI 19 オンコールシフトに⼊るまでに 取り組んだこと

Slide 20

Slide 20 text

20 ©MIXI リアリティ‧ショックとはオンボーディングの過程で⽣じる「⾼い期待と実際の職務での失望させるような経験との衝突」のことで、 以下の性質を持つリアリティ‧ショックは離職率を⾼めづらく、⾃⼰学習を促進する。(尾形, 2022) - ⾃⼰完結性が⾼い(⾃分の⼒で乗り越えられる) - 正当化可能性が⾼い(直⾯することが納得できる) - 展望に連鎖している(乗り越えることで⾃分⾃⾝の成⻑につながる) オンコールシフトに⼊るまでに取り組んだこと オンコールをするぞプロジェクトの発⾜ - あなたが⾃信を持ってオンコールシフトに臨めることを⽬指す - 組織としてできてるかどうかは関係ない - 過去の経験やキャリアは関係ない - 問題を課題に分解して、ペース配分しながら対処する - リアリティ‧ショックをセルフマネジメント可能にする 尾形真実哉. (2022). 組織になじませる⼒: オンボーディングが新卒‧中途の離職を防ぐ. アルク.

Slide 21

Slide 21 text

21 ©MIXI オンコールシフトに⼊るまでに取り組んだこと タスク管理をしよう - 皆が使っているツールを使う - みてねでは全社でNotionを活⽤ - 単なるToDoリストにしない - 課題解決のために計画したタスクを⼊れる - オンボーディングに直接関係しないタスクは除外する

Slide 22

Slide 22 text

22 ©MIXI オンコールシフトに⼊るまでに取り組んだこと タスクの作り⽅に困るなら - ⾃⾝のスキルをアセスメントした結果からタスクを作ってみる - 私を前置してレベルを判断する - max(対応レベル) でなく min(対応レベル) を⾼めるタスクに着⼿ カテゴリ 人の動き プロセス ドキュメント ツールや環境 本格対策のスピード 改善 ⽊村誠明. (2024). 【改訂新版】システム障害対応の教科書 (2nd ed.). 技術評論社. 障害対応レベル 動作 レベル1 - ツール類が存在しない - ツールがあったとしても使える人が限定されている - 適切な監視や通知が行われていない レベル2 - 汎用的な調査コマンドなどが整備されている - 必要な監視や通知が行われている レベル3 - 意思決定や情報共有を支援するツールが存在する - 作業担当が全体状況を俯瞰する情報にアクセスできる - 自動復旧が前提であり、通知されるものは最小限である

Slide 23

Slide 23 text

23 ©MIXI オンコールシフトに⼊るまでに取り組んだこと タスクの作り⽅に困るなら - ベストプラクティスや事例を参考にする - SRE本 28章、サイトリライアビリティワークブック 8章など - 全部やろうとせず、必要なものから少しずつ Beyer, B., Jones, C., Petoff, J., & Murphy, N. R. (2023). SRE サイトライアビリティエンジニアリング: Googleの信頼性を⽀えるエンジニアリングチーム (⽟川⻯司, Trans.). オライリー‧ジャパン. トピック 今、みてねでやってるか 今、必要か ポストモーテムを読む ポストモーテムを書く文化があるが、 読むことは各自に任されている 低コストにできるので やりたい リバースエンジニアリング / 即興的思考 システム全体構成を説明する図があ る インフラ構成を理解するた め、作図をやりたい 実際のサービスの 破壊と修復 やってない 準備コストが高いので 今はやらない

Slide 24

Slide 24 text

24 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 課題:⽇々の業務だけでシステム理解を深めるのは難しそう - 担当するシステムのメンタルモデルを強化する “メンタルモデルとは、対象がどのように機能するかについてのある⼈の思考プロセスを表したものです。メンタルモデルには、コン ポーネント間の関係や相互作⽤、あるコンポーネントの動作が他のコンポーネントにどのような影響を与えるかについての認識が表さ れます。⼈のメンタルモデルは、しばしば間違っていたり、不完全だったりします。” Smith, J. D. (2023). システム運⽤アンチパターン: エンジニアがDevOpsで解決する組織‧⾃動化‧コミュニケーション (⽥中裕⼀, Trans.). オライリー‧ジャパン. Web DB CDN LB LB Web Web DB(R/O) DB(R/W) 日本 米国

Slide 25

Slide 25 text

25 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 対策:通信の流れ図を作成する - エンドユーザーとアプリケーション間のHTTP通信経路を整理した図 - サーバースペック‧台数‧RPS‧QPSを補記 - 環境差異や⾮同期処理に関するものは思い切って割愛 - そのプロジェクトで特に重要なものから図にしていく

Slide 26

Slide 26 text

26 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 課題:データ‧ログ‧メトリクスを⾒る⽅法が⾊々あって混乱 - インデックスとなるドキュメントを作るとよさそう - ツールの使い⽅は都度学べばよい 清⽔勲. (2024). 「家族アルバム みてね」における運⽤管理‧オブザーバビリティの全貌. Speaker Deck. https://speakerdeck.com/isaoshimizu/overview-of-operation-management-and-observability-in-familyalbum

Slide 27

Slide 27 text

27 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 対策:データ‧ログ参照チートシートを作成する - みてねのSREが利⽤可能なツールを網羅したドキュメント - どんな時に使うべきか(+ データ鮮度) - どうしたら利⽤できるか(+ ツールのURLやアクセス権限申請の⽅法) - より詳細なドキュメントへのリンク

Slide 28

Slide 28 text

28 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 課題:ページャーが鳴ったらどうすればいいんだろう - アラートを起点に理解を深めていくとよさそう - どのようなアラートが定義されているか - Runbookは紐付けられているか - 書かれている⼿順を⾃分⾃⾝で実⾏できそうか “アラートには関連するドキュメントが必要です。それは、アラート⾃体に含まれる詳細情報かもしれませんし、誰かがアラートを受け 取ったときに取るべき⼿順を説明する別のドキュメントかもしれません。このようなドキュメントは、総称して⼿順書(runbook)と呼 ばれます。” Smith, J. D. (2023). システム運⽤アンチパターン: エンジニアがDevOpsで解決する組織‧⾃動化‧コミュニケーション (⽥中裕⼀, Trans.). オライリー‧ジャパン.

Slide 29

Slide 29 text

29 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 対策:アラート定義とRunbookの読み込み - アラートの実装⽅法とRunbookの紐付き状態を調査 - みてねではTerraformによるIaC管理 - Runbook有無が分かるようリファクタリング - ⽣成AI(Google NotebookLM)を活⽤したRunbook作成 - Slackの内容を読み込ませて、叩き台を作ってもらった - ⽇進⽉歩の領域なので今なら違うやり⽅があるかも Slack NotebookLM アラート チャンネルの 投稿 Notion Runbook (叩き台) locals { runbook_url = { http_error = "https://www.notion.so/org/book1" http_response_time = "https://www.notion.so/org/book2" queue_size = "WIP" } }

Slide 30

Slide 30 text

30 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 作ったものはどんどん⾒てもらおう - チームの皆にレビューしてもらう - ⾃⾝の理解度を知ってもらう - 運⽤や設計の再考に繋がることも - 組織に共有する - 開発者の⽅にも思ったより読まれていた - インターンの⽅への説明資料として使ってもらえた - 社外に公開する

Slide 31

Slide 31 text

31 ©MIXI なんだかいける気がしてきました

Slide 32

Slide 32 text

©MIXI 32 オンコールシフトに⼊ってから 取り組んだこと

Slide 33

Slide 33 text

33 ©MIXI いざ実践へ (The Server’s on Fireを聴きながら)

Slide 34

Slide 34 text

34 ©MIXI オンコールシフトに⼊ってから取り組んだこと 準備が役⽴ったこと - システムの全体像を踏まえた原因切り分け - HTTP 5xxエラーのアラートが発報 - アプリケーションでのエラーは増加している? - インスタンスは適切にスケールしている? - 海外リージョンでもエラーになってる? - 使うべきツールが判断でき、とりあえず⼿が動かせる - 素振り⼤事

Slide 35

Slide 35 text

35 ©MIXI オンコールシフトに⼊ってから取り組んだこと 準備した以外のことも起きる - アプリケーションが起動できないバグがリリースされる - 緊急ロールバックして復旧 - 緊急ロールバックってなんだっけ - ロードバランサで謎の接続エラーが発⽣ - AWS障害でした - ⾮同期処理の⼤量エンキューが発⽣ - 実際には問題ない偽陽性のアラートでした

Slide 36

Slide 36 text

36 ©MIXI オンコールシフトに⼊ってから取り組んだこと リアリティ‧ショックに遭遇してみて - ⾃⼰完結性(⾃分の⼒で乗り越えられるか) - オンボーディングプロセスを⾃⼰管理している - 正当化可能性(直⾯することが納得できるか) - プロセスに不⾜があったなら改善すればいい - 展望への連鎖(⾃⼰成⻑につながるか) - 課題解決できればできることが増える まだやれるかも

Slide 37

Slide 37 text

37 ©MIXI オンコールシフトに⼊ってから取り組んだこと 取り組んでいる & やっていきたいこと - 本番環境で未経験のオペレーションを開発環境でおこなう - 緊急ロールバック - メンテナンスモードへの移⾏ - インシデント発⽣時の対応フローの訓練 - 備えあれば患いなし:効率的なインシデント対応を⽬指すSREの取 り組み(SRE NEXT 2023)

Slide 38

Slide 38 text

38 ©MIXI オンコールシフトに⼊ってから取り組んだこと 取り組んでいる & やっていきたいこと - 特定領域へのDeep Dive - 事業上特に重要な処理を読み込んだり動かしてドキュメント化 - メンタルモデルの更なる強化 ⽣島光. (2024). 家族アルバム みてねのシステムアーキテクチャ. Findy Tools. https://findy-tools.io/companies/mixi/11/5

Slide 39

Slide 39 text

39 ©MIXI オンコールシフトに⼊ってから取り組んだこと 取り組んでいる & やっていきたいこと - 学習ロードマップの作成とチェックリスト化 - 次の新規着任者のために サイトリライアビリティワークブックでは、オンコール対応をする前に実践しておくべき重点領域の⼀例として他にも以下のようなト ピックが挙げられている。(Ollie et al., 2020) - クラスタからのトラフィックの「ドレイン」 - 望ましくないトラフィックのブロックもしくはレート制限 - 追加のサーバーキャパシティの⽴ち上げ Beyer, B., Murphy, N. R., Rensin, D. K., Kawahara, K., & Thorne, S. (2020). サイトリライアビリティワークブック (⽟川⻯司, Trans.). オライリー‧ジャパン.

Slide 40

Slide 40 text

©MIXI 40 まとめ

Slide 41

Slide 41 text

41 ©MIXI まとめ 得られたことと学び - いつか来るリアリティ‧ショックに備える - 学習プロセスをセルフコントロールする - 不安は⾔語化してタスクに分解する - 地道にやる - 必要そうなことからひとつずつ - ベストプラクティスや最新技術を気にしすぎない

Slide 42

Slide 42 text

42 ©MIXI ご清聴ありがとうございました ページャーが鳴る前に、ご応募お待ちしてます! https://team.mitene.us