Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オンコール⼊⾨〜ページャーが鳴る前に、あなたが備えられること〜 / Before The Pa...

オンコール⼊⾨〜ページャーが鳴る前に、あなたが備えられること〜 / Before The Pager Rings

SRE NEXT 2025の登壇資料です
https://sre-next.dev/2025/schedule/#slot067

Avatar for Yuuki Takahashi

Yuuki Takahashi

July 12, 2025
Tweet

More Decks by Yuuki Takahashi

Other Decks in Programming

Transcript

  1. 2 ©MIXI ⾃⼰紹介 ⾼橋 祐輝 / Yuuki Takahashi / @yktakaha4

    - 株式会社MIXI みてね事業本部 みてねプラットフォーム部 SREグループ - 2025年1⽉⼊社 - SRE歴は約4年 - エンジニア歴は10年〜 - 好きなもの - ⾳楽 - ⾷ - 猫
  2. 8 ©MIXI 『家族アルバム みてね』について みてねに固有の特性 - 2015年にリリース。今年で10周年のプロダクト - 7⾔語‧175の国と地域で展開され、累計2,500万⼈以上の利⽤者がいる -

    AWSの各種サービスを活⽤しマルチリージョン構成で稼働 - 〜『世界中の家族のこころのインフラ』を⽬指して”次の10年”へ〜 SREが導いたグローバルサービス の信頼性向上戦略とその舞台裏(SRE NEXT 2025) - エンジニア50名‧全体で100名規模の組織 家族アルバム みてね 事業紹介 / Our Business. (2025). Speaker Deck. https://speakerdeck.com/familyalbum/our-business
  3. 9 ©MIXI 『家族アルバム みてね』におけるオンコール対応 オンコール対応とは - システムに問題が発⽣した際に、迅速に初動対応をおこなうこと - ⼀次対応者を当番制で割り当てる -

    解決が難しい場合はインシデント対応へ移⾏ 杉本浩平. (2024). 悩ましきインシデント管理 みてねのケース / Incident Management Is a Tough. Speaker Deck. https://speakerdeck.com/kohbis/insident-management-is-a-tough オンコール対応 インシデント対応
  4. 10 ©MIXI 『家族アルバム みてね』におけるオンコール対応 みてねのオンコール制度 - 2020年11⽉から運⽤開始 - SRE(5名)で1週間ごとのローテーション -

    プライマリ1名→セカンダリ(SRE全員)→役職者へエスカレーション - 社内の他サービスで培われた運⽤ノウハウがベースにある - 待機⼿当 - PagerDuty(インシデント管理プラットフォーム)の活⽤ - 約10年間MIXIのインフラを⽀えてきたPagerDutyの活⽤事例
  5. 12 ©MIXI 『家族アルバム みてね』におけるオンコール対応 新規着任者としてありがたかったこと - 悩んだらとりあえずエスカレーションするカルチャー - インシデント対応やポストモーテム作成について明⽂化されている -

    悩ましきインシデント管理 - Notion x ポストモーテムで広げる組織の学び “重要なのは、オンコールを担当するという負担を思ったよりも軽いものにしてくれるようなリソースがあり、それらを頼りにできる、とオンコールのSREが理解するこ とです。最も重要なオンコールのリソースには、以下のようなものがあります。 - 明確なエスカレーションパス - しっかりと規定されたインシデント管理の⼿順 - ⾮難を伴わないポストモーテム⽂化” Beyer, B., Jones, C., Petoff, J., & Murphy, N. R. (2023). SRE サイトライアビリティエンジニアリング: Googleの信頼性を⽀えるエンジニアリングチーム (⽟川⻯司, Trans.). オライリー‧ジャパン.
  6. 14 ©MIXI 『家族アルバム みてね』におけるオンコール対応 みてねのSREになったら - ⼊社⼿続き - みてね共通のオンボーディング -

    SREグループのスクラムチームの⼀員として開発タスクをこなす - 20%ルールあり - ⼊社3ヶ⽉を⽬安にオンコールシフトへ… 漠然とした不安
  7. 15 ©MIXI 漠然とした不安 の⾔語化 ⽇々の業務だけでシステム理解を深めるのは難しそう - SREチームで導⼊しているスクラム開発との相性 - プロダクトのバックログとは異なる課題管理が必要そう 本間匡晃.

    (2025). 2,500万ユーザーを⽀えるSREチームの6年間のスクラムのカイゼン. Speaker Deck. https://speakerdeck.com/honmarkhunt/2500mo-yuzawozhi-erusretimuno6nian-jian-nosukuramunokaizen
  8. 16 ©MIXI 漠然とした不安 の⾔語化 ページャーが鳴ったらどうすればいいんだろう - ドキュメントは沢⼭あるけど、何から理解すべきかわからない - データ‧ログ‧メトリクスを⾒る⽅法が⾊々あって混乱 清⽔勲.

    (2024). 「家族アルバム みてね」における運⽤管理‧オブザーバビリティの全貌. Speaker Deck. https://speakerdeck.com/isaoshimizu/overview-of-operation-management-and-observability-in-familyalbum
  9. 17 ©MIXI 漠然とした不安 の⾔語化 課題を感じているのは⾃分だけなんじゃないか - 状況によって課題は変わる - 組織規模、フェーズ、⼊社歴、在籍年数... -

    3ヶ⽉後に⾃分はパフォーマンスを発揮できるだろうか 家族アルバム みてね 事業紹介 / Our Business. (2025). Speaker Deck. https://speakerdeck.com/familyalbum/our-business 3年 SRE Mgr 6年 SRE 6ヶ月 SRE(わたし ) 7年 SRE 3年 SRE
  10. 20 ©MIXI リアリティ‧ショックとはオンボーディングの過程で⽣じる「⾼い期待と実際の職務での失望させるような経験との衝突」のことで、 以下の性質を持つリアリティ‧ショックは離職率を⾼めづらく、⾃⼰学習を促進する。(尾形, 2022) - ⾃⼰完結性が⾼い(⾃分の⼒で乗り越えられる) - 正当化可能性が⾼い(直⾯することが納得できる) -

    展望に連鎖している(乗り越えることで⾃分⾃⾝の成⻑につながる) オンコールシフトに⼊るまでに取り組んだこと オンコールをするぞプロジェクトの発⾜ - あなたが⾃信を持ってオンコールシフトに臨めることを⽬指す - 組織としてできてるかどうかは関係ない - 過去の経験やキャリアは関係ない - 問題を課題に分解して、ペース配分しながら対処する - リアリティ‧ショックをセルフマネジメント可能にする 尾形真実哉. (2022). 組織になじませる⼒: オンボーディングが新卒‧中途の離職を防ぐ. アルク.
  11. 22 ©MIXI オンコールシフトに⼊るまでに取り組んだこと タスクの作り⽅に困るなら - ⾃⾝のスキルをアセスメントした結果からタスクを作ってみる - 私を前置してレベルを判断する - max(対応レベル)

    でなく min(対応レベル) を⾼めるタスクに着⼿ カテゴリ 人の動き プロセス ドキュメント ツールや環境 本格対策のスピード 改善 ⽊村誠明. (2024). 【改訂新版】システム障害対応の教科書 (2nd ed.). 技術評論社. 障害対応レベル 動作 レベル1 - ツール類が存在しない - ツールがあったとしても使える人が限定されている - 適切な監視や通知が行われていない レベル2 - 汎用的な調査コマンドなどが整備されている - 必要な監視や通知が行われている レベル3 - 意思決定や情報共有を支援するツールが存在する - 作業担当が全体状況を俯瞰する情報にアクセスできる - 自動復旧が前提であり、通知されるものは最小限である
  12. 23 ©MIXI オンコールシフトに⼊るまでに取り組んだこと タスクの作り⽅に困るなら - ベストプラクティスや事例を参考にする - SRE本 28章、サイトリライアビリティワークブック 8章など

    - 全部やろうとせず、必要なものから少しずつ Beyer, B., Jones, C., Petoff, J., & Murphy, N. R. (2023). SRE サイトライアビリティエンジニアリング: Googleの信頼性を⽀えるエンジニアリングチーム (⽟川⻯司, Trans.). オライリー‧ジャパン. トピック 今、みてねでやってるか 今、必要か ポストモーテムを読む ポストモーテムを書く文化があるが、 読むことは各自に任されている 低コストにできるので やりたい リバースエンジニアリング / 即興的思考 システム全体構成を説明する図があ る インフラ構成を理解するた め、作図をやりたい 実際のサービスの 破壊と修復 やってない 準備コストが高いので 今はやらない
  13. 26 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 課題:データ‧ログ‧メトリクスを⾒る⽅法が⾊々あって混乱 - インデックスとなるドキュメントを作るとよさそう - ツールの使い⽅は都度学べばよい 清⽔勲. (2024).

    「家族アルバム みてね」における運⽤管理‧オブザーバビリティの全貌. Speaker Deck. https://speakerdeck.com/isaoshimizu/overview-of-operation-management-and-observability-in-familyalbum
  14. 28 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 課題:ページャーが鳴ったらどうすればいいんだろう - アラートを起点に理解を深めていくとよさそう - どのようなアラートが定義されているか - Runbookは紐付けられているか

    - 書かれている⼿順を⾃分⾃⾝で実⾏できそうか “アラートには関連するドキュメントが必要です。それは、アラート⾃体に含まれる詳細情報かもしれませんし、誰かがアラートを受け 取ったときに取るべき⼿順を説明する別のドキュメントかもしれません。このようなドキュメントは、総称して⼿順書(runbook)と呼 ばれます。” Smith, J. D. (2023). システム運⽤アンチパターン: エンジニアがDevOpsで解決する組織‧⾃動化‧コミュニケーション (⽥中裕⼀, Trans.). オライリー‧ジャパン.
  15. 29 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 対策:アラート定義とRunbookの読み込み - アラートの実装⽅法とRunbookの紐付き状態を調査 - みてねではTerraformによるIaC管理 - Runbook有無が分かるようリファクタリング

    - ⽣成AI(Google NotebookLM)を活⽤したRunbook作成 - Slackの内容を読み込ませて、叩き台を作ってもらった - ⽇進⽉歩の領域なので今なら違うやり⽅があるかも Slack NotebookLM アラート チャンネルの 投稿 Notion Runbook (叩き台) locals { runbook_url = { http_error = "https://www.notion.so/org/book1" http_response_time = "https://www.notion.so/org/book2" queue_size = "WIP" } }
  16. 30 ©MIXI オンコールシフトに⼊るまでに取り組んだこと 作ったものはどんどん⾒てもらおう - チームの皆にレビューしてもらう - ⾃⾝の理解度を知ってもらう - 運⽤や設計の再考に繋がることも

    - 組織に共有する - 開発者の⽅にも思ったより読まれていた - インターンの⽅への説明資料として使ってもらえた - 社外に公開する
  17. 34 ©MIXI オンコールシフトに⼊ってから取り組んだこと 準備が役⽴ったこと - システムの全体像を踏まえた原因切り分け - HTTP 5xxエラーのアラートが発報 -

    アプリケーションでのエラーは増加している? - インスタンスは適切にスケールしている? - 海外リージョンでもエラーになってる? - 使うべきツールが判断でき、とりあえず⼿が動かせる - 素振り⼤事
  18. 35 ©MIXI オンコールシフトに⼊ってから取り組んだこと 準備した以外のことも起きる - アプリケーションが起動できないバグがリリースされる - 緊急ロールバックして復旧 - 緊急ロールバックってなんだっけ

    - ロードバランサで謎の接続エラーが発⽣ - AWS障害でした - ⾮同期処理の⼤量エンキューが発⽣ - 実際には問題ない偽陽性のアラートでした
  19. 37 ©MIXI オンコールシフトに⼊ってから取り組んだこと 取り組んでいる & やっていきたいこと - 本番環境で未経験のオペレーションを開発環境でおこなう - 緊急ロールバック

    - メンテナンスモードへの移⾏ - インシデント発⽣時の対応フローの訓練 - 備えあれば患いなし:効率的なインシデント対応を⽬指すSREの取 り組み(SRE NEXT 2023)
  20. 38 ©MIXI オンコールシフトに⼊ってから取り組んだこと 取り組んでいる & やっていきたいこと - 特定領域へのDeep Dive -

    事業上特に重要な処理を読み込んだり動かしてドキュメント化 - メンタルモデルの更なる強化 ⽣島光. (2024). 家族アルバム みてねのシステムアーキテクチャ. Findy Tools. https://findy-tools.io/companies/mixi/11/5
  21. 39 ©MIXI オンコールシフトに⼊ってから取り組んだこと 取り組んでいる & やっていきたいこと - 学習ロードマップの作成とチェックリスト化 - 次の新規着任者のために

    サイトリライアビリティワークブックでは、オンコール対応をする前に実践しておくべき重点領域の⼀例として他にも以下のようなト ピックが挙げられている。(Ollie et al., 2020) - クラスタからのトラフィックの「ドレイン」 - 望ましくないトラフィックのブロックもしくはレート制限 - 追加のサーバーキャパシティの⽴ち上げ Beyer, B., Murphy, N. R., Rensin, D. K., Kawahara, K., & Thorne, S. (2020). サイトリライアビリティワークブック (⽟川⻯司, Trans.). オライリー‧ジャパン.