Upgrade to Pro — share decks privately, control downloads, hide ads and more …

モノタロウにおけるSREの現在地:モダナイゼーションの過程で変化していく組織に、SREは...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for MonotaRO MonotaRO PRO
February 02, 2026
32

 モノタロウにおけるSREの現在地:モダナイゼーションの過程で変化していく組織に、SREはどう向き合ったか

Avatar for MonotaRO

MonotaRO PRO

February 02, 2026
Tweet

More Decks by MonotaRO

Transcript

  1. エンジニアリングのチャレンジ 事業成長に貢献するため、 アーキテクチャの再構築とシステムのモダナイズに挑む 現在の課題       取組方針 システム・業務の長年の変化に伴う複雑性 20年間の安定した成長に伴い、組織とシステムも拡 大。そのため、新たな取り組みに対する調整コストが 増加している状況。

    また、サービスが高度化し、独自の発展を遂げている ことにより、システムの複雑性が増している。 変更容易性の低下 システムが複雑になるにつれて、経営戦略や戦術への 迅速な対応が難しくなっている。 注力すべきサービスの進化に十分なリソースを割り当 てることが困難な状況。 方針:分割統治 大きな問題を小さな部分問題に分割し、それぞれを個別に解決する「分割 統治」戦略を採用。これにより、システムの複雑性を制御可能な範囲に抑 え、事業のさらなるスケールにも貢献する。 方法:ドメインモデリングと イベントドリブンアーキテクチャの導入 システムをビジネスドメインごとに分割し、各ドメイン間の連携をイベ ント駆動で行うアーキテクチャを採用。これにより、システムの変更容 易性を高め、ビジネスの変化に迅速に対応できる基盤を構築する。
  2. 2022年 ~ 2023年 の SRE グループの立ち位置 コアシステムエンジニアリング (CSE)部門 Mission 業務例

    ビジネスの成長を 支えるITの提供 顧客体験向上の ための継続開発 大企業ビジネスの 成長加速 より良い仕事環境 の提供 価値提供の 基盤開発 • 内製基幹システムの導入、開発、運用 • 倉庫管理システム/インフラの構築、運用 • 会計システムの開発、運用 • ECサイト機能の開発、運用 • マーケティング基盤の開発、運用 • 大企業連携システムの開発、運用 • オフィスインフラの構築、保守運用 • オフィス系サービスの導入、運用 • ITサポート • セキュリティ統括 • サーバインフラの構築、運用 • データ基盤の構築、運用 • システム開発/保守基盤の構築、運用 • DevOps/Webセキュリティ ECシステムエンジニアリング (ECSE)部門 エンタープライズビジネス エンジニアリング(EBE)部門 コーポレートエンジニアリング (CE)部門 プラットフォームエンジニア リング(PE)部門 部門 SREグループ
  3. 16/23 ~2022年: SLOベースでの運用の始まり • 当時の状況 ◦ ビジネスもシステムもスケールしていく中で、サイトが不安定になるトラブ ルがたびたび発生していて、SRE への機運の高まりつつあった •

    何をした ◦ Google社のSREの研修を受講 ◦ CUJの作成とそれに基づく SLI/SLO の設計 ◦ ECサイト(monotaro.com)へのSLOベースの運用開始 ◦ ポストモーテムの運用開始 ◦ オンコール体制の整備 詳細はテックブログ📗をチェック! SRE導入: システムを安定させる4000万円の魔法の壺 https://tech-blog.monotaro.com/entry/2022/09/13/090000
  4. 18/23 当初策定された SRE の実践レベル(2022年→2023年) 18 レベル 0 (初期状態) Level 1

    (見える化) Level 2 (コントロール) Level 3 (標準化・スケール) 国内EC SLO ベースの運用 オンコール  見える化  手順化、訓練 SLO ベースの運用  CUJ, SLO 設計  ダッシュボード作成 SLO ベースの運用  アラート実装  開発チームに展開 オンコール  オンコールポリシー  エラーバジェットポリシー SLO ベースの運用  各システムの運用を切り替え ログ集約  ログ基盤の構築  旧ログ基盤の廃止 ログ集約  データ保管ポリシー  セキュリティポリシー ログ集約  各システムがログ基盤を利用 オンコール  各開発チームに展開 モニタリング  現状の運用  ツール/サービス選定 モニタリング  設定のコード化  CI/CD の仕組み化 モニタリング  各開発チームが仕組みを利用 デリバリー  Four Keys 計測  CI, カナリアリリース デリバリー オンコール デリバリー  CD 基盤 デリバリー  各システムが利用 マイクロサービス マイクロサービス  コンテナ化 マイクロサービス  マイクロサービス基盤 ログ集約 モニタリング マイクロサービス  各システムが利用  アプリケーションのひな形 2022年 2023年
  5. 21/23 SRE 拡大時に活用したもの • 共通の Terraform Module • 実測値計測用スクリプト(Google Colab)

    • 毎日のエラーバジェットレポート/毎月の振り返りの会議体 • インシデント対応用 Slack Bot • 各種ドキュメント類 ◦ Runbook: サイトオンコール対応 ◦ Runbook: ポストモーテム作成ガイド ◦ エラーバジェットポリシー ◦ トラブル状況ドキュメント ◦ SRE を学ぶ教材
  6. 26/23 データパイプラインやバッチシステムに対する SLO 運用の難しさ • SLI/SLOの設計に時間がかかる ◦ CUJ との関係性、目標値の妥当性、理解のしやすさなど •

    マニュアルでの計装が前提かつ、計装のハードルが高い ◦ 特にバッチはレガシーなものが多い • アプリケーションの作りや扱うデータに依存する部分も多く標準化も難しい
  7. 27/23 バッチシステムに適用したSLOの例 SLIタイプ :Data Processing: Freshness SLI仕様 :300分以内に処理された配送状況レコードの割合 SLI実装: DeliveryStatusテーブルの

    updateTime(最終更新日時)と reportingTime(報告 日時)の差が300分以内のレコードの割合 配送業者のデータ提供からバッチ処理完了までの時間を計測する updateTime(データの更新日時) と reportingTime(報告日時) の差が p99 (=555分) の実績値を上回る場合は SLO計算から除外する(外れ値の除外) 長所 システムの改善活動につなげやすい  ジョブの速度改善  ジョブの頻度、タイミングの見直し  配送業者に対するフィードバックの材料になる 短所  ユーザが実際に参照したかどうかは加味されない SLO : 1ヵ月間の配送状況において、 90%が300分以内に処理されている このSLOにより、バッチの成功失敗以外の 観点でバッチの状況を知ることができた 一方で、バッチそのものに対する 具体的な改善や目標値に対する議論につな がったかという点では改善の余地はあった SLI の妥当性の評価や再設計をすべきだ が、それを反復するには設計や実装にかか るコストが大きすぎた ※ 一部変更あり
  8. 29/23 SLO ベースの運用で特に顕在化した課題 SLO は 「何を」を示してくれていたが、「なぜ」に辿り着けていない状況だった 1. とあるページのレイテンシが悪化し、このままだと数日後にはエラーバジェット が枯渇してしまう状況 2.

    しかしながら原因は(すぐには)特定できず、加えて、モダナイゼーション過渡 期にあり、システムは常に変化し続けていた 3. (可用性と比較すると)直ちにユーザに影響がない状況なので、優先度も上がら ず 4. その結果、SLO を緩和してしまう、静観していたらいつの間にかバジェットが復 活していた、というケースがしばしば発生 いわゆる、第一原理からデバッグできない状況 → オブザーバビリティの重要性を認識
  9. 2024年以降の SRE グループの立ち位置の変化 コアシステムエンジニアリング (CSE)部門 Mission 業務例 ビジネスの成長を 支えるITの提供 顧客体験向上の

    ための継続開発 大企業ビジネスの 成長加速 より良い仕事環境 の提供 価値提供の 基盤開発 • 内製基幹システムの導入、開発、運用 • 倉庫管理システム/インフラの構築、運用 • 会計システムの開発、運用 • ECサイト機能の開発、運用 • マーケティング基盤の開発、運用 • 大企業連携システムの開発、運用 • オフィスインフラの構築、保守運用 • オフィス系サービスの導入、運用 • ITサポート • セキュリティ統括 • サーバインフラの構築、運用 • データ基盤の構築、運用 • システム開発/保守基盤の構築、運用 • DevOps/Webセキュリティ ECシステムエンジニアリング (ECSE)部門 エンタープライズビジネス エンジニアリング(EBE)部門 コーポレートエンジニアリング (CE)部門 プラットフォームエンジニア リング(PE)部門 部門 SREグループ
  10. 35/23 SREグループがオブザーバビリティへ取り組む意義 オブザーバビリティは信頼性に対する判断・行動 の「質」を変える • 数字を出すだけでは信頼性は守れない • 事実を観測し、正しい判断と改善へつなげる 元々 EC

    サイトの SRE グループ時代に SLO ベースの運用をする上でオブザーバビリティの 重要性は認識していた ↓ プラットフォームエンジニアリングの立場から、オブザーバビリティ向上に向けて取り組む ことは、全社的に SLO ベースの運用を拡大させる観点では非常に重要と判断した
  11. 38/23 インシデント対応における課題感 • ポストモーテムの負荷が高い ◦ インシデント対応の際の情報収集 ◦ ドキュメントの準備 ◦ 関係者との調整

    • インシデント対応における成果物(チケット、ポストモーテムなど)が1箇所で 管理されていない • アクションアイテムがトラッキングされていない • インシデント対応そのものの定量的、定性的な評価がなされていない • などなど
  12. 40/23 プラットフォームの軸:取り組み① 監視バックエンドと管理を主導 • ヘルプデスクチャンネルの整備 • アカウント作成&棚卸し • IaCの整備&コードのレビュー対応 •

    セキュリティ対応 • 新機能のキャッチアップと検証 • 稟議/コスト管理 • 各種ドキュメントの整備 ◦ Runbook、ガイドライン、勉強用コンテンツなど • 勉強会の実施/アレンジ(Datadog社のサポート) • ロードマップの作成 ログインを Okta に統一 ドキュメントは Portal に集約 Slack でツール毎に helpdesk チャンネルを作成
  13. 42/23 プラットフォームの軸:取り組み② Developer Interface への展開 • コマンド経由で共通の監視モジュールを素早く展開可能に • 共通モジュールの計装によりガイドラインに則ったテレメトリの収集可能に 例えば、devkit

    dashboard コマンドを実行すると Datadog のダッシュボードが自動で作成される 詳細はスライド📖をチェック! アーキテクチャの境界を超えて https://speakerdeck.com/monotaro/beyond_limits_architecture?slide=8
  14. インシデント対応の型化とSlackアプリの展開 • インシデント対応時のメインのコミュニケーションツールである Slack 上でインシデ ント対応をサポートするSlackアプリを展開 • アプリを利用することで推奨の型に則ってインシデント対応ができるように誘導し、 加えてインシデント対応時の負荷を軽減するため支援も実施 46/23

    プロセスの軸:取り組み ❏ モーダルによるインシデントの宣言 ❏ 各Slackチャンネルに応じた Runbook 等のリンクの生 成 ❏ 影響度に応じたプロセスの案内 ❏ トラブルチケットのステータスの自動更新 ❏ ポストモーテム用 doc の作成 ❏ リマインダの通知, etc.
  15. 47/23 見えてきた成果 成果はまだこれから。。 AI による自動化や開発生産性の指標の収集など、 各種要望はいただいている状況です。 この Slack アプリが部門横断的に利用されることで、 このアプリ越しに

    SRE やオブザーバビリティに関する様々な 施策が打てると考えています。 Slack アプリ自体はコンテナ基盤上で稼働しており、 大半の機能がAI 駆動開発で機能が実装されています。 利用者のニーズに合わせて、柔軟に拡張できるように準備を整えていく予定です。
  16. 48/23 副次的な効果:開発生産性への取り組みへの発展 1. 2022 年当時の SRE グループは DevOps の領域も担っており、リリースプロセス の改善の評価指標として

    Four Keys を計測していた 2. SRE の観点においても、数値(エラーバジェット、復旧時間など)に基づいた運 用が根付かせることを目標に、Four Keys や運用にかけた稼働実績等を継続的に 収集していた 3. その後、社内外で開発生産性の機運が高まり、プラットフォームエンジニアリン グの導入の評価指標としても開発生産性に関わる指標が利用されるようになった
  17. 各組織の SRE やオブザーバビリティの状況を把握する上では、SREの観点以外も計測した モダナイゼーションの度合いを表現する指標が社内では Fit した • SRE やオブザーバビリティの関わり方もモダナイゼーションの状況に大きく依存 •

    指標の乱立も回避 50/23 SRE成熟度ではなくモダナイゼーションスコアでの観測 モダナイゼーションスコアの詳細はスライド 📖をチェック! アーキテクチャの境界を超えて https://speakerdeck.com/monotaro/beyond_limits_architecture?slide=38 SRE成熟度 モダナイゼーションスコア
  18. 51/23 プラットフォームの立場から見えてきた社内の変化 • Datadog の利活用がかなり進んだ ◦ ただし、コスト管理に課題感あり • SLI の設計と実装が徐々に変化してきた

    ◦ アクセスログベースからトレースベースへ、RUMの利用も視野に • 各所で SRE に興味ある人たちが徐々に出てきた ◦ SLOベースの運用を改善したいです!インシデント対応のプロセスを良くし たいです!の声が!! • 運用の面でも AI 活用が進み始めてきた ◦ 各種 MCP の利用が拡大中、定常監視やエラーのサマリなどで活躍
  19. 53/23 まとめ SREグループはECサイト側からプラットフォーム側へ立ち位置が変化しました。 SLOベースの運用からオブザーバビリティの重要性を認識し、3つの軸で取り組みました。 • プラットフォームの軸 • Enabling/Embeddedの軸 • プロセスの軸

    各種の取り組みにより、システム全体のオブザーバビリティは徐々に向上しつつあり、社 内にも変化が見られました。 そのような変化の中でも、ポストモーテムの価値が変わらないことを再認識しました。 いずれの軸の取り組みもまだまだ道半ばなので、今後も継続してやっていきます! この軸でもっとSREを取り組んでみたい!と思われた方はこちらへ https://hrmos.co/pages/monotaro/jobs?category=1902383850569732101