Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オブザーバビリティ成熟度モデルの企画から社内導入まで

Avatar for dmmsre dmmsre
November 04, 2025

 オブザーバビリティ成熟度モデルの企画から社内導入まで

Observability Conference Tokyo 2025登壇資料です。
SRE部が主導して策定した独自の「オブザーバビリティ成熟度モデル」を紹介します。
書籍『オブザーバビリティ・エンジニアリング』やCMMIを基に6つの評価項目と5段階の成熟度レベルを定義し、複数サービスを横断して評価・改善を推進。アンケートによる現状把握から改善アクション策定まで、理論と実践をつなぐフレームワーク構築の取り組みと、そこから得た知見を共有します。

Avatar for dmmsre

dmmsre

November 04, 2025
Tweet

More Decks by dmmsre

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 庭野 悟(にわの さとる)  合同会社DMM.com ITインフラ本部 SRE部 経歴‧担当業務 • 2021年7⽉⼊社。動画配信サービスでのインフ ラ経験を経て現職

    • オブザーバビリティ成熟度モデルの策定‧運⽤ および評価を主導 • New Relic導⼊推進、Status Page運⽤など組織 横断活動 © DMM.com LLC 1
  2. アジェンダ 1 背景と課題 - なぜ成熟度評価が必要だったのか 2 成熟度モデルの設計 - 理論から実践への落とし込み 3

    実践的な導⼊プロセス - 実際の評価‧改善プロセス 4 組織変⾰の成果 - ⽂化的変化と定量的成果 5 学びと今後の展望 - 継続的改善への取り組み 6 明⽇から実践できる第⼀歩 - 3ステップ実践法 © DMM.com LLC 3
  3. DMM全体で直⾯していた3つの組織課題 1. チーム間のばらつき 📊 オブザーバビリティへの理解 ‧実践レベルに差があり、共 通の基準がなく改善の⽅向性 も不明瞭 「この設定で合ってるのか な...」

    2. 属⼈化した運⽤ 👤 知識や対応が特定の個⼈に依 存し、標準化やナレッジ共有 が進まない 「前の設定ってなんだっ け...?」 3. 改善の停滞 🔄 現状が把握できず、どこから ⼿を付ければいいのかが⾒え づらい。同様の問題が複数 チームで繰り返される 「どこを改善すればいいのか わからない...」 © DMM.com LLC 5
  4. 理論的基盤と5段階成熟度レベル 📚 理論的基盤: 書籍『オブザーバビリティ‧エンジニアリング』第21章およびCMMI(能⼒成 熟度モデル統合)に準拠 レベル 特徴 説明 レベル1 🔴

    属⼈的 プロセス未定義、個⼈の能⼒に依存 レベル2 🟡 基本管理 プロジェクトレベルで基本的な管理プロセス レベル3 🟢 標準化 組織全体で標準化されたプロセス レベル4 🔵 定量管理 KPI‧統計的⼿法による測定‧制御 レベル5 🟣 継続改善 継続的改善‧AI/機械学習含む⾃律化 © DMM.com LLC 9 ※レベル5は"⾃動化の例"であり必須要件ではありません
  5. データ収集と可視化(重点項⽬) 定義:システムのあらゆる領域に関するデータを網羅的に収集し、リアルタイムで可視化‧ 分析できる能⼒ レベル1: 属⼈的 サーバのCPU‧メモリ使⽤率 のみ監視し、アプリケーショ ンログは⼀部のみ収集。可視 化はシンプルなグラフに限定 レベル3:

    標準化 DatadogやNew Relicなどで 全層モニタリングを実施。共 通テンプレートで可視化し、 初動確認もルール化 レベル5: 継続改善 (例) AIが収集データからトラ フィック急増を予測し、ダッ シュボード構成やアラート ルール最適化を⾃動提案‧実 ⾏ © DMM.com LLC 11 ※レベル5は到達例の⼀つであり、必須要件ではありません
  6. アラート最適化と障害対応(重点項⽬) 定義:システムの異常を適切に検知し、ノイズを抑えながら迅速な対応を実現する能⼒ レベル1: 固定しきい値 CPU‧メモリ使⽤率の固定しき い値設定。誤検知が多発し、負 荷変動を考慮できず レベル3: 動的しきい値 過去データを学習し、通常の変

    動範囲を⾃動判断。アラートノ イズの⼤幅削減を実現 レベル5: ⾃動対応 (例) AIが異常を検知し、スケールア ウト等を⾃動実⾏。⼈的介⼊な しで⾃⼰回復 © DMM.com LLC 12 ※レベル5は到達例の⼀つであり、必須要件ではありません
  7. 6つの評価項⽬ 統合ビュー 📊 データ収集と可視化 ⭐ 重点項⽬ 🚨 アラート最適化と障害対応 ⭐ 重点項⽬

    🛡 システムの信頼性管理 ⚙ 開発‧運⽤プロセス 👥 ユーザー⾏動の理解 🔄 継続的な改善と最適化 © DMM.com LLC 15
  8. 評価項⽬別の特徴 ✅ ⽐較的成熟度が⾼い領域 データ収集と可視化: レベル 2〜3が中⼼ 開発‧運⽤プロセス: レベル 2〜3が中⼼、⼀部レベル4も 存在

    ⚠ 改善余地が⼤きい領域 アラート最適化と障害対応: レベル1〜2が⼤半、属⼈的 対応が多い ユーザー⾏動の理解: レベル 分布が分散、取り組みに差 📈 標準化への移⾏期 システムの信頼性管理: レベ ル1〜3に広く分散 継続的な改善と最適化: レベ ル2が中⼼ © DMM.com LLC 20
  9. レベル別改善アクションプランの価値 段階的な改善アプローチがもたらすエンジニアと経営層双⽅へのメリット 経営層 稼働安定化 → 開発投下時間の純増 → 新機能投⼊ の前倒し エンジニア

    アラート整流化‧誤検知削減 → 深夜呼び出し‧ 割り込み削減 → 作業効率‧⽣産性向上 アクション 現在のレベルから+1段階上への必須ステップを 明確化 © DMM.com LLC 24
  10. 期待通りにいかなかった点 😅 直⾯した課題とそれに対する対処法 課題(現象と原因) 改善停滞: ⽇常業務の優先度が⾼く、改善活動が 後回しになる 継続性の課題: 評価を継続する仕組みの不在と、 ⻑期的な改善サイクルの未確⽴

    対処法 段階的アプローチの徹底: 完璧を求めず、レベル +1を⽬指す 成功体験の積み重ね: 達成可能な⽬標を設定し、 モチベーションを維持 © DMM.com LLC 26
  11. 組織に⽣まれた3つの⽂化的変化 Before After © DMM.com LLC 27 「監視がうまくいっていない」 (曖昧な表現) 「アラート最適化がレベル1なので動的しきい

    値を導⼊しよう」 (共通⾔語の形成) 改善議論のきっかけが不明確 評価結果を基にした建設的な議論が⾃然発⽣ (対話のきっかけ) 「何となく改善が必要」 「次はここを改善すべき」 (データドリブンな 改善)
  12. 継続的改善に向けた取り組み © DMM.com LLC 31 🔄 継続可能な評価サイクル 定期的だが過度でない頻度での評価実施 改善効果の定量的把握指標を整備 🎯

    中⻑期的な振り返り体制 改善効果の継続的な測定と効果追跡 チーム横断での学び合いと組織的対話の促進
  13. ご清聴ありがとうございました © DMM.com LLC 32 本発表の基となった取り組みの詳細は、以下のブログ記事で公開しています 📝 DMM全体のオブザーバビリティってどのレベル?成熟度評価で分かったこと ⬇ ---

    参考資料 ‧書籍『オブザーバビリティ‧エンジニアリング』 ‧CMMI(能⼒成熟度モデル統合) --- ⼀緒にオブザーバビリティを盛り上げていきましょう!