Slide 1

Slide 1 text

オブザーバビリティ成熟度モデル の企画から社内導⼊まで 〜複数サービスでの評価を通じた組織変⾰の軌跡〜 Observability Conference Tokyo 2025 2025年10⽉27⽇(⽉)

Slide 2

Slide 2 text

⾃⼰紹介 庭野 悟(にわの さとる)  合同会社DMM.com ITインフラ本部 SRE部 経歴‧担当業務 ● 2021年7⽉⼊社。動画配信サービスでのインフ ラ経験を経て現職 ● オブザーバビリティ成熟度モデルの策定‧運⽤ および評価を主導 ● New Relic導⼊推進、Status Page運⽤など組織 横断活動 © DMM.com LLC 1

Slide 3

Slide 3 text

このセッションのゴール 🎯 ⾃組織でオブザーバビリティ成熟度向上を始めるためのヒントを持ち帰ること 3つのヒント ✅ 成熟度評価の設計思想と実践アプローチ ✅ 段階的改善の考え⽅と具体的ステップ例 ✅ 組織変⾰を促すコミュニケーションのコツ 期待する変化 🤔 「どこから始めればいいかわからない」      ⬇ ✅ 「具体的な始め⽅が分かる」 © DMM.com LLC 2

Slide 4

Slide 4 text

アジェンダ 1 背景と課題 - なぜ成熟度評価が必要だったのか 2 成熟度モデルの設計 - 理論から実践への落とし込み 3 実践的な導⼊プロセス - 実際の評価‧改善プロセス 4 組織変⾰の成果 - ⽂化的変化と定量的成果 5 学びと今後の展望 - 継続的改善への取り組み 6 明⽇から実践できる第⼀歩 - 3ステップ実践法 © DMM.com LLC 3

Slide 5

Slide 5 text

01 背景と課題 © DMM.com LLC 4

Slide 6

Slide 6 text

DMM全体で直⾯していた3つの組織課題 1. チーム間のばらつき 📊 オブザーバビリティへの理解 ‧実践レベルに差があり、共 通の基準がなく改善の⽅向性 も不明瞭 「この設定で合ってるのか な...」 2. 属⼈化した運⽤ 👤 知識や対応が特定の個⼈に依 存し、標準化やナレッジ共有 が進まない 「前の設定ってなんだっ け...?」 3. 改善の停滞 🔄 現状が把握できず、どこから ⼿を付ければいいのかが⾒え づらい。同様の問題が複数 チームで繰り返される 「どこを改善すればいいのか わからない...」 © DMM.com LLC 5

Slide 7

Slide 7 text

なぜSRE部が主導したのか これらの課題解決のため、SRE部が主導的な役割を果たしました 共通課題の発⾒ 複数チームとの関わりから組織横断の課題を把握できる⽴場 全体最適化の推進 組織全体の最適化を⾒据えた取り組みが可能 全社的な影響⼒ 全社的な改善施策の⽴案‧推進が可能な⽴場 © DMM.com LLC 6

Slide 8

Slide 8 text

02 成熟度モデルの設計 © DMM.com LLC 7

Slide 9

Slide 9 text

モデル設計の3原則 シンプルでわかりやすい 現場が判断しやすい基準 段階的に取り組める ステップアップできる構成 ⽐較可能性を持たせる チーム間の差を可視化 © DMM.com LLC 8

Slide 10

Slide 10 text

理論的基盤と5段階成熟度レベル 📚 理論的基盤: 書籍『オブザーバビリティ‧エンジニアリング』第21章およびCMMI(能⼒成 熟度モデル統合)に準拠 レベル 特徴 説明 レベル1 🔴 属⼈的 プロセス未定義、個⼈の能⼒に依存 レベル2 🟡 基本管理 プロジェクトレベルで基本的な管理プロセス レベル3 🟢 標準化 組織全体で標準化されたプロセス レベル4 🔵 定量管理 KPI‧統計的⼿法による測定‧制御 レベル5 🟣 継続改善 継続的改善‧AI/機械学習含む⾃律化 © DMM.com LLC 9 ※レベル5は"⾃動化の例"であり必須要件ではありません

Slide 11

Slide 11 text

オブザーバビリティ成熟度モデル © DMM.com LLC 10

Slide 12

Slide 12 text

データ収集と可視化(重点項⽬) 定義:システムのあらゆる領域に関するデータを網羅的に収集し、リアルタイムで可視化‧ 分析できる能⼒ レベル1: 属⼈的 サーバのCPU‧メモリ使⽤率 のみ監視し、アプリケーショ ンログは⼀部のみ収集。可視 化はシンプルなグラフに限定 レベル3: 標準化 DatadogやNew Relicなどで 全層モニタリングを実施。共 通テンプレートで可視化し、 初動確認もルール化 レベル5: 継続改善 (例) AIが収集データからトラ フィック急増を予測し、ダッ シュボード構成やアラート ルール最適化を⾃動提案‧実 ⾏ © DMM.com LLC 11 ※レベル5は到達例の⼀つであり、必須要件ではありません

Slide 13

Slide 13 text

アラート最適化と障害対応(重点項⽬) 定義:システムの異常を適切に検知し、ノイズを抑えながら迅速な対応を実現する能⼒ レベル1: 固定しきい値 CPU‧メモリ使⽤率の固定しき い値設定。誤検知が多発し、負 荷変動を考慮できず レベル3: 動的しきい値 過去データを学習し、通常の変 動範囲を⾃動判断。アラートノ イズの⼤幅削減を実現 レベル5: ⾃動対応 (例) AIが異常を検知し、スケールア ウト等を⾃動実⾏。⼈的介⼊な しで⾃⼰回復 © DMM.com LLC 12 ※レベル5は到達例の⼀つであり、必須要件ではありません

Slide 14

Slide 14 text

残りの評価項⽬(サマリー) システムの信頼性管理 定義:障害対応‧復旧プロセスを整備し、観 測指標に基づく信頼性評価とリスク改善を継 続実施する能⼒ ポイント: ポストモーテム⽂化、予兆検知、 MTTR等の信頼性指標 開発‧運⽤プロセスの整備と最適化 定義:コード品質を維持したまま、予測可能 で安定したデリバリーを実現する能⼒ ポイント: CI/CDパイプライン、静的解析、デ リバリーKPIによる定量管理 © DMM.com LLC 13

Slide 15

Slide 15 text

残りの評価項⽬(サマリー) ユーザー⾏動の理解と最適化 定義:ユーザーの⾏動やニーズを把握し、 サービス改善を継続的に推進する能⼒ ポイント: ⾏動ログ‧メトリクス‧トレースの 統合分析、A/Bテスト 継続的な改善と最適化 定義:モニタリング‧開発プロセスのデータ を活⽤し、継続的改善をチーム‧組織単位で 推進する能⼒ ポイント: データドリブンなPDCA、KPI分 析、効果測定 © DMM.com LLC 14

Slide 16

Slide 16 text

6つの評価項⽬ 統合ビュー 📊 データ収集と可視化 ⭐ 重点項⽬ 🚨 アラート最適化と障害対応 ⭐ 重点項⽬ 🛡 システムの信頼性管理 ⚙ 開発‧運⽤プロセス 👥 ユーザー⾏動の理解 🔄 継続的な改善と最適化 © DMM.com LLC 15

Slide 17

Slide 17 text

03 実践的な導⼊プロセス © DMM.com LLC 16

Slide 18

Slide 18 text

実践的な導⼊プロセス:アンケート設計 🎯 客観的で実態に即した評価を実現するための3つの⼯夫 1. チーム内合意を重視 個⼈の主観ではなく、チーム 全体での議論‧合意を経た回 答 2. 明確な評価基準 レベル1からレベル5までの段 階的な成⻑パス 3. N/A選択肢の⽤意 すべてのサービスに該当しな い項⽬への配慮 © DMM.com LLC 17

Slide 19

Slide 19 text

実際のアンケート © DMM.com LLC 18 6項⽬中3項⽬を表⽰:データ収集と可視化、システムの信頼性管理、アラート最適化と障害対応

Slide 20

Slide 20 text

評価結果から⾒えた組織の傾向 © DMM.com LLC 19 調査対象全サービスにおける成熟度レベル項⽬ごとのレベル分布 全体傾向 多くのサービスがレベル 2〜3の移⾏期にあり、基本 的な管理から標準化への成 ⻑段階

Slide 21

Slide 21 text

評価項⽬別の特徴 ✅ ⽐較的成熟度が⾼い領域 データ収集と可視化: レベル 2〜3が中⼼ 開発‧運⽤プロセス: レベル 2〜3が中⼼、⼀部レベル4も 存在 ⚠ 改善余地が⼤きい領域 アラート最適化と障害対応: レベル1〜2が⼤半、属⼈的 対応が多い ユーザー⾏動の理解: レベル 分布が分散、取り組みに差 📈 標準化への移⾏期 システムの信頼性管理: レベ ル1〜3に広く分散 継続的な改善と最適化: レベ ル2が中⼼ © DMM.com LLC 20

Slide 22

Slide 22 text

サービスの評価結果(レーダーチャート) 🔍 興味深いパターン: 「監視基盤やユーザー⾏動分析は整備され、開発プロセスも⾼度に管 理されているが、アラート運⽤だけが属⼈化している」 © DMM.com LLC 21

Slide 23

Slide 23 text

レポート分析と推奨アクション 分析例:「アラート最適化と障害対応」はスコア1で平均を下回り、誤検知‧⼿動対応の負荷 が⼤きい 1 アラートルールの棚卸し(誤検知‧不要アラートのリストアップ) 2 深刻度分類による整理(SEV-1〜SEV-4等) 3 対応優先度の明確化 © DMM.com LLC 22

Slide 24

Slide 24 text

オブザーバビリティ成熟度 改善アクションプラン © DMM.com LLC 23 レベル別の改善アクション‧注意点

Slide 25

Slide 25 text

レベル別改善アクションプランの価値 段階的な改善アプローチがもたらすエンジニアと経営層双⽅へのメリット 経営層 稼働安定化 → 開発投下時間の純増 → 新機能投⼊ の前倒し エンジニア アラート整流化‧誤検知削減 → 深夜呼び出し‧ 割り込み削減 → 作業効率‧⽣産性向上 アクション 現在のレベルから+1段階上への必須ステップを 明確化 © DMM.com LLC 24

Slide 26

Slide 26 text

04 組織変⾰の成果 © DMM.com LLC 25

Slide 27

Slide 27 text

期待通りにいかなかった点 😅 直⾯した課題とそれに対する対処法 課題(現象と原因) 改善停滞: ⽇常業務の優先度が⾼く、改善活動が 後回しになる 継続性の課題: 評価を継続する仕組みの不在と、 ⻑期的な改善サイクルの未確⽴ 対処法 段階的アプローチの徹底: 完璧を求めず、レベル +1を⽬指す 成功体験の積み重ね: 達成可能な⽬標を設定し、 モチベーションを維持 © DMM.com LLC 26

Slide 28

Slide 28 text

組織に⽣まれた3つの⽂化的変化 Before After © DMM.com LLC 27 「監視がうまくいっていない」 (曖昧な表現) 「アラート最適化がレベル1なので動的しきい 値を導⼊しよう」 (共通⾔語の形成) 改善議論のきっかけが不明確 評価結果を基にした建設的な議論が⾃然発⽣ (対話のきっかけ) 「何となく改善が必要」 「次はここを改善すべき」 (データドリブンな 改善)

Slide 29

Slide 29 text

「評価は出発点である」という哲学 🎯 成熟度評価の本質的価値は、スコアの⾼低ではなく、⾃分たちの現在地と未来を考えるコ ンパス機能にある 完璧ではなく、⼩さな改善を重視 完璧な状態への⼀⾜⾶びではなく、⼩さな改善の積み重ねを重視する姿勢 「査定」ではなく「現状把握」 評価結果はチーム内での合意形成を重視し、次のステップを⼀緒に考える場の提供 対話と成⻑のための活⽤ スコア競争ではなく、対話‧成⻑を重視する意識を浸透させ、⻑期視点で⽂化を育む © DMM.com LLC 28

Slide 30

Slide 30 text

05 学びと今後の展望 © DMM.com LLC 29

Slide 31

Slide 31 text

取り組みから得られた学び 📈 段階的アプローチの有効性 無理のない成⻑パス(レベル +1)が継続的な改善を実現す る 📊 データに基づく対話の重要性 具体的なスコア‧図表が客観 的な現状把握と改善議論を促 進する 🤝 対話きっかけとしての評価機能 評価が単なるツールを超え、 建設的な議論を促進する強⼒ な⼿段となる © DMM.com LLC 30

Slide 32

Slide 32 text

継続的改善に向けた取り組み © DMM.com LLC 31 🔄 継続可能な評価サイクル 定期的だが過度でない頻度での評価実施 改善効果の定量的把握指標を整備 🎯 中⻑期的な振り返り体制 改善効果の継続的な測定と効果追跡 チーム横断での学び合いと組織的対話の促進

Slide 33

Slide 33 text

明⽇から実践できる第⼀歩 🚀 3ステップ実践法で、⾃チームのオブザーバビリティ向上を始めよう STEP 1 まずはアンケートで現状把握 STEP 2 グラフで課題を可視化 STEP 3 レベル+1への具体的技術実装 © DMM.com LLC 32

Slide 34

Slide 34 text

ご清聴ありがとうございました © DMM.com LLC 32 本発表の基となった取り組みの詳細は、以下のブログ記事で公開しています 📝 DMM全体のオブザーバビリティってどのレベル?成熟度評価で分かったこと ⬇ --- 参考資料 ‧書籍『オブザーバビリティ‧エンジニアリング』 ‧CMMI(能⼒成熟度モデル統合) --- ⼀緒にオブザーバビリティを盛り上げていきましょう!

Slide 35

Slide 35 text

No content