Slide 1

Slide 1 text

SLI/SLO・ラプソディ あるいは 組織への適用の旅 SLI/SLOをビジネスに活かす実践的アプローチ 2025/3/21 信頼性向上の第一歩!~SLI/SLO策定までの取り組みと運用事例~ @nwiizo 15min #信頼性向上_findy

Slide 2

Slide 2 text

nwiizo 株式会社スリーシェイクで プロのソフトウェアエンジニアをやっているものだ 格闘技、読書、グラビアが趣味 "信頼性は可用性ではない"を標語としています。 2

Slide 3

Slide 3 text

SLI/SLO導入への心構え 参考: 『HUNTER×HUNTER』25巻93ページ 導入は一人で始めるものだが、一人でやっていても どうしようもない。技術的な側面のハードスキルも 大事だが、広げるにはソフトスキルも大切。 そこ で、組織への適用の旅をしていきます 1. 既存の習慣や方法からの変更を伴う 2. 多くのステークホルダーとの協力が不可欠 3. 目に見える成果が出るまでに時間がかかる 3

Slide 4

Slide 4 text

SLI/SLO導入への心構え SLI/SLO導入を成功させるには、以下の3つの側面に向き合う心構えが必要です。 4

Slide 5

Slide 5 text

1. 既存の習慣や方法からの変更を伴う 5

Slide 6

Slide 6 text

変化に対する抵抗 どれだけ優れた技術も概念も導入時には抵抗が生じま す。それらを認識しなけらばなりません。 参考: 「変化を嫌う人を動かす」 https://www.soshisha.com/book_wadai/ books/2624.html 6

Slide 7

Slide 7 text

変化に対する抵抗 変化への抵抗は克服すべき「障害」ではなく、理解し対 話すべき自然な反応です。各抵抗パターンに適した対応 を行いましょう。 参考: 「変化を嫌う人を動かす」 https://www.soshisha.com/book_wadai/ books/2624.html 7

Slide 8

Slide 8 text

北風と太陽の寓話は、SREやSLI/SLOの導入に関する重要 な教訓を示しています。既に多くの成功事例と明確なメ リットがあるSREプラクティスが、なぜ多くの組織で進 まないのでしょうか? 北風(強制的アプローチ)のように「これは業界のベス トプラクティスだから導入すべき」と押し付けるほど、 組織は抵抗し、コートを強く握りしめます。一方、太陽 (説得と共感のアプローチ)のように、具体的な痛点か らはじめ、チームの状況に寄り添いながら徐々に温めて いくと、組織は自ら変化を受け入れるようになります。 SLI/SLOの価値が明らかでも、導入方法と導入プロセス が成功の鍵を握るのです。 8

Slide 9

Slide 9 text

情性による抵抗 (惰性/現状維持バイアス) これは「自分が馴染みのあることにとどまろうとす る欲求」として表れます 「今のやり方で問題ないのに、なぜ変える必要があ るのか」という考えにつながります 既存のプロセスや方法への愛着が、新しいSREプラ クティスの導入を妨げる要因となります 9

Slide 10

Slide 10 text

労力による抵抗(実行コスト) 変化を実行するために必要な努力やコストへの懸念 です 新しいツールの学習、プロセスの変更、追加の作業 などへの抵抗感として現れます 特に短期的なコストと労力が目に見えやすい一方 で、長期的なメリットが見えにくいことが課題とな ります 10

Slide 11

Slide 11 text

感情による抵抗(否定的感情) 提示された変化に対する感情的な拒否反応です 自分の専門性や経験が否定されるのではないかとい う不安 変化によって自分の立場や影響力が失われることへ の懸念 11

Slide 12

Slide 12 text

心理的反発(変化への抵抗) 変化を強制されることに対する本能的な反発です 自律性が脅かされることへの抵抗 「押し付けられる」ことへの反発心が生まれます 12

Slide 13

Slide 13 text

変化に対する抵抗の克服 変化に対する抵抗を克服するためのポイント 良い部分を叫び続けてもどうしようもない 様々な人にとって抵抗とはなにかを理解する 段階的なアプローチが変化への抵抗を軽減しま す まずどういうところから取り組むべきかを明確にし、そ の後に具体的な施策として提案していくことが重要で す。段階的なアプローチが変化への抵抗を軽減します。 13

Slide 14

Slide 14 text

2. 多くのステークホルダーとの協力が不可欠 14

Slide 15

Slide 15 text

部門間コラボレーションの構築 各部門の役割と貢献 それぞれの部門が、自分の専門性を活かしながら、共通の目標に向かって協働する体 制を構築します。今回は、エンジニアリング、プロダクト、経営層の3つの部門につい て、それぞれの抵抗について考えていきます 15

Slide 16

Slide 16 text

各部門の抵抗:エンジニアリング エンジニアの懸念に寄り添い、技術的価値と自律性を重視した対話が重要です。 エンジニアリング部門の懸念 「既存の監視体制で十分」 「数値評価で裁量が狭まる」 「自律的判断より数値が優先される」 効果的な対応 現場の痛点からの改善提案 技術的自律性の尊重 判断材料としての指標という位置づけ 16

Slide 17

Slide 17 text

各部門の抵抗:プロダクト/ビジネス プロダクト部門の言語で対話し、顧客価値とSREの関連を明確にします。 プロダクト部門の懸念 「機能開発が遅くなる」 「技術的制約が増える」 「顧客視点より数値が優先される」 効果的な対応 信頼性と顧客満足度の関連を示す 安定性がイノベーションを支える例の共有 プロダクト判断への技術的サポート 17

Slide 18

Slide 18 text

各部門の抵抗:経営層 経営層の懸念 「投資対効果(ROI)が不明確」 「短期成果との両立が難しい」 「技術的な詳細の判断が難しい」 「従来のビジネス指標との整合性」 効果的な対応 信頼性問題の事業インパクトを数値化、コスト削減効果と収益保護の具体例 経営判断に役立つシンプルな指標の提供、既存KPIとの関連付け 経営層には価値説明と長期的ROIの可視化が重要です。 18

Slide 19

Slide 19 text

組織全体でのSRE実践 よくある誤解 「SREは専門チームだけの仕事」 「専門チームは不要」などの極論 「信頼性は可用性である」 バランスの取れたアプローチ 全員参加の文化と専門性の両立 組織の成熟度に合わせた発展的な導入 信頼性を制御するのがSREの役割 SREは技術だけでなく組織文化の変革です。 「できていることと次にできること」に注 目し、持続可能な文化を築きましょう。 19

Slide 20

Slide 20 text

対話を重視したSRE 横展開には技術よりも、関係者間の共通理解と価値観の共有が重要です。 「信頼性は会話です」という金言 暗黙知や前提知識を言語化していくことが信頼性向上の出発点 技術も大切だが横展開していくにはコミュニケーションが成功の鍵 共通の価値観を育てる 「作ったものは自分で運用する」責任などの組織に適応したルール 失敗から学べる心理的安全性 20

Slide 21

Slide 21 text

変化への抵抗を理解する どんな優れた取り組みも、導入時には抵抗が生まれます。 主な抵抗パターン 惰性: 「今のやり方で問題ない」 労力: 「新しい方法を学ぶコストが高い」 感情: 「自分の立場が脅かされる」 心理: 「変化に対する反発」 変化への抵抗は排除すべき「障害」ではなく、理解し対話すべき自然な反応です。 21

Slide 22

Slide 22 text

抵抗への対応:北風と太陽 SLI/SLOの価値が明らかでも、導入方法と導入プロセスが成功の鍵を握ります。 北風アプローチ(避けるべき) 「業界のベストプラクティスだから」と押し付ける トップダウンで強制する 太陽アプローチ(推奨) 具体的なユーザー体験から始める チームの状況に寄り添う 徐々に温めて自発的な変化を促す 22

Slide 23

Slide 23 text

SRE実践の主な課題 導入には技術が大切だが継続には組織文化がSRE成功の鍵です。 価値観のギャップ HRT(謙虚さ・尊敬・信頼)の浸透度 「失敗は学びの機会」という文化の有無 信頼性の認識差 「動いていればOK」vs「ユーザー体験の質」 短期的機能追加と長期的信頼性のバランス 23

Slide 24

Slide 24 text

ビジネス価値の可視化 具体的な価値説明 技術改善の事業貢献を数値で説明 SLI/SLOとビジネスKPIの関連付け 「信頼性への投資」のROI 戦略的な判断 効果が見えない取り組みの見直し 組織的価値創出を重視 SRE活動のビジネス価値を明確にすることで、持続的な支援と投資を得られます。 24

Slide 25

Slide 25 text

SRE定着のためのアプローチ(1) 非難のないインシデントレビュー 原因ではなく改善点に焦点を当てたインシデント分析 全関係者による多角的視点でのポストモーテム 実施のポイント 「誰が」ではなく「なぜ・どのように」を重視 システム改善とプロセス改善の両面から検討 非難のないインシデントレビューは同じ失敗を繰り返さない文化と組織的学習の基盤 になります。 25

Slide 26

Slide 26 text

SRE定着のためのアプローチ(2) SLI/SLO導入ワークショップ 顧客体験を中心に据えた指標設計 各部門の代表が参加する共創セッション 実施のポイント 理想の指標と現実的に測定可能なものの両方を検討 仲間を探す。小さく始めて段階的に拡大する戦略 SLI/SLOワークショップは共通目標の設定と部門間の協力体制構築のきっかけになりま す。 26

Slide 27

Slide 27 text

SRE定着のためのアプローチ(3) 技術負債削減の制度化 定期的な改善時間の確保(20%ルールなど) 信頼性向上活動の正式な評価への組み込み 実施のポイント 短期的な機能開発と長期的な信頼性のバランス 改善活動の成果可視化と組織的認知 技術負債削減の制度化は持続可能なエンジニアリング文化と長期的な顧客満足の基盤 となります。 27

Slide 28

Slide 28 text

SLI/SLOの基本原則 資料として追加しているだけです。 28

Slide 29

Slide 29 text

SLI/SLOの基本原則 Implementing Service Level Objectives より引用 SLAやSLOにこだわる前に、まず適切なSLIを確立 システムの実際のデータに基づく正確な指標設計 理想的なSLI/SLOは現実の測定から導き出す 既存のSLAに合わせてSLIを歪めない SLI/SLOの導入において最も重要なのは、適切な測定から始めることです。何を測定す るかが、何を改善できるかを決定します。まずはサービスの健全性を正確に表す指標 を見つけることに集中しましょう。 29

Slide 30

Slide 30 text

SLIの設計原則 顧客視点に基づく選定 都合の良いデータポイントではなく、顧客価値を反映 「システムが動作している」ではなく「顧客体験が良好」を測定 原因と結果の明確化 メトリクスで変化を促すか、変化でメトリクスを動かすか 測定や閾値そのものが目的化しないよう注意 効果的なSLIは顧客が実際に体験するサービス品質を反映します。内部的な指標ではな く、ユーザーにとって意味のある指標を選びましょう。例えば、単なるシステム可用 性ではなく、ユーザーリクエストの成功率やレイテンシなどが有効です。 30

Slide 31

Slide 31 text

SLOからSLAへの展開 SLI/SLOがSLAを裏付ける 証拠(SLI/SLO)が結論(SLA)を後押しする関係 逆ではなく、データから適切なコミットメントを導出 SREリソースの効果的配分 99.9%以上のサービスにSREリソースを集中 信頼性要件の低いサービスは必要に応じて段階的に対応 SLOとSLAの関係は重要です。SLOは内部目標であり、SLAは顧客との契約上の約束で す。データに基づいてSLOを設定し、その実績をもとにSLAを設計することで、持続可 能かつ現実的なサービス品質保証が可能になります。 31

Slide 32

Slide 32 text

SLI/SLOの実行力 SLO違反時の対応が重要 違反検知後のプロセス変更や修正能力が鍵 検知しても行動できなければ意味がない 信頼性向上の実行サイクル 計測 → 分析 → 改善 → 検証のサイクル確立 優先度付けと意思決定のデータ基盤としての活用 SLI/SLOは単なる監視ダッシュボードではありません。目標未達時に具体的なアクショ ンを起こせる体制を整えることが重要です。 「どう測定するか」と同じくらい「何をす べきか」を明確にしておきましょう。 32

Slide 33

Slide 33 text

SLI/SLOの一般的なアンチパターン アンチパターン: SLO = SLA SLOとSLAを同一に設定する誤り 常にSLOはSLAより厳しく設定 例: SLO 99.95%、SLA 99.9% 内部目標と外部約束の区別が重要 バッファがないとSLA違反リスク増大 アンチパターン: SLI = OKR/KPI SLIを業績指標と混同する誤り グッドハートの法則の罠 「測定が目標になると良い測定 でなくなる」 指標の操作や数値至上主義への誘惑 顧客価値より数値を優先する危険性 効果的なSLI/SLO実践のためには、これらのアンチパターンを回避することが重要で す。SLOとSLAの適切な分離、および測定と目標設定の健全な関係を維持しましょう。 33

Slide 34

Slide 34 text

3. 目に見える成果が出るまでに時間がかかる 34

Slide 35

Slide 35 text

短期決戦ができないのがSLOの難しいところ SLI/SLOは短期的な施策ではなく長期的な取り組みです。 「旅」として捉え、段階的な 進化を目指しましょう。 導入初期の現実 一時的な作業量の増加が発生する すぐに見える成果より基盤構築の段階が先行する 長期視点の必要性 本当の価値は6-12ヶ月後から明確に現れる(サービスの成熟度による) 段階的な成熟を計画的に進める 35

Slide 36

Slide 36 text

企業変革のジレンマ https://bookplus.nikkei.com/atcl/catalog/24/05/09/01394/ 長期的にSLOを進めていく 組織は一度環境に適応すると、効率化のために分業化と仕 事のルーティン化を進めるため、構造的に無能化するもの である。それらを解消するための一つの手段として SLI/SLOを導入する。組織としての能力が低下したとき、 乗り越えるべき壁は「多義性」 (解釈の多様さ) 、 「複雑性」 (問題の絡み合い) 、 「自発性」 (内発的動機の欠如)の3つ だ。3つの壁を解きほぐす糸口になるのが対話である。 (個人の壁を乗り越える方法は紹介したが、組織の壁を乗り越える方法は今回は紹介しない。 ) 36

Slide 37

Slide 37 text

企業変革のジレンマ https://bookplus.nikkei.com/atcl/catalog/24/05/09/01394/ 長期的にSLOを進めていくには 長期的な企業変革に向けてのプロセスについては、本書の 中では (1)全社戦略を考えられるようになる (2)全社戦略へのコンセンサスを形成する (3)部門内での変革を推進する (4)全社戦略・変革施策をアップデートする と紹介されており、経験則にも理解しやすいです。 (個人の壁を乗り越える方法は紹介したが、組織の壁を乗り越える方法は今回は紹介しない。 ) 37

Slide 38

Slide 38 text

長期的取り組みのための合意形成 SLI/SLOの持続的な実践には組織的な合意と期待値の調整が不可欠です。組織全体での 長期的コミットメントがSRE成功の鍵です。短期的な成果への固執は継続的な改善の障 害になりがちです。 ステークホルダーとの期待値調整 短期的コストと長期的ベネフィットの明確な説明 段階的な目標とマイルストーンの設定 継続的な取り組みを支える仕組み 定期的な進捗共有と小さな成功の可視化 組織的なコミットメントと経営層の支援の確保 38

Slide 39

Slide 39 text

SLI/SLOの長期的価値 とにかく続ける 続けるのが大事だが一人では辛いので仲間を作る 完璧なSLOよりも継続的に改善されるSLOを重視 データに基づく意思決定 主観的議論から客観的評価へ リソース配分と優先順位付けの最適化 SLI/SLO導入は技術的改善だけでなく組織文化の変革です。 「完璧なSLO」よりも「継 続的に改善されるSLO」を重視しましょう。 39

Slide 40

Slide 40 text

SLI/SLOがもたらす組織的成果 SLI/SLOの最大の価値は信頼性文化の醸成です。この文化が定着すると、100%の可用 性を目指さないことができるようになり、自然と顧客満足とエンジニア満足の両方が 向上します。 ビジネスと技術の連携強化 顧客価値と技術活動の明確な関連付け 共通言語による部門間コミュニケーションの向上 継続的改善の文化定着 定量的なフィードバックに基づく改善サイクル 学習組織としての成長と競争力強化 40

Slide 41

Slide 41 text

SREエンタープライズロードマップ - Google - Site Reliability Engineering https://sre.google/resources/practices- and-processes/enterprise-roadmap-to- sre/ SREのアプローチのアンチパターン 避けるべきアプローチ 前もって壮大な計画や設計を持つ 完成図を最初に描く 工期と予算を厳密に管理 すべてを一度に実装しようとする 変更を後戻りと捉える 41

Slide 42

Slide 42 text

まとめ SREやSLOは旅であり、ゴールや完璧を目指すのではなく継続的な前進が大切です。 今日から始められること 小さく始めて徐々に拡大する まずは一つのサービスから 既存の課題から出発する 成功のための心構え 完璧よりも継続を重視する 技術も情熱もどちらも大切 信頼性は会話/対話から生まれる 42

Slide 43

Slide 43 text

参考資料 SREエンタープライズロードマップ - Google - Site Reliability Engineering SLO サービスレベル目標 ― SLI、SLO、エラーバジェット導入の実践ガイド 変化を嫌う人を動かす 企業変革のジレンマ Implementing Service Level Objectives Building Secure and Reliable Systems Site Reliability Engineering The Site Reliability Workbook 43

Slide 44

Slide 44 text

ありがとうございました ご質問・ご相談はお気軽にお問い合わせください @nwiizo | https://3-shake.com