Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Google に学ぶ、安全性を高める信頼性設計 / Reliability Design f...

Google に学ぶ、安全性を高める信頼性設計 / Reliability Design for Enhanced Safety: Lessons from Google SRE

Avatar for Kento Kimura

Kento Kimura PRO

February 25, 2026
Tweet

Resources

Google が実践する最先端の SRE

https://sre-magazine.net/articles/7/aoto/

安全性向上セミナー in 2025

https://www.jasa.or.jp/lists/anzen-seminar_2-18_2-25/

本講演では、Google をはじめとする大規模システムの運用現場で実践されている SRE (Site Reliability Engineering) の考え方を題材に、STAMP/STPA に代表されるシステム理論に基づく安全分析手法との関係を解説します。SRE は Web システムの信頼性を定量的に扱い、継続的に改善する実践的アプローチです。一方でその背景には、複雑な Web システムを前提とした考え方があります。SRE が直面する課題や限界を整理したうえで、STAMP/STPA がどのように想定外の障害や事故に気づくための視点を与えるのかを Google の SRE が公開している事例をもとにご紹介します。

More Decks by Kento Kimura

Other Decks in Technology

Transcript

  1. @AoToLog_ #安全性向上セミナー 25th Feb, JASA 安全性向上セミナー in 2025 Speaker: Kento

    Kimura(Datadog Japan) Google に学ぶ、 安全性を高める信頼性設計 〜Google SRE はなぜ STAMP/STPA をシステム開発運用に取り入れたのか?〜
  2. @AoToLog_ #安全性向上セミナー 自己紹介 • 所属: Technical Solutions / Sales Engineering

    • 担当: パブリッククラウドのアーキテクト知識を活かした   Datadog の導入技術支援 • 登壇: IT/クラウド技術系カンファレンス・イベント 「CloudNative Days Summer 2025」 「Google Cloud Next Tokyo 2025」 「Observability Conference Tokyo 2025」 • コミュニティ: • 専門領域: クラウド・仮想化・ネットワーク・監視・ コンテナ・サーバレス・アプリケーション開発 木村 健人 (Kento Kimura) Datadog Japan GK
  3. @AoToLog_ #安全性向上セミナー 01 Google が提供するソフトウェアサービス 04 Google SRE が注目した STAMP/STPA

    03 SRE のプラクティスと構造的不足点 02 Google が提唱する SRE 05 まとめ お話しする こと
  4. @AoToLog_ #安全性向上セミナー ソフトウェアを中心としたアプローチ 大規模システムを開発するソフトウェアエンジニアに、 運用チームの設計を依頼するアプローチ 1. 複雑なモノを作るアプローチを守るアプローチに導入 2. 人的リソースの投入から自動化への転換 3.

    障害対応からサービスの信頼性に責任を負う 4. 運用で得られた改善点を素早く開発に活かす IT システムに携わる組織的な開発と運用(作る人と守る人)の分断を、 ソフトウェアエンジニアリングで調和するアプローチ
  5. @AoToLog_ #安全性向上セミナー SRE(Site Reliability Engineering) とは 日本語で… 「サイト 信頼性 エンジニアリング」

    IT システムに携わる組織的な開発と運用(作る人と守る人)の分断を、 ソフトウェアエンジニアリングで調和するアプローチ
  6. @AoToLog_ #安全性向上セミナー SRE(Site Reliability Engineering) とは 日本語で… 「サイト 信頼性 エンジニアリング」

    IT システムに携わる組織的な開発と運用(作る人と守る人)の分断を、 ソフトウェアエンジニアリングで調和するアプローチ オンラインで本番環境の ユーザーが実際に使う サービス・プロダクト
  7. @AoToLog_ #安全性向上セミナー SRE(Site Reliability Engineering) とは 日本語で… 「サイト 信頼性 エンジニアリング」

    IT システムに携わる組織的な開発と運用(作る人と守る人)の分断を、 ソフトウェアエンジニアリングで調和するアプローチ オンラインで本番環境の ユーザーが実際に使う サービス・プロダクト ユーザーの期待通りに サービスが動き続ける
  8. @AoToLog_ #安全性向上セミナー SRE(Site Reliability Engineering) とは 日本語で… 「サイト 信頼性 エンジニアリング」

    IT システムに携わる組織的な開発と運用(作る人と守る人)の分断を、 ソフトウェアエンジニアリングで調和するアプローチ オンラインで本番環境の ユーザーが実際に使う サービス・プロダクト ユーザーの期待通りに サービスが動き続ける 科学や数学の知見による 実践的な技術と仕組み
  9. @AoToLog_ #安全性向上セミナー SRE の信頼性階層 信頼性階層とは? システムの信頼性を担保する、 実践的なアプローチの階層 階層の基礎的な部分から、 より高度なアプローチへ それぞれのアプローチで、

    エンジニアリングの手法を用いて 定量的に信頼性を測る 製品・UX 開発 キャパシティ計画 テスト・製品リリース 事後検証・根本原因分析 インシデント対応 監視・オブザーバビリティ
  10. @AoToLog_ #安全性向上セミナー SRE の信頼性階層 信頼性階層とは? システムの信頼性を担保する、 実践的なアプローチの階層 階層の基礎的な部分から、 より高度なアプローチへ それぞれのアプローチで、

    エンジニアリングの手法を用いて 定量的に信頼性を測る 製品・UX 開発 キャパシティ計画 テスト・製品リリース 事後検証・根本原因分析 インシデント対応 監視・オブザーバビリティ
  11. @AoToLog_ #安全性向上セミナー オブザーバビリティとは 入力 出力 システム 計装 転送 バックエンド 保存・

    可視化 オブザーバビリティとは、つまり… システムの外側から何が起こっているかを知れる “ “
  12. @AoToLog_ #安全性向上セミナー とは 入力 出力 システム 計装 転送 バックエンド 保存・

    可視化 Datadog = オブザーバビリティのソフトウェアサービス システムに実装し・監視データを収集・可視化するサービス “ “
  13. @AoToLog_ #安全性向上セミナー 可視化から定量的な信頼性の評価 標準的なツール SLO(Service Level Objective) = サービスレベル目標: 数値化された信頼性の目標値

    Error Budget = エラー予算: 許容できるエラーの発生数 Postmortems = 事後検証: 障害発生後の事後分析 方法論とアプローチ 帰納的推論: 過去の経験からパターンを学習 依存関係分析: 依存関係の管理とシステムの分離 自動化の推進: 手作業を減らし、コードで解決
  14. @AoToLog_ #安全性向上セミナー 可視化から定量的な信頼性の評価 標準的なツール SLO(Service Level Objective) = サービスレベル目標: 数値化された信頼性の目標値

    Error Budget = エラー予算: 許容できるエラーの発生数 Postmortems = 事後検証: 障害発生後の事後分析 方法論とアプローチ 帰納的推論: 過去の経験からパターンを学習 依存関係分析: 依存関係の管理とシステムの分離 自動化の推進: 手作業を減らし、コードで解決 人命に関わらないからこそ、 実験的な取り組みを推進できる
  15. @AoToLog_ #安全性向上セミナー ①大規模サービスの責務 単なるサービス提供企業でなく、 社会的な生活基盤としての責務を 負う必要が発生する 例えば… • Google Map

    が利用できず、 救急車が現場に到着できない • Android 端末の脆弱性で、 国家的な機密情報が漏洩する • Google Cloud の障害で、 医療サービスが提供できない
  16. @AoToLog_ #安全性向上セミナー ①大規模サービスの責務 単なるサービス提供企業でなく、 社会的な生活基盤としての責務を 負う必要が発生する 例えば… • Google Map

    が利用できず、 救急車が現場に到着できない • Android 端末の脆弱性で、 国家的な機密情報が漏洩する • Google Cloud の障害で、 医療サービスが提供できない 人命に関わるほどの責務を SRE の方法論では賄えない
  17. @AoToLog_ #安全性向上セミナー システムの信頼性 ≒ 利用者の安全性 SRE の文脈で使われる用語を STAMP/STPA へ当てはめると… インシデント:

    ユーザー体験に影響を及ぼすシステムの障害・事故 事故(アクシデント): 望まれない・計画されていないイベントで損失に至るもの サービスレベルの低下: 定義したサービス品質(可用性やパフォーマンス)を損なう状態 ハザード: 最悪の環境下でアクシデントに至るシステムの状態 - UCA(安全でない制御アクション): ハザードを引き起こす条件、安全な制御アクション以外 根本原因: 事後分析で発見する、システム障害の原因となった過去の原因 HCF(ハザード要因): ハザードが引き起こされる要因(事前/事後的な分析) - 安全制約: ハザードを防止するために必要となるルール
  18. @AoToLog_ #安全性向上セミナー システムの信頼性 ≒ 利用者の安全性 SRE の文脈で使われる用語を STAMP/STPA へ当てはめると… インシデント:

    ユーザー体験に影響を及ぼすシステムの障害・事故 事故(アクシデント): 望まれない・計画されていないイベントで損失に至るもの サービスレベルの低下: 定義したサービス品質(可用性やパフォーマンス)を損なう状態 ハザード: 最悪の環境下でアクシデントに至るシステムの状態 アラートの根拠: 監視要件として定義する数値の根拠 UCA(安全でない制御アクション): ハザードを引き起こす条件、安全な制御アクション以外 根本原因: 事後分析で発見する、システム障害の原因となった過去の原因 HCF(ハザード要因): ハザードが引き起こされる要因(事前/事後的な分析) サービスレベル目標の根拠: 信頼性として定義する数値の根拠 安全制約: ハザードを防止するために必要となるルール
  19. @AoToLog_ #安全性向上セミナー Google SRE の直面した事例 システムの目的: Google の大規模システムが、 利用者に応じて最適なリソースを割り当て システムの構造:

    サービスがリソース上限(クォータ)を 使い切っていない場合、上限値を削減し 効率的にリソースを活用 最適リソース維持機能 アルゴリズム プロセスモデル リソース上限(クォータ)サービス クォータの 削減指示 現状のリソース 使用量
  20. @AoToLog_ #安全性向上セミナー Google SRE の直面した事例 システムの目的: Google の大規模システムが、 利用者に応じて最適なリソースを割り当て システムの構造:

    サービスがリソース上限(クォータ)を 使い切っていない場合、上限値を削減し 効率的にリソースを活用 ハザードの見落とし: クォータの削減を保留する仕組みを導入してい たが、誰も気付かずに過剰にリソースを制限 最適リソース維持機能 アルゴリズム プロセスモデル リソース上限(クォータ)サービス クォータの 削減指示 現状のリソース 使用量
  21. @AoToLog_ #安全性向上セミナー Google SRE の直面した事例 システムの目的: Google の大規模システムが、 利用者に応じて最適なリソースを割り当て システムの構造:

    サービスがリソース上限(クォータ)を 使い切っていない場合、上限値を削減し 効率的にリソースを活用 ハザードの見落とし: クォータの削減を保留する仕組みを導入してい たが、誰も気付かずに過剰にリソースを制限 最適リソース維持機能 アルゴリズム プロセスモデル リソース上限(クォータ)サービス クォータの 削減指示 現状のリソース 使用量 クォータの削減を保留する状態を ハザードとして認識することで、 インシデント発生前に対処できる
  22. @AoToLog_ #安全性向上セミナー STPA のおさらい STAMP を前提として、 「いかにして事故が起きるか」を 解析する手法 「ハザードシナリオ」を作成して 原因を探り、ハザードを引き起こす

    原因を UCA として特定 STEP⓪ STEP⓪ STEP① STEP② アクシデント・ハザード・ 安全制約の識別 コントロール構造の構築 UCA の抽出 HCF の特定 対策検討
  23. @AoToLog_ #安全性向上セミナー STPA のおさらい STAMP を前提として、 「いかにして事故が起きるか」を 解析する手法 「ハザードシナリオ」を作成して 原因を探り、ハザードを引き起こす

    原因を UCA として特定 Not Providing (指示が出ない) Providing Incorrectly (誤った指示) Timing: Too early/late, wrong order (タイミング・順序) Duration: Stopping too soon (アクションの長さ)
  24. @AoToLog_ #安全性向上セミナー Google SRE の直面した事例 システムの目的: Google の大規模システムが、 利用者に応じて最適なリソースを割り当て システムの構造:

    サービスがリソース上限(クォータ)を 使い切っていない場合、上限値を削減し 効率的にリソースを活用 ハザードの見落とし: クォータの削減を保留する仕組みを導入してい たが、誰も気付かずに過剰にリソースを制限 Not Providing (指示が出ない) Providing Incorrectly (誤った指示) Timing: Too early/late, wrong order (タイミング・順序) Duration: Stopping too soon (アクションの長さ) 過剰に リソースを制限
  25. @AoToLog_ #安全性向上セミナー プロアクティブな改善へ 「Google SRE の直面した事例」は 氷山の一角にすぎない Google では STAMP/STPA

    を適用し、 数百の潜在的なハザードを発見し、 システム停止を避ける迅速な応急処置と ソフトウェアエンジニアリングを 組み合わせることで、影響を軽減できた
  26. @AoToLog_ #安全性向上セミナー SRE への STAMP/STPA の適用 背景 • 複雑な大規模システムの構造を理解するための抽象・標準化が必要 •

    実験的な取り組みや変更による悪影響が許容されない大規模システム 適用 • 理論に裏付けされた、暗黙知から形式知への転換 • 障害発生後の事後検証だけではなく、障害発生前の事前分析 ◦ 障害検知アラートの根拠としての UCA ◦ サービスレベル目標の根拠としての安全制約 ◦ 事後検証の手法としての STPA
  27. @AoToLog_ #安全性向上セミナー SRE への STAMP/STPA の適用 適用 • 理論に裏付けされた、暗黙知から形式知への転換 •

    障害発生後の事後検証だけではなく、障害発生前の事前分析 ◦ 障害検知アラートの根拠としての UCA ◦ サービスレベル目標の根拠としての安全制約 ◦ 事後検証の手法としての STPA STPA による分析 よりよい SLO 安全なシステム運用
  28. @AoToLog_ #安全性向上セミナー まとめ • 大規模・複雑になるソフトウェアシステムの開発・運用では、 SRE と呼ばれるプラクティスが培われてきた • 暗黙知を元にした SRE

    は社会生活基盤としてのサービスを支えるには 不十分で、理論による形式知化やモデルによる標準化が有効 ◦ STAMP による SRE のプラクティスの根拠づけ ◦ STPA による 事前分析による安全性 ≒ 信頼性の向上 • Google SRE チームはいち早く STAMP/STPA を取り入れて、 大規模・複雑な Google サービスの安全性を高めた • 大規模なシステムだけでなく、あらゆるソフトウェアシステムの品質向上 のために、STAMP/STPA は有効で SRE のプラクティスを補強できる