Slide 14
Slide 14 text
シンプルフォーム株式会社
よかったこと
指標について考える中で現状の運用の課題が炙り出された
あえて大勢の意見を集約する形を取ったことでより本質的な指標を定義できた
障害対応時にエンジニアが挙げる一次報告と CS がほしい情報に差分があるケースがあった
ポストモーテムで「もっと早く検知できなかったのか?」という観点も重要!という意見が出てきた
その結果、SLI/SLO とは別にインシデントレスポンスやポストモーテムの改善がスタートした
当初、守屋は API レイテンシやエラー率を計測することをイメージしていたが、
可用性だけではなくデータ精度やセキュリティなど重要度の高い指標が意見として上がってきた
(例) 脆弱性のあるライブラリの混入率
➢ SLI/SLO の検討プロセス自体が現状の運用について見直す契機となった
➢ 社内に公開した際により皆の納得感が得られる SLI を定義できた
14