Upgrade to Pro — share decks privately, control downloads, hide ads and more …

悩ましきSLO ~HRMOSの場合~ /hrmos_mitene_slo

悩ましきSLO ~HRMOSの場合~ /hrmos_mitene_slo

2024年7月31日に開催された「HRMOS (BizReach)x みてね(MIXI)SREのお悩みぶっつけ合いLT大会」の登壇資料です。
https://mixi.connpass.com/event/323752/

▼関連資料
悩ましきスクラム ~HRMOSの場合~
https://speakerdeck.com/visional_engineering_and_design/hrmos-mitene-scrum

悩ましきインシデント管理 ~HRMOSの場合~
https://speakerdeck.com/visional_engineering_and_design/hrmos-mitene-incident

-----
Visionalのエンジニアリングに関する最新情報はX、ブログで発信しています!📣

▼Visional Engineering Blog
https://engineering.visional.inc/blog/

▼VISIONAL ENGINEERING X
https://twitter.com/VISIONAL_ENG

More Decks by Visional Engineering & Design

Other Decks in Technology

Transcript

  1. 1 神田 智史 KANDA Satoshi
 自己紹介
 経歴
 インフラエンジニア
 ↓
 セキュリティ/パフォーマンスQA

    
 ↓
 SET
 ↓
 インフラエンジニア
 ↓
 シリーズ横断のSRE
 みてねヘビーユーザーです 
 このLTはここの話

  2. HRMOSのSRE が観測する指標の全体像
 プロダクトの
 信頼性
 開発組織の
 パフォーマンス
 開発組織のSRE ケイパビリティ
 システム モニタリ

    ング
 ポスト モーテム
 テスト
 SLI/SLO
 運用・トイ ル
 リリース プロセス
 インシデ ント管理
 オンコー ル
 セキュリ ティ
 稼働率
 速度
 リードタイム
 デプロイ頻度
 変更障害率
 障害復旧時間
 さらにここの話
 4
  3. 策定時の議論
 HRMOSシリーズ共通の信頼性基準(SLO)
 満足できる性能体験の定義
 性能体験を捉える指標の定義
 必要なときに、いつでも使える 
 (稼働率)
 Availability
 Request Success

    Rate
 ストレスなく、サクサク使える 
 (速度)
 LCP (Largest Contentful Paint)
 Latency 
 運用
 • 毎月定期チェックを行い共有
 • 半期毎にSREレポートとして、開発組織のパフォーマンス・ 開発組織のSREケイパビリティとともに部署・チームに展開
 5
  4. 9 俺たちの戦いはこれからだ
 現在取り組んでいるもの
 • サービス間連携APIのSLO策定検討
 • 他サービスから呼び出されるAPIのSLO設定の是非
 
 • SLOのセグメンテーションの検討


    • 企業規模等のセグメンテーション
 • 適切な属性情報によるセグメント化
 
 • SLO悪化の事前検知手法をトライ
 • パフォーマンステストでのSLO確認
 • LatencyやLCPなど、SLOと同じ評価軸での測定