Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SREのエッセンスを運用・保守に無理矢理入れようとして失敗した話

土井淳
August 25, 2022

 SREのエッセンスを運用・保守に無理矢理入れようとして失敗した話

土井淳

August 25, 2022
Tweet

Other Decks in Technology

Transcript

  1. 自己紹介 土井 淳 (Jun Doi) 職業: 株式会社mediba テクノロジーセンター テクノロジー統合 UNIT

    業務内容: SREチーム リーダー・インフラ開発・運用 メモ: AWS歴5年 GCP歴: 1年程度 好きなサービスはAWS LambdaとStep Functions Twitter: @zuuundayo 2 2
  2. 1. 何を行ったのか • SREという名前になったが... ◦ 活動内容はインフラストラクチャー部のまま ▪ 運用・保守に我々の活動指標としてSLI/SLOを取り入れよう Service Level

    Indicator (SLI) システムの状態・パフォーマンスを把握するための指標 Service Level Objective (SLO) SLIの目標値・範囲 ex.) レイテンシー, エラー率, スループット, 稼働率 ユーザから見た時にあるべきシステム状態の目標(こういう状態であるべき) SLOによって仕事の優先順位を判断することもあり得ます(修繕か改善か 7
  3. 1. 何を行ったのか • なぜSLI/SLOを導入するのか? ◦ 様々なサービスのシステムがあるため俯瞰して状況を見づらい ▪ ダッシュボードを作ることで確認しやすく ◦ ユーザファーストを実現する

    ▪ ユーザが体験している状況を把握し、改善につなげる ◦ インフラは縁の下の力持ちで存在感がない ▪ 存在感を出していくためにも 成果を目に見える形に 8
  4. 1. 何を行ったのか • どのようなSLIを取得したのか ◦ 数多くのシステムがある ▪ 共通で取得できる指標を一 括で集める •

    ざっくりとSLOを設定 • ユーザ視点 
 • 可用性 
 • 月間稼働率 
 • 月間エラー率 
 • 月間レイテンシ 
 
 • システム視点寄り 
 • 月間アラート数 
 • 月間平均修復時間(MTTR) 10
  5. • よかったこと👍 ◦ QuickSightの知見を得ることができた ◦ SLIを上手く集約して閲覧できるようにできた • よくなかったこと👎 ◦ SLIデータは取得できたが運用・保守にはあまり役立たなかった

    ▪ 共通で取得したデータからわかることが少ない ▪ システムの現状が如実に表されていない ◦ SLI/SLO を活用した運用のイメージが具体的ではなかった ▪ 数値が悪くなった場合にどのような対応を取るべきか具体的では なかった(原因と結びつきにくい値) 13 → 結果としてあまり利用されずに運用はストップ 2. SLI/SLOを運用・保守に取り入れてみてどうだった?
  6. 3. SLI/SLOを導入するための教訓 15 • 欲張るな! ◦ 複数プロダクトまとめてやるのは難しい ◦ プロダクトごとの事情を汲み取るべし •

    CUJ(Critical User Jorney)を基に決めよう ◦ ユーザにとっての不利益 (= ビジネス機会損失)を検知できる指標 • 運用イメージを具体的に考えられる値にしよう ◦ この値がこうだったらこういう影響が出ているからこうするといった運用をイメージできる指標を探す ▪ 可観測性を重視した メトリクス取得し、観察することでシステム特性も分かる ▪ まあそれが難しいんですけどね...
  7. 宣伝 現在弊社では毎月mediba Tech Cafeというイベントを行ってます! mediba Tech Cafe #9 「medibaのエンジニア解体新書〜1日の過ごし方編〜」 •

    開催日: 8月30日(火)12:00 ~ 13:00 • 場所: オンライン (Youtube Live) • Connpassにて募集中 ◦ https://mediba-tech-cafe.connpass.com/event/257634/ 16 エンジニアブログもやってます https://ceblog.mediba.jp/ 色んな仲間も募集中です〜 (複業としても・複業やってても OK) https://hrmos.co/pages/mediba/jobs (ご興味あればぜひ)