Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SLOいつ決めましょう?

 SLOいつ決めましょう?

第3木曜LT会というイベントの「SREどうでしょう」という会でSLOはいつ決めたらよいか?自分なりに考えた結果を発表したLT資料

https://metaps.connpass.com/event/313921/

abnoumaru

May 16, 2024
Tweet

More Decks by abnoumaru

Other Decks in Technology

Transcript

  1. id: abnoumaru 2012/10〜 前職 MSP 運用監視、インフラを学ぶ アルバイトからそのまま就職 2020/05〜 株式会社スリーシェイク SREのプラクティス導入のお手伝い

    大企業で SLO導入のお手伝い 興味: 運用 / 監視 / SRE 好き: / / / もっと知りたい人は abnoumaru.com 本スライドは speakerdeck.com/abnoumaru にアップロードします 2024/05/16 第 3木曜 LT会 SREどうでしょう 2
  2. SLOの本 を読んでみる 本書で解説されている事をすべて達成するのは、容易ではありません。 それには多くの時間がかかるかもしれません。 さっそく今日から初めての SLIに取り掛かり、時間をかけて改良していきましょう。 SLO の目標値を選択し、 それに対するパフォーマンスを確認します。 開始するときには、全員の同意を得る必要はありません。

    本書で解説しているすべてを達成するのは、容易ではありませんが、簡単に解決できる 問題を自分で試してみれば、すぐに価値を確認できます。 2: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 3.4 まとめ Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 2024/05/16 第 3木曜 LT会 SREどうでしょう 9
  3. SLOの文化への道 チームを SLOを利用したアプローチに移行するために必要な作業の概要 同意を得る SLOの作業を最優先する(自分や他メンバーを文化構築担当として割り当てる) SLOを実装する SLOを使用する SLOに関する処理を反復する SLOの活用を他の人々に提唱する 3:

    SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3 SLOの文化への道 Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 2024/05/16 第 3木曜 LT会 SREどうでしょう 14
  4. SLOに関する処理を反復する 機能していることと機能していないことを検討 SLI と SLO の追加 /削除 /調整を行う 絶えず SLO

    を再確認(利害関係者のニーズを反映していることをチェック) (なお 13.3で処理を反復する と言われてる部分は 13.3.7 SLO の定義を繰り返す 、 13.3.8 SLO が十分に適切になった時を判断する が該当する模様) 個人的にこの反復する営みに価値を感じており、なるべく早く SLOを設定したくなる 3: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3 SLOの文化への道 Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 4: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3.7 SLOの定義を繰り返す Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 5: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3.8 SLO が十分に適切になった時を判断する Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 2024/05/16 第 3木曜 LT会 SREどうでしょう 15
  5. SLOを観察するにあたり工夫したこと 自分たちでフローを作成して SLOや既存のアラートの確認を繰り返しやすくした 結果的に SLOの判断マトリクス のようなものにたどり着いた 3: サイトリライアビリティワークブック ― SREの実践方法

    2.7 SLOとエラーバジェットを使った意思決定 表 2.5 Betsy Beyer、 Niall Richard Murphy、 David K. Rensin、 Kent Kawahara、 Stephen Thorne 編、澤田 武男、関根 達夫、細川 一茂、矢吹 大輔 監訳、玉川 竜司 訳 2024/05/16 第 3木曜 LT会 SREどうでしょう 19
  6. 観察した様子 状況 SLO違反 → No ユーザ影響のあるインシデントあり? → No 既存アラート通知アリ →

    Yes(遅延監視のアラート) 遅延が発生していたら都度状況確認と確認結果の共有を行っていた 2024/05/16 第 3木曜 LT会 SREどうでしょう 20
  7. 補足 SLOを全組織で共通の目安として会話のきっかけにすることやイテレーションを繰り返して 見直すことで発見があることは各種 SRE本を翻訳されている Yoshi Yamaguchiさんの記事 SLOをもっとカジュアルに活用しよう でも取り上げられている 6: Yoshi

    Yamaguchi, "SLOをもっとカジュアルに活用しよう ". zenn. 公開 2023/03/29. https://zenn.dev/ymotongpoo/articles/20230329-slo-without-sre, (参照 2024/05/15) 2024/05/16 第 3木曜 LT会 SREどうでしょう 23
  8. 結論 SLOに関する処理を反復すること に価値があると考えている。 むしろ反復することで目の前のサービスに適した SLOを模索していく。 また反復の中で異なる役割を持つメンバーが SLOという共通の物差し を持って、 自分たちのサービスの運用について 会話する時間が生まれた。

    これにより例えば よりユーザ視点に立てたり、既存運用の改善点に気づけたり、 SREの原則 の必要性を実感 することができた。 価値がある反復の回数を増やすため、早い段階で共通の物差しを作るため、 なるべく早く SLOは設定して観察し始めよう が私の意見。 2024/05/16 第 3木曜 LT会 SREどうでしょう 26