Slide 1

Slide 1 text

SLOいつ決めましょう? abnoumaru @ 株式会社スリーシェイク 2024/05/16 第 3木曜 LT会 SREどうでしょう 1

Slide 2

Slide 2 text

id: abnoumaru 2012/10〜 前職 MSP 運用監視、インフラを学ぶ アルバイトからそのまま就職 2020/05〜 株式会社スリーシェイク SREのプラクティス導入のお手伝い 大企業で SLO導入のお手伝い 興味: 運用 / 監視 / SRE 好き: / / / もっと知りたい人は abnoumaru.com 本スライドは speakerdeck.com/abnoumaru にアップロードします 2024/05/16 第 3木曜 LT会 SREどうでしょう 2

Slide 3

Slide 3 text

個人的な SREに対する考え 1: あなたらしく SRE https://speakerdeck.com/abnoumaru/anatarasikusre-gong-kai-yong ( 2022/11/19) 2024/05/16 第 3木曜 LT会 SREどうでしょう 3

Slide 4

Slide 4 text

01. この発表は? 2024/05/16 第 3木曜 LT会 SREどうでしょう 4

Slide 5

Slide 5 text

きっかけはとあるイベントを見ているときに気になったコメント 「 SLOは最初から設定したほうがいいですか?」 2024/05/16 第 3木曜 LT会 SREどうでしょう 5

Slide 6

Slide 6 text

今日はこの質問に自分なりに答えてみる 2024/05/16 第 3木曜 LT会 SREどうでしょう 6

Slide 7

Slide 7 text

SLOに触れる難しさを自分も感じている 自分も本や事例を見て悩みながらチャレンジしている 今日は実際に SLOを導入に挑戦して得られた体験をベースに話していく 2024/05/16 第 3木曜 LT会 SREどうでしょう 7

Slide 8

Slide 8 text

02. 本に教えてもらう 2024/05/16 第 3木曜 LT会 SREどうでしょう 8

Slide 9

Slide 9 text

SLOの本 を読んでみる 本書で解説されている事をすべて達成するのは、容易ではありません。 それには多くの時間がかかるかもしれません。 さっそく今日から初めての SLIに取り掛かり、時間をかけて改良していきましょう。 SLO の目標値を選択し、 それに対するパフォーマンスを確認します。 開始するときには、全員の同意を得る必要はありません。 本書で解説しているすべてを達成するのは、容易ではありませんが、簡単に解決できる 問題を自分で試してみれば、すぐに価値を確認できます。 2: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 3.4 まとめ Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 2024/05/16 第 3木曜 LT会 SREどうでしょう 9

Slide 10

Slide 10 text

今日から設定して良さそう ! (答え出ちゃった) 2024/05/16 第 3木曜 LT会 SREどうでしょう 10

Slide 11

Slide 11 text

冗談です 時間をかけて改良、パフォーマンスを確認していく →この営みを SLO(SLI)を観察するということにしてここから深堀る 2024/05/16 第 3木曜 LT会 SREどうでしょう 11

Slide 12

Slide 12 text

どうやって観察する? 2024/05/16 第 3木曜 LT会 SREどうでしょう 12

Slide 13

Slide 13 text

SLOの文化を構築して SLOに関する処理を反復する 2024/05/16 第 3木曜 LT会 SREどうでしょう 13

Slide 14

Slide 14 text

SLOの文化への道 チームを SLOを利用したアプローチに移行するために必要な作業の概要 同意を得る SLOの作業を最優先する(自分や他メンバーを文化構築担当として割り当てる) SLOを実装する SLOを使用する SLOに関する処理を反復する SLOの活用を他の人々に提唱する 3: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3 SLOの文化への道 Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 2024/05/16 第 3木曜 LT会 SREどうでしょう 14

Slide 15

Slide 15 text

SLOに関する処理を反復する 機能していることと機能していないことを検討 SLI と SLO の追加 /削除 /調整を行う 絶えず SLO を再確認(利害関係者のニーズを反映していることをチェック) (なお 13.3で処理を反復する と言われてる部分は 13.3.7 SLO の定義を繰り返す 、 13.3.8 SLO が十分に適切になった時を判断する が該当する模様) 個人的にこの反復する営みに価値を感じており、なるべく早く SLOを設定したくなる 3: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3 SLOの文化への道 Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 4: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3.7 SLOの定義を繰り返す Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 5: SLO サービスレベル目標 ― SLI、 SLO、エラーバジェット導入の実践ガイド 13.3.8 SLO が十分に適切になった時を判断する Alex Hidalgo 著、山口 能迪 監訳、山口 能迪、成田 昇司 訳 (2023) 2024/05/16 第 3木曜 LT会 SREどうでしょう 15

Slide 16

Slide 16 text

03. 体験を共有する 2024/05/16 第 3木曜 LT会 SREどうでしょう 16

Slide 17

Slide 17 text

シチュエーション SREを導入して解決したいことの一部 開発と運用のサイロ 運用目線では既存アラートの対応がトイル 2024/05/16 第 3木曜 LT会 SREどうでしょう 17

Slide 18

Slide 18 text

SLOを観察した例 1つの施策として開発 <-> 運用間で定例を設けた 議題 SLOの観察 一定の秒数を超えた HTTPリクエストの割合を SLOとして据える 値の遷移と最近のアラート、障害状況と見比べてみる チケットベースでトイルの推移や内容共有 ... 2024/05/16 第 3木曜 LT会 SREどうでしょう 18

Slide 19

Slide 19 text

SLOを観察するにあたり工夫したこと 自分たちでフローを作成して SLOや既存のアラートの確認を繰り返しやすくした 結果的に SLOの判断マトリクス のようなものにたどり着いた 3: サイトリライアビリティワークブック ― SREの実践方法 2.7 SLOとエラーバジェットを使った意思決定 表 2.5 Betsy Beyer、 Niall Richard Murphy、 David K. Rensin、 Kent Kawahara、 Stephen Thorne 編、澤田 武男、関根 達夫、細川 一茂、矢吹 大輔 監訳、玉川 竜司 訳 2024/05/16 第 3木曜 LT会 SREどうでしょう 19

Slide 20

Slide 20 text

観察した様子 状況 SLO違反 → No ユーザ影響のあるインシデントあり? → No 既存アラート通知アリ → Yes(遅延監視のアラート) 遅延が発生していたら都度状況確認と確認結果の共有を行っていた 2024/05/16 第 3木曜 LT会 SREどうでしょう 20

Slide 21

Slide 21 text

遅延監視について生まれた議論 既存のアラートとその対応を見直すきっかけになりトイルが減少 2024/05/16 第 3木曜 LT会 SREどうでしょう 21

Slide 22

Slide 22 text

SLOの観察を繰り返したことで得られた効果 SLOという共通の物差しを持って運用について会話する時間が生まれた! 既存のアラートとその対応を見直すきっかけができた! すべての遅延監視に反応する対応を廃止して遅延の割合( SLOと定義したもの)を アクションのトリガーにした SREの原則であるリスクを受容するメリットや効果を実感することが出来た! 2024/05/16 第 3木曜 LT会 SREどうでしょう 22

Slide 23

Slide 23 text

補足 SLOを全組織で共通の目安として会話のきっかけにすることやイテレーションを繰り返して 見直すことで発見があることは各種 SRE本を翻訳されている Yoshi Yamaguchiさんの記事 SLOをもっとカジュアルに活用しよう でも取り上げられている 6: Yoshi Yamaguchi, "SLOをもっとカジュアルに活用しよう ". zenn. 公開 2023/03/29. https://zenn.dev/ymotongpoo/articles/20230329-slo-without-sre, (参照 2024/05/15) 2024/05/16 第 3木曜 LT会 SREどうでしょう 23

Slide 24

Slide 24 text

出来ていないこともある ドラスティックにエラーバジェットを用いて業務をコントロールすること 組織の規模が大きいとステークホルダーの数や距離も増える 「 SLOの活用を他の人々に提唱する」を引き続き進めていく SLOに賛成してくれて活用が承認される世界を目指す 2024/05/16 第 3木曜 LT会 SREどうでしょう 24

Slide 25

Slide 25 text

04. まとめ 2024/05/16 第 3木曜 LT会 SREどうでしょう 25

Slide 26

Slide 26 text

結論 SLOに関する処理を反復すること に価値があると考えている。 むしろ反復することで目の前のサービスに適した SLOを模索していく。 また反復の中で異なる役割を持つメンバーが SLOという共通の物差し を持って、 自分たちのサービスの運用について 会話する時間が生まれた。 これにより例えば よりユーザ視点に立てたり、既存運用の改善点に気づけたり、 SREの原則 の必要性を実感 することができた。 価値がある反復の回数を増やすため、早い段階で共通の物差しを作るため、 なるべく早く SLOは設定して観察し始めよう が私の意見。 2024/05/16 第 3木曜 LT会 SREどうでしょう 26

Slide 27

Slide 27 text

We Are Hiring!! 株式会社スリーシェイクでは一緒に働いてくれる仲間を絶賛募集しております! https://jobs-3-shake.com/ 2024/05/16 第 3木曜 LT会 SREどうでしょう 27