Slide 1

Slide 1 text

SREのエッセンスを運用・保 守に無理矢理入れようとして 失敗した話 株式会社mediba  テクノロジーセンター 土井

Slide 2

Slide 2 text

自己紹介 土井 淳 (Jun Doi) 職業: 株式会社mediba テクノロジーセンター テクノロジー統合 UNIT 業務内容: SREチーム リーダー・インフラ開発・運用 メモ: AWS歴5年 GCP歴: 1年程度 好きなサービスはAWS LambdaとStep Functions Twitter: @zuuundayo 2 2

Slide 3

Slide 3 text

注意 本発表並びにスライドに記載されている内容はあくまで個人の見解・発表であり、 所属する会社の公式な見解・発表ではございません。 3

Slide 4

Slide 4 text

目次 1. 何を行ったのか 2. SLI/SLOを運用・保守に取り入れてみてど うだった? 3. SLI/SLOを導入するための教訓 4

Slide 5

Slide 5 text

1. 何を行ったのか 5

Slide 6

Slide 6 text

1. 何を行ったのか ● 弊社のSRE組織の起源はインフラストラクチャー部 ○ これからの時代はインフラだけでは喰っていけない ○ インフラ以外にも領域を広げていこう ○ 部名がSRE推進部に変更 6

Slide 7

Slide 7 text

1. 何を行ったのか ● SREという名前になったが... ○ 活動内容はインフラストラクチャー部のまま ■ 運用・保守に我々の活動指標としてSLI/SLOを取り入れよう Service Level Indicator (SLI) システムの状態・パフォーマンスを把握するための指標 Service Level Objective (SLO) SLIの目標値・範囲 ex.) レイテンシー, エラー率, スループット, 稼働率 ユーザから見た時にあるべきシステム状態の目標(こういう状態であるべき) SLOによって仕事の優先順位を判断することもあり得ます(修繕か改善か 7

Slide 8

Slide 8 text

1. 何を行ったのか ● なぜSLI/SLOを導入するのか? ○ 様々なサービスのシステムがあるため俯瞰して状況を見づらい ■ ダッシュボードを作ることで確認しやすく ○ ユーザファーストを実現する ■ ユーザが体験している状況を把握し、改善につなげる ○ インフラは縁の下の力持ちで存在感がない ■ 存在感を出していくためにも 成果を目に見える形に 8

Slide 9

Slide 9 text

1. 何を行ったのか ● 導入にあたって準備したこと ○ 全社への説明会 ○ メトリクスの収集機構 ○ ダッシュボードの作成 ■ QuickSight+ Azure AD SSO ■ だれでもログインして閲覧できる 9

Slide 10

Slide 10 text

1. 何を行ったのか ● どのようなSLIを取得したのか ○ 数多くのシステムがある ■ 共通で取得できる指標を一 括で集める ● ざっくりとSLOを設定 ● ユーザ視点 
 ● 可用性 
 ● 月間稼働率 
 ● 月間エラー率 
 ● 月間レイテンシ 
 
 ● システム視点寄り 
 ● 月間アラート数 
 ● 月間平均修復時間(MTTR) 10

Slide 11

Slide 11 text

2. SLI/SLOを運用・保守に取り入れてみ てどうだった? 11

Slide 12

Slide 12 text

2. SLI/SLOを運用・保守に取り入れてみてどうだった? ● レポート内容を毎月担当からチームに共有 ○ 要因等を開発チームにフィードバック ● 稼働率等は時系列で永続的に記録 12

Slide 13

Slide 13 text

● よかったこと👍 ○ QuickSightの知見を得ることができた ○ SLIを上手く集約して閲覧できるようにできた ● よくなかったこと👎 ○ SLIデータは取得できたが運用・保守にはあまり役立たなかった ■ 共通で取得したデータからわかることが少ない ■ システムの現状が如実に表されていない ○ SLI/SLO を活用した運用のイメージが具体的ではなかった ■ 数値が悪くなった場合にどのような対応を取るべきか具体的では なかった(原因と結びつきにくい値) 13 → 結果としてあまり利用されずに運用はストップ 2. SLI/SLOを運用・保守に取り入れてみてどうだった?

Slide 14

Slide 14 text

3. SLI/SLOを導入するための教訓 14

Slide 15

Slide 15 text

3. SLI/SLOを導入するための教訓 15 ● 欲張るな! ○ 複数プロダクトまとめてやるのは難しい ○ プロダクトごとの事情を汲み取るべし ● CUJ(Critical User Jorney)を基に決めよう ○ ユーザにとっての不利益 (= ビジネス機会損失)を検知できる指標 ● 運用イメージを具体的に考えられる値にしよう ○ この値がこうだったらこういう影響が出ているからこうするといった運用をイメージできる指標を探す ■ 可観測性を重視した メトリクス取得し、観察することでシステム特性も分かる ■ まあそれが難しいんですけどね...

Slide 16

Slide 16 text

宣伝 現在弊社では毎月mediba Tech Cafeというイベントを行ってます! mediba Tech Cafe #9 「medibaのエンジニア解体新書〜1日の過ごし方編〜」 ● 開催日: 8月30日(火)12:00 ~ 13:00 ● 場所: オンライン (Youtube Live) ● Connpassにて募集中 ○ https://mediba-tech-cafe.connpass.com/event/257634/ 16 エンジニアブログもやってます https://ceblog.mediba.jp/ 色んな仲間も募集中です〜 (複業としても・複業やってても OK) https://hrmos.co/pages/mediba/jobs (ご興味あればぜひ)

Slide 17

Slide 17 text

おわりに 現在、SLI/SLOを用いた運用に再チャレンジ中です。 また別の機会に得られた知見を共有しようと思ってます。 ご清聴ありがとうございました! 17