Slide 1

Slide 1 text

Sansan技術本部 Eight における SLO 策定と浸透 Eight Engineering Unit Infra グループ 中鉢 雅樹

Slide 2

Slide 2 text

中鉢 雅樹 Sansan株式会社 Eight Engineering Unit Infra グループ - インフラ・SREとしてプロバイダーやWeb系企業など を経て 2021/07 Sansan に join - Infra グループとして Eight インフラの拡充に貢献 - 好きなものは旅⾏と温泉とVtuber

Slide 3

Slide 3 text

https://8card.net/ 相⼿の名刺、⾃分の名刺、紙の名刺やオンライン名刺。 あらゆる名刺をEightにスキャンするだけで、これまで培ってきた⼈脈やスキル、 職歴などを中⼼に、⾃分だけのキャリアプロフィールが⾃動で作成されます。 キャリアプロフィール「Eight」が、ビジネスのライフタイムに伴⾛し、 昇進や転職、キャリアチェンジした後も変わることなく、キャリア形成にエッジを ⽴てるお⼿伝いをします。 キャリアプロフィール「Eight」

Slide 4

Slide 4 text

アジェンダ - インフラチームについて - SLOの策定 > きっかけ > SLO策定 - SLO運⽤と⽂化の浸透 - 振り返り > 反省 > 今後の展望

Slide 5

Slide 5 text

インフラチームについて

Slide 6

Slide 6 text

インフラチームについて 過去 (2021/07) - ⼊社時点で 3名、それまではしばらく2名体制 > プロダクト側からの開発依頼、セキュリティ対応などで⼀杯⼀杯 - インフラはインフラだけが⾒る > アラート対応はベストエフォート。基本はインフラが⾒て各所に振る > 構築系は基盤チーム(サーバーサイド)と共に作業することが多い

Slide 7

Slide 7 text

インフラチームについて 現在 - SLO構想は3⼈時。現在は5名体制(社員4/インターン1) > 徐々に内部にも⽬を向けられるように - ⺠主化が徐々に進む > アラートは徐々にアプリ側が積極的に確認するようになってきた > SLOやDB定期観測などが徐々に浸透 > ポストモーテム等の横断的なナレッジ共有 > 設計段階からインフラ観点で意⾒できるように > 定期メンテナンスの実施

Slide 8

Slide 8 text

SLOの策定

Slide 9

Slide 9 text

きっかけ - ⼈数も増え、内部に⽬を向ける時間が増えた - インフラを定量的に評価できるようにしたい - 指標が存在しないので成⻑が⾒えない - 開発速度と運⽤コストのバランスが曖昧・属⼈的 実施に当たって - SRE本の輪読会等でインプットは進めていた - まずはできることから始めようというモチベーション

Slide 10

Slide 10 text

SLOの策定 - チーム内で議論

Slide 11

Slide 11 text

SLOの策定 議論 - 現在計測・取得できているもの、できていないものを整理 - 組織として⽬標となりうる指標を洗い出す - カテゴライズを経てSLIを定義 - SLIからSLOとしての運⽤するための閾値を決定 - まずは形にすることを⽬標に、今あるものから昇華させていった - 完成形のイメージが想像しやすい - はじめにまとまった時間でガッと議論することでベースができた - 完成形まで⾒通しが付き、やるべきことが明確になった

Slide 12

Slide 12 text

SLO運⽤と⽂化の浸透

Slide 13

Slide 13 text

運⽤ 運⽤を開始 - ダッシュボードを⽣成 - 週次のチーム定例時に振り返りを実施 > 原因調査と対応は定形タスクとして実施 > SLO⾃体の精度も確認 - monitor (アラート)はインシデントとは別チャネルで この時の所感 - SLO⾃体がまだ未成熟 > ユーザー影響に繋がらない指標 > 暫定だった⽬標値に対して徐々に現在地が⾒えてくる - 改善の優先度が低い > 指標として⼗分に重要視されない

Slide 14

Slide 14 text

SLO⽂化の浸透のために SLOを⽤いて信頼性を評価するという⽂化を浸透させる - SLOが⽬的にならないように - インフラ以外でも信頼性を意識するように インフラ内での運⽤を経て、徐々に EU、事業部へ - SLO 策定中から EU へ共有を実施 > 定例等不定期に共有 > SLO という⾔葉の説明から実施

Slide 15

Slide 15 text

SLO⽂化の浸透のために 実際に開発側でも向き合ってもらうように - SLO 運⽤ポリシの策定 - 週次でのEU定例に振り返り取り⼊れる - サービス側で SLO を⽣成してもらう > APIやキーとなるバッチに対して設定 事業部への周知・振り返り実施 - ⽉次の部会にて SLO 振り返り実施

Slide 16

Slide 16 text

SLO⽂化の浸透のために SLO の認知向上 - 徐々に社内でも SLO という⾔葉が使われるように - 改善時の優先度が⾃然と上がった 信頼性との向き合い⽅ - パフォーマンスと向き合う機会が増えた - 信頼性を損なうようなパフォーマンス劣化を⾃然と意識するように

Slide 17

Slide 17 text

振り返り

Slide 18

Slide 18 text

反省 ボトムアップで進めた良い点 / 悪い点 ナレッジの少ない中学習しながら進めるのには良かった - 関係者の理解度を⾼めつつ取り⼊れることができた 運⽤のイメージを持ちながら進められた メトリックなどシステム的な指標に寄ってしまった - ユーザー体験と⾔うよりもシステム全体がターゲットとなっていた 浸透のスピードは遅め - 認知・周知する時間が必要 - 他チームとしても優先順位を上げにくい

Slide 19

Slide 19 text

展望

Slide 20

Slide 20 text

直近 改めて向き合い⽅を議論した - 1年後 SLO 99.95% に向けて課題を確認 > ボトルネックとなるメンテナンスとの向き合い⽅ > SLOの精度向上・さらなる啓蒙 > 問題(障害)発⽣時の対応速度向上 > ナレッジ共有や対応体制の強化 今Q実施していること - メンテナンス時間の短縮 - CUJの定義・SLOのブラッシュアップ - オブザーバビリティの強化

Slide 21

Slide 21 text

これから プロダクト側が使える指標にする - SLO⾃体の精度を更に信頼できるものへ昇華 > インシデント判断へ取り⼊れる - リリース判断 > エラーバジェットの導⼊ - 対外的に掲げられるように 開発スピードを落とさず導⼊する - Eight として必要なモノ・タイミングを判断しつつ進める

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

No content