Slide 1

Slide 1 text

サービスと開発者に最も近い Product SREsとして 取り組んでいるコト マネーフォワード HRソリューション本部 SREグループ VTRyo

Slide 2

Slide 2 text

Table of contents 2 ● 自己紹介 ● Product SREsとしてのお仕事 ○ SREプラクティスのインストール活動 ■ SLO/SLIを設定 or 再定義する ○ チームによって異なるシステム課題の解決

Slide 3

Slide 3 text

VTRyo(リョウ) - マネーフォワード HR領域のProduct SRE - 現場の仕事から採用、広報、メンバー評価など立ち上げに必 要なこと全部やります - 最近は自身のオブザーバビリティを高めています - ブクログとwithingsのPrometheus Exporter を書いてGrafanaで見る図 3

Slide 4

Slide 4 text

VTRyo(リョウ) - SRE NEXT 2022 ONLINEでもProduct SRE関連で登壇 4

Slide 5

Slide 5 text

Product SREsとしてのお仕事 ※今回は採用やSREチーム自体の話はしません

Slide 6

Slide 6 text

6

Slide 7

Slide 7 text

7

Slide 8

Slide 8 text

SREを前へ ソフトウェアエンジニア自身が SREプラクティスを知り、 信頼性を高められる世界観へ 8

Slide 9

Slide 9 text

ソフトウェアエンジニア自身が SREプラクティスを実行できるまでの大道筋 9 1 3 2 SREと共にSREプラクティ スが実施できる SREによる支援なしでSRE プラクティスが実施できる SREによる支援があればSRE プラクティスが実施できる 0 SREプラクティスが実施さ れていない 0 SREsがチームに 配置される準備が整う ? 「俺がSREだ」 「そしてお前もSREだ」

Slide 10

Slide 10 text

信頼性階層を 積み上げる プロダクトチームがどの階層 にいるのか見極め SREプラクティスを実施するの かも見ていた 10 引用: Google - Site Reliability Engineering

Slide 11

Slide 11 text

11

Slide 12

Slide 12 text

SLOの実装 12

Slide 13

Slide 13 text

“ SRE の中核的な責任は、単に「何もかも」自動化することや、ペー ジャーを持っておくことで はありません。SRE の日々のタスクやプロ ジェクトは、SLO によって駆動されます。 すなわち、 短期的には SLO を守ること、そしてそれらが中長期的に 維持し続けられるようにするということなのです。 SLO がなければ、SRE の必要性もないとさえ言えるでしょう。 引用: O'Reilly Japan - サイトリライアビリティワークブック 13

Slide 14

Slide 14 text

クラウド勤怠・クラウド給与 暫定SLOを実装していたので、 今年はよりコア機能に迫った改 定を実施。 SLIの洗い出しからプロダクト チームとともに伴走。 チームによってはPMやデザイ ナーも同席した 各プロダクトに合わせたSLOを実装する クラウド人事管理 今年からSREプラクティスを開 始。 SLOがなかったため新規で実 装。まずはプロダクトチームに理 解してもらうため、シンプルなも のを意識。 14

Slide 15

Slide 15 text

15 プロダクトチームと の連携 SLIとは何か。 プロダクトにとってどう良いの か。 何回かに分けてオンボードし SLIの洗い出しを実施

Slide 16

Slide 16 text

16 SLIブレスト with プロダクトチーム

Slide 17

Slide 17 text

17 Datadogによる SLOの実装 Miroでグルーピングした測定 すべき機能ごとにSLOを設定

Slide 18

Slide 18 text

18 SRE内レビューの 様子 PJ管理はGitHubで完結。 プロダクトチームへ展開する 場合は情報共有ツールへ

Slide 19

Slide 19 text

ここで疑問 ✋ SREとプロダクトチーム、 タスクを主導する境界線はどこなのか SLOひとつとってもSREが主導するチームと、 プロダクトチームと伴走するチームとで分岐した 19

Slide 20

Slide 20 text

「開発者よりもSREの方が効率的に達成でき る場合のみ、関与する」 ● Google SRE’sのミッションを参考 How Google SRE and Developers Collaborate - IT Revolution ● 最終的にプロダクトチームがSREプラクティスを実施 できる世界線にしたい ● 今すでにできていることを Product SREがあえて巻き取ることはない ● この判断は対象の成熟度によって異なる 20

Slide 21

Slide 21 text

“ Google SRE’s mission is to: - Ensure that Google’s products and infrastructure meet their availability targets. - Subject to (1), maximize long-term feature velocity. - Use software rather than human toil to accomplish (1) and (2). - Engage only when (1) through (3) are accomplished more efficiently by SRE than developers. How Google SRE and Developers Collaborate - IT Revolution 21

Slide 22

Slide 22 text

チームによって 異なるシステム課題の解決 22

Slide 23

Slide 23 text

SLOを守るために必要なシステム課題解決 - 各チームでフェーズが異なり、求められるスキル セットも異なる - プロダクトチームと話し合い、直近問題となっている 部分や将来の懸念を収集してそれぞれロードマップ 化 - 都度発生する予定外の課題解決も実施 (Help wanted) 23

Slide 24

Slide 24 text

主なハードスキルセット 24

Slide 25

Slide 25 text

もっと聞きたい人は カジュアル面談で😉 SNSでも可 ● @3s_hv 25

Slide 26

Slide 26 text

まとめ

Slide 27

Slide 27 text

Product SREsとして取り組んでいるコト - プロダクトチームがSREプラクティスを取り入れ、自 身で運用できるようになるための支援 - SREsが担当したほうが効率的な場合は主導 - 徐々にプロダクトチームへ委譲する - プロダクトの信頼性を脅かす課題を先手を打って解 決へ持っていく 27

Slide 28

Slide 28 text

SRE Foward by VTRyo