Slide 1

Slide 1 text

はじめの一歩を踏み出したい方へ SREというロールを担うためにやったこと、学びや反省

Slide 2

Slide 2 text

もくじ はじめに  自己紹介  本発表の背景 本題  前提知識の共有  SREチームにジョインしてから取り組んだこと   まずは現状を知る   モニタリングダッシュボードの整理の話   障害の基準整理の話 おわりに

Slide 3

Slide 3 text

はじめに ● 自己紹介 ● 本発表の背景

Slide 4

Slide 4 text

自己紹介 - 佐々木優太(Sasaki Yuta) - 2022/08にマネーフォワードに入社 - 前職はSIerでSE - やってたこと - メトリクス/ログの可視化(Elastic Stack) - 性能試験 - すこしだけスクラムチームのDeveloper - 旅行が好き。47都道府県制覇するのが目標 はじめに

Slide 5

Slide 5 text

本発表の背景 はじめに 私はこんな状況でした - 転職後なので社内のコネクションが無い - 関わるプロダクトに対する知識が少ない - SRE活動に取り組むのは初めて 自分が取り組んできたことが、似たような状況の方の参考になれば嬉しい

Slide 6

Slide 6 text

本題 ● 前提知識の共有 ● SREチームにジョインして からの話

Slide 7

Slide 7 text

マネーフォワードのSRE 本題 > 前提知識の共有

Slide 8

Slide 8 text

今回はHRのProduct SREの体験談です 本題 > 前提知識の共有

Slide 9

Slide 9 text

HRのProduct SREが目指していること 本題 > 前提知識の共有 『 SWE自身で信頼性と開発生産性を最大化できる組織』を目指し、 SRE活動を各チームにインストールしています。 等々

Slide 10

Slide 10 text

今回はクラウド勤怠のProduct SREとしての話です 本題 > 前提知識の共有 等々

Slide 11

Slide 11 text

入社時におけるクラウド勤怠のSRE活動状況 - Datadogを用いたモニタリング基盤が整備されている - SLI/SLOが実装/計測されている - プロダクトチームもSLI/SLOを理解して、日々ウォッチしている 本題 > 前提知識の共有

Slide 12

Slide 12 text

あれ、結構進んでる...?

Slide 13

Slide 13 text

まずは現状を知る まずは最初に思ったことは 「今どんな状況なんだっけ?」 - アプリ/インフラの構成は? - どこまで出来ていて、何が足りないのだろうか? - プロダクトチームは何に困っている? 本題 > SREチームにジョインしてから

Slide 14

Slide 14 text

まずはキャッチアップから

Slide 15

Slide 15 text

はじめにやってよかったこと オンボーディング計画に沿って学習と実践 - 今の状態を知る - 過去の経緯を追う - トラブルシューティング/障害解析に積極的に関わる 本題 > SREチームにジョインしてから > まずは現状を知る

Slide 16

Slide 16 text

今の状態を知る 本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと - プロダクトのアーキテクチャ図を眺める - ミドル/インフラ/CI・CD周りの技術スタックを追う - モニタリングの仕組みを確認する - SRE本の内容と今の状態を比べてみる

Slide 17

Slide 17 text

SRE本の内容と比べてみる > システム信頼性のピラミッドと比べる 本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと 引用:https://sre.google/sre-book/part-III-practices/ どこまで出来ていて、何が足りないのかを考える上で参考になる ↓ - Datadogを活用したMonitoringの土台がある - インシデント対応の仕組みが整備されている - 大きな障害発生時にはPostmortemが執筆されている  

Slide 18

Slide 18 text

過去の経緯を追う 本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと - 今のアーキテクチャに至るまでの経緯を聞く - SLI/SLOの実装経緯を追う - ポストモーテムを読み込む

Slide 19

Slide 19 text

雰囲気は分かってきたけど 具体的なことはまだまだ分からない

Slide 20

Slide 20 text

あとは実践あるのみ

Slide 21

Slide 21 text

トラブルシューティング/障害解析に積極的に関わる 本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと 入社当初から怪しいアラートがあればひたすら追っていました

Slide 22

Slide 22 text

ふりかえり 本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと - オンボーディング計画に沿って学習と実践を積みました - チームにジョインする側としてはとてもありがたい - アラートをひたすらに追いかけるのも大事 - プロダクトの理解が深まった - どこに何の情報があるのか感覚的に掴めてくる

Slide 23

Slide 23 text

ちょっと分かってきたところで 小さな改善にチャレンジ

Slide 24

Slide 24 text

モニタリングダッシュボードを改善 課題感 - ダッシュボードに配置されているものの使われていないグラフがある - 解析を進める上で足りない情報がある やったこと ダッシュボード上のグラフを整理 (細かすぎるのもBADだと思うので、一概にこれが良いとは限らないです) - グラフの見せ方を改善 - アラート解析時に有用だった情報をダッシュボードに載せた 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

Slide 25

Slide 25 text

1つのグラフ内に情報量が多すぎるパターン 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話 Before

Slide 26

Slide 26 text

意味のある塊ごとにグラフを分割した 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話 After

Slide 27

Slide 27 text

→ スパイクの発生が分かりやすくなる 過去のデータと比較して並べてみる 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

Slide 28

Slide 28 text

解析時に使ったグラフをダッシュボードに組み込む 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

Slide 29

Slide 29 text

解析時に使ったグラフをダッシュボードに組み込む 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話 解析中に有用だった情報はダッシュボードへ逆輸入

Slide 30

Slide 30 text

ふりかえり - プロダクトチームが調査を進める上で困らないようダッシュボードを改善 - アラートをひたすらに追いかける経験が生かされる - (学びと反省)プロダクトチームの習熟度に合わせて、ダッシュボードを進化させる のが大事 - 勝手に変更し過ぎると、他のメンバーが使えなくなる 本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

Slide 31

Slide 31 text

次は障害の基準の話

Slide 32

Slide 32 text

障害の基準整理の話 課題感 信頼性の低下に関わる事象が発生していても、 対応の優先度が上がりきらないことがある ⇒ SLOを元に、開発と信頼性のバランスを取った意思決定をしたい やったこと SLOが基準値を下回った際のアクションを定め、関係者と認識を合わせた 本題 > SREチームにジョインしてから

Slide 33

Slide 33 text

障害の基準整理の話 どうやって決めていこう...? というときに、ワークブックが大活躍 本題 > SREチームにジョインしてから

Slide 34

Slide 34 text

エラーバジェット枯渇時のアクション(エラーバジェットポリシー)を定めた 本題 > SREチームにジョインしてから > 障害の基準整理の話

Slide 35

Slide 35 text

エラーバジェット枯渇時のアクション(エラーバジェットポリシー)を定めた 本題 > SREチームにジョインしてから > 障害の基準整理の話

Slide 36

Slide 36 text

実際にエラーバジェットポリシーが発動することも 本題 > SREチームにジョインしてから > 障害の基準整理の話

Slide 37

Slide 37 text

とはいえ、まだまだ改善も必要 (四半期に一度見直してます)

Slide 38

Slide 38 text

そんなこんなで SREのはじめの一歩を踏み出してきました

Slide 39

Slide 39 text

おわりに

Slide 40

Slide 40 text

取り組んだこと - オンボーディング計画に沿って学習と実践を重ねた - 現状や課題への理解が深まったところで小さい改善をスタート 学び - プロダクトに関わりまくって理解を深めるのが大事 - SRE本やワークブックは教科書として大活躍 反省 - 作るのもいいが、運用までを見据えなければならない - 「自分が居なくなっても、その取り組みは消滅しないか」我々は考えなければなら ない おわりに

Slide 41

Slide 41 text

発表は以上です