はじめの一歩を踏み出したい方へ~SREというロールを担うためにやったこと、学びや反省 / Let's start the first step to the SRE

はじめの一歩を踏み出したい方へ SREというロールを担うためにやったこと、学びや反省

もくじはじめに　自己紹介　本発表の背景本題　前提知識の共有　SREチームにジョインしてから取り組んだこと　　まずは現状を知る　　モニタリングダッシュボードの整理の話　　障害の基準整理の話
おわりに

はじめに • 自己紹介 • 本発表の背景

自己紹介 - 佐々木優太（Sasaki Yuta） - 2022/08にマネーフォワードに入社 - 前職はSIerでSE - やってたこと
- メトリクス/ログの可視化（Elastic Stack） - 性能試験 - すこしだけスクラムチームのDeveloper - 旅行が好き。47都道府県制覇するのが目標はじめに

本発表の背景はじめに私はこんな状況でした - 転職後なので社内のコネクションが無い - 関わるプロダクトに対する知識が少ない - SRE活動に取り組むのは初めて自分が取り組んできたことが、似たような状況の方の参考になれば嬉しい

本題 • 前提知識の共有 • SREチームにジョインしてからの話

マネーフォワードのSRE 本題 > 前提知識の共有

今回はHRのProduct SREの体験談です本題 > 前提知識の共有

HRのProduct SREが目指していること本題 > 前提知識の共有『 SWE自身で信頼性と開発生産性を最大化できる組織』を目指し、 SRE活動を各チームにインストールしています。等々

今回はクラウド勤怠のProduct SREとしての話です本題 > 前提知識の共有等々

入社時におけるクラウド勤怠のSRE活動状況 - Datadogを用いたモニタリング基盤が整備されている - SLI/SLOが実装/計測されている - プロダクトチームもSLI/SLOを理解して、日々ウォッチしている本題 > 前提知識の共有

あれ、結構進んでる...？

まずは現状を知るまずは最初に思ったことは「今どんな状況なんだっけ？」 - アプリ/インフラの構成は？ - どこまで出来ていて、何が足りないのだろうか？ - プロダクトチームは何に困っている？本題
> SREチームにジョインしてから

まずはキャッチアップから

はじめにやってよかったことオンボーディング計画に沿って学習と実践 - 今の状態を知る - 過去の経緯を追う - トラブルシューティング/障害解析に積極的に関わる本題 >
SREチームにジョインしてから > まずは現状を知る

今の状態を知る本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと - プロダクトのアーキテクチャ図を眺める
- ミドル/インフラ/CI・CD周りの技術スタックを追う - モニタリングの仕組みを確認する - SRE本の内容と今の状態を比べてみる

SRE本の内容と比べてみる > システム信頼性のピラミッドと比べる本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと
引用：https://sre.google/sre-book/part-III-practices/ どこまで出来ていて、何が足りないのかを考える上で参考になる ↓ - Datadogを活用したMonitoringの土台がある - インシデント対応の仕組みが整備されている - 大きな障害発生時にはPostmortemが執筆されている　

過去の経緯を追う本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと - 今のアーキテクチャに至るまでの経緯を聞く
- SLI/SLOの実装経緯を追う - ポストモーテムを読み込む

雰囲気は分かってきたけど具体的なことはまだまだ分からない

あとは実践あるのみ

トラブルシューティング/障害解析に積極的に関わる本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと入社当初から怪しいアラートがあればひたすら追っていました

ふりかえり本題 > SREチームにジョインしてから > まずは現状を知る > はじめにやってよかったこと - オンボーディング計画に沿って学習と実践を積みました
- チームにジョインする側としてはとてもありがたい - アラートをひたすらに追いかけるのも大事 - プロダクトの理解が深まった - どこに何の情報があるのか感覚的に掴めてくる

ちょっと分かってきたところで小さな改善にチャレンジ

モニタリングダッシュボードを改善課題感 - ダッシュボードに配置されているものの使われていないグラフがある - 解析を進める上で足りない情報があるやったことダッシュボード上のグラフを整理（細かすぎるのもBADだと思うので、一概にこれが良いとは限らないです） -
グラフの見せ方を改善 - アラート解析時に有用だった情報をダッシュボードに載せた本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

1つのグラフ内に情報量が多すぎるパターン本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話 Before

意味のある塊ごとにグラフを分割した本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話 After

→ スパイクの発生が分かりやすくなる過去のデータと比較して並べてみる本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

解析時に使ったグラフをダッシュボードに組み込む本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

解析時に使ったグラフをダッシュボードに組み込む本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話解析中に有用だった情報はダッシュボードへ逆輸入

ふりかえり - プロダクトチームが調査を進める上で困らないようダッシュボードを改善 - アラートをひたすらに追いかける経験が生かされる - （学びと反省）プロダクトチームの習熟度に合わせて、ダッシュボードを進化させるのが大事 - 勝手に変更し過ぎると、他のメンバーが使えなくなる
本題 > SREチームにジョインしてから > モニタリングダッシュボードの整理の話

次は障害の基準の話

障害の基準整理の話課題感信頼性の低下に関わる事象が発生していても、対応の優先度が上がりきらないことがある ⇒ SLOを元に、開発と信頼性のバランスを取った意思決定をしたいやったこと SLOが基準値を下回った際のアクションを定め、関係者と認識を合わせた本題 >
SREチームにジョインしてから

障害の基準整理の話どうやって決めていこう...？というときに、ワークブックが大活躍本題 > SREチームにジョインしてから

エラーバジェット枯渇時のアクション（エラーバジェットポリシー）を定めた本題 > SREチームにジョインしてから > 障害の基準整理の話

実際にエラーバジェットポリシーが発動することも本題 > SREチームにジョインしてから > 障害の基準整理の話

とはいえ、まだまだ改善も必要（四半期に一度見直してます）

そんなこんなで SREのはじめの一歩を踏み出してきました

おわりに

取り組んだこと - オンボーディング計画に沿って学習と実践を重ねた - 現状や課題への理解が深まったところで小さい改善をスタート学び - プロダクトに関わりまくって理解を深めるのが大事 - SRE本やワークブックは教科書として大活躍
反省 - 作るのもいいが、運用までを見据えなければならない - 「自分が居なくなっても、その取り組みは消滅しないか」我々は考えなければならないおわりに

発表は以上です

はじめの一歩を踏み出したい方へ~SREというロールを担うためにやったこと、学びや反省 / Le...

はじめの一歩を踏み出したい方へ~SREというロールを担うためにやったこと、学びや反省 / Let's start the first step to the SRE

More Decks by gonkun

Featured

Transcript