Upgrade to Pro — share decks privately, control downloads, hide ads and more …

信頼性と向き合う組織⽂化醸成に向けたあれこれ

SansanTech
November 22, 2023

 信頼性と向き合う組織⽂化醸成に向けたあれこれ

■イベント
【ユーザベース × Sansan】組織全体で向き合うSaaSプロダクトの信頼性向上への取り組み - UB Tech Vol.13
https://uzabase-tech.connpass.com/event/300220/

■登壇概要
タイトル:信頼性と向き合う組織⽂化醸成に向けたあれこれ
登壇者:技術本部 Eight Engineering Unit 間瀬 哲也

■Sansan 技術本部 採用情報
https://media.sansan-engineering.com/

SansanTech

November 22, 2023
Tweet

More Decks by SansanTech

Other Decks in Technology

Transcript

  1. 間瀬 哲也 Sansan株式会社 技術本部 Eight Engineering Unit SRE グループ -

    Sansan株式会社の第1号インフラエンジニアとして⼊社。 当時はSansan (オンプレ時代)、Eight、社内インフラなどを まとめて担当。 - 現在はEightのSREグループのグループマネジャーとして、 SREメンバーがSREとしての⽂化を醸成していくのを温か く⾒守る傍らで、全社のプロダクトインフラの戦略⽴案を 担う。
  2. - 2023年10⽉発⾜ - 旧インフラグループ5名 + 基盤開発メンバー 1名 - SREとして -

    システム視点ではなく、ユーザー視点でプロダクトの信頼性に向きあう - もちろん、インフラとしてやっていたことも EightのSRE
  3. EightのSRE Eight Engineering Unit Eight Engineering Unit Eight開発 イベント開発 インフラ

    プロダクト開発 基盤開発 Eight 開発 SRE プロダクト開発 アライアンス 開発 イベント開発 アライアンス 開発
  4. 第1期 - きっかけ - ⼈数的に余裕ができてきた - といっても1.5名 → 2.5名 -

    システムの状態を定量化したい - ⾃分たちの成果を⾒せたい - Push配信などのシステム影響をわかりやすく⽰したい
  5. 第1期 - SLOを定義してみよう - インフラチームで集まって議論した - インフラ観点 + サービス/システム全体としての指標を定義した -

    ある指標から試す - ⼩さく初めてPDCAを回す - ⾃分たちもイメージをつける - ダッシュボード - 定例MTGでの報告・共有をする > 開発メンバー向け: 週次 > 事業部全体向け: ⽉次
  6. - SLO: 99.9%⽬標 - ダウンタイム > ヘルスチェックに5分以上継続して失敗がないか - Error Rate

    > サーバでの5xxエラー率が5分間継続して1%以上となることがないか - Response Time > メインのサービスで95%ileで5分間継続して1sec超となることがないか - 外部サービスAPI > エラーレスポンスが返ることがないか 第1期
  7. - PDCAを回す - 最初はかなり過敏なほどにチェックをした > 低下原因 サービスを知る > サービス影響 ユーザを知る

    > 開発メンバーとの共有 システムを知る - 閾値の⾒直し > サービス影響がないものは緩くする 第1期
  8. - Engineering Unitとして信頼性を意識する - 主要機能APIに対してSLI/SLOを設定 > APM > 開発者が意識をしやすい値 >

    CUJっぽい > 信頼性への意識や⾃分事感 - データベース/クエリのパフォーマンスを意識 > Performance Insights > Observability - 後者は結構定着 第2期
  9. - 議論する - CUJとは何か > ユーザーが⽬的を完遂するために⾏う特定の動作 - なぜ必要なのか > システムの状態を知りたいわけではない

    > ユーザの体験が毀損されていないかを知りたい - プロダクトとして⼤切にしているもの - ユーザがなぜEightを使うのか - ユーザージャーニーを複数リストアップ - 優先度付け > 使えないことでどれだけ困るか 第3期
  10. まとめ 第3期 - CUJを考える過程に価値がある - 関係者間のコミュニケーション - 共通認識 - 共通の⽬標

    - プロダクトをより深く知ることができる - CUJ⾃体 - 問題発⽣時のユーザ影響がわかりやすい - 今後のオンボーディングにも使える