Upgrade to Pro — share decks privately, control downloads, hide ads and more …

開発チームと歩む SLO監視文化の立ち上げジャーニー/A journey with the d...

開発チームと歩む SLO監視文化の立ち上げジャーニー/A journey with the development team to establish an SLO monitoring culture

ソフトウェアエンジニア兼SREの渡邉が、2024年に開催した「Datadog Summit Tokyo」で発表した際の資料となります。

イベントURL:
https://www.datadoghq.com/ja/summit/tokyo24/

ワンキャリアTech

March 04, 2025
Tweet

More Decks by ワンキャリアTech

Transcript

  1. Copyright © ONE CAREER Inc. 株式会社ワンキャリアに入社(所属はSREチーム) 2023.10 2024.1 2024.2 2024.6

    開発チームのEmbedded SREとして活動 SLO監視文化の立ち上げ ONECAREER CLOUD採用管理チームに移動 株式会社ワンキャリア 技術開発部 ATSチーム SRE 渡邉 美希パウラ Paula Miki Watanabe @PwatanabeMiki 自己紹介 2
  2. Copyright © ONE CAREER Inc. 本日の講演のアジェンダ ▪ 弊社の事業/サービス概要 ▪ 本日お話しすること

    ▪ 2021〜2022年:SREチーム発足、SLO運用開始&低迷 ▪ 2023年:SLO運用の再構築 ▪ 2024年〜:シン・SLO運用スタート ▪ 今後のSLO監視について ▪ まとめ ワンキャリアについて SLO監視文化の 立ち上げジャーニー 今後の展望とまとめ 1 2 3 3
  3. Copyright © ONE CAREER Inc. 本日の講演のアジェンダ ▪ 弊社の事業/サービス概要 ▪ 本日お話しすること

    ▪ 今後の展望 ▪ まとめ ワンキャリアについて SLO監視文化の 立ち上げジャーニー 今後の展望とまとめ 1 2 3 4 ▪ 2021〜2022年:SREチーム発足、SLO運用開始&低迷 ▪ 2023年:SLO運用の再構築 ▪ 2024年〜:シン・SLO運用スタート
  4. ミッション Copyright © ONE CAREER Inc. All Rights Reserved. 私たちワンキャリアは「人の数だけ、キャリアをつくる。」をミッションに掲げ、

    個人・企業が仕事選びに関するあらゆるデータを利用できるプラットフォームとして3つのサービスを展開しております。 人の数だけ、 キャリアをつくる。 - はじめてのキャリアを選ぶ、就活サイト「ONE CAREER」 - 次のキャリアが見える、転職サイト「ONE CAREER PLUS」 - 採用活動のDX1(デジタルトランスフォーメーション)推進を支援する「ONE CAREER CLOUD」 多くの人にとって仕事は人生で最も時間を投資する対象であるにも関わらず、仕事選びに関しては意思決定の基準となる ようなデータが少なく、いまだに就職してから後悔する人が後を絶たない状況です。 私たちは、すべての個人のキャリアに向き合い、キャリアデータを結集し、多様化する世の中において採用マーケットをアップデートしていきます。 1. DX:企業活動にデータとデジタル技術を活用することで、ビジネスモデルや業務、サービスなどを変革し、競争上の優位性を確立すること。 5
  5. ワンキャリアが目指す世界 Copyright © ONE CAREER Inc. All Rights Reserved. 人材育成と

    教育の研究 労働者賃金 の推定 企業評価 の分析 雇用動向 の分析 就職・転職 傾向の分析 学生 従業員 教育機関 キャリア データ プラットフォーム 企業 事業主 行政 データ提供 データ活用 データ提供 データ活用 仕事選びに関するあらゆるデータを収集し 全ステークホルダーがデータを利用できるプラットフォームをつくることで 未来にわたって人々が多様な働き方を尊重できる社会を推進。 6
  6. サービス一覧 Copyright © ONE CAREER Inc. All Rights Reserved. これまで可視化されていなかった「キャリアデータ*1」を活用し、就職・採用の意思決定をサポート。

    1. キャリアデータとは、求職者の活動データ、企業の採用データの総称。 2. 日本の人事部「HRアワード2020」にてプロフェッショナル部門(人材採用・雇用部門)で最優秀賞を受賞。 3. NewsPicks発表「【図解】20サービスを徹底比較。本当に役立つ「就活サイト」一覧より。 4. ProFuture株式会社/HR総研「HR総研×楽天みん就:2024年卒学生の就職活動動向調査 結果報告【就職活動編】」(https://www.hrpro.co.jp/research_detail.php?r_no=359)よ り。 5. 2023年12月時点の実測値。 5 7
  7. ビジネスモデル Copyright © ONE CAREER Inc. All Rights Reserved. 1.

    アライアンスパートナーとの料金体系は送客1件あたりの従量課金。 求職者の就職活動や企業の採用活動を支援。 利用されることでキャリアデータが蓄積されていくビジネスモデル。 8
  8. これまでの歩み Copyright © ONE CAREER Inc. All Rights Reserved. 起点となる新卒採⽤領域から事業をスタート。

    今後も⼈事向け・中途市場向けのプロダクトをはじめ、新たな事業を展開予定。 サービスリリース 2022年2⽉ ワンキャリアクラウド 採⽤計画 β版をリリース 2013年 12⽉ 就活サービス 2021年 6⽉ 説明会動画配信 サービス 2020年3⽉ 2020年6⽉ サービスリリース ワンキャリアクラウドスカウト リリース ONE CAREER LIVE 提供開始 今後 ✓より広いユーザーに ⽀持されるコンテンツ や機能を拡充 ✓採⽤DX⽀援サービス の新規ツール開発拡⼤ ✓キャリアデータを利用 した新規事業領域の開拓 2023年9⽉ 人事向け 採用サービス 転職サービス スカウト サービス エンジニア向け 就活サービス サービスリリース 2024年8⽉ サービス共通ID ワンキャリアID リリース 9
  9. Copyright © ONE CAREER Inc. 圏外 2019年卒 1位 マイナビ 2位

    リクナビ 3位 楽天みん就 圏外 ONE CAREER 4年連続 2 位 2020年卒 1位 マイナビ 2位 リクナビ 3位 ONE CAREER 4位 楽天みん就 3位 2021~2024年卒 1位 マイナビ 2位 ONE CAREER 3位 リクナビ 4位 楽天みん就 1. ProFuture株式会社/HR総研 「HR総研×楽天みん就:2023年卒学生の就職活動動向調査 結果報告【就職活動編】」(https://www.hrpro.co.jp/research_detail.php?r_no=334)より。 「HR総研×楽天みん就:2022年卒学生の就職活動動向調査(6月)結果報告【就職活動編】」(https://www.hrpro.co.jp/research_detail.php?r_no=311)より。 「HR総研×楽天みん就:2021年卒学生の就職活動動向調査 結果報告」(https://www.hrpro.co.jp/research_detail.php?r_no=272)より。 「HR総研:「2019年卒学生 就職活動動向調査」(3月調査) 結果報告 vol.1」(https://www.hrpro.co.jp/research_detail.php?r_no=204)より。 ユーザーからの支持 ONE CAREERは、数年間で多くの学生が利用するメディアへ急成長。 10
  10. ここまでのサマリー Copyright © ONE CAREER Inc. All Rights Reserved. 短期間でサービス数が急増

    利用者数も増加 複数サービスを並行的に監視し、信頼性を担保する必要がある 13
  11. ワンキャリアSREチームの道のり Copyright © ONE CAREER Inc. All Rights Reserved. SREチーム

    発足 2021年 2022年 SLO運用の 開始と低迷 2023年 SLO運用の 再構築 2024年 シン・SLO運用 始動 14
  12. Copyright © ONE CAREER Inc. 本日の講演のアジェンダ ▪ 弊社の事業/サービス概要 ▪ 本日お話しすること

    ▪ 今後の展望 ▪ まとめ ワンキャリアについて SLO監視文化の 立ち上げジャーニー 今後の展望とまとめ 1 2 3 15 ▪ 2021〜2022年:SREチーム発足、SLO運用開始&低迷 ▪ 2023年:SLO運用の再構築 ▪ 2024年〜:シン・SLO運用スタート
  13. ワンキャリアSREチームの道のり Copyright © ONE CAREER Inc. All Rights Reserved. SREチーム

    発足 2021年 2022年 SLO運用の 開始と低迷 2023年 SLO運用の 再構築 2024年 シン・SLO運用 始動 16
  14. 2021年:SREチーム発足 Copyright © ONE CAREER Inc. All Rights Reserved. 緊急事態を検知できるようにメトリクスやアラートを整備

    • 複数プロダクトのシステムを効率良く一元管理する必要性が高まっていた ◦ 2021年の6月、ONE CAREER PLUSのβ版がリリースされ、 計3つのサービスを運営をするフェーズに入った。 ◦ 当時SREチームが存在せず、運用もかなり属人的であったため、チームを組成 • 当時は「サービスが落ちないこと」に注力しつつ、以下2点を実施 ◦ 業務プロセスを設計→人的にシステムの安定稼働を担保 ◦ メトリクスやアラートを整備し徐々に自動化 17
  15. ワンキャリアSREチームの道のり Copyright © ONE CAREER Inc. All Rights Reserved. SREチーム

    発足 2021年 2022年 SLO運用の 開始と低迷 2023年 SLO運用の 再構築 2024年 シン・SLO運用 始動 18
  16. 2022年:SLOの運用の開始と低迷 Copyright © ONE CAREER Inc. All Rights Reserved. サービスパフォーマンスを向上・維持できるようSLOの運用を開始

    当時は週次でSLO Dashboardを確認し、SlackWFで報告していた • 「サービスが落ちない」だけではなく「サービスのパフォーマンス向上・維持」に注力 ◦ システムの異常だけでなくパフォーマンスの悪化も検知できるよう、SLO運用を開始。 ◦ SLOを設定し、SREチームにてSLOの達成状況を計測できる環境を整備。 19
  17. 2022年:SLOの運用の開始と低迷 Copyright © ONE CAREER Inc. All Rights Reserved. サービスパフォーマンスを向上・維持できるようSLOの運用を開始

    当時は週次でSLO Dashboardを確認し、SlackWFで報告していた • 「サービスが落ちない」だけではなく「サービスのパフォーマンス向上・維持」に注力 ◦ システムの異常だけでなくパフォーマンスの悪化も検知できるよう、SLO運用を開始。 ◦ SLOを設定し、SREチームにてSLOの達成状況を計測できる環境を整備。 20 しかし...
  18. なぜうまくいかなかったのか? Copyright © ONE CAREER Inc. All Rights Reserved. •

    SREチームだけでSLOの定義から運用の内容を決め、開発チームに運用を移管。 ◦ 開発チームは形式的に運用を受け取ったものの、 SLO監視のカルチャーとナレッジをチーム内に浸透させることができなかった。 ◦ SLO監視・違反対応の運用の負荷が高く、SLO監視と違反対応の優先度が高まらなかった。 原因 SLO監視と違反対応の優先度がなかなか上がらず、運用が疎かになってしまった SLOを違反しても対応方針が曖昧で回復に時間がかかる 22
  19. ワンキャリアSREチームの道のり Copyright © ONE CAREER Inc. All Rights Reserved. SREチーム

    発足 2021年 2022年 SLO運用の 開始と低迷 2023年 SLO運用の 再構築 2024年 シン・SLO運用 始動 23
  20. Copyright © ONE CAREER Inc. 2023年:SLO運用の再構築期 ナレッジの共有 1 運用負荷の低減 2

    3 カルチャーの醸成 4 人事評価指標との連動 「SREの民主化」というキーワードのもと、4つの施策を実施しSLO運用を再構築 24
  21. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. ナレッジの共有

    • SLOに関するナレッジを開発チームへ共有し、SREチームのメンバーと同じ目線に立 ちやすい状況を作る。 ◦ ナレッジ:エラーバジェットとは?SLOを正しく定義するには?など 実際に勉強会で使用した資料の一部 25
  22. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. SLO監視における負荷の低減

    • 開発チームの意見も取り入れながらSLI・SLOを再定義することで解釈を揃え、 コミュニケーションコストを低減させた。 ◦ 再定義したSLOは開発チームとすり合わせて合意をとる ◦ SLOを期待するイベントの割合(%)で統一 26
  23. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. SLO監視における負荷の低減

    Datadog SLO Dashboardを使うことで 期間別にエラーバジェットを管理 Datadog SLOを使ってSLOとエラーバジェットを可視化して遵守状況をわかりやすく ◦ Datadog APMでパフォーマンスのSLOの違反原因を特定しやすいように 27
  24. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. SLO監視における負荷の低減

    Slack ワークフローを使ってSLOの定常監視を自動化 ◦ SLOを自動で定期的にSlackに送信し、監視業務の負荷を低減 Slackの内容を見るだけで 定期的にSLOの状態を確認できる 28
  25. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. カルチャーの醸成

    • SREチームメンバー主導→SLO Day の開催 ◦ 毎週水曜日を「SLO Day」と設定し、 遅いエンドポイントをパフォーマンスチューニング • 開発チームメンバーを巻き込む→SLO定例の開催 ◦ SLOの遵守を目指し、遵守状況や対応策について議論 • 経営陣を巻き込む→経営陣への定期報告 ◦ 毎月SLOの遵守状況や違反対応の進捗を報告 29
  26. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. 人事評価指標との連動

    • 各プロダクトにSLO遵守の責任者を配置し人事評価にSLOの遵守の目標を導入する ことで、SREだけでなく開発チームに各プロダクトの遵守の義務・責任を持たせる 評価指標の例:評価期間に75ポイントを取得した月の数が3回以上で目標達成 30
  27. Copyright © ONE CAREER Inc. 2023年:SLO運用の再構築期 ナレッジの共有 1 運用負荷の低減 2

    3 カルチャーの醸成 4 人事評価指標との連動 「SREの民主化」というキーワードのもと、4つの施策を実施しSLO運用を再構築 31
  28. 2023年:SLO運用の再構築期 Copyright © ONE CAREER Inc. All Rights Reserved. 結果的にどうなったか?

    • 一度違反したSLOを遵守できるよう改善可能な状態を維持している • SLO Dayで遅かったエンドポイントのパフォーマンスを改善できている 特定のAPIのレイテンシーが50%改善! 32
  29. ワンキャリアSREチームの道のり Copyright © ONE CAREER Inc. All Rights Reserved. SREチーム

    発足 2021年 2022年 SLO運用の 開始と低迷 2023年 SLO運用の 再構築 2024年 シン・SLO運用 始動 33
  30. 2024年:シン・SLO運用始動 Copyright © ONE CAREER Inc. All Rights Reserved. シン・SLO運用とは

    SLOはそもそも何のために設定するのか? それはユーザーがサービスを利用する際の体験を良くするため。 これまでのSLO運用は「満遍なく監視」をしていたが、 本質的にはユーザー体験を軸に、監視すべき指標の優先基準を定義していくべき! ユーザー体験を軸にしたSLO運用 34
  31. 2024年:シン・SLO運用始動 Copyright © ONE CAREER Inc. All Rights Reserved. やっていること①:計測対象の拡大

    • アプリやフロントエンドのメトリクスを計測できるようにする ◦ ユーザーが感じるパフォーマンス指標を計測し、ユーザー体験の異常に検知するため • 具体的にやっていること ◦ 計測指標の選定 ▪ Refresh Rate, TTR (Time to Render), Slow Rendersなど ◦ 選定した指標を計測可能にするツールの選定 35
  32. 2024年:シン・SLO運用始動 Copyright © ONE CAREER Inc. All Rights Reserved. やっていること②:注力指標の選定

    • CUJを把握してユーザーにとって大事なエンドポイントを優先的に計測 ◦ ユーザー体験において、特に重要なAPIや画面を監視し異常を検知しやすくするため SLOの計測対象 ・・・ SLOの計測対象 ・・・ 監視の強化順序を設定する ロ グ イ ン 応 募 画 面 体 験 談 ク チ コ ミ ロ グ イ ン 応 募 画 面 体 験 談 ク チ コ ミ 36
  33. 2024年:シン・SLO運用始動 Copyright © ONE CAREER Inc. All Rights Reserved. CUJとは

    • 「Critical User Journey」の略で、 ユーザーが特定の目標を達成するために行う一連のアクションやステップ ◦ CUJを把握することで、ユーザーがサービスを利用する目的や 特にアクセスするページがわかる • CUJを決める時のTips ◦ CUJはPdMと議論しながら決める ◦ CUJを決める時は、重要度 x 頻度で決める ▪ 重要度はKPI、頻度は画面の表示回数など 37
  34. Copyright © ONE CAREER Inc. 本日の講演のアジェンダ ▪ 弊社の事業/サービス概要 ▪ 本日お話しすること

    ▪ 今後の展望 ▪ まとめ ワンキャリアについて SLO監視文化の 立ち上げジャーニー 今後の展望とまとめ 1 2 3 38 ▪ 2021〜2022年:SREチーム発足、SLO運用開始&低迷 ▪ 2023年:SLO運用の再構築 ▪ 2024年〜:シン・SLO運用スタート
  35. 今後の展望 Copyright © ONE CAREER Inc. All Rights Reserved. 「SLOの運用」と「経営の意思決定」を連動させる

    SREチームの取り組みは「サービスの安定稼働」であり、経営視点だと「やって当たり前」 「コストだから、効率化して」という守りの捉え方に止まりがち。 一方で「シン・SLO運用」はユーザー体験に大きな影響を及ぼし、企業にとっては、 売上を高めるための「攻めの投資」になり得るはず。 今後は指標の関係性を明らかにし、経営の攻めの意思決定と連動させることを目指す。 SLO運用は「攻めの投資」になりうる 39
  36. まとめ Copyright © ONE CAREER Inc. All Rights Reserved. SLO運用には、計測ツールと共に

    SLO監視文化を根付かせることが重要 SLOの監視体制を構築したが、監視と違反対応の優先度がなかなか上がらず、 運用が疎かになってしまった。 ①ナレッジの共有 ②運用負荷の低減 ③カルチャーの醸成 ④人事評価指標と連動 の施策によって、 SLO監視文化を根付かせることができた。 ユーザーに安心して利用してもらえるようサービスの信頼性を担保する。 また、SLOの運用が経営の意思決定と連動するように整理する。 これまで 現在 これから 40
  37. Copyright © ONE CAREER Inc. 本日の講演のアジェンダ ▪ 弊社の事業/サービス概要 ▪ 本日お話しすること

    ▪ 今後の展望 ▪ まとめ ワンキャリアについて SLO監視文化の 立ち上げジャーニー 今後の展望とまとめ 1 2 3 41 ▪ 2021〜2022年:SREチーム発足、SLO運用開始&低迷 ▪ 2023年:SLO運用の再構築 ▪ 2024年〜:シン・SLO運用スタート