Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データエンジニアが語る データ活用の事例とキャリアの本音

Recruit
November 28, 2023

 データエンジニアが語る データ活用の事例とキャリアの本音

2023/11/28に、Data Meet Up!で発表した、鶴谷 誠文・芳賀 宣仁・田村 真一・大澤 恭平の資料です。

Recruit

November 28, 2023
Tweet

More Decks by Recruit

Other Decks in Business

Transcript

  1. © Recruit Co., Ltd. All Rights Reserved Recruit Data Blogでは、

    データ推進室で働くメンバーの 様々な取り組みを紹介しています。 「リクルートデータブログ」で検索! https://blog.recruit.co.jp/data/
  2. © Recruit Co., Ltd. All Rights Reserved データ推進室 特設サイトでは、 仕事の内容、働き方、採用フローなど

    さまざまな情報をお知らせします。 「リクルートデータ推進室」で検索! https://www.recruit.co.jp/employment/mid-career/data_lp/
  3. © Recruit Co., Ltd. All Rights Reserved X(旧Twitter) では データ推進室の発信情報を

    発信しています。 ぜひフォローお願いします!    @Recruit_Data
  4. © Recruit Co., Ltd. All Rights Reserved データエンジニアが語る データ活用の事例とキャリアの本音 19:00~19:10:オープニング

    19:10~19:40:自己紹介・領域紹介 19:40~20:20:パネルディスカッション/Q&A 20:20~20:30:クロージング
  5. © Recruit Co., Ltd. All Rights Reserved モデレーター • 所属

    株式会社リクルート データ推進室 データエンジニアリング部 部長 • 略歴 証券系SIerで基幹システムのデータセンター移転や クライアントのシステムコンサル案件など幅広く経験。 2015年にリクルートに中途入社。 リクルートIDのデータ 基盤の開発やクラウド移行を担当。 その後SUUMOレコメンドシステムの基盤移行や社内の 複数の分析基盤の運営など幅広く担当。 現在は、データエンジニアの専門機能向上を担うデータエ ンジニアリング部の部長を務めている。 鶴谷 誠文 (つるたに まさふみ)
  6. © Recruit Co., Ltd. All Rights Reserved 7 株式会社リクルートについて 選択・意思決定を支援する情報サービスを提供し、

    「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに。」を実現する
  7. © Recruit Co., Ltd. All Rights Reserved リクルートのビジネスモデルについて 8 •

    リクルートにはユーザーとクライアントという2つのお客様が存在 • 「企業と人(B to C)」 「企業と企業(B to B)」 「人と人(C to C)」のすべての 間に立ち、双方にとって最適なマッチングを図る「場」を提供 ユーザーとクライアントを新しい接点で結び、 「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに。」の場を創造する リクルート マッチングプラット フォーム クライアントとユーザーを結びつける 対価としてクライアントからフィーを受領 ユーザー クライアント 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに。」を実現する
  8. © Recruit Co., Ltd. All Rights Reserved DPU 9 データ推進室の組織構成

    データテクノロジーユニット DTL部 Megagon ATL部 事業横断の機能に責任を持つ アジリティテクノロジー部  より高度な専門性を基に領域・横断の重要案件の支援を行う 販促1 DSU (住まい) 販促2 DSU (結婚 旅行 自動車) 販促3 DSU (飲食 美容) 販促4 DSU (まなび) SaaS DSU HR DSU 各事業領域戦略の実現のための活動に責任を持つ データエンジニアリング部 DPM1部 DPM2部 D3M部(Data Driven Decision Making) データサイエンス部 データエンジニアリング部 鶴谷 採用・育成を含む専門性 強化に責任を持つ
  9. © Recruit Co., Ltd. All Rights Reserved 『エンジニアリング育成・強化のための環境整備』 10 データエンジニアリング部の取り組み紹介

    クラウド環境研修制度 による専門性強化 Github Copilot 導入による生産性向上 室横断レビュー会 ・共有会による 情報流通
  10. © Recruit Co., Ltd. All Rights Reserved データエンジニアリング部の取り組み紹介 11 クラウド環境研修制度による専門性強化

    • AWS、GCP(現時点)の自己研鑽環境を提供※申請・承認要 • 専用環境が払い出され、各種機能の技術研鑽が可能 Github Copilot導入による生産性向上 • 室全体でGithub Copilotが利用できる仕組みを提供※申請・承認要 室横断レビュー会・共有会による情報流通 • 室横断でのレビュー会や案件・カンファレンス内容の共有会を実施
  11. © Recruit Co., Ltd. All Rights Reserved 12 登壇者紹介 DPU

    DPM1部 DPM2部 DTL部 Megago n ATL部 事業横断の機能に責任を持つ 販促1 DSU (住まい) 販促2 DSU (結婚 旅行 自動車) 販促3 DSU (飲食 美容) 販促4 DSU (まなび) SaaS DSU HR DSU 各事業領域戦略の実現のための活動に責任を持つ 田村 真一 (たむら しんいち) 大澤 恭平 (おおさわ きょうへい) 芳賀 宣仁 (はが のぶひと)
  12. © Recruit Co., Ltd. All Rights Reserved 自己紹介 芳賀 宣仁

    (はが のぶひと) データ推進室 販促領域データソリューション1ユニット(住まい) 住ま いデータソリューション部 住まいデータエンジニアリンググループ 2016年にリクルートに新卒入社。データサイエンティス トとしてSUUMOリコメンドシステムで使用される機械 学習モデルの開発を担当。 その後、データエンジニアとしてSUUMOリコメンド システムの開発・運用に従事しリアーキテクチャや サービスマネジメントを担当。 現在は、住まいデータエンジニアリンググループのマ ネージャーに従事。 15 #recruitdata
  13. © Recruit Co., Ltd. All Rights Reserved 『SUUMO』とは • 主なビジネスモデルは、クライアントから自社メディアに掲載した物件情報の広告料を頂く掲載

    課金モデル • 他にも、店舗型の相談カウンターを運営し、契約成立の対価としてクライアントから手数料を頂く 紹介型ビジネスなども展開 17
  14. © Recruit Co., Ltd. All Rights Reserved 住まい領域におけるデータエンジニアリングGの役割 18 サービスレベル維持

    領域案件対応 サービス マネジメント力の強化 システムの高度化 サービスの安定稼働を目 的とし、既存システムの維 持保守を実施 事業の数値達成などを目 的とし、DSやMLEなどと 共にデータ案件の開発を 実施 サービスの安定稼働を目 的とし、可用性向上や障害 対応能力向上、コスト適正 化施策などを実施 開発者/分析者の開発効率 改善を目的とした、システ ム改善施策などを実施 • 企画/DS/MLE/AEなど連携しデータ案件におけるシステム開発を担当する • 住まい領域データソリューション部で利用するシステム全般の維持改善活動を企画推進する
  15. © Recruit Co., Ltd. All Rights Reserved 住まい領域リコメンド基盤における取り組み 住まい領域データソリューションユニットでは、 SUUMOのリコメンドサービス用のリコメンド

    APIの開発・運用・保守をしている データエンジニアリンググループでは、 API及び機械学習ロジックをDS/MLEメンバー がライトに開発するための 1. API/バッチ基盤の提供 a. FWやライブラリの提供 b. CI/CD機能の提供 2. リアルタイム特徴量ストアの提供 をしている 19
  16. © Recruit Co., Ltd. All Rights Reserved 住まい領域リコメンド基盤における取り組み 20 No

    取り組み内容 取り組みの目的 実施年度 1 監視項目の整備・強化 障害の適切な検知 2020 2 障害対応フロー整備 障害対応の型化 2020 3 障害発生時の振り返りと暫定対応・恒久対応・横展開の徹底 障害再発の予防 2020~ 4 バッチ処理基盤の社内横断プロダクトへの移行 既存ワークフロー基盤の技術負債解消 開発リードタイムの削減 2021 5 リアルタイムログ処理基盤のサーバレス化・オートスケーリング適用 運用・保守が容易な基盤への変更 2022 6 リコメンドAPI基盤のサーバレス化・ CI/CD整備 運用・保守が容易な基盤への変更 開発リードタイムの削減 2022~ 7 カオスエンジニアリングによる障害対応訓練 チーム全体の障害対応能力の向上 システムの可用性向上 2023
  17. © Recruit Co., Ltd. All Rights Reserved 田村 真一 (たむら

    しんいち) データ推進室 販促領域データソリューション2ユニット マリッジ&ファミリー・自動車・旅行データソリューション部 マリッジ&ファミリー・自動車・旅行データエンジニアリンググループ 2016年にリクルートに新卒入社。 リクルートライフスタイル(当時)にてETLパイプラインや機械学 習システムの開発・運用に従事。社内横断のデータ活用基盤の プラットフォームエンジニアリングをリードした後、マリッジ& ファミリー・自動車・旅行3領域のデータエンジニア・MLEを擁す るグループにてエンジニアリングマネージャーを務めている。 自己紹介 22 #recruitdata
  18. © Recruit Co., Ltd. All Rights Reserved 旅行 旅行予約サイト など

    マリッジ&ファミリー ブライダル情報サービス 総合婚活サービス 自動車 中古車情報サイト 担当領域 23
  19. © Recruit Co., Ltd. All Rights Reserved 自動車 データソリューションG マリッジ&ファミリー

    データソリューションG 組織構成 24 旅行 データソリューションG マリッジ&ファミリー・自動車・旅行 データエンジニアリングG ← 担当事業 → ↑ 専 門 性 ↓ ビジネス理解 データサイエンス エンジニアリング エンジニアリングはビジネス理解よりも 汎用性の高い技術力が主軸になるので領域またぎ → ただし実情としてはチームが分かれている ※他にもグループありますが、今回は割愛
  20. © Recruit Co., Ltd. All Rights Reserved (リクルートデータ室にいくつものDEGがある中で、下記はM&F・自・旅DEGだけに特有の点というわけではありません。 あくまで比較観点として御覧ください) ❏

    DEだけでなくMLEも擁し、データサイエンティストと密に連携しながらプロジェ クトごとの開発にコミットしている ↔ 住まいはMLEを1つのGとして独立させている ❏ 「レコメンドの提供」などのデータソリューション案件のみならず、業務支援系 SaaSの開発などプロダクト開発を行っているチームもある ↔ 多くのDEGはデータソリューション案件かプロダクト開発どちらかだけをやることが多い ❏ 事業的にも技術資産的にもシナジーの低い複数領域にまたがっている ↔ 多くのDEGは1つか、多くとも2つ(かつシナジーの高い)事業領域を担当 他領域データエンジニアリングGと比べたときの特徴 25
  21. © Recruit Co., Ltd. All Rights Reserved 自動車 データソリューションG マリッジ&ファミリー

    データソリューションG 組織構成 26 旅行 データソリューションG マリッジ&ファミリー・自動車・旅行 データエンジニアリングG ← 担当事業 → ↑ 専 門 性 ↓ ビジネス理解 データサイエンス エンジニアリング エンジニアリングはビジネス理解よりも 汎用性の高い技術力が主軸になるので領域またぎ → ただし実情としてはチームが分かれている ※他にもグループありますが、今回は割愛 再掲
  22. © Recruit Co., Ltd. All Rights Reserved 住まいDEGと異なり、 MLEも在籍してデータ サイエンティストと

    密に連携しながら 案件の開発に従事 収集・蓄積 ELT(バッチ/ストリーム)と それを保持する データレイク/DWH 加工・提供 集計・MLモデリングなど データサイエンス業務〜 サービスイン(バッチ/API) 「データエンジニアリングG」に求められる役割 27 ML Eng. → データサイエンス寄り Data Eng. → システム寄り ❏ データ基盤(ワークフローエンジンやAPI用インフラなど)の開発・運用 =SRE・サービスマネジメント ❏ ELTパイプラインの実装 ❏ データアプリケーションの実装 (MLによるレコメンド・検索など を実現するバッチ・APIなど) ❏ MLOpsの実践(ML特有のテス ト・モニタリングの実装など) データ ソリューションG データ エンジニアG ビジネス理解 データサイエンス エンジニアリング
  23. © Recruit Co., Ltd. All Rights Reserved MLE の取り組み例 28

    ❏ 行動ログなど構造化データのほか、画像や自然言語などの 非構造化データの活用 ❏ リアルタイムな行動ログを反映したレコメンドの提供 ❏ MLパイプラインのCICD(テスト含む)やモデルモニタリン グ、実験管理などの MLOps ❏ GPT (OpenAI) を利用したチャットプロダクト(PoC)の 開発 → こうした実験的なプロダクトで知見・データを溜めつつ、LLM・ベクトル検 索などを活用したより洗練したサービスの開発へ
  24. © Recruit Co., Ltd. All Rights Reserved 取り組み例: プロダクト開発 29

    じゃらんのクライアント向けSaaSである 「レベニューアシスタント」の開発 ❏ 技術的にはReact/Go/k8s、10人強のチームでスクラム (※スクラム分割も検討中) ❏ 開発開始から5年以上経っており、クライアントからお金を頂い て提供している=安定性が求められる 一方、関連会社向けの PoC などはリーンに開発 ❏ ゼクシィ相談カウンターやゼクシィ縁結びエージェントのスタッ フ向けの検索システムなど
  25. © Recruit Co., Ltd. All Rights Reserved 技術資産は、たとえばワークフローエンジンだけでもこれだけカオス • M&F:

    JP1, Argo Workflows, Vertex AI Pipelines が混在。一部 Knile(社内プロダクト)も • 自動車: Cloud Composer (Airflow) ◦ 昨期まで Argo Workflows も併存していたが、この9月に統合した • 旅行: Knile(社内プロダクト), 一部独自実装 ◦ ELTを除いても50近い案件、100以上のジョブが稼働中 それぞれの事業領域で積み重ねてきたデータ施策の歴史も違い、そ れに伴って選定してきた技術も異なる 事業領域ごとの「違い」 30
  26. © Recruit Co., Ltd. All Rights Reserved そもそも各案件は各事業の課題を解くものだから事業に紐づくのが自然 → 「モノ」を無理に統合することは考えない

    かわりにこれだけの要素技術に触れられる環境を活かし、 汎化性能の高い「知識」の統合を目指す ❏ 部横断でのシステムレビューの実施 ❏ 品質担保のほか、知見共有も ❏ システムアーキテクチャのパターン整理 ❏ その他日常会話・グループ定例・LT会などを通じた 取り組み共有 事業領域ごとの「違い」を「強み」に 31
  27. © Recruit Co., Ltd. All Rights Reserved 大澤 恭平 (おおさわ

    きょうへい) データ推進室 データプロダクトユニット データプロダクトマネジメント1部 データプロダクトエンジニアリング2グループ グループマネージャー 2020年にリクルートに中途入社。 リクルートの複数の事業領域 で活用されている横断データプロダクト群(Sugar, Crois, Knileなど)の連携・統合案件を担当。 現在は、横断データプロダクトCrois, Knileを担当するデータプ ロダクトエンジニアリンググループのマネージャーを務めている。 自己紹介
  28. © Recruit Co., Ltd. All Rights Reserved データ推進室では、複数領域で利 用可能なプラットフォームを開発 しており、事業領域やプロジェクト

    を越えて活用可能なシステムを 「横断データプロダクト」(以下、横 断DP)と認定した上で、各領域へ 展開。 『横断データプロダクト』について 34 ベースアップを支えるのが横断DPの主な役割 出典:多様性で人の成長と組織の価値最大化に取り組むリクルートのデータ組織 https://mag.executive.itmedia.co.jp/executive/articles/2310/17/news036.html
  29. © Recruit Co., Ltd. All Rights Reserved リクルートグループのWebマーケ ティングなどに活用する目的で 開発がスタート。

    当時はまだ分社化時代の、 リクルートコミュニケーションズ (RCO)で生を受ける。 横断DP:Croisの事例 - 分社化時代に誕生 - 35 誕生当時のCroisの全体像 出典:データ分析を軸に、組織や職種の壁を越えて協力し合う環境を作る ~リクルートグループ向けデータ分析プラットフォームCrois~ https://hatenanews.com/articles/2019/03/04/103000
  30. © Recruit Co., Ltd. All Rights Reserved もともと住まい領域で活用されていた内製 のバッチワークフローは、技術的負債が積 み上がって開発・運用効率が低下し、その改

    善が課題となってしまっていた。 会社統合後に開催された社内勉強会で Croisが紹介され、「負債を解消してくれそ うだ!」と白羽の矢が立ち、導入が決定。 現時点まで約60のバッチジョブ移行が進 み、今後も継続予定。 横断DP:Croisの事例 - 会社統合後の発展 - 36 セルフホスティング方式による提供イメージ 出典:Case06複数領域の様々な横断プロジェクトで活用される状態を目指した、マルチテナント展開方式の確立 https://www.recruit.co.jp/employment/mid-career/data_lp/case06/
  31. © Recruit Co., Ltd. All Rights Reserved ASP方式とセルフホスティング方式を合わ せると、リクルートの各事業領域ほぼ全てに 導入が完了。

    急激な利用数増加に伴うスケーラビリティ の確保や、各領域からの複数ニーズへの 対応、信頼性向上などに日々追われている 状態。 現在の利用規模に合わせたリアーキテク チャやパフォーマンスチューニングを中心 に、中長期的な持続性を持てるように基盤 を日々改善中。 横断DP:Croisの事例 - 急成長後の課題とこれから - 37 Croisのアーキテクチャ近影 出典:リクルート、大規模データ処理を支える共通基盤にAWS を活用最大 30,000CPU コアの処理を実現し、ビジネスと開発の加速に貢献 https://aws.amazon.com/jp/solutions/case-studies/recruit-case-study/
  32. © Recruit Co., Ltd. All Rights Reserved Knileは、端的に表現すると「データ施策チーム 向けのクラウドインフラ及び CI/CD

    」を提供 しているプロダクト。 Croisは、端的に表現すると「Job Scheduler / Workflow Engine」 及び「そ れらの管理 UI」を提供しているプロダクト。 Knile の CI/CD を通して Crois 上に Job をデプロイするといった連携を行い、もともと 持っていた OSS の運用コストを下げつつ、よ り社内ニーズに答えやすい体制に。 横断DP間でのシナジー事例 - Crois x Knile - 38 Crois x Knile 連携のBefore/After
  33. © Recruit Co., Ltd. All Rights Reserved 今後のリクルートイベントについて atmaCup #16

    in collaboration with RECRUIT コンペイベントの募集を開始しました! connpassよりお申込みいただけます。 https://atma.connpass.com/event/301535/
  34. © Recruit Co., Ltd. All Rights Reserved 今後のリクルートイベントについて https://atcoder.jp/contests/ahc029 RECRUIT

    日本橋ハーフマラソン 2024 冬 (AtCoder Heuristic Contest 029)開催決定! 詳細はコンテストページをご確認ください