ウォンテッドリーのプロダクト開発における Python の開発・運用環境

© 2024 Wantedly, Inc. ウォンテッドリーのプロダクト開発における Python の開発・運用環境みんなのPython勉強会 #105 Jun.
20 2024 - Chiaki Ichimura

自己紹介 © 2024 Wantedly, Inc. 名前：市村千晃 (Ichimura Chiaki)
所属と役割： • ウォンテッドリー株式会社 (2024/3 ~) • データサイエンティスト • 推薦システムの開発、運用に従事 @chimuichimu1

お話しすること © 2024 Wantedly, Inc. • ウォンテッドリーの推薦システムが Python を用いてどう実現されているか？ •
ウォンテッドリーのデータサイエンティストが、 Python を用いてどのようなプロセスで開発・運用しているか？

© 2023 Wantedly, Inc. 究極の適材適所により、シゴトでココロオドルひとをふやす © 2024 Wantedly, Inc.
私たちのミッション

© 2024 Wantedly, Inc. • 個人と企業がフラットな目線で出会えることで、より魅力的な場所を見つけることが可能に会社に遊びに行こうミッションや価値観への共感でマッチング •
会社の Why と What が伝えられる場所 • 人と会社を「想い」でマッチング｢話を聞きに行く」体験 Wantedly Visit

© 2024 Wantedly, Inc. 推薦を作成するための機械学習ジョブ Python で実装された機械学習ジョブを開発・運用 • バッチ処理を定期実行し、ユーザー、企業向けの推薦を BigQuery
に保存 • 経路ごとに推薦を作成するため複数の Python ジョブが稼働しているランキング BigQuery 機械学習ジョブ Amazon EKS ロード保存 Cloud Storage 募集A 募集B 募集C 募集D スコア順に推薦を提示前処理学習推論 BigQuery Cloud Storage

© 2024 Wantedly, Inc. 機械学習ジョブに関する工夫や取り組み • ジョブの高速化による開発、運用効率の向上 • Feature Store
導入による推薦精度の改善

© 2024 Wantedly, Inc. ジョブの高速化による開発、運用効率の向上 - 課題感なぜジョブの高速化が重要か？ • 一般に機械学習を用いた推薦では、ユーザーの行動ログなどの膨大なデータを扱うた
め、データのロード、前処理、モデルの学習に時間がかかる • ジョブの実行に時間がかかると以下のような問題が発生しうる ◦ 推薦アルゴリズム改善のための実験の効率が下がる ◦ マシンリソースなどのコストが増大する

© 2024 Wantedly, Inc. ジョブの高速化による開発、運用効率の向上 - 解決策と得られた効果 ① 並列処理などによるデータロードの高速化 •
BigQuery からのデータ取得を Python の multiprocessing で並列化 • BigQuery (in US) のデータを GCS (in Tokyo) を経由して取得するように変更 ref: 機械学習ジョブの高速化による開発効率の向上データロードにかかる時間を 1.5 時間 -> 数分に短縮

© 2024 Wantedly, Inc. ジョブの高速化による開発、運用効率の向上 - 解決策と得られた効果 ② Polars によるデータ前処理の高速化
• もともとはデータ前処理に pandas を利用 • 処理時間の大きい処理を Polars（＝ Rust で書かれた高速なデータ処理ライブラリ）に変更特に時間がかかっていた処理を 50分 -> 1分に短縮 Before: pandas の apply メソッドによる処理 After: Polars のエクスプレッションによる処理 ref: 機械学習ジョブの高速化による開発効率の向上

© 2024 Wantedly, Inc. 機械学習ジョブに関する工夫や取り組み • ジョブの高速化による開発、運用効率の向上 • Feature Store
導入による推薦精度の改善

© 2024 Wantedly, Inc. Feature Store 導入による推薦精度の改善 - 課題感予測直前のデータを活用できないという課題
• データを時系列に分割してユーザーの行動を予測するモデルを学習していた • 3 week の行動ログと 1 week の応募から応募予測のモデルを学習するイメージ • 課題：1 week 内の直前の行動ログから計算される特徴量をモデルの学習に含められない ref1：Feature Storeを活用して最新のデータを学習時に取り込むことによる推薦システムの改善 ref2：WantedlyでFeature Storeを導入する際に考えたこと行動ログの収集期間 (3 week) 応募行動の収集期間 (1 week) モデル学習の入力に利用可モデル学習の入力に利用不可応募

© 2024 Wantedly, Inc. Feature Store 導入による推薦精度の改善 - 課題感予測直前のデータを活用できないという課題
直前の行動ログまで含めた特徴量を作るのがなぜ難しいのか？ • これの実現には「各日付の断面」で計算された特徴量が必要 • 特徴量計算をモデル学習と同じジョブで行う従来の仕様では、計算コストが大きい ref1：Feature Storeを活用して最新のデータを学習時に取り込むことによる推薦システムの改善 ref2：WantedlyでFeature Storeを導入する際に考えたことこれまでやりたいことこの日断面の特徴量があればよい複数日の断面での特徴量が必要

© 2024 Wantedly, Inc. Feature Store 導入による推薦精度の改善 - 解決策 Feature
Store の導入 • Feature Store とは？ ◦ 機械学習のための特徴量データを計算、保存、共有するためのシステム • Wantedly Visit における Feature Store の主な役割 ◦ 特徴量を定期的に計算し、保存する ◦ 保存した特徴量を複数の機械学習ジョブに提供する ref1：Feature Storeを活用して最新のデータを学習時に取り込むことによる推薦システムの改善 ref2：WantedlyでFeature Storeを導入する際に考えたこと

© 2024 Wantedly, Inc. Feature Store 導入による推薦精度の改善 - 解決策 Feature
Store の導入 ref1：Feature Storeを活用して最新のデータを学習時に取り込むことによる推薦システムの改善 ref2：WantedlyでFeature Storeを導入する際に考えたこと BigQuery 機械学習ジョブロード保存前処理学習推論機械学習ジョブロード保存学習推論 Feature Store ロード保存前処理 Before After 前処理ジョブから特徴量処理を分離定期実行の結果を BigQuery に保存

© 2024 Wantedly, Inc. Feature Store 導入による推薦精度の改善 - 得られた効果推薦精度の改善
ref1：Feature Storeを活用して最新のデータを学習時に取り込むことによる推薦システムの改善 ref2：WantedlyでFeature Storeを導入する際に考えたこと • ユーザー毎に最新の情報に基づいた特徴量を紐づけてモデルを学習できるようになり、主要 KPI が大きく改善 • 推薦精度の改善以外にも、特徴量処理を一元的に管理することでスケーラビリティが向上

© 2024 Wantedly, Inc. 開発フロー © 2024 Wantedly, Inc. ref:
WANTEDLY TECH BOOK 13 「ウォンテッドリーにおける推薦システム開発の流れ」問題提議仮説立案設計実装オフライン評価オンラインテスト運用 Wantedlyのデータサイエンティストの開発フロー • プロダクトの問題設定に始まり、仮説立案・設計を行う • 実際の推薦をおこなうランキングジョブの実装 • オフライン評価によってオンラインテスト前に良し悪しを評価 • 実際にオンラインテストで期待通り指標が向上するか確認 • 全体リリース後の運用・指標のモニタリングを通じて問題設定、開発を繰り返す

© 2024 Wantedly, Inc. © 2024 Wantedly, Inc. 1. 10年以上運営しているサービスなので必要なデータの多くはすでに蓄積済み
• 「機械学習したいけどデータがない」ことは基本的にない • 施策ごとに最適と思われるデータを判断し利用できる 2. 問題定義から実装・リリースまでほとんどをデータサイエンティストだけで実施 • 効率面だけでなく推薦機能の改善での成果を実感しやすいメリット 3. リリース・運用のフローが形式化されているので、データサイエンティストが推薦精度改善に集中できる • 良い意味で推薦が他の機能から切り離されており、得意ではない技術領域を触る必要性や、関係者との調整が主業務になることがない Wantedly データサイエンス組織での開発の特徴問題提議仮説立案設計実装オフライン評価オンラインテスト運用基本的にデータサイエンティストが全て実施

© 2024 Wantedly, Inc. 開発・運用プロセスに関する工夫や取り組み • ツールの活用による開発生産性の向上 ◦ Recommendation Evaluator
を用いた評価プロセスの効率化 ◦ SARA による k8s 上での Python 開発体験 • 推薦改善の施策以外の活動 ◦ 負債返済日 ◦ DS 業務改善

© 2024 Wantedly, Inc. © 2024 Wantedly, Inc. ツールの活用による開発生産性の向上 -
前提推薦施策の開発フローを高速に回すことの重要性 • 最終的な答えを持つのはユーザー。施策が成功するかどうかは不確実性が大きい • 不確実性がある中で推薦施策によるビジネスインパクトを継続的に出すためには、実験の質と効率を上げる必要性がある ◦ 実験の質：ユーザーの課題や悩みの解像度を上げる、解決策の質を上げる、施策がうまくいかなくても得られた学びを次に活かす ◦ 実験の効率：仮説立案からユーザーに提供するまでのリードタイムを短くする

© 2024 Wantedly, Inc. © 2024 Wantedly, Inc. ref: ウォンテッドリーにおける推薦システムのオフライン評価の仕組み
ツールの活用による開発生産性の向上 - Recomendation Evaluator 内製ツールの利用によるオフライン評価の効率化 • オフライン評価用の Recommendation Evaluator というツールを Python で内製 • 新しい推薦と実際に本番で出ている推薦の比較が config の設定だけで実行可能

SARA k8s リソースを使ったシームレスな Python 開発体験 • ローカル PC に大量の計算リソースが存在するかのような開発体験を提供する SARA (Seamless Accesible Resource Allocator) というツールを内製 • ローカル PC から `sara start …` とコマンドを打つだけで、以下が自動で行われる ◦ ローカル PC の Dockerfile から k8s のポッドを作成 ◦ 永続ボリュームの割り当て ◦ ローカル PC からリソースにアクセスするための SSH 設定

SARA k8s リソースを使ったシームレスな Python 開発体験 SARA を使うことで嬉しいこと • 開発環境がコマンド一つですぐに準備できる（〜数十秒） • ローカル PC の環境や計算リソースに依存せずに開発が行える • 必要な計算リソースを必要な分だけ柔軟に設定できる

© 2024 Wantedly, Inc. 開発・運用プロセスに関する工夫や取り組み • ツールの活用による開発生産性の向上 ◦ Recommendation Evaluator
を用いた評価プロセスの効率化 ◦ SARA による k8s 上での Python 開発体験 • 推薦改善の施策以外の活動 ◦ 負債返済日 ◦ DS 業務改善

© 2024 Wantedly, Inc. © 2024 Wantedly, Inc. 推薦改善の施策以外の活動 -
負債返済日技術負債の返済による中長期的なシステム改善 • ウォンテッドリーのエンジニアは月に 1日、負債返済日として「普段あまり優先度が上がらないが、やったほうがいいこと」に取り組む • DS チームの負債返済の取り組み例 ◦ Python, ライブラリのバージョンアップ ◦ 機械学習ジョブの高速化 ◦ pandas -> Polars のリファクタリング ◦ 推薦のモニタリングダッシュボードの改善

© 2024 Wantedly, Inc. © 2024 Wantedly, Inc. 推薦改善の施策以外の活動 -
DS 業務改善推薦施策の開発生産性を向上するための取り組み • 推薦施策の開発フローの質と効率を改善するために、施策とは別の活動としてリソースを割いて取り組んでいる • 取り組みの例 ◦ 推薦の評価設計のドキュメント整備 ◦ Recommendation Evaluator の改善

© 2024 Wantedly, Inc. まとめ • ウォンテッドリーでは人と仕事のマッチングを実現するため、推薦システムを Python を使って開発、運用している
• 推薦を作成する機械学習ジョブは、 Feature Store の活用や高速なジョブ実行により、膨大な数のユーザーに対して効果的なパーソナライズを実現している • また開発生産性の向上のため、 Python ツールの内製や技術負債の返済などにも力を入れて取り組んでいる

ウォンテッドリーのプロダクト開発における Python の開発・運用環境

ウォンテッドリーのプロダクト開発における Python の開発・運用環境

More Decks by chimuichimu

Featured

Transcript