ユーザーのプロフィールデータを活用した推薦精度向上の取り組み

© 2025 Wantedly, Inc. ユーザーのプロフィールデータを活用した推薦精度向上の取り組み白金鉱業 Meetup Vol.19@六本木 Jun.19
2025 - Yudai Hayashi

© 2025 Wantedly, Inc. 自己紹介林悠大 • 経歴： ◦
2022年に応用物理分野で Ph.D取得 ◦ 2022年にウォンテッドリー株式会社に新卒入社。データサイエンティストとして推薦システムの開発に従事 @python_walker @Hayashi-Yudai

© 2025 Wantedly, Inc. 今日話すこと：プロフィールデータを上手く活用してマッチング精度向上を実現した取り組み • ウォンテッドリーでは、採用担当者が魅力的なユーザーを見つけるのを手助けするために推薦システムを活用している •
埋め込みモデルを高度化することで、採用担当者が興味を持つユーザーをより多く抽出できるようにした話大量のユーザー・企業ランキング並べ替え対象の抽出並べ替え 2ステージ推薦ここの改善の話をします

© 2025 Wantedly, Inc. 背景：採用担当者が過去にスカウトを送ったユーザーと似ているユーザーには興味を持つはずユーザーの「似ている」をプロフィールを使って定量化 ? ? Aさんプロフィール
Aさんのプロフィールと似てるからスカウト送られそう Aさんのプロフィールと似てないからスカウト送られなさそうユーザープロフィールの類似度によって並び替え候補の抽出を実現

© 2025 Wantedly, Inc. 課題：プロフィール情報の文脈まで活用できていなかった ? ? Aさんプロフィール Embedding
w2v モデルコサイン類似度 word2vecベースの手法を利用していたため、プロフィールの文脈までは活用できていなかった

© 2025 Wantedly, Inc. 解決策：より高度な埋め込みモデルの利用 • multilingual-e5-small という埋め込みモデルを利用するように変更 ◦
文脈情報を埋め込みに反映 ◦ 日本語を含む多言語の文章に対応 ◦ トークン長は512 • ウォンテッドリーのプロフィールは文章量が多いケースが多い ◦ 各パートを分割して、それぞれで Embeddingを計算し、平均を利用 Attentionベースの手法を利用することで、より ”似ている”の解像度を上げられることを期待

© 2025 Wantedly, Inc. 解決策：なぜmultilingual-e5-smallか • よりトークン長の長いモデル (RoSEtta-base-ja; 1,024トークン)も試したが、E5系の方がRecallが高かった
◦ プロフィールを分割して Embedding化したことで、短いトークン長でも十分だった可能性 ◦ 扱えるトークン長が長くなる点よりも、モデル自体の我々のタスクにおける性能差で E5の方が勝っていた可能性 • E5系の中でもモデルサイズごとの比較をしたが、 multilingual-e5-small のRecall性能が最も良かった ◦ JMTEBでは、STS (=Semantic Text Similarity) において large < base < small という性能になっているので、これと整合性のある結果 https://github.com/sbintuitions/JMTEB /blob/main/leaderboard.md#sts 一言で言うと「色々試した中でこれが一番良かったから」もう少し考察すると...

© 2025 Wantedly, Inc. 結果：定性的に文脈的に似ているユーザーを抽出できるようになった Input “データを解析することによってユーザーが求めていることを発見し、より良い体験を届けられるようなデータエンジニアになりたい” • データを駆使
してマーケティングを革新したい。データ分析から得られるインサイトを基に、 Web広告やチラシなど... • エンジニアとして働きたい。アプリ開発をしたい変更前変更後 (E5) • データサイエンティストや機械学習エンジニアなど、ユーザーにもっと近い立場に立って仕事したい。 • ログなどのデータを使用して、ユーザーにとって最適解を見つけること。

© 2025 Wantedly, Inc. 結果：ランキング性能やプロダクト KPIにも良い方向の変化大量のユーザー・企業ランキング並べ替え対象の
抽出並べ替え Recallの改善 NDCGの改善オフライン性能に加えて、オンラインテストでの主要 KPIの改善も実現主要KPIの改善

© 2025 Wantedly, Inc. まとめ • 埋め込みモデルを改善することで、推薦精度を高めることができた取り組みについて紹介 • 並べ替え候補の抽出ロジックの改善を、後段のランキング性能や主要 KPIの改善まで伝播させることがで
きた ◦ プロフィールをパートごとに分割して平均することで、広い範囲の情報を Embeddingに含められるようにした ◦ これまでより文脈的に似ているユーザーが抽出できていることを定性的に確認 ◦ オンラインテストにより主要 KPIが改善していることを確認

ユーザーのプロフィールデータを活用した推薦精度向上の取り組み

ユーザーのプロフィールデータを活用した推薦精度向上の取り組み

Yudai Hayashi

More Decks by Yudai Hayashi

Other Decks in Technology

Featured

Transcript

© 2025 Wantedly, Inc. ユーザーのプロフィールデータを活用した推薦精度向上の取り組み白金鉱業 Meetup Vol.19@六本木 Jun.19

© 2025 Wantedly, Inc. 自己紹介林悠大 • 経歴： ◦

© 2025 Wantedly, Inc. 背景：採用担当者が過去にスカウトを送ったユーザーと似ているユーザーには興味を持つはずユーザーの「似ている」をプロフィールを使って定量化 ? ? Aさんプロフィール

© 2025 Wantedly, Inc. 課題：プロフィール情報の文脈まで活用できていなかった ? ? Aさんプロフィール Embedding

© 2025 Wantedly, Inc. 解決策：より高度な埋め込みモデルの利用 • multilingual-e5-small という埋め込みモデルを利用するように変更 ◦

© 2025 Wantedly, Inc. 解決策：なぜmultilingual-e5-smallか • よりトークン長の長いモデル (RoSEtta-base-ja; 1,024トークン)も試したが、E5系の方がRecallが高かった

© 2025 Wantedly, Inc. 結果：ランキング性能やプロダクト KPIにも良い方向の変化大量のユーザー・企業ランキング並べ替え対象の