Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
Search
Yudai Hayashi
February 27, 2025
1
160
相互推薦システムでのPseudo Label を活用したマッチ予測精度向上の取り組み
DEIM2025で技術報告として発表した内容です。
paper:
https://arxiv.org/pdf/2409.10992
Yudai Hayashi
February 27, 2025
Tweet
Share
More Decks by Yudai Hayashi
See All by Yudai Hayashi
Wantedly Visitにおけるフリーワード検索時の推薦のオンライン化事例紹介
yudai00
1
170
RustとPyTorchで作る推論サーバー
yudai00
11
7k
BigQueryで作る簡単なFeature Store
yudai00
2
320
プロダクトのコードをPandasからPolarsへ書き換えた話
yudai00
8
3.3k
データサイエンティストになって得た学び
yudai00
1
200
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
730
会社訪問アプリ「Wantedly Visit」における新規ユーザーの行動量に基づいた推薦方策の選択
yudai00
0
1.6k
Polarsを活用した機械学習ジョブの高速化
yudai00
1
300
Voyagerを利用した宿画像の最近傍探索による候補生成
yudai00
1
230
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
91
5.9k
Fireside Chat
paigeccino
34
3.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
Writing Fast Ruby
sferik
628
61k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Building Adaptive Systems
keathley
40
2.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
Typedesign – Prime Four
hannesfritz
40
2.5k
A better future with KSS
kneath
238
17k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Transcript
© 2025 Wantedly, Inc. 相互推薦システムでのPseudo Label を 活用したマッチ予測精度向上の取り組み Feb. 27
2025 - 林 悠大 (ウォンテッドリー株式会社) DEIM 2025 技術報告 [3F-05]
© 2025 Wantedly, Inc. 自己紹介 林 悠大 経歴 • 2022年3月:東京大学大学院工学系研究科でPh.D 取得
• 2022年4月:ウォンテッドリー株式会社にデータ サイエンティストとして新卒入社。推薦システム の開発に従事
© 2025 Wantedly, Inc. Agenda 1. 企業紹介 ◦ 会社とプロダクトの紹介 ◦
プロダクトにおけるデータサイエンスの活用事例 ◦ アカデミアにおける活動 2. マッチングプラットフォームにおける推薦の難しさ ◦ マッチングプラットフォームでの推薦の特徴 ◦ 相互推薦システムとその難しさ 3. Pseudo Labelによるマッチング予測モデルの性能向上 ◦ 提案手法 ◦ オフラインテストの結果と考察
© 2025 Wantedly, Inc. 企業紹介
© 2023 Wantedly, Inc. 究極の適材適所により、 シゴトでココロオドルひとをふやす © 2025 Wantedly, Inc.
私たちのミッション
© 2025 Wantedly, Inc. • 個人と企業がフラットな目線で出会えることで、 より魅力的な場所を見つけることが可能に 会社に遊びに行こう ミッションや価値観への共感でマッチング •
会社の Why と What が伝えられる場所 • 人と会社を「想い」でマッチング 「話を聞きに行く」体験 会社訪問アプリ「Wantedly Visit」
© 2025 Wantedly, Inc. 事例紹介:相互推薦システムの開発・改善
© 2025 Wantedly, Inc. アカデミアにおける活動 RecSys2024への参加 国内学会のスポンサー https://confit.atlas.jp/guid e/event/deim2024/top DEIM2024
JSAI2024 https://www.ai-gakkai.or.jp/jsai2024/sponsor
© 2025 Wantedly, Inc. マッチングプラットフォームにおける 推薦の難しさ
© 2025 Wantedly, Inc. Wantedly Visitにおけるスカウト推薦の構造 ユーザー 企業 • 企業がユーザーにスカウトを送る
• ユーザーが企業に興味を持って返信する 両者の嗜好が合致して初めてマッチが成立 マッチングシステムの推薦の難しさ • 正解ラベルがスパース • 両サイドの嗜好をバランスよく 考慮する必要がある
© 2025 Wantedly, Inc. 正解ラベルがスパース ユーザーが 気になる 興味がない 興味がない 会社が気に
なる ◯ マッチ成立 ☓ スカウト返信 が来ない ☓ スカウト送信 されない ☓ 何も起きない ジョブマッチングサービス ECサービス アイテムが 気になる 興味がない ◯ 購入 ☓ 購入しない マッチングサービスでは、推薦の成功(マッチ)を表すラベルが非常にスパース → マッチを直接予測しようとすると難易度が高い
© 2025 Wantedly, Inc. 相互推薦モデルによるスパーシティの緩和 相互推薦システム スカウト 送信予測 スカウト 返信予測
集約 最終スコア • メリット ◦ 各コンポーネントのラベルはマッチよりは多 い→スパーシティの課題が緩和 ◦ 両サイドの嗜好を別々に学習しているため、 嗜好のバランスを調整しやすい • デメリット ◦ 確率のスケールが異なる2つのモデルの予測 値を集約していることにより、最終スコアの 誤差が大きくなりやすい e.g. 単純積、 調和平均
© 2025 Wantedly, Inc. Pseudo Labelによるマッチング予測モデルの 性能向上 S. Goda, Y.
Hayashi and Y. Saito, arXiv:2409.10992v2 (2024)
© 2025 Wantedly, Inc. 既存手法の良い点と課題 マッチラベルを直接学習 相互推薦モデルを利用 良い点 課題 シングルモデルなので誤差
の影響が比較的小さい 2つのモデルの確率のスケール 差が誤差に影響 スパーシティの問題が比較的 小さい 正解ラベルのスパーシティ により学習の難易度が高い 2つのモデルを組み合わせることで、両者の利点を活かせると期待
© 2025 Wantedly, Inc. 提案手法 スカウト 送信予測 スカウト 返信予測 集約
予測値 正解ラベル スカウト マッチ予測 最終スコア これまでの相互推薦モデル • 相互推薦のモデルをベースとした2段からなる推薦システムを提案 • 最終スコアを1モデルで計算するため、誤差の伝搬が抑えられ、精度 向上が期待される 疑似ラベルを作成してモデルを学習 1段目 2段目 1- α α の割合で混ぜ合わせる
© 2025 Wantedly, Inc. 提案手法 - マッチのスパース性の緩和 正解ラベル 相互推薦モデルの予測値 スパース
密 相互推薦モデルの獲得した情報を活用することで、ターゲットラベルを密に
© 2025 Wantedly, Inc. 実験手法 • データ:Wantedly Visitでのスカウト推薦のデータを利用 (2023/11 ~
2024/2) ◦ コンテンツデータ:Wantedly Visit上でのユーザーのプロフィール ◦ 行動データ:Wantedly Visit上でのユーザーの行動ログ • 評価指標:NDCG@10 • ベースライン: ◦ 相互推薦モデル ◦ 相互推薦モデルの部分モデル (スカウト送信予測モデル、返信予測モデル) • 実験パターン: 1. すべての採用担当者に対して、同じ比率で予測値を混ぜ合わせて学習 2. 採用担当者の行動量セグメントごとに予測ラベルの比率を変えて学習
© 2025 Wantedly, Inc. 結果 - 混ぜ合わせる予測値の比率による性能変化 混ぜ合わせる予測値の割合をαで制御 αはすべての採用担当者で共通 正解ラベル
予測値 正解ラベルの割合が 25 %のときに最も指標が高くなり、ベースラインと比較 して向上が見られた c: 企業(company) j: ユーザー(job seeker) 1段構成 2段構成
© 2025 Wantedly, Inc. 結果 - セグメントごとに擬似ラベルの比率を変える 採用担当者の行動量が多い順に High, Middle,
Lowのセグメントを切り、手法の効果を比較 • High セグメントで大きな性能向上が見られた • Highセグメントではα=0.0が最適だが、Lowセグメントではα=0.75が最適 • セグメントごとにαを変えることで、NDCG@10 が 0.1021 → 0.1050 に向上 1段構成のモデルが ベースライン
© 2025 Wantedly, Inc. 考察 行動量セグメントごとに、相互推薦モデルの予測値の質が大きく異なっていた可能性 ① High Segmentで提案手法による大きな精度改善が見られた 行動量が少ない採用担当者
• モデルの学習に使えるログ が少ない • 正解ラベルの数が少ない 行動量が多い採用担当者 • モデルの学習に使えるログ が多い • 正解ラベルの数が多い 相互推薦モデルの予測値に有益 な情報が少なかった 相互推薦モデルの予測値に有益 な情報が多かった
© 2025 Wantedly, Inc. 考察 行動量セグメントごとに、相互推薦モデルの予測値の質が大きく異なっていた可能性 ② セグメントごとに最適なαに差が見られた α (正解ラベル
の割合) 行動量が少ない 採用担当者 行動量が多い 採用担当者 密な予測値に有益な情報が多く 含まれているので、正解ラベル はあまりいらない 予測値はノイズが多いので、 正解ラベルの情報が多く必要
© 2025 Wantedly, Inc. まとめ • 疑似ラベルを用いることで、マッチラベルのスパース性を緩和し、相 互推薦モデルの性能を向上させることができた • 行動量の多い採用担当者に対して今回の手法が有効であることを検証
• より細かく採用担当者ごとに正解ラベルの比率をパーソナライズする ことは今後の課題
© 2025 Wantedly, Inc. We’re hiring!