Upgrade to Pro — share decks privately, control downloads, hide ads and more …

求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)

 求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)

2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。

26a31e16aab1fc9c4522dfa3a2c8ce6c?s=128

Ikuya Murasato

November 12, 2021
Tweet

Transcript

  1. © Livecence Inc. 2021 求人サービスの ユーザー分析をもとにした予算管理 (ロジスティック回帰) 2021.11.12 株式会社リブセンス 大坪 誠

  2. © Livecence Inc. 2021 自己紹介 【名前】大坪 誠(オオツボ マコト) 【所属】株式会社リブセンス     アルバイト事業部 マーケティンググループ

    【担当】アルバイト求人情報サイト「マッハバイト」の     ブランディング および 広告運用 2
  3. © Livecence Inc. 2021 Exploratoryの活用状況 【利用範囲】 • アンケートデータ 集計・可視化・分析 •

    広告配信データ分析 • サイト内ユーザー行動ログデータ分析 etc. 【利点】 • 集計・可視化が速く、簡単に、柔軟にできる • データ量が大きくても処理できる • サポートが手厚い 3
  4. © Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •

    予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 4
  5. © Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •

    予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 5
  6. © Livecence Inc. 2021 「マッハバイト」の事業構造 マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募 マッハボーナス 掲載費用 掲載or応募or採用時に

    課金 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金 *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 6
  7. © Livecence Inc. 2021 解決したい課題 マッハバイトでバイト探し&応募 マッハボーナス 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金

    応募された時点では、 マッハボーナスを支払うかどうか (採用され、かつ申請されるか) 分からないため、将来発生する 費用がどれくらいになるか分からない ⇒ 1応募獲得あたりの広告費用を   最適化できない *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 7
  8. © Livecence Inc. 2021 現状の運用 • マッハボーナスの金額は、求人ごとに応募時点で決まっている • マッハボーナスは応募後90日間申請可能  →

    90日以上前の1ヵ月間の実績の平均金額を予測値としている 7月 8月 9月 10月 11月 1応募あたり平均 実績:1,000円 1応募あたり平均 予測:1,000円 【例】 8
  9. © Livecence Inc. 2021 現状の運用の課題 例えば、男性と女性でマッハボーナスの受給率が違うとする 15% 10% 9

  10. © Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が常に一定であるなら、 数ヵ月前の実績値がそのまま使えるかもしれない 7月 11月 1応募あたりの金額:1,000円

    1応募あたりの金額:1,000円 10
  11. © Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が変化している場合、 数ヵ月前の実績値をそのまま使うのは適切ではない 7月 11月 1応募あたりの金額:1,000円

    1応募あたりの金額:1,000円?? 11
  12. © Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •

    予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 12
  13. © Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額

    ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ 性別 年齢 職種 ボーナス 金額 ボーナス 受給 男性 30 フリーター ¥10,000 FALSE 女性 28 主婦 ¥10,000 TRUE 男性 17 高校生 ¥7,000 TRUE 男性 43 自営業 ¥15,000 FALSE 女性 22 大学生 ¥5,000 FALSE トレーニングデータ(過去実績データ) 性別 年齢 職種 ボーナス 金額 ボーナス 受給 女性 19 大学生 ¥5,000 ? 女性 47 派遣社員 ¥10,000 ? 男性 29 フリーター ¥15,000 ? 女性 16 高校生 ¥5,000 ? 男性 24 短大生 ¥7,000 ? 未知のデータ 予測モデル アルゴリズム 13
  14. © Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額

    ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ ある一定期間の各応募について、 マッハボーナスを進呈するか否かを予測。 その結果をもとに、その期間の応募に対する マッハボーナスの平均進呈額を予測。 14
  15. © Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •

    予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 15
  16. © Livecence Inc. 2021 ロジスティック回帰とは 目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。 1つ以上の因子(説明変数)から、 ある事象が起こる確率を説明・予測する多変量解析の手法。 参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO 16

  17. © Livecence Inc. 2021 説明変数の選定(サマリビュー) ※例示しているデータはダミーです。実際の数値とは異なります。 予測したい変数とその他の各変数との相関を確認 ユーザーの属性(性別・年齢・利用デバイス等)や 応募先の条件(業種・職種・マッハボーナス金額等)などが マッハボーナス受給確率に影響がありそう

    17
  18. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 • タイプ :ロジスティック回帰を選択 • 目的変数:予測したい変数を選択 •

    予測変数:影響がありそうな変数を選択 予測モデルの作成(ロジスティック回帰) 18
  19. © Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •

    予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 19
  20. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 基本的に、AUCが高い(1に近い)ほど 予測性能が良いモデルといえる 予測モデルの評価(サマリ) 20

  21. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 正解率は91%と高いが... 予測モデルの評価(サマリ) 21

  22. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 全てをFALSEと予測すれば 91%の確率で正解してしまうモデルになっている 予測モデルの評価(予測マトリックス) 22

  23. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測確率) 0.5(デフォルト) TRUEと予測 FALSEと予測 23

  24. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUE/FALSEの 閾値を変更 0.5(デフォルト) 0.167 TRUE/FALSEの境界値(閾値)変更

    24
  25. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 25 TRUE/FALSEの境界値変更

  26. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEと予測する割合が約8.7%になり、 元データのTRUEの割合とほぼ同じに 予測モデルの評価(予測マトリックス) 26

  27. © Livecence Inc. 2021 Q. 最適な閾値はどういう基準で決めればよい? A. 目的によって異なる ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測マトリックス)

    27
  28. © Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •

    予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 28
  29. © Livecence Inc. 2021 予測モデルの適用(イメージ) 予測モデル アルゴリズム 4~6月の応募実績データ マッハボーナスの進呈有無が確定している 90日以上前のデータに対して、構築したモデルで予測し、実績値と比較

    7月の応募実績データ 7月の応募実績データ 予測値と実績値とを比較 29
  30. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 30

  31. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 31

  32. © Livecence Inc. 2021 予測金額の計算①(イメージ) 性別 年齢 職種 ボーナス 金額

    ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000 女性 47 派遣社員 ¥10,000 FALSE 0.08 \0 男性 29 フリーター ¥15,000 FALSE 0.13 \0 女性 16 高校生 ¥5,000 FALSE 0.06 \0 男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000 未知のデータ 予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、 予測ラベルがFALSEの応募には、0円と予測する 32
  33. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加① 33 predicted_labelがTRUEの場合

  34. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証① 全体の平均は実績値に近い値になるが、 あるセグメントごとに分けてみると、 かなり乖離が大きくなっている 34

  35. © Livecence Inc. 2021 予測結果の確認 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEの割合 実績 予測ラベル 予測確率の平均

    ロジスティック回帰で予測するのは、 「TRUE or FALSE」ではなく「TRUEである確率」 ⇒ ならば、期待値を求められるのでは? 35
  36. © Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額

    ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 36 *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
  37. © Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額

    ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 37 予測ラベルは考慮しない →TRUE/FALSEの閾値を考える必要がない *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
  38. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加② 38

  39. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証② セグメントごとに分けてみても 比較的誤差の小さい予測ができている 39

  40. © Livecence Inc. 2021 まとめ • Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる • ロジスティック回帰は活用シーンが多い優秀な手法だが、 閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)

    • 予測ラベルそのものが重要ではないケースにおいては、 予測確率や、予測確率から導いた期待値に着目するのも有力 40