Upgrade to Pro — share decks privately, control downloads, hide ads and more …

求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)

Ikuya Murasato
November 12, 2021

 求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)

2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。

Ikuya Murasato

November 12, 2021
Tweet

More Decks by Ikuya Murasato

Other Decks in Business

Transcript

  1. © Livecence Inc. 2021
    求人サービスの
    ユーザー分析をもとにした予算管理
    (ロジスティック回帰)
    2021.11.12
    株式会社リブセンス 大坪 誠

    View Slide

  2. © Livecence Inc. 2021
    自己紹介
    【名前】大坪 誠(オオツボ マコト)
    【所属】株式会社リブセンス
        アルバイト事業部 マーケティンググループ
    【担当】アルバイト求人情報サイト「マッハバイト」の
        ブランディング および 広告運用
    2

    View Slide

  3. © Livecence Inc. 2021
    Exploratoryの活用状況
    【利用範囲】
    ● アンケートデータ 集計・可視化・分析
    ● 広告配信データ分析
    ● サイト内ユーザー行動ログデータ分析 etc.
    【利点】
    ● 集計・可視化が速く、簡単に、柔軟にできる
    ● データ量が大きくても処理できる
    ● サポートが手厚い
    3

    View Slide

  4. © Livecence Inc. 2021
    Agenda
    ● 解決したい課題
    ● 解決方法の概要
    ● 予測モデルの構築
    ● 予測モデルの性能評価
    ● モデルによる予測と評価
    4

    View Slide

  5. © Livecence Inc. 2021
    Agenda
    ● 解決したい課題
    ● 解決方法の概要
    ● 予測モデルの構築
    ● 予測モデルの性能評価
    ● モデルによる予測と評価
    5

    View Slide

  6. © Livecence Inc. 2021
    「マッハバイト」の事業構造
    マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募
    マッハボーナス
    掲載費用
    掲載or応募or採用時に
    課金
    採用・勤務が決まって
    申請すると
    5千円~1万円*のお祝い金
    *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円
    6

    View Slide

  7. © Livecence Inc. 2021
    解決したい課題
    マッハバイトでバイト探し&応募
    マッハボーナス
    採用・勤務が決まって
    申請すると
    5千円~1万円*のお祝い金
    応募された時点では、
    マッハボーナスを支払うかどうか
    (採用され、かつ申請されるか)
    分からないため、将来発生する
    費用がどれくらいになるか分からない
    ⇒ 1応募獲得あたりの広告費用を
      最適化できない
    *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円
    7

    View Slide

  8. © Livecence Inc. 2021
    現状の運用
    ● マッハボーナスの金額は、求人ごとに応募時点で決まっている
    ● マッハボーナスは応募後90日間申請可能
     → 90日以上前の1ヵ月間の実績の平均金額を予測値としている
    7月 8月 9月 10月 11月
    1応募あたり平均
    実績:1,000円
    1応募あたり平均
    予測:1,000円
    【例】
    8

    View Slide

  9. © Livecence Inc. 2021
    現状の運用の課題
    例えば、男性と女性でマッハボーナスの受給率が違うとする
    15% 10%
    9

    View Slide

  10. © Livecence Inc. 2021
    現状の運用の課題
    応募ユーザーの男女比が常に一定であるなら、
    数ヵ月前の実績値がそのまま使えるかもしれない
    7月 11月
    1応募あたりの金額:1,000円 1応募あたりの金額:1,000円
    10

    View Slide

  11. © Livecence Inc. 2021
    現状の運用の課題
    応募ユーザーの男女比が変化している場合、
    数ヵ月前の実績値をそのまま使うのは適切ではない
    7月 11月
    1応募あたりの金額:1,000円 1応募あたりの金額:1,000円??
    11

    View Slide

  12. © Livecence Inc. 2021
    Agenda
    ● 解決したい課題
    ● 解決方法の概要
    ● 予測モデルの構築
    ● 予測モデルの性能評価
    ● モデルによる予測と評価
    12

    View Slide

  13. © Livecence Inc. 2021
    解決方法(イメージ)
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給予測
    ボーナス
    受給確率
    女性 19 大学生 ¥5,000 TRUE 0.25
    女性 47 派遣社員 ¥10,000 FALSE 0.08
    男性 29 フリーター ¥15,000 FALSE 0.13
    女性 16 高校生 ¥5,000 FALSE 0.06
    男性 24 短大生 ¥7,000 TRUE 0.28
    未知のデータ
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給
    男性 30 フリーター ¥10,000 FALSE
    女性 28 主婦 ¥10,000 TRUE
    男性 17 高校生 ¥7,000 TRUE
    男性 43 自営業 ¥15,000 FALSE
    女性 22 大学生 ¥5,000 FALSE
    トレーニングデータ(過去実績データ)
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給
    女性 19 大学生 ¥5,000 ?
    女性 47 派遣社員 ¥10,000 ?
    男性 29 フリーター ¥15,000 ?
    女性 16 高校生 ¥5,000 ?
    男性 24 短大生 ¥7,000 ?
    未知のデータ
    予測モデル
    アルゴリズム
    13

    View Slide

  14. © Livecence Inc. 2021
    解決方法(イメージ)
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給予測
    ボーナス
    受給確率
    女性 19 大学生 ¥5,000 TRUE 0.25
    女性 47 派遣社員 ¥10,000 FALSE 0.08
    男性 29 フリーター ¥15,000 FALSE 0.13
    女性 16 高校生 ¥5,000 FALSE 0.06
    男性 24 短大生 ¥7,000 TRUE 0.28
    未知のデータ
    ある一定期間の各応募について、
    マッハボーナスを進呈するか否かを予測。
    その結果をもとに、その期間の応募に対する
    マッハボーナスの平均進呈額を予測。
    14

    View Slide

  15. © Livecence Inc. 2021
    Agenda
    ● 解決したい課題
    ● 解決方法の概要
    ● 予測モデルの構築
    ● 予測モデルの性能評価
    ● モデルによる予測と評価
    15

    View Slide

  16. © Livecence Inc. 2021
    ロジスティック回帰とは
    目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。
    1つ以上の因子(説明変数)から、
    ある事象が起こる確率を説明・予測する多変量解析の手法。
    参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO
    16

    View Slide

  17. © Livecence Inc. 2021
    説明変数の選定(サマリビュー)
    ※例示しているデータはダミーです。実際の数値とは異なります。
    予測したい変数とその他の各変数との相関を確認
    ユーザーの属性(性別・年齢・利用デバイス等)や
    応募先の条件(業種・職種・マッハボーナス金額等)などが
    マッハボーナス受給確率に影響がありそう
    17

    View Slide

  18. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    ● タイプ :ロジスティック回帰を選択
    ● 目的変数:予測したい変数を選択
    ● 予測変数:影響がありそうな変数を選択
    予測モデルの作成(ロジスティック回帰) 18

    View Slide

  19. © Livecence Inc. 2021
    Agenda
    ● 解決したい課題
    ● 解決方法の概要
    ● 予測モデルの構築
    ● 予測モデルの性能評価
    ● モデルによる予測と評価
    19

    View Slide

  20. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    基本的に、AUCが高い(1に近い)ほど
    予測性能が良いモデルといえる
    予測モデルの評価(サマリ) 20

    View Slide

  21. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    正解率は91%と高いが...
    予測モデルの評価(サマリ) 21

    View Slide

  22. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    全てをFALSEと予測すれば
    91%の確率で正解してしまうモデルになっている
    予測モデルの評価(予測マトリックス) 22

    View Slide

  23. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測モデルの評価(予測確率)
    0.5(デフォルト)
    TRUEと予測
    FALSEと予測
    23

    View Slide

  24. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    TRUE/FALSEの
    閾値を変更
    0.5(デフォルト)
    0.167
    TRUE/FALSEの境界値(閾値)変更 24

    View Slide

  25. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    25
    TRUE/FALSEの境界値変更

    View Slide

  26. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    TRUEと予測する割合が約8.7%になり、
    元データのTRUEの割合とほぼ同じに
    予測モデルの評価(予測マトリックス) 26

    View Slide

  27. © Livecence Inc. 2021
    Q. 最適な閾値はどういう基準で決めればよい?
    A. 目的によって異なる
    ※例示しているデータはダミーです。実際の数値とは異なります。
    予測モデルの評価(予測マトリックス) 27

    View Slide

  28. © Livecence Inc. 2021
    Agenda
    ● 解決したい課題
    ● 解決方法の概要
    ● 予測モデルの構築
    ● 予測モデルの性能評価
    ● モデルによる予測と評価
    28

    View Slide

  29. © Livecence Inc. 2021
    予測モデルの適用(イメージ)
    予測モデル
    アルゴリズム
    4~6月の応募実績データ
    マッハボーナスの進呈有無が確定している
    90日以上前のデータに対して、構築したモデルで予測し、実績値と比較
    7月の応募実績データ 7月の応募実績データ
    予測値と実績値とを比較
    29

    View Slide

  30. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測モデルの適用 30

    View Slide

  31. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測モデルの適用 31

    View Slide

  32. © Livecence Inc. 2021
    予測金額の計算①(イメージ)
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給予測
    ボーナス
    受給確率
    ボーナス
    予測金額
    女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000
    女性 47 派遣社員 ¥10,000 FALSE 0.08 \0
    男性 29 フリーター ¥15,000 FALSE 0.13 \0
    女性 16 高校生 ¥5,000 FALSE 0.06 \0
    男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000
    未知のデータ
    予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、
    予測ラベルがFALSEの応募には、0円と予測する
    32

    View Slide

  33. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測金額の計算列追加① 33
    predicted_labelがTRUEの場合

    View Slide

  34. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測モデルの評価・検証①
    全体の平均は実績値に近い値になるが、
    あるセグメントごとに分けてみると、
    かなり乖離が大きくなっている
    34

    View Slide

  35. © Livecence Inc. 2021
    予測結果の確認
    ※例示しているデータはダミーです。実際の数値とは異なります。
    TRUEの割合
    実績 予測ラベル 予測確率の平均
    ロジスティック回帰で予測するのは、
    「TRUE or FALSE」ではなく「TRUEである確率」
    ⇒ ならば、期待値を求められるのでは?
    35

    View Slide

  36. © Livecence Inc. 2021
    予測金額の計算②(イメージ)
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給予測
    ボーナス
    受給確率
    ボーナス
    予測金額
    女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250
    女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800
    男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950
    女性 16 高校生 ¥5,000 FALSE 0.06 ¥300
    男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960
    未知のデータ
    予測ラベルにかかわらず、
    (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する*
    36
    *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない

    View Slide

  37. © Livecence Inc. 2021
    予測金額の計算②(イメージ)
    性別 年齢 職種
    ボーナス
    金額
    ボーナス
    受給予測
    ボーナス
    受給確率
    ボーナス
    予測金額
    女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250
    女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800
    男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950
    女性 16 高校生 ¥5,000 FALSE 0.06 ¥300
    男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960
    未知のデータ
    予測ラベルにかかわらず、
    (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する*
    37
    予測ラベルは考慮しない
    →TRUE/FALSEの閾値を考える必要がない
    *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない

    View Slide

  38. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測金額の計算列追加② 38

    View Slide

  39. © Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。
    予測モデルの評価・検証②
    セグメントごとに分けてみても
    比較的誤差の小さい予測ができている
    39

    View Slide

  40. © Livecence Inc. 2021
    まとめ
    ● Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる
    ● ロジスティック回帰は活用シーンが多い優秀な手法だが、
    閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)
    ● 予測ラベルそのものが重要ではないケースにおいては、
    予測確率や、予測確率から導いた期待値に着目するのも有力
    40

    View Slide