Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
Search
Ikuya Murasato
November 12, 2021
Business
0
320
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。
Ikuya Murasato
November 12, 2021
Tweet
Share
More Decks by Ikuya Murasato
See All by Ikuya Murasato
トピックモデル分析を活用した問合せ業務の効率化
ikuyam
1
210
回帰分析の活用による新商品の販売力予測
ikuyam
0
150
生存分析モデルを利用したLineのブロック要因分析
ikuyam
0
97
自動車トラブルと気象条件などの探索的データ分析
ikuyam
0
69
データサイエンス「も」使えるチェンジメーカー輩出への挑戦
ikuyam
0
350
ExploratoryとRによる全学データサイエンス教育
ikuyam
0
490
エンゲージメント向上のための人事制度改革 - 管理部門におけるExploratoryの活用
ikuyam
0
1.6k
「学ぶ」分析技術から「使う」分析技術へ - Exploratoryによるドリル演習
ikuyam
0
370
データサイエンス入門教育の現場から - 46歳新任教員2年間の苦闘
ikuyam
0
460
Other Decks in Business
See All in Business
2024年12月期_通期決算説明資料
mobcast20040326
PRO
0
750
アルファを作る人になる
nrryuya
0
130
一般社団法人ディレクションサポート協会(DiSA)
masakisukeda
0
590
How should you respond to feedback from reviews and tests
kitanosirokuma
3
200
ユーザー体験の再定義 〜行動変容のための生成AI活用〜
_kojikako
2
570
27.02.2025 El mercado cuartohorario de electricidad
neuroenergia
PRO
0
120
HRBP+のご紹介
masakisukeda
0
850
CCBJIピッチブック
2024ccbji
0
260
アノマリーマーケティング カルチャーコード_ver1.0
anomalymarketing
1
230
株式会社Anfini_新卒会社紹介資料
anfini
0
6.9k
生成AIが変える新時代のビジネスインテリジェンス
marreta27
0
200
Clarity for Product People
arnekittler
0
1.2k
Featured
See All Featured
Building Applications with DynamoDB
mza
93
6.2k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
115
51k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Designing for humans not robots
tammielis
250
25k
Adopting Sorbet at Scale
ufuk
75
9.2k
Speed Design
sergeychernyshev
27
820
Facilitating Awesome Meetings
lara
53
6.3k
Done Done
chrislema
182
16k
Transcript
© Livecence Inc. 2021 求人サービスの ユーザー分析をもとにした予算管理 (ロジスティック回帰) 2021.11.12 株式会社リブセンス 大坪 誠
© Livecence Inc. 2021 自己紹介 【名前】大坪 誠(オオツボ マコト) 【所属】株式会社リブセンス アルバイト事業部 マーケティンググループ
【担当】アルバイト求人情報サイト「マッハバイト」の ブランディング および 広告運用 2
© Livecence Inc. 2021 Exploratoryの活用状況 【利用範囲】 • アンケートデータ 集計・可視化・分析 •
広告配信データ分析 • サイト内ユーザー行動ログデータ分析 etc. 【利点】 • 集計・可視化が速く、簡単に、柔軟にできる • データ量が大きくても処理できる • サポートが手厚い 3
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 4
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 5
© Livecence Inc. 2021 「マッハバイト」の事業構造 マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募 マッハボーナス 掲載費用 掲載or応募or採用時に
課金 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金 *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 6
© Livecence Inc. 2021 解決したい課題 マッハバイトでバイト探し&応募 マッハボーナス 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金
応募された時点では、 マッハボーナスを支払うかどうか (採用され、かつ申請されるか) 分からないため、将来発生する 費用がどれくらいになるか分からない ⇒ 1応募獲得あたりの広告費用を 最適化できない *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 7
© Livecence Inc. 2021 現状の運用 • マッハボーナスの金額は、求人ごとに応募時点で決まっている • マッハボーナスは応募後90日間申請可能 →
90日以上前の1ヵ月間の実績の平均金額を予測値としている 7月 8月 9月 10月 11月 1応募あたり平均 実績:1,000円 1応募あたり平均 予測:1,000円 【例】 8
© Livecence Inc. 2021 現状の運用の課題 例えば、男性と女性でマッハボーナスの受給率が違うとする 15% 10% 9
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が常に一定であるなら、 数ヵ月前の実績値がそのまま使えるかもしれない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円 10
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が変化している場合、 数ヵ月前の実績値をそのまま使うのは適切ではない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円?? 11
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 12
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ 性別 年齢 職種 ボーナス 金額 ボーナス 受給 男性 30 フリーター ¥10,000 FALSE 女性 28 主婦 ¥10,000 TRUE 男性 17 高校生 ¥7,000 TRUE 男性 43 自営業 ¥15,000 FALSE 女性 22 大学生 ¥5,000 FALSE トレーニングデータ(過去実績データ) 性別 年齢 職種 ボーナス 金額 ボーナス 受給 女性 19 大学生 ¥5,000 ? 女性 47 派遣社員 ¥10,000 ? 男性 29 フリーター ¥15,000 ? 女性 16 高校生 ¥5,000 ? 男性 24 短大生 ¥7,000 ? 未知のデータ 予測モデル アルゴリズム 13
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ ある一定期間の各応募について、 マッハボーナスを進呈するか否かを予測。 その結果をもとに、その期間の応募に対する マッハボーナスの平均進呈額を予測。 14
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 15
© Livecence Inc. 2021 ロジスティック回帰とは 目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。 1つ以上の因子(説明変数)から、 ある事象が起こる確率を説明・予測する多変量解析の手法。 参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO 16
© Livecence Inc. 2021 説明変数の選定(サマリビュー) ※例示しているデータはダミーです。実際の数値とは異なります。 予測したい変数とその他の各変数との相関を確認 ユーザーの属性(性別・年齢・利用デバイス等)や 応募先の条件(業種・職種・マッハボーナス金額等)などが マッハボーナス受給確率に影響がありそう
17
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 • タイプ :ロジスティック回帰を選択 • 目的変数:予測したい変数を選択 •
予測変数:影響がありそうな変数を選択 予測モデルの作成(ロジスティック回帰) 18
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 19
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 基本的に、AUCが高い(1に近い)ほど 予測性能が良いモデルといえる 予測モデルの評価(サマリ) 20
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 正解率は91%と高いが... 予測モデルの評価(サマリ) 21
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 全てをFALSEと予測すれば 91%の確率で正解してしまうモデルになっている 予測モデルの評価(予測マトリックス) 22
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測確率) 0.5(デフォルト) TRUEと予測 FALSEと予測 23
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUE/FALSEの 閾値を変更 0.5(デフォルト) 0.167 TRUE/FALSEの境界値(閾値)変更
24
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 25 TRUE/FALSEの境界値変更
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEと予測する割合が約8.7%になり、 元データのTRUEの割合とほぼ同じに 予測モデルの評価(予測マトリックス) 26
© Livecence Inc. 2021 Q. 最適な閾値はどういう基準で決めればよい? A. 目的によって異なる ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測マトリックス)
27
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 28
© Livecence Inc. 2021 予測モデルの適用(イメージ) 予測モデル アルゴリズム 4~6月の応募実績データ マッハボーナスの進呈有無が確定している 90日以上前のデータに対して、構築したモデルで予測し、実績値と比較
7月の応募実績データ 7月の応募実績データ 予測値と実績値とを比較 29
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 30
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 31
© Livecence Inc. 2021 予測金額の計算①(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000 女性 47 派遣社員 ¥10,000 FALSE 0.08 \0 男性 29 フリーター ¥15,000 FALSE 0.13 \0 女性 16 高校生 ¥5,000 FALSE 0.06 \0 男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000 未知のデータ 予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、 予測ラベルがFALSEの応募には、0円と予測する 32
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加① 33 predicted_labelがTRUEの場合
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証① 全体の平均は実績値に近い値になるが、 あるセグメントごとに分けてみると、 かなり乖離が大きくなっている 34
© Livecence Inc. 2021 予測結果の確認 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEの割合 実績 予測ラベル 予測確率の平均
ロジスティック回帰で予測するのは、 「TRUE or FALSE」ではなく「TRUEである確率」 ⇒ ならば、期待値を求められるのでは? 35
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 36 *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 37 予測ラベルは考慮しない →TRUE/FALSEの閾値を考える必要がない *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加② 38
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証② セグメントごとに分けてみても 比較的誤差の小さい予測ができている 39
© Livecence Inc. 2021 まとめ • Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる • ロジスティック回帰は活用シーンが多い優秀な手法だが、 閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)
• 予測ラベルそのものが重要ではないケースにおいては、 予測確率や、予測確率から導いた期待値に着目するのも有力 40