Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
Search
Ikuya Murasato
November 12, 2021
Business
0
300
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。
Ikuya Murasato
November 12, 2021
Tweet
Share
More Decks by Ikuya Murasato
See All by Ikuya Murasato
トピックモデル分析を活用した問合せ業務の効率化
ikuyam
1
190
回帰分析の活用による新商品の販売力予測
ikuyam
0
140
生存分析モデルを利用したLineのブロック要因分析
ikuyam
0
85
自動車トラブルと気象条件などの探索的データ分析
ikuyam
0
59
データサイエンス「も」使えるチェンジメーカー輩出への挑戦
ikuyam
0
330
ExploratoryとRによる全学データサイエンス教育
ikuyam
0
450
エンゲージメント向上のための人事制度改革 - 管理部門におけるExploratoryの活用
ikuyam
0
1.4k
「学ぶ」分析技術から「使う」分析技術へ - Exploratoryによるドリル演習
ikuyam
0
330
データサイエンス入門教育の現場から - 46歳新任教員2年間の苦闘
ikuyam
0
430
Other Decks in Business
See All in Business
新しい社員の組織適応を 支える3つの要素とプロセス / Three elements and processes of organizational adaptation
tbpgr
0
190
Cobe Associe: Who we are? /コンサル・市場調査・人材紹介のCobe Associe
nozomi
6
18k
もしドラッカーがアジャイルコーチになったら / If Drucker Were an Agile Coach
fkino
2
410
パレットクラウド株式会社 採用ピッチ資料
palettecloud
0
5.5k
サバノミソニLT‐AWS認定資格合格への道のり
utosun
0
360
東京都ツキノワグマ目撃等情報マップ
tokyo_metropolitan_gov_digital_hr
0
290
バイセルのものさし(Ver. 1.1)
buyselltechnologies
0
190
株式会社BFT 会社紹介資料|エンジニア&セールス職向け
bft_recruit
2
11k
Company deck
tricera
0
480
ファブリカホールディングス_2025年3月期 第2四半期説明資料
fabrica_com
0
2.7k
【metimo】「『似合う』を楽しもう。」
hinalin
0
560
5 Things Every L&D Pro Should Steal From Marketing
trainlikeamarketer
0
420
Featured
See All Featured
Designing on Purpose - Digital PM Summit 2013
jponch
115
7k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
Agile that works and the tools we love
rasmusluckow
327
21k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
How STYLIGHT went responsive
nonsquared
95
5.2k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Visualization
eitanlees
145
15k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
364
24k
How GitHub (no longer) Works
holman
310
140k
Docker and Python
trallard
40
3.1k
Transcript
© Livecence Inc. 2021 求人サービスの ユーザー分析をもとにした予算管理 (ロジスティック回帰) 2021.11.12 株式会社リブセンス 大坪 誠
© Livecence Inc. 2021 自己紹介 【名前】大坪 誠(オオツボ マコト) 【所属】株式会社リブセンス アルバイト事業部 マーケティンググループ
【担当】アルバイト求人情報サイト「マッハバイト」の ブランディング および 広告運用 2
© Livecence Inc. 2021 Exploratoryの活用状況 【利用範囲】 • アンケートデータ 集計・可視化・分析 •
広告配信データ分析 • サイト内ユーザー行動ログデータ分析 etc. 【利点】 • 集計・可視化が速く、簡単に、柔軟にできる • データ量が大きくても処理できる • サポートが手厚い 3
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 4
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 5
© Livecence Inc. 2021 「マッハバイト」の事業構造 マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募 マッハボーナス 掲載費用 掲載or応募or採用時に
課金 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金 *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 6
© Livecence Inc. 2021 解決したい課題 マッハバイトでバイト探し&応募 マッハボーナス 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金
応募された時点では、 マッハボーナスを支払うかどうか (採用され、かつ申請されるか) 分からないため、将来発生する 費用がどれくらいになるか分からない ⇒ 1応募獲得あたりの広告費用を 最適化できない *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 7
© Livecence Inc. 2021 現状の運用 • マッハボーナスの金額は、求人ごとに応募時点で決まっている • マッハボーナスは応募後90日間申請可能 →
90日以上前の1ヵ月間の実績の平均金額を予測値としている 7月 8月 9月 10月 11月 1応募あたり平均 実績:1,000円 1応募あたり平均 予測:1,000円 【例】 8
© Livecence Inc. 2021 現状の運用の課題 例えば、男性と女性でマッハボーナスの受給率が違うとする 15% 10% 9
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が常に一定であるなら、 数ヵ月前の実績値がそのまま使えるかもしれない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円 10
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が変化している場合、 数ヵ月前の実績値をそのまま使うのは適切ではない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円?? 11
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 12
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ 性別 年齢 職種 ボーナス 金額 ボーナス 受給 男性 30 フリーター ¥10,000 FALSE 女性 28 主婦 ¥10,000 TRUE 男性 17 高校生 ¥7,000 TRUE 男性 43 自営業 ¥15,000 FALSE 女性 22 大学生 ¥5,000 FALSE トレーニングデータ(過去実績データ) 性別 年齢 職種 ボーナス 金額 ボーナス 受給 女性 19 大学生 ¥5,000 ? 女性 47 派遣社員 ¥10,000 ? 男性 29 フリーター ¥15,000 ? 女性 16 高校生 ¥5,000 ? 男性 24 短大生 ¥7,000 ? 未知のデータ 予測モデル アルゴリズム 13
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ ある一定期間の各応募について、 マッハボーナスを進呈するか否かを予測。 その結果をもとに、その期間の応募に対する マッハボーナスの平均進呈額を予測。 14
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 15
© Livecence Inc. 2021 ロジスティック回帰とは 目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。 1つ以上の因子(説明変数)から、 ある事象が起こる確率を説明・予測する多変量解析の手法。 参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO 16
© Livecence Inc. 2021 説明変数の選定(サマリビュー) ※例示しているデータはダミーです。実際の数値とは異なります。 予測したい変数とその他の各変数との相関を確認 ユーザーの属性(性別・年齢・利用デバイス等)や 応募先の条件(業種・職種・マッハボーナス金額等)などが マッハボーナス受給確率に影響がありそう
17
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 • タイプ :ロジスティック回帰を選択 • 目的変数:予測したい変数を選択 •
予測変数:影響がありそうな変数を選択 予測モデルの作成(ロジスティック回帰) 18
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 19
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 基本的に、AUCが高い(1に近い)ほど 予測性能が良いモデルといえる 予測モデルの評価(サマリ) 20
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 正解率は91%と高いが... 予測モデルの評価(サマリ) 21
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 全てをFALSEと予測すれば 91%の確率で正解してしまうモデルになっている 予測モデルの評価(予測マトリックス) 22
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測確率) 0.5(デフォルト) TRUEと予測 FALSEと予測 23
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUE/FALSEの 閾値を変更 0.5(デフォルト) 0.167 TRUE/FALSEの境界値(閾値)変更
24
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 25 TRUE/FALSEの境界値変更
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEと予測する割合が約8.7%になり、 元データのTRUEの割合とほぼ同じに 予測モデルの評価(予測マトリックス) 26
© Livecence Inc. 2021 Q. 最適な閾値はどういう基準で決めればよい? A. 目的によって異なる ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測マトリックス)
27
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 28
© Livecence Inc. 2021 予測モデルの適用(イメージ) 予測モデル アルゴリズム 4~6月の応募実績データ マッハボーナスの進呈有無が確定している 90日以上前のデータに対して、構築したモデルで予測し、実績値と比較
7月の応募実績データ 7月の応募実績データ 予測値と実績値とを比較 29
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 30
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 31
© Livecence Inc. 2021 予測金額の計算①(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000 女性 47 派遣社員 ¥10,000 FALSE 0.08 \0 男性 29 フリーター ¥15,000 FALSE 0.13 \0 女性 16 高校生 ¥5,000 FALSE 0.06 \0 男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000 未知のデータ 予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、 予測ラベルがFALSEの応募には、0円と予測する 32
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加① 33 predicted_labelがTRUEの場合
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証① 全体の平均は実績値に近い値になるが、 あるセグメントごとに分けてみると、 かなり乖離が大きくなっている 34
© Livecence Inc. 2021 予測結果の確認 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEの割合 実績 予測ラベル 予測確率の平均
ロジスティック回帰で予測するのは、 「TRUE or FALSE」ではなく「TRUEである確率」 ⇒ ならば、期待値を求められるのでは? 35
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 36 *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 37 予測ラベルは考慮しない →TRUE/FALSEの閾値を考える必要がない *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加② 38
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証② セグメントごとに分けてみても 比較的誤差の小さい予測ができている 39
© Livecence Inc. 2021 まとめ • Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる • ロジスティック回帰は活用シーンが多い優秀な手法だが、 閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)
• 予測ラベルそのものが重要ではないケースにおいては、 予測確率や、予測確率から導いた期待値に着目するのも有力 40