Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
Search
Ikuya Murasato
November 12, 2021
Business
0
420
求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)
2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。
Ikuya Murasato
November 12, 2021
Tweet
Share
More Decks by Ikuya Murasato
See All by Ikuya Murasato
トピックモデル分析を活用した問合せ業務の効率化
ikuyam
1
270
回帰分析の活用による新商品の販売力予測
ikuyam
1
180
生存分析モデルを利用したLineのブロック要因分析
ikuyam
0
120
自動車トラブルと気象条件などの探索的データ分析
ikuyam
0
100
データサイエンス「も」使えるチェンジメーカー輩出への挑戦
ikuyam
0
450
ExploratoryとRによる全学データサイエンス教育
ikuyam
0
660
エンゲージメント向上のための人事制度改革 - 管理部門におけるExploratoryの活用
ikuyam
0
2k
「学ぶ」分析技術から「使う」分析技術へ - Exploratoryによるドリル演習
ikuyam
0
480
データサイエンス入門教育の現場から - 46歳新任教員2年間の苦闘
ikuyam
0
590
Other Decks in Business
See All in Business
三井物産グループのデジタル証券〜千代田区・レジデンス〜徹底解説セミナー
c0rp_mdm
PRO
1
2k
株式会社ステラセキュリティ会社紹介資料/sterrasec-introduction
sterrasec
0
950
株式会社CINC 会社案内/Company introduction
cinchr
6
72k
(7枚)営業プロセス・パイプライン・予材管理・カスタマージャーニーの基本
nyattx
PRO
3
170
HA-LU Inc.|カンパニーデック - 会社資料
halu_japan
1
490
AI Transformation(AX) カンパニー紹介資料
algomatic
PRO
0
2.1k
組織としてのプロダクトマネジメント力を高める〜Sansanの実践と課題〜
sansantech
PRO
3
160
任されるプロダクトマネージャーのリアル - プロダクトマネージャーの成長機会 に関する実例収集調査結果
ykmc09
3
3.9k
動画編集スクールブイプロ_ファクトブック2026
stakayama
0
160
日和山観光 会社紹介(27新卒向け)
hiyoriyamakankou
0
120
akippa株式会社|Company Deck
akippa
0
690
Spice Factory Inc. Culture Deck
spicefactory
0
17k
Featured
See All Featured
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
81
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
100
Docker and Python
trallard
47
3.7k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
Mobile First: as difficult as doing things right
swwweet
225
10k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
360
SEO for Brand Visibility & Recognition
aleyda
0
4.2k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
190
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
150
Git: the NoSQL Database
bkeepers
PRO
432
66k
Transcript
© Livecence Inc. 2021 求人サービスの ユーザー分析をもとにした予算管理 (ロジスティック回帰) 2021.11.12 株式会社リブセンス 大坪 誠
© Livecence Inc. 2021 自己紹介 【名前】大坪 誠(オオツボ マコト) 【所属】株式会社リブセンス アルバイト事業部 マーケティンググループ
【担当】アルバイト求人情報サイト「マッハバイト」の ブランディング および 広告運用 2
© Livecence Inc. 2021 Exploratoryの活用状況 【利用範囲】 • アンケートデータ 集計・可視化・分析 •
広告配信データ分析 • サイト内ユーザー行動ログデータ分析 etc. 【利点】 • 集計・可視化が速く、簡単に、柔軟にできる • データ量が大きくても処理できる • サポートが手厚い 3
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 4
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 5
© Livecence Inc. 2021 「マッハバイト」の事業構造 マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募 マッハボーナス 掲載費用 掲載or応募or採用時に
課金 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金 *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 6
© Livecence Inc. 2021 解決したい課題 マッハバイトでバイト探し&応募 マッハボーナス 採用・勤務が決まって 申請すると 5千円~1万円*のお祝い金
応募された時点では、 マッハボーナスを支払うかどうか (採用され、かつ申請されるか) 分からないため、将来発生する 費用がどれくらいになるか分からない ⇒ 1応募獲得あたりの広告費用を 最適化できない *不定期開催のボーナス増額タイム中の応募ならさらに+5,000円 7
© Livecence Inc. 2021 現状の運用 • マッハボーナスの金額は、求人ごとに応募時点で決まっている • マッハボーナスは応募後90日間申請可能 →
90日以上前の1ヵ月間の実績の平均金額を予測値としている 7月 8月 9月 10月 11月 1応募あたり平均 実績:1,000円 1応募あたり平均 予測:1,000円 【例】 8
© Livecence Inc. 2021 現状の運用の課題 例えば、男性と女性でマッハボーナスの受給率が違うとする 15% 10% 9
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が常に一定であるなら、 数ヵ月前の実績値がそのまま使えるかもしれない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円 10
© Livecence Inc. 2021 現状の運用の課題 応募ユーザーの男女比が変化している場合、 数ヵ月前の実績値をそのまま使うのは適切ではない 7月 11月 1応募あたりの金額:1,000円
1応募あたりの金額:1,000円?? 11
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 12
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ 性別 年齢 職種 ボーナス 金額 ボーナス 受給 男性 30 フリーター ¥10,000 FALSE 女性 28 主婦 ¥10,000 TRUE 男性 17 高校生 ¥7,000 TRUE 男性 43 自営業 ¥15,000 FALSE 女性 22 大学生 ¥5,000 FALSE トレーニングデータ(過去実績データ) 性別 年齢 職種 ボーナス 金額 ボーナス 受給 女性 19 大学生 ¥5,000 ? 女性 47 派遣社員 ¥10,000 ? 男性 29 フリーター ¥15,000 ? 女性 16 高校生 ¥5,000 ? 男性 24 短大生 ¥7,000 ? 未知のデータ 予測モデル アルゴリズム 13
© Livecence Inc. 2021 解決方法(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 女性 19 大学生 ¥5,000 TRUE 0.25 女性 47 派遣社員 ¥10,000 FALSE 0.08 男性 29 フリーター ¥15,000 FALSE 0.13 女性 16 高校生 ¥5,000 FALSE 0.06 男性 24 短大生 ¥7,000 TRUE 0.28 未知のデータ ある一定期間の各応募について、 マッハボーナスを進呈するか否かを予測。 その結果をもとに、その期間の応募に対する マッハボーナスの平均進呈額を予測。 14
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 15
© Livecence Inc. 2021 ロジスティック回帰とは 目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。 1つ以上の因子(説明変数)から、 ある事象が起こる確率を説明・予測する多変量解析の手法。 参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO 16
© Livecence Inc. 2021 説明変数の選定(サマリビュー) ※例示しているデータはダミーです。実際の数値とは異なります。 予測したい変数とその他の各変数との相関を確認 ユーザーの属性(性別・年齢・利用デバイス等)や 応募先の条件(業種・職種・マッハボーナス金額等)などが マッハボーナス受給確率に影響がありそう
17
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 • タイプ :ロジスティック回帰を選択 • 目的変数:予測したい変数を選択 •
予測変数:影響がありそうな変数を選択 予測モデルの作成(ロジスティック回帰) 18
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 19
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 基本的に、AUCが高い(1に近い)ほど 予測性能が良いモデルといえる 予測モデルの評価(サマリ) 20
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 正解率は91%と高いが... 予測モデルの評価(サマリ) 21
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 全てをFALSEと予測すれば 91%の確率で正解してしまうモデルになっている 予測モデルの評価(予測マトリックス) 22
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測確率) 0.5(デフォルト) TRUEと予測 FALSEと予測 23
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUE/FALSEの 閾値を変更 0.5(デフォルト) 0.167 TRUE/FALSEの境界値(閾値)変更
24
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 25 TRUE/FALSEの境界値変更
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEと予測する割合が約8.7%になり、 元データのTRUEの割合とほぼ同じに 予測モデルの評価(予測マトリックス) 26
© Livecence Inc. 2021 Q. 最適な閾値はどういう基準で決めればよい? A. 目的によって異なる ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価(予測マトリックス)
27
© Livecence Inc. 2021 Agenda • 解決したい課題 • 解決方法の概要 •
予測モデルの構築 • 予測モデルの性能評価 • モデルによる予測と評価 28
© Livecence Inc. 2021 予測モデルの適用(イメージ) 予測モデル アルゴリズム 4~6月の応募実績データ マッハボーナスの進呈有無が確定している 90日以上前のデータに対して、構築したモデルで予測し、実績値と比較
7月の応募実績データ 7月の応募実績データ 予測値と実績値とを比較 29
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 30
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの適用 31
© Livecence Inc. 2021 予測金額の計算①(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000 女性 47 派遣社員 ¥10,000 FALSE 0.08 \0 男性 29 フリーター ¥15,000 FALSE 0.13 \0 女性 16 高校生 ¥5,000 FALSE 0.06 \0 男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000 未知のデータ 予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、 予測ラベルがFALSEの応募には、0円と予測する 32
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加① 33 predicted_labelがTRUEの場合
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証① 全体の平均は実績値に近い値になるが、 あるセグメントごとに分けてみると、 かなり乖離が大きくなっている 34
© Livecence Inc. 2021 予測結果の確認 ※例示しているデータはダミーです。実際の数値とは異なります。 TRUEの割合 実績 予測ラベル 予測確率の平均
ロジスティック回帰で予測するのは、 「TRUE or FALSE」ではなく「TRUEである確率」 ⇒ ならば、期待値を求められるのでは? 35
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 36 *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 予測金額の計算②(イメージ) 性別 年齢 職種 ボーナス 金額
ボーナス 受給予測 ボーナス 受給確率 ボーナス 予測金額 女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250 女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800 男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950 女性 16 高校生 ¥5,000 FALSE 0.06 ¥300 男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960 未知のデータ 予測ラベルにかかわらず、 (TRUEの場合の金額)×(TRUEである確率)で期待値を算出する* 37 予測ラベルは考慮しない →TRUE/FALSEの閾値を考える必要がない *不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測金額の計算列追加② 38
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。 予測モデルの評価・検証② セグメントごとに分けてみても 比較的誤差の小さい予測ができている 39
© Livecence Inc. 2021 まとめ • Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる • ロジスティック回帰は活用シーンが多い優秀な手法だが、 閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)
• 予測ラベルそのものが重要ではないケースにおいては、 予測確率や、予測確率から導いた期待値に着目するのも有力 40