2021/11/12(金)に開催したExploratory データサイエンス勉強会#21の株式会社リブセンス様のご登壇資料です。
© Livecence Inc. 2021求人サービスのユーザー分析をもとにした予算管理(ロジスティック回帰)2021.11.12株式会社リブセンス 大坪 誠
View Slide
© Livecence Inc. 2021自己紹介【名前】大坪 誠(オオツボ マコト)【所属】株式会社リブセンス アルバイト事業部 マーケティンググループ【担当】アルバイト求人情報サイト「マッハバイト」の ブランディング および 広告運用2
© Livecence Inc. 2021Exploratoryの活用状況【利用範囲】● アンケートデータ 集計・可視化・分析● 広告配信データ分析● サイト内ユーザー行動ログデータ分析 etc.【利点】● 集計・可視化が速く、簡単に、柔軟にできる● データ量が大きくても処理できる● サポートが手厚い3
© Livecence Inc. 2021Agenda● 解決したい課題● 解決方法の概要● 予測モデルの構築● 予測モデルの性能評価● モデルによる予測と評価4
© Livecence Inc. 2021Agenda● 解決したい課題● 解決方法の概要● 予測モデルの構築● 予測モデルの性能評価● モデルによる予測と評価5
© Livecence Inc. 2021「マッハバイト」の事業構造マッハバイトに求人広告を掲載 マッハバイトでバイト探し&応募マッハボーナス掲載費用掲載or応募or採用時に課金採用・勤務が決まって申請すると5千円~1万円*のお祝い金*不定期開催のボーナス増額タイム中の応募ならさらに+5,000円6
© Livecence Inc. 2021解決したい課題マッハバイトでバイト探し&応募マッハボーナス採用・勤務が決まって申請すると5千円~1万円*のお祝い金応募された時点では、マッハボーナスを支払うかどうか(採用され、かつ申請されるか)分からないため、将来発生する費用がどれくらいになるか分からない⇒ 1応募獲得あたりの広告費用を 最適化できない*不定期開催のボーナス増額タイム中の応募ならさらに+5,000円7
© Livecence Inc. 2021現状の運用● マッハボーナスの金額は、求人ごとに応募時点で決まっている● マッハボーナスは応募後90日間申請可能 → 90日以上前の1ヵ月間の実績の平均金額を予測値としている7月 8月 9月 10月 11月1応募あたり平均実績:1,000円1応募あたり平均予測:1,000円【例】8
© Livecence Inc. 2021現状の運用の課題例えば、男性と女性でマッハボーナスの受給率が違うとする15% 10%9
© Livecence Inc. 2021現状の運用の課題応募ユーザーの男女比が常に一定であるなら、数ヵ月前の実績値がそのまま使えるかもしれない7月 11月1応募あたりの金額:1,000円 1応募あたりの金額:1,000円10
© Livecence Inc. 2021現状の運用の課題応募ユーザーの男女比が変化している場合、数ヵ月前の実績値をそのまま使うのは適切ではない7月 11月1応募あたりの金額:1,000円 1応募あたりの金額:1,000円??11
© Livecence Inc. 2021Agenda● 解決したい課題● 解決方法の概要● 予測モデルの構築● 予測モデルの性能評価● モデルによる予測と評価12
© Livecence Inc. 2021解決方法(イメージ)性別 年齢 職種ボーナス金額ボーナス受給予測ボーナス受給確率女性 19 大学生 ¥5,000 TRUE 0.25女性 47 派遣社員 ¥10,000 FALSE 0.08男性 29 フリーター ¥15,000 FALSE 0.13女性 16 高校生 ¥5,000 FALSE 0.06男性 24 短大生 ¥7,000 TRUE 0.28未知のデータ性別 年齢 職種ボーナス金額ボーナス受給男性 30 フリーター ¥10,000 FALSE女性 28 主婦 ¥10,000 TRUE男性 17 高校生 ¥7,000 TRUE男性 43 自営業 ¥15,000 FALSE女性 22 大学生 ¥5,000 FALSEトレーニングデータ(過去実績データ)性別 年齢 職種ボーナス金額ボーナス受給女性 19 大学生 ¥5,000 ?女性 47 派遣社員 ¥10,000 ?男性 29 フリーター ¥15,000 ?女性 16 高校生 ¥5,000 ?男性 24 短大生 ¥7,000 ?未知のデータ予測モデルアルゴリズム13
© Livecence Inc. 2021解決方法(イメージ)性別 年齢 職種ボーナス金額ボーナス受給予測ボーナス受給確率女性 19 大学生 ¥5,000 TRUE 0.25女性 47 派遣社員 ¥10,000 FALSE 0.08男性 29 フリーター ¥15,000 FALSE 0.13女性 16 高校生 ¥5,000 FALSE 0.06男性 24 短大生 ¥7,000 TRUE 0.28未知のデータある一定期間の各応募について、マッハボーナスを進呈するか否かを予測。その結果をもとに、その期間の応募に対するマッハボーナスの平均進呈額を予測。14
© Livecence Inc. 2021Agenda● 解決したい課題● 解決方法の概要● 予測モデルの構築● 予測モデルの性能評価● モデルによる予測と評価15
© Livecence Inc. 2021ロジスティック回帰とは目的変数が「2値」のロジカル型を対象とする統計的回帰モデル。1つ以上の因子(説明変数)から、ある事象が起こる確率を説明・予測する多変量解析の手法。参照:https://exploratory.io/note/GMq1Qom5tS/ZSy0JQr3eO16
© Livecence Inc. 2021説明変数の選定(サマリビュー)※例示しているデータはダミーです。実際の数値とは異なります。予測したい変数とその他の各変数との相関を確認ユーザーの属性(性別・年齢・利用デバイス等)や応募先の条件(業種・職種・マッハボーナス金額等)などがマッハボーナス受給確率に影響がありそう17
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。● タイプ :ロジスティック回帰を選択● 目的変数:予測したい変数を選択● 予測変数:影響がありそうな変数を選択予測モデルの作成(ロジスティック回帰) 18
© Livecence Inc. 2021Agenda● 解決したい課題● 解決方法の概要● 予測モデルの構築● 予測モデルの性能評価● モデルによる予測と評価19
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。基本的に、AUCが高い(1に近い)ほど予測性能が良いモデルといえる予測モデルの評価(サマリ) 20
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。正解率は91%と高いが...予測モデルの評価(サマリ) 21
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。全てをFALSEと予測すれば91%の確率で正解してしまうモデルになっている予測モデルの評価(予測マトリックス) 22
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測モデルの評価(予測確率)0.5(デフォルト)TRUEと予測FALSEと予測23
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。TRUE/FALSEの閾値を変更0.5(デフォルト)0.167TRUE/FALSEの境界値(閾値)変更 24
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。25TRUE/FALSEの境界値変更
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。TRUEと予測する割合が約8.7%になり、元データのTRUEの割合とほぼ同じに予測モデルの評価(予測マトリックス) 26
© Livecence Inc. 2021Q. 最適な閾値はどういう基準で決めればよい?A. 目的によって異なる※例示しているデータはダミーです。実際の数値とは異なります。予測モデルの評価(予測マトリックス) 27
© Livecence Inc. 2021Agenda● 解決したい課題● 解決方法の概要● 予測モデルの構築● 予測モデルの性能評価● モデルによる予測と評価28
© Livecence Inc. 2021予測モデルの適用(イメージ)予測モデルアルゴリズム4~6月の応募実績データマッハボーナスの進呈有無が確定している90日以上前のデータに対して、構築したモデルで予測し、実績値と比較7月の応募実績データ 7月の応募実績データ予測値と実績値とを比較29
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測モデルの適用 30
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測モデルの適用 31
© Livecence Inc. 2021予測金額の計算①(イメージ)性別 年齢 職種ボーナス金額ボーナス受給予測ボーナス受給確率ボーナス予測金額女性 19 大学生 ¥5,000 TRUE 0.25 ¥5,000女性 47 派遣社員 ¥10,000 FALSE 0.08 \0男性 29 フリーター ¥15,000 FALSE 0.13 \0女性 16 高校生 ¥5,000 FALSE 0.06 \0男性 24 短大生 ¥7,000 TRUE 0.28 ¥7,000未知のデータ予測ラベルがTRUEの応募には、実際に進呈する場合の金額を、予測ラベルがFALSEの応募には、0円と予測する32
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測金額の計算列追加① 33predicted_labelがTRUEの場合
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測モデルの評価・検証①全体の平均は実績値に近い値になるが、あるセグメントごとに分けてみると、かなり乖離が大きくなっている34
© Livecence Inc. 2021予測結果の確認※例示しているデータはダミーです。実際の数値とは異なります。TRUEの割合実績 予測ラベル 予測確率の平均ロジスティック回帰で予測するのは、「TRUE or FALSE」ではなく「TRUEである確率」⇒ ならば、期待値を求められるのでは?35
© Livecence Inc. 2021予測金額の計算②(イメージ)性別 年齢 職種ボーナス金額ボーナス受給予測ボーナス受給確率ボーナス予測金額女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950女性 16 高校生 ¥5,000 FALSE 0.06 ¥300男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960未知のデータ予測ラベルにかかわらず、(TRUEの場合の金額)×(TRUEである確率)で期待値を算出する*36*不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021予測金額の計算②(イメージ)性別 年齢 職種ボーナス金額ボーナス受給予測ボーナス受給確率ボーナス予測金額女性 19 大学生 ¥5,000 TRUE 0.25 ¥1,250女性 47 派遣社員 ¥10,000 FALSE 0.08 ¥800男性 29 フリーター ¥15,000 FALSE 0.13 ¥1,950女性 16 高校生 ¥5,000 FALSE 0.06 ¥300男性 24 短大生 ¥7,000 TRUE 0.28 ¥1,960未知のデータ予測ラベルにかかわらず、(TRUEの場合の金額)×(TRUEである確率)で期待値を算出する*37予測ラベルは考慮しない→TRUE/FALSEの閾値を考える必要がない*不均衡データの調整(オーバーサンプリング/アンダーサンプリング)をして構築したモデルでは使えない
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測金額の計算列追加② 38
© Livecence Inc. 2021 ※例示しているデータはダミーです。実際の数値とは異なります。予測モデルの評価・検証②セグメントごとに分けてみても比較的誤差の小さい予測ができている39
© Livecence Inc. 2021まとめ● Exploratoryを使えば、非エンジニアでも容易に予測モデルを構築できる● ロジスティック回帰は活用シーンが多い優秀な手法だが、閾値の設定次第で予測結果が変わってしまう(閾値の最適化が難しい)● 予測ラベルそのものが重要ではないケースにおいては、予測確率や、予測確率から導いた期待値に着目するのも有力40