Slide 1

Slide 1 text

© Recruit Co., Ltd. All Rights Reserved 短期収益と将来のオフ方策評価性能を 考慮したクーポン割当方策混合比の決定 株式会社リクルート 西村 直樹* 東京工業大学 小林 健 東京工業大学 中田 和秀 オペレーションズ・リサーチ学会 2024年秋季研究発表会 2024年9月10、11日 @ 南山大学

Slide 2

Slide 2 text

© Recruit Co., Ltd. All Rights Reserved 発表の構成 ● 背景と研究目的 ● オフ方策評価(OPE)の既存手法 ● 提案手法 ● 数値実験 ● まとめと課題 2

Slide 3

Slide 3 text

© Recruit Co., Ltd. All Rights Reserved 背景 • クーポン施策の目的 ○ サービスに対する顧客行動を促し事業収益を増加させる • クーポン施策におけるモデル開発の流れ ○ 初期:ルールベースや一様ランダムなどによる割当でデータ収集 ○ 中期:収集したデータをもとにモデル学習し、初期より効果改善 するかオフ方策評価・オンラインテストにより確認 ○ 後期:モデル運用により収集されたデータをもとに、さらなる モデル改善を試みる データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 3

Slide 4

Slide 4 text

© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み:モデル学習 • よい性能を達成するためのモデル学習 → モデル性能向上は収益増加に直結するため盛んに取り組まれている ○ 定額のインセンティブ付与における予算制約を考慮したアップリフトモデリング, 松井諒生, 吉住宗朔, 西村直樹, 小林健, 中田和秀, OR学会2023年春季研究発表会 ○ 長期報酬に対する逐次的オフ方策学習, 池田春之介, 吉住宗朔, 西村直樹, 齋藤優太, OR学会2024年春季研究発表会 データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 4

Slide 5

Slide 5 text

© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み:オフ方策評価とオンラインテストパターンごとの混合比の決定 • オフ方策評価とオンラインテストパターンごとの混合比の決定 → モデル学習に比べて取り組みは少ないが適切な決定による収益改善白地が大きいのでは • クーポン施策でオンラインテストする方策の組合せの例 ○ モデルに基づく割当方策 ■ 過去の最良のモデルにより割当する顧客群 ○ ランダム割当方策 ■ モデルの効果を評価するためにランダムに割当する顧客群 データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 5

Slide 6

Slide 6 text

© Recruit Co., Ltd. All Rights Reserved 混合比の決定にあたりランダム割当方策を増加させることの利点・欠点 モデルに基づく割当 ランダム割当 モデルによる 割当優先度 クーポン割当顧客 クーポン非割当顧客 6 利点:将来のモデル改善のためのデータ収集 ● ランダム割当が存在しないと、特定の 顧客群のみに偏った割当がされる ● 将来のモデル改善のために、顧客全体の データ収集が可能に 欠点:データ収集期間中の短期の収益を毀損 ● モデルに基づく割当とランダム割当の性能差が大 きいほど短期の収益を毀損

Slide 7

Slide 7 text

© Recruit Co., Ltd. All Rights Reserved 本研究の目的 モデルに基づく割当 ランダム割当 7 短期の収益と将来のモデル改善のための データ収集のトレードオフを考慮して 方策混合比を定量的に決定したい モデルによる 割当優先度 クーポン割当顧客 クーポン非割当顧客 利点:将来のモデル改善のためのデータ収集 ● ランダム割当が存在しないと、特定の 顧客群のみに偏った割当がされる ● 将来のモデル改善のために、顧客全体の データ収集が可能に 欠点:データ収集期間中の短期の収益を毀損 ● モデルに基づく割当とランダム割当の性能差が大 きいほど短期の収益を毀損

Slide 8

Slide 8 text

© Recruit Co., Ltd. All Rights Reserved 発表の構成 ● 背景と研究目的 ● オフ方策評価(OPE)の既存手法 ● 提案手法 ● 数値実験 ● まとめと課題 8

Slide 9

Slide 9 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (1/3):素朴な評価方策の推定量 OPE: 過去のログデータをもとに新しい方策 (評価方策) の意思決定の性能を評価 素朴な方策 の推定量:方策 により 選択された行動 がデータ収集方策に 選択された行動 と一致した部分の 報酬 の平均 データ収集方策で選択される可能性の 高い行動に偏った評価をしてしまう データ収集方策での クーポン割当顧客 クーポン非割当顧客 9 データ収集方策で 選択されやすい顧客に 評価方策でも割当 評価方策 での クーポン割当顧客 データ収集方策で選択 されずらい顧客に評価 方策で割当されない

Slide 10

Slide 10 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3):Inverse propensity score (IPS) 推定量 (1/2) IPS推定量: データ収集方策による選択確率 の逆数で、評価方策での行動確率 に重み付けした報酬の平均 評価方策がデータ収集方策で選択される 行動確率 が0でない → 不偏な推定量となる データ収集方策で 選択されやすい行動は 重みを減らす データ収集方策で 選択されずらい行動は 重みを増やす 10 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客

Slide 11

Slide 11 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3):Inverse propensity score (IPS) 推定量 (2/2) 実務上は運用単純化のため優先度の 高い順に決定的に割当することも多い 決定的方策に基づくデータ収集方策で 選択確率 が0になりうる → 不偏推定量でなくなりOPE性能※が悪化 ※バイアスとバリアンスで表される推定誤差 データ収集方策にて 確率0だった行動は 重みが計算できない 11 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客

Slide 12

Slide 12 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (3/3):Balanced inverse propensity score (BIPS) 推定量 BIPS推定量: 複数のデータ収集方策の 平均化方策をもとに重み付け モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 複数のデータ収集方策のいずれかで評価方策の 選択する行動確率が0でない → 不偏推定量 決定的なモデル割当方策と確率的なランダム割当 方策を混合することでOPE性能が向上 ランダム割当方策と混合 することでモデル割当方策 に依らずデータ収集方策 の選択確率が正に 12 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客

Slide 13

Slide 13 text

© Recruit Co., Ltd. All Rights Reserved 本研究の位置づけ BIPS推定量により、データ収集方策の混合比を 定めたもとでのOPE性能が定量評価が可能 実務での混合比の決定はOPE性能だけでなく 収益とのトレードオフをもとに意思決定される 本研究 収益指標とOPE性能指標の2目的最適化問題として 定式化することで定量的な混合比の決定を可能に 13 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客

Slide 14

Slide 14 text

© Recruit Co., Ltd. All Rights Reserved 発表の構成 ● 背景と研究目的 ● オフ方策評価(OPE)の既存手法 ● 提案手法 ● 数値実験 ● まとめと課題 14

Slide 15

Slide 15 text

© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標 収益指標: データ収集方策の収益指標として は オンラインテストで対象母集団に対して実際に割り当て して得られた結果のため不偏推定量に OPE性能指標: 実践的には評価方策の真値と推定量の誤差は算出できない ログデータからの復元抽出に基づき算出したBIPS推定量の 分散や標準偏差などのばらつきを用いてバリアンス部分を評価 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 15 評価方策 での クーポン割当顧客 データ収集方策での クーポン割当顧客 クーポン非割当顧客

Slide 16

Slide 16 text

© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標のトレードオフを考慮した2目的最適化問題の定式化 収益指標 OPE性能指標 混合比の和が1 混合比は0以上1以下 データ収集方策数が2つの場合 → グリッドサーチなどで評価が可能 データ収集方策数が3つ以上存在する場合 → ブラックボックス最適化ソルバーを用いて 近似パレート解集合を計算 方策π 1 方策π 2 方策π 3 16 評価方策 での クーポン割当顧客 データ収集方策での クーポン割当顧客 クーポン非割当顧客

Slide 17

Slide 17 text

© Recruit Co., Ltd. All Rights Reserved 発表の構成 ● 背景と研究目的 ● オフ方策評価(OPE)の既存手法 ● 提案手法 ● 数値実験 ● まとめと課題 17

Slide 18

Slide 18 text

© Recruit Co., Ltd. All Rights Reserved • 実験目的:提案手法により方策混合比ごとの収益、OPE性能を定量評価できるか確認 • データ生成:顧客 (10,000件) にクーポンを割当、非割当としたときの収益を以下の設定で生成 ○ 4次元の特徴量をもつ顧客データを生成 クーポン非割当の収益 クーポン割当の収益 • データ収集方策 ○ (1)ランダム方策: の確率で割当 ○ (2)決定的方策: で割当 ○ (3)決定的方策: で割当 └ 収益とそれぞれ正の相関 • 評価指標 ○ 収益指標 :各混合比でのデータ収集方策の収益の合計 ○ OPE性能指標 :各混合比でのBIPSによる推定値と真値の2乗誤差 • 最適化ソフトウェア ○ Optuna v3.6.0 NSGA-II アルゴリズムを利用(試行数1,000) 数値実験:人工データの設定 • 評価方策 ○ (1)確率的方策:データ収集方策と正の相関 で0.8、 で0.2の確率で割当 ○ (2)確率的方策:データ収集方策と負の相関 で0.8、 で0.2の確率で割当 18

Slide 19

Slide 19 text

© Recruit Co., Ltd. All Rights Reserved 数値実験:人工データの実験結果(方策混合比のパレートフロント) • 収益:ランダム方策の混合比が大きくなるほど収益低下 • OPE性能:ランダム方策の混合比が大きくなるほど性能向上 • データ収集方策と評価方策の近さの影響:評価方策がデータ収集方策と近い (相関が強い)場合はランダム方策の混合比が小さくてもOPEの性能がよい OPE性能指標(誤差) OPE性能指標(誤差) 収 益 指 標 収 益 指 標 データ収集方策と正の相関の評価方策 データ収集方策と負の相関の評価方策 ラ ン ダ ム 方 策 混 合 比 19 左上ほど良 ランダム 方策混合比 ラ ン ダ ム 方 策 混 合 比

Slide 20

Slide 20 text

© Recruit Co., Ltd. All Rights Reserved • 実験目的:実データでも方策混合比ごとの収益、OPE性能を定量評価できるか確認 • 利用データ:ホットペッパーグルメでのある月のポイント割当履歴とその後の予約履歴 • データ収集方策:ユーザを事前に以下の2つのいずれかの方策の対象者として割当 ○ (1) ランダム方策:ユーザ特徴量に依存せず一定確率でポイント割当 ○ (2) 決定的方策:ユーザ特徴量に基づいて機械学習モデルに基づくポイント割当 • 評価方策 ○ データ収集方策とは異なる機械学習モデルに基づく決定的方策 • 評価指標 ○ 収益指標:データ収集方策の費用あたり予約数 ○ OPE性能指標:復元抽出して算出したBIPSの収益推定値の標準偏差 • データ収集方策のサンプルサイズ ○ あるサンプルサイズを基準に (1) と (2) ともに1%、100%で復元抽出 → サンプルサイズの違いよる結果の差異を検証 • データ収集方策の混合比の決定:グリッドサーチにて決定 数値実験:実データの設定 20

Slide 21

Slide 21 text

© Recruit Co., Ltd. All Rights Reserved • 収益とOPE性能:ランダム方策の混合比が増えるほどOPE性能は向上するが収益は減 • サンプルサイズ:同じランダム方策の混合比でもサンプルサイズは大きいほどOPE性能は向上、 今回は費用一定のもとで検証としたため母集団が大きいほど収益増 • 意思決定の例:評価方策と過去の最良方策の性能差を考慮しつつ、評価結果のばらつきが 性能差よりも小さくなりつつ、最も収益が得られるように方策の混合比を決定 → 性能差が小さい場合には、ランダム方策混合比を増やし信頼性を高める 数値実験:実データの実験結果(方策混合比のパレートフロント) 収 益 指 標 収 益 指 標 データ収集方策のサンプルサイズ1% データ収集方策のサンプルサイズ100% ※縦軸、横軸はランダム方策100%を1とした値にそれぞれスケーリング 21 左上ほど良 OPE性能指標(標準偏差) OPE性能指標(標準偏差) ランダム 方策混合比 決定的方策は混合比が減り 費用が少なくなるほど費用対 効果が増加するため収益指標 は線形には減らない

Slide 22

Slide 22 text

© Recruit Co., Ltd. All Rights Reserved 発表の構成 ● 背景と研究目的 ● オフ方策評価(OPE)の既存手法 ● 提案手法 ● 数値実験 ● まとめと課題 22

Slide 23

Slide 23 text

© Recruit Co., Ltd. All Rights Reserved まとめと今後の課題 • まとめ ○ クーポン割当における短期の収益と将来のOPE性能のトレードオフを調整 する問題を、複数方策間の混合比を決定する2目的最適化問題として定式化 ○ 2目的最適化問題のパレート最適解を用いた混合比決定法について実証 • 今後の課題 ○ BIPSよりも高度なOPE手法の適用 ○ クーポン割当以外の方策の探索と活用のトレードオフが存在する課題へ適用 • 詳細 ○ Naoki Nishimura, Kobayashi Ken, and Nakata Kazuhide. Balancing immediate revenue and future off-policy evaluation in coupon allocation. arXiv preprint arXiv:2407.11039, 2024. (PRICAI2024 採択済み) 23