OR学会2024秋_短期収益と将来のオフ方策評価性能を考慮したクーポン割当方策混合比の決定

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

© Recruit Co., Ltd. All Rights Reserved 背景 • クーポン施策の目的 ○ サービスに対する顧客行動を促し事業収益を増加させる • クーポン施策におけるモデル開発の流れ ○ 初期：ルールベースや一様ランダムなどによる割当でデータ収集 ○ 中期：収集したデータをもとにモデル学習し、初期より効果改善するかオフ方策評価・オンラインテストにより確認 ○ 後期：モデル運用により収集されたデータをもとに、さらなるモデル改善を試みるデータ収集 (ルールベースや一様ランダムなど) モデル学習オフ方策評価 (オフラインテスト) オンラインテストパターンごとの混合比決定オンラインテストデータ収集 3

Slide 4

Slide 4 text

© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み：モデル学習 • よい性能を達成するためのモデル学習 → モデル性能向上は収益増加に直結するため盛んに取り組まれている ○ 定額のインセンティブ付与における予算制約を考慮したアップリフトモデリング, 松井諒生, 吉住宗朔, 西村直樹, 小林健, 中田和秀, OR学会2023年春季研究発表会 ○ 長期報酬に対する逐次的オフ方策学習, 池田春之介, 吉住宗朔, 西村直樹, 齋藤優太, OR学会2024年春季研究発表会データ収集 (ルールベースや一様ランダムなど) モデル学習オフ方策評価 (オフラインテスト) オンラインテストパターンごとの混合比決定オンラインテストデータ収集 4

Slide 5

Slide 5 text

© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み：オフ方策評価とオンラインテストパターンごとの混合比の決定 • オフ方策評価とオンラインテストパターンごとの混合比の決定 → モデル学習に比べて取り組みは少ないが適切な決定による収益改善白地が大きいのでは • クーポン施策でオンラインテストする方策の組合せの例 ○ モデルに基づく割当方策 ■ 過去の最良のモデルにより割当する顧客群 ○ ランダム割当方策 ■ モデルの効果を評価するためにランダムに割当する顧客群データ収集 (ルールベースや一様ランダムなど) モデル学習オフ方策評価 (オフラインテスト) オンラインテストパターンごとの混合比決定オンラインテストデータ収集 5

Slide 6

Slide 6 text

© Recruit Co., Ltd. All Rights Reserved 混合比の決定にあたりランダム割当方策を増加させることの利点・欠点モデルに基づく割当ランダム割当モデルによる割当優先度クーポン割当顧客クーポン非割当顧客 6 利点：将来のモデル改善のためのデータ収集 ● ランダム割当が存在しないと、特定の顧客群のみに偏った割当がされる ● 将来のモデル改善のために、顧客全体のデータ収集が可能に欠点：データ収集期間中の短期の収益を毀損 ● モデルに基づく割当とランダム割当の性能差が大きいほど短期の収益を毀損

Slide 7

Slide 7 text

© Recruit Co., Ltd. All Rights Reserved 本研究の目的モデルに基づく割当ランダム割当 7 短期の収益と将来のモデル改善のためのデータ収集のトレードオフを考慮して方策混合比を定量的に決定したいモデルによる割当優先度クーポン割当顧客クーポン非割当顧客利点：将来のモデル改善のためのデータ収集 ● ランダム割当が存在しないと、特定の顧客群のみに偏った割当がされる ● 将来のモデル改善のために、顧客全体のデータ収集が可能に欠点：データ収集期間中の短期の収益を毀損 ● モデルに基づく割当とランダム割当の性能差が大きいほど短期の収益を毀損

Slide 8

Slide 8 text

Slide 9

Slide 9 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (1/3)：素朴な評価方策の推定量 OPE: 過去のログデータをもとに新しい方策 (評価方策) の意思決定の性能を評価素朴な方策の推定量：方策により選択された行動がデータ収集方策に選択された行動と一致した部分の報酬の平均データ収集方策で選択される可能性の高い行動に偏った評価をしてしまうデータ収集方策でのクーポン割当顧客クーポン非割当顧客 9 データ収集方策で選択されやすい顧客に評価方策でも割当評価方策でのクーポン割当顧客データ収集方策で選択されずらい顧客に評価方策で割当されない

Slide 10

Slide 10 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3)：Inverse propensity score (IPS) 推定量 (1/2) IPS推定量: データ収集方策による選択確率の逆数で、評価方策での行動確率に重み付けした報酬の平均評価方策がデータ収集方策で選択される行動確率が0でない → 不偏な推定量となるデータ収集方策で選択されやすい行動は重みを減らすデータ収集方策で選択されずらい行動は重みを増やす 10 データ収集方策でのクーポン割当顧客クーポン非割当顧客評価方策でのクーポン割当顧客

Slide 11

Slide 11 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3)：Inverse propensity score (IPS) 推定量 (2/2) 実務上は運用単純化のため優先度の高い順に決定的に割当することも多い決定的方策に基づくデータ収集方策で選択確率が0になりうる → 不偏推定量でなくなりOPE性能※が悪化 ※バイアスとバリアンスで表される推定誤差データ収集方策にて確率0だった行動は重みが計算できない 11 データ収集方策でのクーポン割当顧客クーポン非割当顧客評価方策でのクーポン割当顧客

Slide 12

Slide 12 text

© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (3/3)：Balanced inverse propensity score (BIPS) 推定量 BIPS推定量: 複数のデータ収集方策の平均化方策をもとに重み付けモデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 複数のデータ収集方策のいずれかで評価方策の選択する行動確率が0でない → 不偏推定量決定的なモデル割当方策と確率的なランダム割当方策を混合することでOPE性能が向上ランダム割当方策と混合することでモデル割当方策に依らずデータ収集方策の選択確率が正に 12 データ収集方策でのクーポン割当顧客クーポン非割当顧客評価方策でのクーポン割当顧客

Slide 13

Slide 13 text

© Recruit Co., Ltd. All Rights Reserved 本研究の位置づけ BIPS推定量により、データ収集方策の混合比を定めたもとでのOPE性能が定量評価が可能実務での混合比の決定はOPE性能だけでなく収益とのトレードオフをもとに意思決定される本研究収益指標とOPE性能指標の2目的最適化問題として定式化することで定量的な混合比の決定を可能に 13 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 データ収集方策でのクーポン割当顧客クーポン非割当顧客評価方策でのクーポン割当顧客

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標収益指標：データ収集方策の収益指標としてはオンラインテストで対象母集団に対して実際に割り当てして得られた結果のため不偏推定量に OPE性能指標：実践的には評価方策の真値と推定量の誤差は算出できないログデータからの復元抽出に基づき算出したBIPS推定量の分散や標準偏差などのばらつきを用いてバリアンス部分を評価モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 15 評価方策でのクーポン割当顧客データ収集方策でのクーポン割当顧客クーポン非割当顧客

Slide 16

Slide 16 text

© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標のトレードオフを考慮した2目的最適化問題の定式化収益指標 OPE性能指標混合比の和が1 混合比は0以上1以下データ収集方策数が2つの場合 → グリッドサーチなどで評価が可能データ収集方策数が3つ以上存在する場合 → ブラックボックス最適化ソルバーを用いて近似パレート解集合を計算方策π 1 方策π 2 方策π 3 16 評価方策でのクーポン割当顧客データ収集方策でのクーポン割当顧客クーポン非割当顧客

Slide 17

Slide 17 text

Slide 18

Slide 18 text

© Recruit Co., Ltd. All Rights Reserved • 実験目的：提案手法により方策混合比ごとの収益、OPE性能を定量評価できるか確認 • データ生成：顧客 (10,000件) にクーポンを割当、非割当としたときの収益を以下の設定で生成 ○ 4次元の特徴量をもつ顧客データを生成クーポン非割当の収益クーポン割当の収益 • データ収集方策 ○ (1)ランダム方策：の確率で割当 ○ (2)決定的方策：で割当 ○ (3)決定的方策：で割当 └ 収益とそれぞれ正の相関 • 評価指標 ○ 収益指標：各混合比でのデータ収集方策の収益の合計 ○ OPE性能指標：各混合比でのBIPSによる推定値と真値の2乗誤差 • 最適化ソフトウェア ○ Optuna v3.6.0 NSGA-II アルゴリズムを利用（試行数1,000）数値実験：人工データの設定 • 評価方策 ○ (1)確率的方策：データ収集方策と正の相関で0.8、で0.2の確率で割当 ○ (2)確率的方策：データ収集方策と負の相関で0.8、で0.2の確率で割当 18

Slide 19

Slide 19 text

© Recruit Co., Ltd. All Rights Reserved 数値実験：人工データの実験結果（方策混合比のパレートフロント） • 収益：ランダム方策の混合比が大きくなるほど収益低下 • OPE性能：ランダム方策の混合比が大きくなるほど性能向上 • データ収集方策と評価方策の近さの影響：評価方策がデータ収集方策と近い（相関が強い）場合はランダム方策の混合比が小さくてもOPEの性能がよい OPE性能指標（誤差） OPE性能指標（誤差）収益指標収益指標データ収集方策と正の相関の評価方策データ収集方策と負の相関の評価方策ランダム方策混合比 19 左上ほど良ランダム方策混合比ランダム方策混合比

Slide 20

Slide 20 text

© Recruit Co., Ltd. All Rights Reserved • 実験目的：実データでも方策混合比ごとの収益、OPE性能を定量評価できるか確認 • 利用データ：ホットペッパーグルメでのある月のポイント割当履歴とその後の予約履歴 • データ収集方策：ユーザを事前に以下の2つのいずれかの方策の対象者として割当 ○ (1) ランダム方策：ユーザ特徴量に依存せず一定確率でポイント割当 ○ (2) 決定的方策：ユーザ特徴量に基づいて機械学習モデルに基づくポイント割当 • 評価方策 ○ データ収集方策とは異なる機械学習モデルに基づく決定的方策 • 評価指標 ○ 収益指標：データ収集方策の費用あたり予約数 ○ OPE性能指標：復元抽出して算出したBIPSの収益推定値の標準偏差 • データ収集方策のサンプルサイズ ○ あるサンプルサイズを基準に (1) と (2) ともに1%、100%で復元抽出 → サンプルサイズの違いよる結果の差異を検証 • データ収集方策の混合比の決定：グリッドサーチにて決定数値実験：実データの設定 20

Slide 21

Slide 21 text

© Recruit Co., Ltd. All Rights Reserved • 収益とOPE性能：ランダム方策の混合比が増えるほどOPE性能は向上するが収益は減 • サンプルサイズ：同じランダム方策の混合比でもサンプルサイズは大きいほどOPE性能は向上、今回は費用一定のもとで検証としたため母集団が大きいほど収益増 • 意思決定の例：評価方策と過去の最良方策の性能差を考慮しつつ、評価結果のばらつきが性能差よりも小さくなりつつ、最も収益が得られるように方策の混合比を決定 → 性能差が小さい場合には、ランダム方策混合比を増やし信頼性を高める数値実験：実データの実験結果（方策混合比のパレートフロント）収益指標収益指標データ収集方策のサンプルサイズ1% データ収集方策のサンプルサイズ100% ※縦軸、横軸はランダム方策100%を1とした値にそれぞれスケーリング 21 左上ほど良 OPE性能指標（標準偏差） OPE性能指標（標準偏差）ランダム方策混合比決定的方策は混合比が減り費用が少なくなるほど費用対効果が増加するため収益指標は線形には減らない

Slide 22

Slide 22 text

Slide 23

Slide 23 text

© Recruit Co., Ltd. All Rights Reserved まとめと今後の課題 • まとめ ○ クーポン割当における短期の収益と将来のOPE性能のトレードオフを調整する問題を、複数方策間の混合比を決定する2目的最適化問題として定式化 ○ 2目的最適化問題のパレート最適解を用いた混合比決定法について実証 • 今後の課題 ○ BIPSよりも高度なOPE手法の適用 ○ クーポン割当以外の方策の探索と活用のトレードオフが存在する課題へ適用 • 詳細 ○ Naoki Nishimura, Kobayashi Ken, and Nakata Kazuhide. Balancing immediate revenue and future off-policy evaluation in coupon allocation. arXiv preprint arXiv:2407.11039, 2024. (PRICAI2024 採択済み) 23