Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OR学会2024秋_短期収益と将来のオフ方策評価性能を考慮したクーポン割当方策混合比の決定
Search
Recruit
PRO
September 09, 2024
Technology
5
1.1k
OR学会2024秋_短期収益と将来のオフ方策評価性能を考慮したクーポン割当方策混合比の決定
2024/09/10-11に、オペレーションズ・リサーチ学会2024年秋季研究発表会で発表した、西村の資料です。
Recruit
PRO
September 09, 2024
Tweet
Share
More Decks by Recruit
See All by Recruit
あなたの知らない Linuxカーネル脆弱性の世界
recruitengineers
PRO
3
200
dbtとBigQuery MLで実現する リクルートの営業支援基盤のモデル開発と保守運用
recruitengineers
PRO
4
200
『ホットペッパービューティー』のiOSアプリをUIKitからSwiftUIへ段階的に移行するためにやったこと
recruitengineers
PRO
4
1.7k
経営の意思決定を加速する 「事業KPIダッシュボード」構築の全貌
recruitengineers
PRO
4
330
Browser
recruitengineers
PRO
12
3.8k
JavaScript 研修
recruitengineers
PRO
8
2.1k
TypeScript入門
recruitengineers
PRO
37
15k
モダンフロントエンド 開発研修
recruitengineers
PRO
14
8.1k
Webアクセシビリティ入門
recruitengineers
PRO
4
2.3k
Other Decks in Technology
See All in Technology
AIと共に開発する時代の組織、プロセス設計 freeeでの実践から見えてきたこと
freee
3
700
エンジニアに定年なし! AI時代にキャリアをReboot — 学び続けて未来を創る
junjikoide
0
180
Axon Frameworkのイベントストアを独自拡張した話
zozotech
PRO
0
100
QAを"自動化する"ことの本質
kshino
1
120
JAWS-UG SRE支部 #14 LT
okaru
0
110
[CV勉強会@関東 ICCV2025] WoTE: End-to-End Driving with Online Trajectory Evaluation via BEV World Model
shinkyoto
0
250
Claude Code 10連ガチャ
uhyo
3
680
QAエンジニアがプロダクト専任で チームの中に入ると。。。?/登壇資料(杉森 太樹)
hacobu
PRO
1
550
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
1.3k
コミュニティと共に変化する 私とFusicの8年間
ayasamind
0
480
これからアウトプットする人たちへ - アウトプットを支える技術 / that support output
soudai
PRO
18
5.5k
「O(n log(n))のパフォーマンス」の意味がわかるようになろう
dhirabayashi
0
150
Featured
See All Featured
Statistics for Hackers
jakevdp
799
220k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
How to Ace a Technical Interview
jacobian
280
24k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Embracing the Ebb and Flow
colly
88
4.9k
The Invisible Side of Design
smashingmag
302
51k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
A Modern Web Designer's Workflow
chriscoyier
697
190k
Transcript
© Recruit Co., Ltd. All Rights Reserved 短期収益と将来のオフ方策評価性能を 考慮したクーポン割当方策混合比の決定 株式会社リクルート
西村 直樹* 東京工業大学 小林 健 東京工業大学 中田 和秀 オペレーションズ・リサーチ学会 2024年秋季研究発表会 2024年9月10、11日 @ 南山大学
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 2
© Recruit Co., Ltd. All Rights Reserved 背景 • クーポン施策の目的
◦ サービスに対する顧客行動を促し事業収益を増加させる • クーポン施策におけるモデル開発の流れ ◦ 初期:ルールベースや一様ランダムなどによる割当でデータ収集 ◦ 中期:収集したデータをもとにモデル学習し、初期より効果改善 するかオフ方策評価・オンラインテストにより確認 ◦ 後期:モデル運用により収集されたデータをもとに、さらなる モデル改善を試みる データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 3
© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み:モデル学習 • よい性能を達成するためのモデル学習
→ モデル性能向上は収益増加に直結するため盛んに取り組まれている ◦ 定額のインセンティブ付与における予算制約を考慮したアップリフトモデリング, 松井諒生, 吉住宗朔, 西村直樹, 小林健, 中田和秀, OR学会2023年春季研究発表会 ◦ 長期報酬に対する逐次的オフ方策学習, 池田春之介, 吉住宗朔, 西村直樹, 齋藤優太, OR学会2024年春季研究発表会 データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 4
© Recruit Co., Ltd. All Rights Reserved データ活用の取り組み:オフ方策評価とオンラインテストパターンごとの混合比の決定 • オフ方策評価とオンラインテストパターンごとの混合比の決定
→ モデル学習に比べて取り組みは少ないが適切な決定による収益改善白地が大きいのでは • クーポン施策でオンラインテストする方策の組合せの例 ◦ モデルに基づく割当方策 ▪ 過去の最良のモデルにより割当する顧客群 ◦ ランダム割当方策 ▪ モデルの効果を評価するためにランダムに割当する顧客群 データ収集 (ルールベースや 一様ランダムなど) モデル学習 オフ方策評価 (オフラインテスト) オンラインテストパターン ごとの混合比決定 オンラインテスト データ収集 5
© Recruit Co., Ltd. All Rights Reserved 混合比の決定にあたりランダム割当方策を増加させることの利点・欠点 モデルに基づく割当 ランダム割当
モデルによる 割当優先度 クーポン割当顧客 クーポン非割当顧客 6 利点:将来のモデル改善のためのデータ収集 • ランダム割当が存在しないと、特定の 顧客群のみに偏った割当がされる • 将来のモデル改善のために、顧客全体の データ収集が可能に 欠点:データ収集期間中の短期の収益を毀損 • モデルに基づく割当とランダム割当の性能差が大 きいほど短期の収益を毀損
© Recruit Co., Ltd. All Rights Reserved 本研究の目的 モデルに基づく割当 ランダム割当
7 短期の収益と将来のモデル改善のための データ収集のトレードオフを考慮して 方策混合比を定量的に決定したい モデルによる 割当優先度 クーポン割当顧客 クーポン非割当顧客 利点:将来のモデル改善のためのデータ収集 • ランダム割当が存在しないと、特定の 顧客群のみに偏った割当がされる • 将来のモデル改善のために、顧客全体の データ収集が可能に 欠点:データ収集期間中の短期の収益を毀損 • モデルに基づく割当とランダム割当の性能差が大 きいほど短期の収益を毀損
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 8
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (1/3):素朴な評価方策の推定量 OPE:
過去のログデータをもとに新しい方策 (評価方策) の意思決定の性能を評価 素朴な方策 の推定量:方策 により 選択された行動 がデータ収集方策に 選択された行動 と一致した部分の 報酬 の平均 データ収集方策で選択される可能性の 高い行動に偏った評価をしてしまう データ収集方策での クーポン割当顧客 クーポン非割当顧客 9 データ収集方策で 選択されやすい顧客に 評価方策でも割当 評価方策 での クーポン割当顧客 データ収集方策で選択 されずらい顧客に評価 方策で割当されない
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3):Inverse propensity
score (IPS) 推定量 (1/2) IPS推定量: データ収集方策による選択確率 の逆数で、評価方策での行動確率 に重み付けした報酬の平均 評価方策がデータ収集方策で選択される 行動確率 が0でない → 不偏な推定量となる データ収集方策で 選択されやすい行動は 重みを減らす データ収集方策で 選択されずらい行動は 重みを増やす 10 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (2/3):Inverse propensity
score (IPS) 推定量 (2/2) 実務上は運用単純化のため優先度の 高い順に決定的に割当することも多い 決定的方策に基づくデータ収集方策で 選択確率 が0になりうる → 不偏推定量でなくなりOPE性能※が悪化 ※バイアスとバリアンスで表される推定誤差 データ収集方策にて 確率0だった行動は 重みが計算できない 11 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved OPEの既存手法 (3/3):Balanced inverse
propensity score (BIPS) 推定量 BIPS推定量: 複数のデータ収集方策の 平均化方策をもとに重み付け モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 複数のデータ収集方策のいずれかで評価方策の 選択する行動確率が0でない → 不偏推定量 決定的なモデル割当方策と確率的なランダム割当 方策を混合することでOPE性能が向上 ランダム割当方策と混合 することでモデル割当方策 に依らずデータ収集方策 の選択確率が正に 12 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved 本研究の位置づけ BIPS推定量により、データ収集方策の混合比を 定めたもとでのOPE性能が定量評価が可能
実務での混合比の決定はOPE性能だけでなく 収益とのトレードオフをもとに意思決定される 本研究 収益指標とOPE性能指標の2目的最適化問題として 定式化することで定量的な混合比の決定を可能に 13 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 データ収集方策での クーポン割当顧客 クーポン非割当顧客 評価方策 での クーポン割当顧客
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 14
© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標 収益指標: データ収集方策の収益指標として
は オンラインテストで対象母集団に対して実際に割り当て して得られた結果のため不偏推定量に OPE性能指標: 実践的には評価方策の真値と推定量の誤差は算出できない ログデータからの復元抽出に基づき算出したBIPS推定量の 分散や標準偏差などのばらつきを用いてバリアンス部分を評価 モデル割当方策π 1 混合比α 1 ランダム割当π 2 混合比α 2 15 評価方策 での クーポン割当顧客 データ収集方策での クーポン割当顧客 クーポン非割当顧客
© Recruit Co., Ltd. All Rights Reserved 収益指標とOPE性能指標のトレードオフを考慮した2目的最適化問題の定式化 収益指標 OPE性能指標
混合比の和が1 混合比は0以上1以下 データ収集方策数が2つの場合 → グリッドサーチなどで評価が可能 データ収集方策数が3つ以上存在する場合 → ブラックボックス最適化ソルバーを用いて 近似パレート解集合を計算 方策π 1 方策π 2 方策π 3 16 評価方策 での クーポン割当顧客 データ収集方策での クーポン割当顧客 クーポン非割当顧客
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 17
© Recruit Co., Ltd. All Rights Reserved • 実験目的:提案手法により方策混合比ごとの収益、OPE性能を定量評価できるか確認 •
データ生成:顧客 (10,000件) にクーポンを割当、非割当としたときの収益を以下の設定で生成 ◦ 4次元の特徴量をもつ顧客データを生成 クーポン非割当の収益 クーポン割当の収益 • データ収集方策 ◦ (1)ランダム方策: の確率で割当 ◦ (2)決定的方策: で割当 ◦ (3)決定的方策: で割当 └ 収益とそれぞれ正の相関 • 評価指標 ◦ 収益指標 :各混合比でのデータ収集方策の収益の合計 ◦ OPE性能指標 :各混合比でのBIPSによる推定値と真値の2乗誤差 • 最適化ソフトウェア ◦ Optuna v3.6.0 NSGA-II アルゴリズムを利用(試行数1,000) 数値実験:人工データの設定 • 評価方策 ◦ (1)確率的方策:データ収集方策と正の相関 で0.8、 で0.2の確率で割当 ◦ (2)確率的方策:データ収集方策と負の相関 で0.8、 で0.2の確率で割当 18
© Recruit Co., Ltd. All Rights Reserved 数値実験:人工データの実験結果(方策混合比のパレートフロント) • 収益:ランダム方策の混合比が大きくなるほど収益低下
• OPE性能:ランダム方策の混合比が大きくなるほど性能向上 • データ収集方策と評価方策の近さの影響:評価方策がデータ収集方策と近い (相関が強い)場合はランダム方策の混合比が小さくてもOPEの性能がよい OPE性能指標(誤差) OPE性能指標(誤差) 収 益 指 標 収 益 指 標 データ収集方策と正の相関の評価方策 データ収集方策と負の相関の評価方策 ラ ン ダ ム 方 策 混 合 比 19 左上ほど良 ランダム 方策混合比 ラ ン ダ ム 方 策 混 合 比
© Recruit Co., Ltd. All Rights Reserved • 実験目的:実データでも方策混合比ごとの収益、OPE性能を定量評価できるか確認 •
利用データ:ホットペッパーグルメでのある月のポイント割当履歴とその後の予約履歴 • データ収集方策:ユーザを事前に以下の2つのいずれかの方策の対象者として割当 ◦ (1) ランダム方策:ユーザ特徴量に依存せず一定確率でポイント割当 ◦ (2) 決定的方策:ユーザ特徴量に基づいて機械学習モデルに基づくポイント割当 • 評価方策 ◦ データ収集方策とは異なる機械学習モデルに基づく決定的方策 • 評価指標 ◦ 収益指標:データ収集方策の費用あたり予約数 ◦ OPE性能指標:復元抽出して算出したBIPSの収益推定値の標準偏差 • データ収集方策のサンプルサイズ ◦ あるサンプルサイズを基準に (1) と (2) ともに1%、100%で復元抽出 → サンプルサイズの違いよる結果の差異を検証 • データ収集方策の混合比の決定:グリッドサーチにて決定 数値実験:実データの設定 20
© Recruit Co., Ltd. All Rights Reserved • 収益とOPE性能:ランダム方策の混合比が増えるほどOPE性能は向上するが収益は減 •
サンプルサイズ:同じランダム方策の混合比でもサンプルサイズは大きいほどOPE性能は向上、 今回は費用一定のもとで検証としたため母集団が大きいほど収益増 • 意思決定の例:評価方策と過去の最良方策の性能差を考慮しつつ、評価結果のばらつきが 性能差よりも小さくなりつつ、最も収益が得られるように方策の混合比を決定 → 性能差が小さい場合には、ランダム方策混合比を増やし信頼性を高める 数値実験:実データの実験結果(方策混合比のパレートフロント) 収 益 指 標 収 益 指 標 データ収集方策のサンプルサイズ1% データ収集方策のサンプルサイズ100% ※縦軸、横軸はランダム方策100%を1とした値にそれぞれスケーリング 21 左上ほど良 OPE性能指標(標準偏差) OPE性能指標(標準偏差) ランダム 方策混合比 決定的方策は混合比が減り 費用が少なくなるほど費用対 効果が増加するため収益指標 は線形には減らない
© Recruit Co., Ltd. All Rights Reserved 発表の構成 • 背景と研究目的
• オフ方策評価(OPE)の既存手法 • 提案手法 • 数値実験 • まとめと課題 22
© Recruit Co., Ltd. All Rights Reserved まとめと今後の課題 • まとめ
◦ クーポン割当における短期の収益と将来のOPE性能のトレードオフを調整 する問題を、複数方策間の混合比を決定する2目的最適化問題として定式化 ◦ 2目的最適化問題のパレート最適解を用いた混合比決定法について実証 • 今後の課題 ◦ BIPSよりも高度なOPE手法の適用 ◦ クーポン割当以外の方策の探索と活用のトレードオフが存在する課題へ適用 • 詳細 ◦ Naoki Nishimura, Kobayashi Ken, and Nakata Kazuhide. Balancing immediate revenue and future off-policy evaluation in coupon allocation. arXiv preprint arXiv:2407.11039, 2024. (PRICAI2024 採択済み) 23