Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Off-Policy Evaluation of Ranking Policies under Diverse User Behavior (日本語版)

Off-Policy Evaluation of Ranking Policies under Diverse User Behavior (日本語版)

KDD2023 Research track 採択論文の解説スライド
https://arxiv.org/abs/2306.15098

English version: https://speakerdeck.com/harukakiyohara_/adaptive-ope-of-ranking-policies

Haruka Kiyohara

June 28, 2023
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. Off-Policy Evaluation of Ranking Policies under Diverse User Behavior Haruka

    Kiyohara, Masatoshi Uehara, Yusuke Narita, Nobuyuki Shimizu, Yasuo Yamamoto, Yuta Saito 清原 明加(Haruka Kiyohara) https://sites.google.com/view/harukakiyohara August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23 1
  2. ランキング推薦は⾄る所で使われている ランキング推薦の事例 August 2023 Adaptive OPE of Ranking Policies @

    KDDʼ23 2 • 検索エンジン • ⾳楽配信 • Eコマース • ニュース配信 • など沢⼭..! これらランキング推薦の 性能評価をオフラインでできる? … …
  3. ランキング推薦はどのように成り⽴っている? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    3 ranking with 𝑲 items a coming user context clicks reward(s) a ranking policy … ▼ これを評価したい
  4. オフ⽅策評価(Off-Policy Evaluation; OPE) August 2023 Adaptive OPE of Ranking Policies

    @ KDDʼ23 4 ranking with 𝑲 items a coming user context clicks reward(s) a logging policy an evaluation policy …
  5. ナイーブな⼿法: Inverse Propensity Scoring [Strehl+,10] August 2023 Adaptive OPE of

    Ranking Policies @ KDDʼ23 7 importance weight ・unbiased ・variance
  6. ナイーブな⼿法: Inverse Propensity Scoring [Strehl+,10] August 2023 Adaptive OPE of

    Ranking Policies @ KDDʼ23 8 importance weight evaluation logging ranking A ranking B more less less more ・unbiased ・variance
  7. ナイーブな⼿法: Inverse Propensity Scoring [Strehl+,10] August 2023 Adaptive OPE of

    Ranking Policies @ KDDʼ23 9 importance weight evaluation logging ranking A ranking B more less less more ・unbiased ・variance 分布シフトを補正している
  8. ナイーブな⼿法: Inverse Propensity Scoring [Strehl+,10] August 2023 Adaptive OPE of

    Ranking Policies @ KDDʼ23 10 importance weight evaluation logging ranking A more less ・unbiased ・variance 重みが⼤きくばらつきに繋がる
  9. ナイーブな⼿法: Inverse Propensity Scoring [Strehl+,10] August 2023 Adaptive OPE of

    Ranking Policies @ KDDʼ23 11 importance weight ・unbiased ・variance When 𝜋0 is the uniform random policy,
  10. ナイーブな⼿法: Inverse Propensity Scoring [Strehl+,10] August 2023 Adaptive OPE of

    Ranking Policies @ KDDʼ23 12 importance weight ・unbiased ・variance!! When 𝜋0 is the uniform random policy, (組み合わせ⾏動による)
  11. 仮定を導⼊すれば正確な推定ができるのか? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    15 Bias Variance IIPS RIPS IPS independent cascade standard click model IIPS: [Li+,18], RIPS: [McInerney+,20], IPS: [Precup+,00] ユーザー⾏動モデル (仮定) の強さにより 偏り (bias) -分散 (variance) のトレードオフ
  12. 仮定を導⼊すれば正確な推定ができるのか? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    16 Bias Variance IIPS RIPS IPS independent cascade standard click model IIPS: [Li+,18], RIPS: [McInerney+,20], IPS: [Precup+,00] これら既存の推定量は 実応⽤場⾯で本当に正確なのか..? ユーザー⾏動モデル (仮定) の強さにより 偏り (bias) -分散 (variance) のトレードオフ
  13. 例えば、検索ワードやこれまでの検索履歴によって変わりうる。 実世界では状況に応じ多様なユーザー⾏動が存在する August 2023 Adaptive OPE of Ranking Policies @

    KDDʼ23 18 検索ワード: clothes (一般的) -> 上位のアイテムのみを閲覧する 検索ワード: T-shirts (より詳しい) -> 沢山のアイテムを閲覧してからクリック clothes … T-shirts …
  14. 既存⼿法の問題:多様なユーザー⾏動に対応できない August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    21 Our idea データの偏りを 補正できない 真のユーザー⾏動仮定 ミスマッチが発⽣!
  15. 既存⼿法の問題:多様なユーザー⾏動に対応できない August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    22 Our idea 余分な分散が発⽣ 真のユーザー⾏動仮定 ミスマッチが発⽣!
  16. 提案アイデア:ユーザー⾏動に対して適応的に August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    23 提案アイデア adaptive! -> ユーザー⾏動仮定のミスマッチを減らせる!
  17. 提案アイデア:ユーザー⾏動に対して適応的に August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    24 提案アイデア … example of complex (1) 既存の仮定では捉えられない 複雑なユーザー⾏動 より多様なユーザー⾏動にも対応することで、 さらにミスマッチを減少!
  18. 提案推定量: Adaptive IPS August 2023 Adaptive OPE of Ranking Policies

    @ KDDʼ23 25 統計的に優れた点 • どんなユーザー行動に対しても不偏性を満たす。 • データの重みづけ補正に基づく全ての推定量の中で最小分散を実現。 importance weight を 依存するアイテムにのみ考える
  19. 偏りと分散のトレードオフを調整するには? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    31 action set 弱い仮定または仮定なしの場合 = 偏りが⼩さいが, 分散は⼤きくなる
  20. 偏りと分散のトレードオフを調整するには? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    32 action set 強い仮定 (例: IIPSのindependentなど) = 偏りは⼤きいが, 分散は⼩さくできる 弱い仮定または仮定なしの場合 = 偏りが⼩さいが, 分散は⼤きくなる
  21. 偏りと分散のトレードオフを調整するには? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    33 action set 強い仮定 (例: IIPSのindependentなど) = 偏りは⼤きいが, 分散は⼩さくできる 弱い仮定または仮定なしの場合 = 偏りが⼩さいが, 分散は⼤きくなる 偏りと分散の トレードオフが存在
  22. 偏りと分散のトレードオフを調整するには? August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    34 action set 𝒄 を正確に推定するより、 $ 𝒄 をより良い偏り-分散のトレードオフを 実現するために最適化できないか? 強い仮定 (例: IIPSのindependentなど) = 偏りは⼤きいが, 分散は⼩さくできる 弱い仮定または仮定なしの場合 = 偏りが⼩さいが, 分散は⼤きくなる
  23. 偏りと分散のトレードオフを調整するには? ユーザー⾏動 バイアス バリアンス MSE 真のユーザー⾏動 0.0 0.5 0.50 最適化したユーザー⾏動

    0.1 0.3 0.31 August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23 35 (バイアス)2 + バリアンス=MSE action set 𝒄 を正確に推定するより、 $ 𝒄 をより良い偏り-分散のトレードオフを 実現するために最適化できないか?
  24. 偏りと分散のトレードオフを調整するには? ユーザー⾏動 バイアス バリアンス MSE 真のユーザー⾏動 0.0 0.5 0.50 最適化したユーザー⾏動

    0.1 0.3 0.31 August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23 36 (バイアス)2 + バリアンス=MSE action set 𝒄 を正確に推定するより、 $ 𝒄 をより良い偏り-分散のトレードオフを 実現するために最適化できないか? これをcontext毎にやりたい!
  25. どうやってユーザー⾏動を 推定 最適化 すれば良い? August 2023 Adaptive OPE of Ranking

    Policies @ KDDʼ23 37 MSEを最小化するように 理論分析に基づき、推定したMSEを最⼩化するようにユーザー⾏動を最適化。
  26. どうやってユーザー⾏動を 推定 最適化 すれば良い? August 2023 Adaptive OPE of Ranking

    Policies @ KDDʼ23 38 MSE estimation: [Su+,20] [Udagawa+,23] MSEを最小化するように 理論分析に基づき、推定したMSEを最⼩化するようにユーザー⾏動を最適化。
  27. 多様なユーザー⾏動下で実験 August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23

    44 依存するポジションからの作用 (simple) (diverse) (complex) user behavior distributions
  28. 実データ実験 Eコマースサイトの実データで実験 August 2023 Adaptive OPE of Ranking Policies @

    KDDʼ23 52 75% 以上の試行で既存手法より正確に 特に最悪ケースの性能を改善
  29. References (1/2) [Saito+,21] Yuta Saito, Shunsuke Aihara, Megumi Matsutani, and

    Yusuke Narita. “Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/2008.07146 [Li+,18] Shuai Li, Yasin Abbasi-Yadkori, Branislav Kveton, S. Muthukrishnan, Vishwa Vinay, and Zheng Wen. “Offline Evaluation of Ranking Policies with Click Models.” KDD, 2018. https://arxiv.org/abs/1804.10488 [McInerney+,20] James McInerney, Brian Brost, Praveen Chandar, Rishabh Mehrotra, and Ben Carterette. “Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions.” KDD, 2020. https://arxiv.org/abs/2007.12986 [Strehl+,10] Alex Strehl, John Langford, Sham Kakade, and Lihong Li. “Learning from Logged Implicit Exploration Data.” NeurIPS, 2010. https://arxiv.org/abs/1003.0120 [Athey&Imbens,16] Susan Athey and Guido Imbens. “Recursive Partitioning for Heterogeneous Causal Effects.” PNAS, 2016. https://arxiv.org/abs/1504.01132 August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23 56
  30. References (2/2) [Kiyohara+,22] Haruka Kiyohara, Yuta Saito, Tatsuya Matsuhiro, Yusuke

    Narita, Nobuyuki Shimizu, and Yasuo Yamamoto. “Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model.” WSDM, 2022. https://arxiv.org/abs/2202.01562 [Su+,20] Yi Su, Pavithra Srinath, and Akshay Krishnamurthy. “Adaptive Estimator Selection for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/2002.07729 [Udagawa+,23] Takuma Udagawa, Haruka Kiyohara, Yusuke Narita, Yuta Saito, and Kei Tateno. “Policy-Adaptive Estimator Selection for Off-Policy Evaluation.” AAAI, 2023. https://arxiv.org/abs/2211.13904 August 2023 Adaptive OPE of Ranking Policies @ KDDʼ23 57