Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

usaito
May 02, 2023

Off-Policy Evaluation and Learning for Large Action Spaces via Conjunct Effect Modeling (ICML23)

文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた方策のオフライン性能評価を可能にする。しかし、行動数が多くなる場合に、傾向スコアに基づく既存推定量が精度を著しく悪化してしまう問題がある。これは、推薦・検索システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。この問題を解決すべく、昨年我々は、行動やアイテムに関する特徴量・埋め込みを活用した新たなMIPS推定量(ICML2022)を開発した。MIPSは特に大規模問題において既存推定量を凌駕するオフライン評価精度を発揮するが、行動特徴量が高次元の場合に、バイアスまたはバリアンスのどちらかが大きくなってしまう問題を抱える。よって、MIPSの問題点を解決し大規模問題におけるオフライン評価の精度をさらに向上させるために、報酬関数の新たな分解に基づいて定義されるOffCEMという推定量を新たに提案する。また特に行動数が多い状況や行動の特徴量が高次元の場合に、OffCEMが大きな統計的利点をもたらすことを示す。最後に、OffCEMが既存推定量よりも行動数の増加に対して非常に頑健であることを示す実験結果を紹介する。

usaito

May 02, 2023
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. 齋藤優太 ( https://usait0.com/ja/ ) 経歴︓東⼯⼤学部卒 (21.3) => Cornell Univ, CS

    PhD (21.9-) 研究領域︓オフ⽅策評価 / 推薦・ランキングの公平性 研究実績︓NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなど その他 - Forbes Japan 30 Under 30 2022 (with 佐々⽊朗希投⼿ら) - ⽇本オープンイノベーション⼤賞 内閣総理⼤⾂賞 - 孫正義育英財団第6期⽣ / 船井情報科学振興財団奨学⽣ - 施策デザインのための機械学習⼊⾨の執筆・出版 - RecSysやKDDでチュートリアル・ワークショップの開催 - ⽇本国内5-6社と共同研究・CFML関連の技術相談 usaito
  2. あらすじ 前半 • オフ⽅策評価 (Off-Policy Evaluation) の基礎と⼤規模問題における課題 • ⾏動特徴量を利⽤した既存の解決策 (MIPS推定量,

    ICMLʼ22) 後半 • MIPS推定量に残された課題 • MIPS推定量の課題を解決する新たな枠組み ”Conjunct Effect Model”とOffCEM推定量の提案 (ICML23採択)
  3. 現在運⽤中の⽅策による蓄積データ 特徴量 (ユーザー情報) を観測する 現在の⽅策 が⾏動 (アイテム) を選択する 報酬 (クリック有無

    / 売上) を観測する データ蓄積の 基本プロセス オフ⽅策評価では、現在の⽅策が⾃然に蓄積したログデータをフル活⽤
  4. オフ⽅策評価: Off-Policy Evaluation OPEのモチベーション: 未だ導⼊したことのない新たな⽅策の性能推定 ⽅策の性能 = 仮にその⽅策を実装したとしたときに得られる期待報酬 (CTR, CVR,

    売上, etc.) 評価⽅策 (eval policy) 評価⽅策の性能 (policy value) ⽅策の性能の定義は他にもあり得る: https://arxiv.org/abs/2104.08977
  5. オフ⽅策評価: Off-Policy Evaluation 古い⽅策を運⽤する中でログデータ が⾃然と蓄積 新たな⽅策 を開発 新たな⽅策を A/Bテストor 運⽤

    新たな⽅策の 性能が良好 新たな⽅策の 性能が微妙 ログデータのみを⽤いたオフ⽅策評価
  6. より最近の発展的な推定量を使えば良いのでは︖ より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR

    [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with Lambda-Smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤ 結局のところ⼤規模問題では 分散かバイアスの問題を抱える Doubly Robust(DR)推定量 IPSと全く同じ重要度重み 報酬の予測モデルを組み込み バリアンスを多少減少
  7. より最近の発展的な推定量を使えば良いのでは︖ https://youtu.be/HMo9fQMVB4w 詳細はRecSysʼ21で ⾏ったチュートリアル の動画を参照 RecSysチャンネルの全動画の中で6番⽬に多く再⽣されている より最近の発展的な推定量 • Doubly Robust

    (DR) [Dudik+11,14] • Switch DR [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with Lambda-Smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤ 結局のところ⼤規模問題では 分散かバイアスの問題を抱える
  8. MIPS推定量を開発したモチベーション IPS推定量の利点 (不偏性など) をできる限り保持しつつ ⼤規模⾏動空間における課題を解決する新たな推定量を作りたい (どうやらIPS推定量が使っている重要度重みの使⽤を回避する必要がありそう) Yuta Saito, Thorsten Joachims.

    Off-Policy Evaluation for Large Action Spaces via Embeddings. ICML2022. 我々の⼀連の研究のモチベーション より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with Lambda-Smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤ 結局のところ⼤規模問題では 分散かバイアスの問題を抱える
  9. オフ⽅策評価の典型的なログデータ 特徴量 ⾏動 ??? ??? 購⼊有無 ユーザ 1 商品 A

    ??? ??? 1 ユーザ 2 商品 B ??? ??? 0 … … … … … 商品推薦問題におけるログデータの例
  10. (ICMLʼ22) 通常⾏動の特徴量(⾏動特徴量)が存在しているはず 特徴量 ⾏動 カテゴリー 値段 購⼊有無 ユーザ 1 商品

    A 書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … 商品推薦問題におけるログデータの例
  11. 多種多様な⾏動特徴量の例 特徴量 ⾏動 カテゴリー 値段 購⼊有無 ユーザ 1 商品 A

    書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … • 離散 • context⾮依存 • 決定的 • 連続 • context依存 • 確率的 もし値段が確率的かつ個別 価格最適化アルゴリズムに より⽣成されていた場合
  12. 提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を昨年提案 (ICMLʼ22) Marginalized IPS

    (MIPS) 周辺重要度重み なお ある⽅策が与えられたときの ⾏動特徴量の周辺分布 (marginal distribution)
  13. ⾏動特徴量の周辺分布に基づく重要度重み 映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF

    0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 ⾏動特徴量 ⽅策と⾏動特徴量が与えられたら、周辺分布を即座に計算可能
  14. MIPSはIPSとは異なる仮定のもとで不偏 • IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持 • No Direct

    Effectの仮定とは︖ No Direct Effectと共通embedサポートのもとでMIPSは不偏
  15. No Direct Effect Assumption: 具体例 ⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている (カテゴリに⼗分な情報が含まれている) 映画 (“a”) カテゴリ

    (“e”) 視聴確率 (“r”) テネット SF 20% ロッキー スポーツ 10% スターウォーズ SF 20% マネーボール スポーツ 10%
  16. MIPSはIPSとは異なる仮定のもとで不偏 • IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持 • No Direct

    Effectの仮定が満たされない場合でも、⾏動特徴量に 多くの情報量を詰め込むことでバイアスを⼩さく抑制できる (詳しいバイアスの分析は論⽂のTheorem 3.5を参照) No Direct Effectの仮定もとでMIPSは不偏
  17. MIPS推定量の利点まとめ • MIPSは⾏動特徴量を活⽤したかなり汎⽤・強⼒な枠組み • no direct effectのもとで不偏で、⼤規模問題において⼤きな分散減少 • ⾏動特徴量の情報量によりbias-variance trade-offを制御可能

    (no direct effectをあえて破ることによりMSEを改善できることがある) 誰にでもすぐに思い付く拡張の例: Marginalized Doubly Robust (MDR) Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for Large Action Spaces via Embeddings. ICML2022.
  18. MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma 批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている • ⾼次元 (でかつdeterministic)な⾏動特徴量が与えられたとき にIPS推定量とほぼ同等の⼤きなバリアンスが発⽣

    (バリアンス減少の式を参照) • 分散の問題を避けるために意図的に⾏動特徴量の次元削減を ⾏うこともできるが、そうするとno direct effectが 満たされなくなり、⼤きなバイアスが発⽣する可能性
  19. MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma ⾏動と⾏動特徴量がほぼ1対1対応になる設定でMIPSを再検証 IPS/MIPS/DRの 全てが⾏動数の 増加に脆弱 IPS/MIPS/DRの

    全てがデータ数 の減少に脆弱 ログデータサイズ ⾏動の数 結局どの既存推定量もデータ数の減少や⾏動数の増加に対応できない グラフの縦軸 = 推定量のMSE
  20. MIPS推定量をさらに改善する研究へのモチベーション どうすればこのno direct effectに関連した MIPS推定量のBias-Variance Dilemmaを解決できるか︖ 新たな研究へのモチベーション 批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている • ⾼次元

    (でかつdeterministic) な⾏動特徴量が与えられたときにIPS推定量 とほぼ同等の⼤きなバリアンスが発⽣ (バリアンス減少の式を参照) • 分散の問題を避けるために意図的に⾏動特徴量の次元削減を⾏うことも できるが、そうすると今度は⼤きなバイアスが発⽣する可能性
  21. ジレンマの解決へ向けたアイデア: Conjunct Effect Model 期待報酬関数 特徴量効果 残差効果 Conjunct Effect Model

    (CEM): 報酬関数を2つの効果に分解する = • は⽣の⾏動特徴量 or 次元圧縮等の処理が施された低次元⾏動特徴表現 • CEMは仮定というより単なる報酬関数の1つの便利な表現に過ぎない • 残差効果は⾏動と⾏動特徴量の交互作⽤効果 (interaction effect) と ⾏動による直接効果 (direct effect) の和と考えられるが、ここでは 特徴量効果に興味があるため残差効果としてひとつにまとめている +
  22. ジレンマの解決へ向けたアイデア: Conjunct Effect Model 期待報酬関数 特徴量効果 残差効果 = + •

    は⽣の⾏動特徴量 or 次元圧縮等の処理が施された低次元⾏動特徴表現 • なおMIPS推定量が頼っていたno direct effectの仮定は、 CEMにおける残差効果を完全に無視する仮定として再解釈できる Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する
  23. ジレンマの解決へ向けたアイデア: Conjunct Effect Model 期待報酬関数 特徴量効果 残差効果 = 特徴量効果 残差効果

    (MIPSでは完全無視) Conjunct Effect Model (CEM): 報酬関数を2つの効果に分解する +
  24. ここからはCEMの簡易バージョンを⽤いて話を進める 期待報酬関数 特徴量効果 残差効果 General Conjunct Effect Model: ⾏動特徴量 は連続かつで多次元であって良い

    特に便利な特殊ケースとして、⾏動特徴量がクラスターの場合を扱う なお は⾏動のクラスタリング関数 (may be learned from data) 期待報酬関数 クラスター効果 残差効果 = + = +
  25. CEMを眺めると全く新たな推定量が頭に浮かんでくる 映画 (“a”) カテゴリ カテゴリ効果 (g) 残差効果 (h) 期待報酬 (q)

    テネット SF 0.15 0.10 0.25 ロッキー スポーツ 0.30 -0.10 0.20 スターウォーズ SF 0.15 -0.05 0.10 マネーボール スポーツ 0.30 0.05 0.35 • 例えば映画のカテゴリ情報 ( ) により期待報酬のうちおよそ70%が 説明され、残りのおよそ30%が個別の映画の情報により決まっているとする
  26. 局所的に正確 (Locally Correct) な回帰モデルの例 0 1 2 3 0 1

    4 1 3 2 3 0 1 0 3 1 • 局所正確性の仮定は異なる⾏動クラスター間の関係性に ついては何も要求していないことに注意 • 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い • また局所的に正確な回帰モデルは無限に存在し得る
  27. 局所的に正確 (Locally Correct) な回帰モデルの例 0 1 2 3 0 1

    4 1 3 2 50 47 - 20 - 21 3 1 • 局所正確性の仮定は異なる⾏動クラスター間の関係性に ついては何も要求していないことに注意 • 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い • また局所的に正確な回帰モデルは無限に存在し得る
  28. 局所的に正確 (Locally Correct) な回帰モデルの例 0 1 2 3 0 1

    4 1 3 2 4 1 3 2 3 1 • 局所正確性の仮定は異なる⾏動クラスター間の関係性に ついては何も要求していないことに注意 • 局所正確性の仮定は報酬関数(“q”)⾃体を知っていることよりも明らかに弱い • また局所的に正確な回帰モデルは無限に存在し得る
  29. OffCEM推定量の不偏性 • IPS/MIPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持 • 局所正確性の仮定はno direct

    effectや真の期待報酬関数を 知っていることよりも弱い仮定 (つまりMIPSより不偏になりやすい) • 局所正確性の仮定が満たされないときOffCEM推定量のバイアスは︖ 局所正確性と共通clusterサポートのもとでOffCEMは不偏
  30. 仮定が満たされない場合のバイアス分析 (Thm 3.5) Bias of OffCEM (1) (2) (1) relative

    value difference の推定精度 (2) 各⾏動クラスター内での ⽅策の類似性 によりOffCEM推定量のバイアスが決定 local correctnessが正しいときゼロになる
  31. ここまでのまとめ • MIPS推定量は汎⽤的で有効な分散減少法だが、no direct effect の仮定に関して重⼤なbias-variance dilemmaを抱える • no direct

    effectの仮定を排除すべく、MIPSの定式化をさらに ⼀般化したConjunct Effect Model (CEM) を採⽤ • CEMに基づき、クラスター効果をmodel-freeに 残差効果をmodel-basedに推定するOffCEMを提案 • OffCEMは、局所正確性という新たな仮定のもとで不偏性を 保ちつつIPS/MIPS/DRに対しバリアンスを⼤幅に改善 • さらに統計分析に基づき、1段階⽬でバイアスを、2段階⽬で分散を それぞれ最⼩化する回帰モデルの2段階最適化法を提案
  32. ⼈⼯データ実験 • ベースライン ◦ DM, IPS, DR, MIPS (w/ true

    marginal importance weight) ◦ OffCEM (w/ 真の⾏動クラスター + 2段階回帰) • デフォルト実験設定 ◦ データ数: 3,000、⾏動数: 1,000, ⾏動クラスター数: 50 ◦ 5次元の離散⾏動特徴量 ◦ 各次元の要素数は10、すなわち⾏動特徴量の総要素数は10^5=100,000
  33. w f MIPS 0 + clustering 0 + regression +

    clustering & one-step reg + clustering & two-step reg Ablation Study 我々の 提案 提案推定量の 構成要素を 徐々に加える 基本形
  34. まとめと今後 • オフ⽅策評価の新たな定式化として、期待報酬関数を特徴量/クラスター効果と 残差効果に分解するConjunct Effect Model; CEMを導⼊ • CEMに基づいたOffCEM推定量は、回帰モデルの局所正確性のもとで不偏であり、 またIPS,

    DR, MIPSなどのベンチマークよりも優れた統計性能を発揮 • さらに統計分析に基づき、1段階⽬でバイアスを、2段階⽬で分散を それぞれ最⼩化する回帰モデルの2段階最適化法を提案 • ⼈⼯・実データ実験において、特に困難な問題において提案推定量がMSEに ⼤きな改善をもたらすことや2段階回帰によるバイアス減少効果を観測 • Future workとして、⾏動の表現学習やoff-policy learningへの拡張を進⾏中