Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Off-Policy Evaluation for Large Action Spaces v...

usaito
July 04, 2022

Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた新しい方策の性能評価を可能にするため、多くの実応用で急速に採用されている。しかし、行動数が多くなる場合に、既存の推定量(多くは傾向スコア重み付けに基づく)の精度が著しく悪化してしまう問題がある。これは、推薦システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。本講演では、この問題を解決するために、行動の埋め込み情報を活用した新たな推定量MIPSを提案する。またMIPSの重要な統計的性質を分析し、特に行動数が多い状況において、従来の推定量に対して統計的な利点をもたらすことを示す。最後に、MIPSが既存の推定量よりも行動数の増加に対して頑健であることを示す実験結果を紹介する。

usaito

July 04, 2022
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. 簡単に⾃⼰紹介 名前︓齋藤 優太 経歴︓東⼯⼤学部卒 (21.3) => Cornell Univ, CS PhD

    (21.9-) 研究領域︓オフ⽅策評価 / 推薦・ランキングの公平性 研究実績︓NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなど その他 - Forbes Japan 30 Under 30 2022 (with 佐々⽊朗希⼤投⼿ら) - ⽇本オープンイノベーション⼤賞 内閣総理⼤⾂賞 - 孫正義育英財団第6期⽣ / 船井情報科学振興財団奨学⽣ - 施策デザインのための機械学習⼊⾨の執筆・出版 usaito
  2. あらすじ 前半 • オフ⽅策評価 (Off-Policy Evaluation; OPE) の基礎 • 重要推定量

    (IPS推定量) の⼤規模問題における課題 後半 (ICMLʼ22論⽂) • ⼤規模問題におけるIPS推定量(やそれに基づく全ての推定量) の課題を解決し、正確なオフ⽅策評価を可能にする新たな 枠組みと推定量を提案
  3. 現在運⽤中の⽅策による蓄積データ 特徴量 (ユーザー情報) を観測する 現在の⽅策 が⾏動 (アイテム) を選択する 報酬 (クリック有無,

    売上, etc) を観測する オフ⽅策評価では、現在の⽅策が⾃然に蓄積したログデータをフル活⽤ データ蓄積の 基本プロセス
  4. より最近の発展的な推定量を使えば良いのでは︖ より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR

    [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤ 結局のところ⼤規模問題では 分散かバイアスの問題を抱える Doubly Robust (DR) 推定量 IPSと同じ重要度重みに依存
  5. より最近の発展的な推定量を使えば良いのでは︖ より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR

    [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤ 結局のところ⼤規模問題では 分散かバイアスの問題を抱える https://youtu.be/HMo9fQMVB4w この辺の詳細は 我々のRecSysʼ21 チュートリアルを参照
  6. 本研究の主たるモチベーション より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR

    [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤ 結局のところ⼤規模問題では 分散かバイアスの問題を抱える IPS推定量の利点 (不偏性など) をできる限り保持しつつ ⼤規模⾏動空間における課題を解決する新たな推定量を作りたい (IPS推定量が使っている重要度重みの使⽤をどうにか回避する必要がありそう) Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for Large Action Spaces via Embeddings. ICML2022. 本研究のモチベーション
  7. オフ⽅策評価の典型的なログデータ 特徴量 ⾏動 ??? ??? 購⼊有無 ユーザ 1 商品 A

    ??? ??? 1 ユーザ 2 商品 B ??? ??? 0 … … … … … アマゾン商品推薦におけるログデータの例
  8. ⾏動についての特徴量 (⾏動特徴量) が存在しているはず 特徴量 ⾏動 カテゴリー 値段 購⼊有無 ユーザ 1

    商品 A 書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … アマゾン商品推薦におけるログデータの例
  9. 多種多様な⾏動特徴量の例 特徴量 ⾏動 カテゴリー 値段 購⼊有無 ユーザ 1 商品 A

    書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … • 離散 • context⾮依存 • 決定的 • 連続 • context依存 • 確率的 例えば、値段が確率的個別 価格最適化アルゴリズムに より⽣成されていた場合
  10. 提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を提案 Marginalized IPS (MIPS)

    周辺重要度重み なお ある⽅策が与えられたときの ⾏動特徴量の周辺分布 (marginal distribution)
  11. ⾏動特徴量の周辺分布に基づく重要度重み 映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF

    0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 ⾏動特徴量 ⽅策と⾏動特徴量が与えられたら、周辺分布を即座に計算可能
  12. ⾏動特徴量の周辺分布に基づく重要度重み 映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF

    0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 * 実践ではこの簡易具体例のように⾏動特徴量が1次元・離散である必要はない ** ⾏動 -> ⾏動特徴量の変換は確率的であっても良い ⾏動特徴量
  13. 提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を提案 IPSで使っていた重要度 Marginalized IPS

    (MIPS) 周辺重要度重み 諸悪の根源であるIPSの重要度の存在を消去 => 分散の⼤幅な改善が期待
  14. No Direct Effect Assumption: 具体例 ⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている (カテゴリに⼗分な情報が含まれている) 映画 (“a”) カテゴリ

    (“e”) 視聴確率 (“r”) テネット SF 10% ロッキー スポーツ 5% スターウォーズ SF 20% マネーボール スポーツ 30%
  15. ⾏動特徴量が有する情報量によりバイアスと分散が決定 • バイアスを減らす or 不偏になるためには できる限りの情報を⾏動特徴量に詰め込むべき • 分散を減らすためには⾏動特徴量に詰め込む情報を制限すべき 戦略的/意図的に⾏動特徴量の情報量を制限して No

    Direct Effectを積極的に破ることでMSEをさらに改善可能 (⾏動特徴量をいくらか意図的に”捨てる”) MIPSのBias-Varianceトレードオフは ⾏動特徴量の表現⼒によって制御されることが判明
  16. ⼈⼯データ実験 • ⽐較推定量 ◦ DM, IPS, DR (=DMとIPSの組み合わせ) ◦ MIPS

    (estimated weight) and MIPS (true weight) • デフォルト設定 ◦ データ数: 10,000 & ⾏動数: 1,000 (これまで検証されてない⼤規模設定) ◦ 3次元の離散⾏動特徴量 ◦ 各次元の要素数は10, すなわち⾏動特徴量空間の総要素数は10^3=1,000 真の重みを⽤いたMIPS (MIPSにより達成可能な精度の上限)
  17. データドリブンな⾏動特徴量選択 • MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたい • しかしMSEを最⼩化するためにはバイアスを推定する必要があり、 バイアスは評価対象の⽅策の真の性能に依存するため推定が困難 • そこで “SLOPE” [Su+20]

    [Tucker+21] を活⽤した次元選択を採⽤ • SLOPE はOPEにおける推定量のハイパラチューニングのために提案され バイアスを推定することなく、MSEを最⼩化することが (ある程度) 可能 詳細は論⽂をぜひ
  18. Marginalized Importance Weightの推定 • logging policyが既知だったとしても⾏動特徴量の分布 が 未知や扱いにくい場合は の推定が必要になる •

    このmarginal importance weightの推定には次の変形を活⽤すると良い を推定してから と計算 つまり、