Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

6e166ed0b8cf24a9d5aef105dacf5db7?s=47 usaito
July 04, 2022

Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

文脈付きバンディットにおけるオフ方策評価は、過去のログデータのみを用いた新しい方策の性能評価を可能にするため、多くの実応用で急速に採用されている。しかし、行動数が多くなる場合に、既存の推定量(多くは傾向スコア重み付けに基づく)の精度が著しく悪化してしまう問題がある。これは、推薦システムや言語モデルなど、行動数が多くなりがちな応用において特に深刻な未解決問題である。本講演では、この問題を解決するために、行動の埋め込み情報を活用した新たな推定量MIPSを提案する。またMIPSの重要な統計的性質を分析し、特に行動数が多い状況において、従来の推定量に対して統計的な利点をもたらすことを示す。最後に、MIPSが既存の推定量よりも行動数の増加に対して頑健であることを示す実験結果を紹介する。

6e166ed0b8cf24a9d5aef105dacf5db7?s=128

usaito

July 04, 2022
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML2022) Yuta

    Saito (w/ Thorsten Joachims)
  2. 簡単に自己紹介 名前:齋藤 優太 経歴:東工大学部卒 (21.3) -> Cornell Univ, CS PhD

    (21.9-) 研究領域:オフ方策評価 / 推薦・ランキングの公平性 研究実績:NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなど その他 - 「私のブックマーク:反実仮想機械学習 」の執筆 - 「統計・機械学習 若手シンポジウム」などで招待講演 - 「施策デザインのための機械学習入門 」の執筆/出版 usaito
  3. あらすじ 前半 • オフ方策評価 (オフライン評価) の定式化 • 重要推定量 (IPS推定量)の大規模問題における課題 後半

    (ICML’22論文) • 大規模問題におけるIPS推定量の課題を解決し 正確なオフ方策評価を可能にする枠組みと推定量の提案 https://bit.ly/3R3fUs8 分野のイントロを 最近書きました
  4. 紹介する論文 • 大規模問題における オフ方策評価 • 重要推定量であるIPSの 欠陥を大幅改善 • ICML2022に採択 (w/

    Thorsten Joachims) https://arxiv.org/abs/2202.06317
  5. 機械学習による意思決定 機械学習を予測のためではなく、意思決定のために活用する例が多数 ユーザー アイテム推薦(行動)の意思決定 クリック 方策 報酬の予測ではなく 報酬の最大化がゴール

  6. 機械学習による意思決定のインダストリー応用 • YouTubeによる動画推薦 • Spotifyによるプレイリスト推薦 • Netflixによるサムネイル最適化 • Amazonにおける商品検索 新たに開発したアルゴリズム(方策)の性能を

    ログデータのみを用いて安全かつ正確に評価したい オフ方策評価
  7. 機械学習による意思決定のインダストリー応用 • YouTubeによる動画推薦 • Spotifyによるプレイリスト推薦 • Netflixによるサムネイル最適化 • Amazonにおける商品検索 新たに開発したアルゴリズム(方策)の性能を

    ログデータのみを用いて安全かつ正確に評価したい 大規模問題 数千から数百万という大量の行 動(アイテム)に対応する必要 オフ方策評価 既存の推定量では ほぼ対応不可能
  8. 現在運用中の方策による蓄積データ 特徴量 を観測する (ユーザ情報) 現在の方策 が行動 (アイテム) を選択する 報酬 を観測する

    (クリック) オフ方策評価では、現在の方策が蓄積したログデータをフル活用 : 行動数 (logging policy)
  9. オフ方策評価: Off-Policy Evaluation データ収集方策 (logging policy) によって蓄積したログデータ where 未知 未知

    既知
  10. オフ方策評価: Off-Policy Evaluation OPEのモチベーション: 未だ導入したことのない新たな方策の性能推定 方策の性能 = 仮にその方策を実装したとしたときに得られる期待報酬 評価方策 (eval

    policy) 評価方策の真の性能
  11. オフ方策評価: Off-Policy Evaluation 具体的には、(MSEの意味で) できる限り正確な推定量が欲しい where 真の性能 (未知, 推定対象) 推定量

    新たな方策とは異なる 古い方策が収集した ログデータ
  12. オフ方策評価: Off-Policy Evaluation 推定量の正確さは以下の Mean-Squared-Error; MSE により定量化 where バイアスとバリアンスを 共に抑えてあげる必要がある

  13. 基本推定量: Inverse Propensity Score (IPS) 重要度重み (importance weight) IPS: 重要度により観測報酬を重み付け平均

    実装・理解が非常に簡単+いくつかの望ましい性質 実務で非常に人気かつ他の推定量の重要な基礎となる
  14. IPS推定量の不偏性 IPS推定量は、真の性能に対して不偏(バイアス=ゼロ) なお、データ収集方策が評価方策に対して共通サポートを持つ必要がある かつ一致性も

  15. データ数の増加に対するIPSの挙動 DM: 不偏ではないベースライン IPSはデータが少ないとき不安定だが データが増えるにつれ真の値に収束 行動数=250 データ数を徐々に増やしていく この性質によりIPSがその他 多くの推定量の基礎となっている 小規模

    大規模 where より正確
  16. 行動数の増加に対するIPSの挙動 データ数=3000 行動数を徐々に増やしていく 一方で、行動数が増えるにつれ 分散が増加し、精度が急激に悪化 小規模 大規模 行動数の増加により 重要度重みが爆発 IPS推定量

    より正確
  17. より最近の発展的な推定量を使えば良い? より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR

    [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with \lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使用 結局のところ大規模問題では 分散かバイアスの問題を抱える
  18. 発展的な推定量を持ってしてもほぼ同様の問題が発生 発展的な推定量も大規模行動空間ではあまり使い物にならない number of actions DRはIPSとほぼ同様の性能 その他の推定量は 重要度重みに変更を加えるため 大きなバイアスが発生 (=DMと同じような性能に終始)

  19. Recent Advances: Combining DM and IPS より最近の発展的な推定量 • Doubly Robust

    (DR) [Dudik+11,14] • Switch DR [Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with \lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使用 結局のところ大規模問題では 分散かバイアスの問題を抱える IPS推定量の利点 (不偏性など) をできる限り保持しつつ 大規模行動空間における分散の問題を解決したい 重要度重みの爆発
  20. オフ方策評価の典型的なログデータ 特徴量 行動 ??? ??? 購入確率 ユーザ 1 商品 A

    ??? ??? 5% ユーザ 2 商品 B ??? ??? 2% … … … … … アマゾン商品推薦におけるログデータの例
  21. 行動についての特徴量 (行動特徴量) が存在しているはず 特徴量 行動 カテゴリー 値段 購入確率 ユーザ 1

    商品 A 書籍 2000円 5% ユーザ 2 商品 B コンピュータ 10万円 2% … … … … … アマゾン商品推薦におけるログデータの例
  22. アイデア: 行動について通常観測されるはずの追加情報(特徴量)を活用 追加的に行動特徴量を観測 既存論文で 一般的なログデータ 行動特徴量を含む ログデータ 行動特徴量をオフ方策評価に活用

  23. オフ方策評価における新たなデータ生成仮定 カテゴリ・値段・俳優・公開年・レビューコメントや画像の埋め込みなどなど あらゆる形式の行動特徴量に対応可能な汎用的な定式化 典型的なデータ生成過程を以下のように一般化する 未知 未知 既知 未知 行動特徴量の分布を新たに導入

  24. さまざまな行動特徴量 特徴量 行動 カテゴリー 値段 購入確率 ユーザ 1 商品 A

    書籍 2000円 5% ユーザ 2 商品 B コンピュータ 10万円 2% … … … … … アマゾン商品推薦におけるログデータの例 • 離散 • 特徴量に非依存 • 決定的 • 連続 • 特徴量に依存 • 確率的 例: 値段がプライシングア ルゴリズムにより決定
  25. オフ方策評価における新たなデータ生成仮定 行動特徴量をどのように活用すると行動数の増加に対応できるか? 典型的なデータ生成過程を以下のように一般化する 未知 未知 既知 未知 行動特徴量の分布を新たに導入

  26. 提案推定量: Marginalized Inverse Propensity Score (MIPS) 行動特徴量を活用した次のMIPS推定量を提案 IPSで使っていた重要度 Marginalized IPS

    (MIPS) 行動特徴量の周辺分布で定義される 周辺重要度 (marginal importance weight)
  27. 提案推定量: Marginalized Inverse Propensity Score (MIPS) なお ある方策が与えられたときの 行動特徴量の周辺分布 (marginal

    distribution) 行動特徴量を活用した次のMIPS推定量を提案 Marginalized IPS (MIPS)
  28. 行動特徴量の周辺分布 映画 (“a”) 方策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF

    0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 行動特徴量 (=実際は多次元になり得る) IPS推定量が用いる分布 MIPS推定量が用いる分布
  29. 提案推定量: Marginalized Inverse Propensity Score (MIPS) 諸悪の根源であるIPSの重要度の存在を消去 -> 分散の大幅な改善が期待 IPSで使っていた重要度

    行動特徴量を活用した次のMIPS推定量を提案 Marginalized IPS (MIPS)
  30. 行動数が多ければ多いほど、IPS推定量と比較して分散を大きく減少 MIPS推定量が持つ望ましい性質 IPS推定量とは異なる仮定の元で不偏

  31. 行動数が多ければ多いほど、IPS推定量と比較して分散を大きく減少 MIPS推定量が持つ望ましい性質 IPS推定量とは異なる仮定の元で不偏

  32. MIPSはIPSとは異なる仮定のもとで不偏 共通embedサポート: 行動特徴量空間のみ十分にカバーしていれば良い (=IPSの共通サポートよりも弱い仮定) “No direct effect” と “共通embedサポート” のもとでMIPSは不偏

  33. 鍵となるNo Direct Effect Assumption 行動特徴量の質・情報量に関するno direct effectの仮定 行動aから報酬“r” への 因果効果はすべて“e”を媒介

    報酬への影響を完全に説明できる 行動特徴量を観測している 行動 行動 特徴量 報酬 直接効果
  34. No Direct Effect Assumption: 具体例 映画 (“a”) カテゴリ (“e”) 視聴確率

    (“r”) テネット SF 10% ロッキー スポーツ 5% スターウォーズ SF 20% マネーボール スポーツ 30% ある特定のユーザxについて 行動特徴量だけで視聴確率の違いを説明しきれていないので仮定は満たされない 行動特徴量 仮定を満たすためにはより高次元の行動特徴量が必要
  35. No Direct Effect Assumption: 具体例 映画 (“a”) カテゴリ (“e”) 視聴確率

    (“r”) テネット SF 10% ロッキー スポーツ 20% スターウォーズ SF 10% マネーボール スポーツ 20% ある特定のユーザxについて 行動特徴量が同じであれば視聴確率も同じなので仮定が満たされている 行動特徴量
  36. MIPSはIPSとは異なる仮定のもとで不偏 • IPS推定量の利点 (不偏性+一致性)を基本的には保持 • No direct effectの仮定が満たされない場合でも、 行動特徴量に多くの情報量を詰め込むことでバイアスが減少 (詳しいバイアスの分析は論文のTheorem

    3.5を参照) “No direct effect” と “共通embedサポート” のもとでMIPSは不偏
  37. 仮定が満たされない場合のバイアス分析 (Thm 3.5) No direct effectの仮定がもしも満たされなかった場合.. Bias of MIPS (1)

    (2)
  38. 仮定が満たされない場合のバイアス分析 (Thm 3.5) No direct effectの仮定がもしも満たされなかった場合.. Bias of MIPS (1)

    (2) (1) 行動特徴量が与えられた ときの行動の判別可能性 バイアス減少のためには行動特徴量に多くの情報を詰め込むべき 行動特徴量が与えられたときの行動の条件付き分布
  39. 仮定が満たされない場合のバイアス分析 (Thm 3.5) No direct effectの仮定がもしも満たされなかった場合.. Bias of MIPS (1)

    (2) (2) 行動“a”から報酬“r”への 直接効果 (direct effect)の大きさ バイアス減少のためには行動特徴量に多くの情報を詰め込むべき
  40. 行動数が多ければ多いほど、IPS推定量と比較して分散を大きく減少 MIPS推定量が持つ望ましい性質 IPS推定量とは異なる仮定の元で不偏

  41. MIPS推定量による分散の大幅な減少 (Thm 3.6) (前提として)MIPSの分散が IPSの分散よりも大きくなることはあり得ない IPS推定量とMIPS推定量の分散の差を計算

  42. MIPSによる分散の減少 MIPSによる分散減少は次の場合に大きくなる • IPSが使っていた重要度の分散が大きい (行動数が多い) • 行動特徴量が有する情報量が多くない ( がstochastic) バイアス減少の時とは全く逆のモチベーション

    行動特徴量が与えられたときの行動の条件付き分布
  43. 行動特徴量が有する情報量によりバイアスと分散が決定 • バイアスを減らす or 不偏になるためには できる限りの情報を行動特徴量に詰め込むべき • 分散を減らすためには行動特徴量に詰め込む情報を制限すべき 戦略的/意図的に行動特徴量の情報量を制限しno direct

    effect の仮定をあえて破ることでMSEをさらに改善できる可能性 (行動特徴量をいくらか意図的に捨てるという上級テクがあり得る) バイアス/バリアンストレードオフが 行動特徴量の情報量によって制御される
  44. 人工データ実験 • 比較推定量 ◦ DM, IPS, DR (=DMとIPSの組み合わせ) ◦ MIPS

    (estimated) and MIPS (true) • デフォルト実験設定 ◦ データ数: 10000, 行動数: 1000 (これまで検証されてこなかった大規模設定 ) ◦ 3次元の離散行動特徴量 ◦ 各次元の要素数は10, すなわち行動特徴量空間の総要素数は10^3=1,000 真の重みを用いたMIPS (MIPSにより達成可能な精度の上限)
  45. MIPSは大規模問題におけるジレンマを解決 行動数が多い時MIPSはIPSやDRに 対して少なくとも10倍以上正確 特に行動数が増えるにつれて MIPS推定量の優位性が強調 行動数を徐々に増やしていく 小規模 大規模 より正確 データ数は10,000で固定

  46. MIPSは大規模問題におけるジレンマを解決 データ数を徐々に増やしていく 小規模 大規模 データ数を増やした時には MIPS推定量はIPS推定量や DR推定量よりも早く収束 データが多いときベースラインである DM推定量より10倍以上正確 行動数は1,000で固定

  47. MIPSは大規模問題におけるジレンマを解決 MIPS推定量はデータ数と行動数の両方についてDM+IPS+DRを凌駕 データ数の増加をフル活用 行動数の増加に対して頑健 IPS&DR IPS&DR MIPS MIPS 行動数の増加 データ数の増加

  48. 仮定が満たされない時の方がMSEの意味では良い • 20次元の行動特徴量(“e”)を生成 • 全ての次元を使うとno direct effect の仮定が満たされる • 行動特徴量の次元をあえて

    徐々に捨てていく “あえて”使わない行動特徴量の次元を徐々に増やしていく no direct effectを意図的に 破ることでMSEを改善可能 MIPS is unbiased
  49. 仮定が満たされない時の方がMSEの意味では良い 観測されない特徴量次元が 増えるにつれバイアスは増大 一方、行動特徴量が 粗くなることで分散が減少 バイアス 分散

  50. 行動特徴量の次元選択を行うことでMSEを改善 “SLOPE” [Su et al.2020] に基づいた行動特徴量選択 により自動/データ駆動の MSE最適化が可能 徐々に行動特徴量の次元を 捨てていくアルゴリズム

    (詳細は論文へ)
  51. MIPS推定量のその他の利点 評価方策が決定的に近い 報酬へのノイズが大きい 行動数の増加のみならず、MIPSは下記の実践的な設定でも非常に頑健 deterministic uniform

  52. 全体のまとめ • オフ方策評価の基礎を成すIPS推定量には、大規模問題において重大な欠陥 • IPSに根本的な改善をもたらすため、行動特徴量を導入することで これまで全ての論文が用いてきたログデータ/データ生成過程を一般化 • 行動特徴量の周辺分布を活用した新たな推定量MIPSを提案 • これまで試されてこなかった大規模のデータに対して

    MIPSがデータ数及び行動数の増加に対し、DM/IPS/DRを凌駕する性能を発揮 • IPSの派生や修正によって定義されるあらゆる推定量をいとも簡単に改善可能
  53. Thank you! email: ys552@cornell.edu 論文: https://arxiv.org/abs/2202.06317 実装: https://github.com/usaito/icml2022-mips OBP: https://github.com/st-tech/zr-obp

    Video: https://youtu.be/Hrqhv-AsMRE
  54. Appendix

  55. データドリブンな行動特徴量選択 MIPSのMSEを最小化する行動特徴量の次元を知りたい ここで は、行動特徴量の各次元 が多くの情報を含むとき小さい があまり情報を含まないとき小さい

  56. データドリブンな行動特徴量選択 • MIPSのMSEを最小化する行動特徴量の次元を知りたい • しかしMSEを最小化するためにはバイアスを推定する必要があり、 バイアスは評価対象の方策の真の性能に依存するため推定が困難 評価方策の真の性能に依存

  57. データドリブンの”embedding dimension selection” • MIPSのMSEを最小化する行動特徴量の次元を知りたい • しかしMSEを最小化するためにはバイアスを推定する必要があり、 バイアスは評価対象の方策の真の性能に依存するため推定が困難 • そこで

    “SLOPE” [Su+20] [Tucker+21] を活用した次元選択を採用 • SLOPE はOPEにおける推定量のハイパラチューニングのために提案されバイ アスを推定することなく、MSEを最小化することが (ある程度) 可能 詳細は論文をぜひ
  58. Marginal Importance Weightの推定 • logging policyが既知だったとしても行動特徴量の分布 は 多くの場合未知であるため の推定が必要になる •

    このmarginal importance weightの推定には次の変形を活用すると良い を推定してから と計算 つまり、