Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

⼤規模問題におけるオフ⽅策評価の課題と解決策 Off-Policy Evaluation for Large Action Spaces via Embeddings
(ICMLʼ22) 齋藤優太 (Yuta Saito)

簡単に⾃⼰紹介名前︓齋藤優太経歴︓東⼯⼤学部卒 (21.3) => Cornell Univ, CS PhD
(21.9-) 研究領域︓オフ⽅策評価 / 推薦・ランキングの公平性研究実績︓NeurIPS, ICML, KDD, SIGIR, WSDM, RecSysなどその他 - Forbes Japan 30 Under 30 2022 (with 佐々⽊朗希⼤投⼿ら) - ⽇本オープンイノベーション⼤賞内閣総理⼤⾂賞 - 孫正義育英財団第6期⽣ / 船井情報科学振興財団奨学⽣ - 施策デザインのための機械学習⼊⾨の執筆・出版 usaito

あらすじ前半 • オフ⽅策評価 (Off-Policy Evaluation; OPE) の基礎 • 重要推定量
(IPS推定量) の⼤規模問題における課題後半 (ICMLʼ22論⽂) • ⼤規模問題におけるIPS推定量(やそれに基づく全ての推定量) の課題を解決し、正確なオフ⽅策評価を可能にする新たな枠組みと推定量を提案

参考論⽂ • ⼤規模問題におけるオフ⽅策評価 • 重要推定量であるIPSの⽋陥を⼤幅改善 • ICML2022にて発表 (w/
Thorsten Joachims) https://arxiv.org/abs/2202.06317

機械学習による意思決定機械学習を予測のためではなく、意思決定のために活⽤する例が多数ユーザーアイテム推薦(⾏動)の意思決定クリック⽅策報酬の予測ではなく報酬の最⼤化がゴール

機械学習による意思決定のインダストリー応⽤新たに開発したアルゴリズム(⽅策)の性能をログデータのみを⽤いて安全かつ正確に評価したいオフ⽅策評価 (OPE) • YouTubeによる動画推薦 • Spotifyによるプレイリスト推薦 •
Netflixによるサムネイル最適化 • 共同研究先: Sony/CyberAgent/Yahoo/リクルート

⼤規模⾏動空間に対応できる推定量が現状存在しない.. 新たに開発したアルゴリズム(⽅策)の性能をログデータのみを⽤いて安全かつ正確に評価したい⼤規模問題数千から数百万という⼤量の⾏動(アイテム)に対応する必要オフ⽅策評価 (OPE) 最新の推定量でも対応が⾮常に困難
• YouTubeによる動画推薦 • Spotifyによるプレイリスト推薦 • Netflixによるサムネイル最適化 • 共同研究先: Sony/CyberAgent/Yahoo/リクルート

現在運⽤中の⽅策による蓄積データ特徴量 (ユーザー情報) を観測する現在の⽅策が⾏動 (アイテム) を選択する報酬 (クリック有無,
売上, etc) を観測するオフ⽅策評価では、現在の⽅策が⾃然に蓄積したログデータをフル活⽤データ蓄積の基本プロセス

オフ⽅策評価: Off-Policy Evaluation データ収集⽅策 (logging policy) によって蓄積されるログデータ where 未知未知
既知

オフ⽅策評価: Off-Policy Evaluation OPEのモチベーション: 未だ導⼊したことのない新たな⽅策の性能推定⽅策の性能 = 仮にその⽅策を実装したとしたときに得られる期待報酬 (CTR, CVR,
売上, etc.) 評価⽅策 (eval policy) 評価⽅策の性能 (policy value)

オフ⽅策評価: Off-Policy Evaluation 具体的には、できる限り正確な性能推定を可能にする推定量が欲しい where 真の性能 (未知, 推定対象) 推定量 (estimator)
新たな⽅策とは異なる古い⽅策が収集したログデータのみを活⽤

オフ⽅策評価: Off-Policy Evaluation 推定量の正確さは以下の Mean-Squared-Error; MSE により定量化 where 良い推定量を作るためにはバイアスとバリアンスを
共に抑えてあげる必要がある

オフ⽅策評価: Off-Policy Evaluation 古い⽅策を運⽤する中でログデータが⾃然と蓄積ログデータのみを⽤いてオフ⽅策評価新たな⽅策を開発新たな⽅策を A/Bテストor
運⽤新たな⽅策の性能が良好新たな⽅策の性能が微妙

基本推定量: Inverse Propensity Score (IPS) 重要度重み (importance weight) IPS推定量: 重要度により観測報酬を重み付け平均
• いくつかの仮定のもとで不偏性と⼀致性を持ち、真の性能に収束

IPS推定量の不偏性 IPS推定量は、真の性能に対する不偏かつ⼀致推定を達成なお、データ収集⽅策が評価⽅策に対して共通サポートを持つ必要がある

データ数の増加に対するIPSの挙動 DM推定量: 不偏ではないベースライン IPSはデータが少ないとき不安定だがデータが増えるにつれ真の値に収束⾏動数=250 データ数を徐々に増やしていくこの性質によりIPSがその他多くの推定量の基礎となっている⼩規模
⼤規模 where

⾏動数の増加に対するIPSの挙動データ数=3000 ⾏動数を徐々に増やしていく⼀⽅で、⾏動数が増えるにつれ分散が増加し、精度が急激に悪化⼩規模⼤規模⾏動数の増加により重要度重みが爆発 IPS推定量

より最近の発展的な推定量を使えば良いのでは︖ より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR
[Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤結局のところ⼤規模問題では分散かバイアスの問題を抱える Doubly Robust (DR) 推定量 IPSと同じ重要度重みに依存

より最近の発展的な推定量を使えば良いのでは︖ より最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR
[Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤結局のところ⼤規模問題では分散かバイアスの問題を抱える https://youtu.be/HMo9fQMVB4w この辺の詳細は我々のRecSysʼ21 チュートリアルを参照

発展的な推定量を⽤いたところで同様の問題が発⽣単に発展推定量を使うだけでは⼤規模⾏動空間に対応不可 DRはIPSと同様の⾮常に不安定な挙動を⾒せるその他の推定量は重要度重みに変更を加えるため⼤きなバイアスが発⽣⾏動数を徐々に増やしていく

本研究の主たるモチベーションより最近の発展的な推定量 • Doubly Robust (DR) [Dudik+11,14] • Switch DR
[Wang+17] • DR with Optimistic Shrinkage [Su+20] • DR with lambda-smoothing [Metelli+21] これら全ての推定量が IPSと同様の重みを使⽤結局のところ⼤規模問題では分散かバイアスの問題を抱える IPS推定量の利点 (不偏性など) をできる限り保持しつつ⼤規模⾏動空間における課題を解決する新たな推定量を作りたい (IPS推定量が使っている重要度重みの使⽤をどうにか回避する必要がありそう) Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for Large Action Spaces via Embeddings. ICML2022. 本研究のモチベーション

オフ⽅策評価の典型的なログデータ特徴量⾏動 ??? ??? 購⼊有無ユーザ 1 商品 A
??? ??? 1 ユーザ 2 商品 B ??? ??? 0 … … … … … アマゾン商品推薦におけるログデータの例

⾏動についての特徴量 (⾏動特徴量) が存在しているはず特徴量⾏動カテゴリー値段購⼊有無ユーザ 1
商品 A 書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … アマゾン商品推薦におけるログデータの例

鍵となるアイデア: ⾏動について通常観測されるはずの追加情報を活⽤ほとんどの場合、追加的に⾏動特徴量を観測するはず既存論⽂で⼀般的なログデータ⾏動特徴量を含むログデータ⾏動特徴量をオフ⽅策評価に活⽤しない理由はない

オフ⽅策評価における新たなデータ⽣成仮定典型的なデータ⽣成過程を以下のように⼀般化する未知未知既知未知⾏動特徴量の分布を新たに導⼊あらゆる⾏動特徴量を考慮可能 (離散/連続, 決定的/確率的,
etc..)

多種多様な⾏動特徴量の例特徴量⾏動カテゴリー値段購⼊有無ユーザ 1 商品 A
書籍 2000円 1 ユーザ 2 商品 B コンピュータ 10万円 0 … … … … … • 離散 • context⾮依存 • 決定的 • 連続 • context依存 • 確率的例えば、値段が確率的個別価格最適化アルゴリズムにより⽣成されていた場合

オフ⽅策評価における新たなデータ⽣成仮定⾏動特徴量をどのように活⽤すると⾏動数の増加に対応できるか︖ 未知未知既知未知⾏動特徴量の分布を新たに導⼊ *本研究の主⽬的は、ある⾏動特徴量が与えられたときにそれがOPEにどのような利益をもたらすかを分析/理解することであり、⾏動特徴量⾃体を表現学習等により最適化することなどはfuture work

提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を提案 Marginalized IPS (MIPS)
周辺重要度重みなおある⽅策が与えられたときの⾏動特徴量の周辺分布 (marginal distribution)

⾏動特徴量の周辺分布に基づく重要度重み映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF
0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 ⾏動特徴量⽅策と⾏動特徴量が与えられたら、周辺分布を即座に計算可能

⾏動特徴量の周辺分布に基づく重要度重み映画 (“a”) ⽅策: カテゴリ (“e”) 周辺分布: テネット 0.2 SF
0.4 ロッキー 0.1 スポーツ 0.6 スターウォーズ 0.2 SF 0.4 マネーボール 0.5 スポーツ 0.6 * 実践ではこの簡易具体例のように⾏動特徴量が1次元・離散である必要はない ** ⾏動 -> ⾏動特徴量の変換は確率的であっても良い⾏動特徴量

提案推定量: Marginalized Inverse Propensity Score (MIPS) ⾏動特徴量を活⽤した次のMIPS推定量を提案 IPSで使っていた重要度 Marginalized IPS
(MIPS) 周辺重要度重み諸悪の根源であるIPSの重要度の存在を消去 => 分散の⼤幅な改善が期待

• ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少 MIPS推定量が持つ望ましい性質 • IPS推定量とは異なる仮定のもとで不偏

MIPSはIPSとは異なる仮定のもとで不偏 No Direct Effectと共通embedサポートのもとでMIPSは不偏共通embedサポート: ⾏動特徴量空間のみ⼗分にカバーしていれば良い

MIPSはIPSとは異なる仮定のもとで不偏 No Direct Effectと共通embedサポートのもとでMIPSは不偏 • IPS推定量の利点 (不偏性+⼀致性) を基本的には保持 • No
Direct Effectの仮定とは︖

⾏動特徴量の質に関するNo Direct Effectの仮定⾏動の因果効果を説明できるだけの⼗分な情報量が⾏動特徴量に含まれているべき⾏動”a”から報酬“r” への因果効果はすべて“e”を媒介報酬への影響を完全に説明できる⾏動特徴量を観測している
⾏動⾏動特徴量報酬

⾏動特徴量の質に関するNo Direct Effectの仮定 MIPS推定量の不偏性に必要なNo Direct Effectの仮定すなわち

No Direct Effect Assumption: 具体例⾏動特徴量だけで視聴確率の違いを説明しきれていないので仮定は満たされない（=> 仮定を満たすためにはより⾼次元の⾏動特徴量が必要）映画 (“a”)
カテゴリ (“e”) 視聴確率 (“r”) テネット SF 10% ロッキースポーツ 5% スターウォーズ SF 20% マネーボールスポーツ 30%

No Direct Effect Assumption: 具体例⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている (カテゴリに⼗分な情報が含まれている) 映画 (“a”) カテゴリ
(“e”) 視聴確率 (“r”) テネット SF 10% ロッキースポーツ 5% スターウォーズ SF 20% マネーボールスポーツ 30%

MIPSはIPSとは異なる仮定のもとで不偏 • IPS推定量の利点 (不偏性+⼀致性)を基本的には保持 • No Direct Effectの仮定が満たされない場合でも、⾏動特徴量に多くの情報量を詰め込むことでバイアスを⼩さく抑制できる (詳しいバイアスの分析は論⽂のTheorem
3.5を参照) No Direct Effectと共通embedサポートのもとでMIPSは不偏

仮定が満たされない場合のバイアス分析 (Thm 3.5) Bias of MIPS (1) (2) No Direct
Effectの仮定がもしも満たされなかった場合...

仮定が満たされない場合のバイアス分析 (Thm 3.5) (1) ⾏動特徴量が与えられた時の⾏動の判別可能性バイアス減少のためには⾏動特徴量に多くの情報を詰め込むべき Bias of MIPS
(1) (2) No Direct Effectの仮定がもしも満たされなかった場合...

仮定が満たされない場合のバイアス分析 (Thm 3.5) (2) ⾏動“a”から報酬“r”への直接効果 (direct effect)の⼤きさバイアス減少のためには⾏動特徴量に多くの情報を詰め込むべき Bias
of MIPS (1) (2) No Direct Effectの仮定がもしも満たされなかった場合...

• ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少 MIPS推定量が持つ望ましい性質 • No Direct Effectと共通embedサポートのもとで不偏

MIPS推定量による分散の⼤幅な減少 (Thm 3.6) （前提として）MIPSの分散がIPSのそれよりも⼤きくなることはない IPS推定量とMIPS推定量の分散の差を計算

MIPSによる分散の減少 MIPSによる分散減少は次の場合に⼤きくなる • IPSが使っていた重要度の分散が⼤きい (⾏動数が多いほど分散改善) • ⾏動特徴量が有する情報量が多くない ( がstochastic) ⾏動特徴量で条件付けた⾏動分布

⾏動特徴量が有する情報量によりバイアスと分散が決定 • バイアスを減らす or 不偏になるためにはできる限りの情報を⾏動特徴量に詰め込むべき • 分散を減らすためには⾏動特徴量に詰め込む情報を制限すべき戦略的/意図的に⾏動特徴量の情報量を制限して No
Direct Effectを積極的に破ることでMSEをさらに改善可能 (⾏動特徴量をいくらか意図的に”捨てる”) MIPSのBias-Varianceトレードオフは⾏動特徴量の表現⼒によって制御されることが判明

⼈⼯データ実験 • ⽐較推定量 ◦ DM, IPS, DR (=DMとIPSの組み合わせ) ◦ MIPS
(estimated weight) and MIPS (true weight) • デフォルト設定 ◦ データ数: 10,000 & ⾏動数: 1,000 (これまで検証されてない⼤規模設定) ◦ 3次元の離散⾏動特徴量 ◦ 各次元の要素数は10, すなわち⾏動特徴量空間の総要素数は10^3=1,000 真の重みを⽤いたMIPS (MIPSにより達成可能な精度の上限)

MIPSは⼤規模問題におけるジレンマを解決⾏動数を徐々に増やしていく⼩規模⼤規模⾏動数が多いときにMIPSは IPSやDRより10倍以上正確特に⾏動数が増えるにつれて MIPS推定量の優位性が強調

MIPSは⼤規模問題におけるジレンマを解決データ数を徐々に増やしていく⼩規模⼤規模データ数を増やした時には MIPS推定量はIPS推定量のような振る舞いを⾒せる (IPS推定量の利点を保持) またデータが多いとき DM推定量より10倍以上正確

MIPSは⼤規模問題におけるジレンマを解決 MIPS推定量はデータ数と⾏動数の両⽅についてDM+IPS+DRを凌駕データ数の増加をフル活⽤⾏動数の増加に対して頑健 IPS&DR IPS&DR MIPS MIPS

仮定が満たされないときの⽅がMSEの意味では良い • 20次元ある⾏動特徴量を全て使った場合、no direct effect の仮定が満たされる • ⾏動特徴量の次元をあえて徐々に捨てていく
“あえて”使わない⾏動特徴量の次元を徐々に増やしていく no direct effectを意図的に破ることでMSEを改善可能

仮定が満たされないときの⽅がMSEの意味では良い観測されない特徴量次元が増えるにつれバイアスは増⼤⼀⽅、⾏動特徴量が粗くなることで分散が減少バイアス分散

⾏動特徴量の次元選択を⾏うことでMSEをさらに改善可能 “SLOPE” [Su et al.2020] に基づいた⾏動特徴量選択によりMSEの⾃動/データ駆動最適化が可能 (詳細は論⽂へ) Yi
Su, Pavithra Srinath, Akshay Krishnamurthy. Adaptive Estimator Selection for Off-Policy Evaluation. ICML2020.

MIPS推定量のその他の利点評価⽅策が決定的に近い報酬へのノイズが⼤きい⾏動数の増加に加え、MIPSは下記の実践的な設定で⾮常に頑健 deterministic uniform

全体のまとめ • OPEの根幹を成すIPS推定量には、⼤規模問題において重⼤な⽋陥 • IPSに根本的な改善をもたらすため、⾏動特徴量を導⼊することでこれまで全ての論⽂が⽤いてきたログデータ/データ⽣成過程を⼀般化 • ⾏動特徴量の周辺分布を活⽤した新たな推定量MIPSを提案 • これまで試されてこなかった⼤規模データを⽤いてMIPS推定量が
データ数及び⾏動数の増加に対し、DM/IPS/DRを凌駕する性能を発揮

全体のまとめ • OPEの根幹を成すIPS推定量には、⼤規模問題において重⼤な⽋陥 • IPSに根本的な改善をもたらすため、⾏動特徴量を導⼊することでこれまで全ての論⽂が⽤いてきたログデータ/データ⽣成過程を⼀般化 • ⾏動特徴量の周辺分布を活⽤した新たな推定量MIPSを提案 • これまで試されてこなかった⼤規模データを⽤いてMIPS推定量が
データ数及び⾏動数の増加に対し、DM/IPS/DRを凌駕する性能を発揮重みの定義を変えるだけでDRなどIPS推定量の派⽣として定義されるあらゆる推定量を秒で⼤幅に改善可能 (シンプルな⼿法を追求する利点)

Thank you! email: [email protected] 論⽂: https://arxiv.org/abs/2202.06317 実験実装: https://github.com/usaito/icml2022-mips OBPにも実装: https://github.com/st-tech/zr-obp

Appendix

⽅策の性能の新たな表現 no direct effectの仮定が正しいとき⾏動aに依存しない⽅策性能の新たな表現評価⽅策の真の性能

⽅策の性能の新たな表現なおある⽅策が与えられたときの⾏動特徴量の周辺分布 (marginal distribution) no direct effectの仮定が正しいとき

⽅策の性能の新たな表現 no direct effectの仮定が正しいとき⾏動aに依存しない⽅策性能の新たな表現⾏動特徴量の分布のみで⽅策の性能を⼗分表現可能元々のIPS推定量

データドリブンな⾏動特徴量選択 MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたいここでは、⾏動特徴量の各次元が多くの情報を含むとき⼩さいがあまり情報を含まないとき⼩さい

データドリブンな⾏動特徴量選択 • MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたい • しかしMSEを最⼩化するためにはバイアスを推定する必要があり、バイアスは評価対象の⽅策の真の性能に依存するため推定が困難評価⽅策の真の性能に依存

データドリブンな⾏動特徴量選択 • MIPSのMSEを最⼩化する⾏動特徴量の次元を知りたい • しかしMSEを最⼩化するためにはバイアスを推定する必要があり、バイアスは評価対象の⽅策の真の性能に依存するため推定が困難 • そこで “SLOPE” [Su+20]
[Tucker+21] を活⽤した次元選択を採⽤ • SLOPE はOPEにおける推定量のハイパラチューニングのために提案されバイアスを推定することなく、MSEを最⼩化することが (ある程度) 可能詳細は論⽂をぜひ

Marginalized Importance Weightの推定 • logging policyが既知だったとしても⾏動特徴量の分布が未知や扱いにくい場合はの推定が必要になる •
このmarginal importance weightの推定には次の変形を活⽤すると良いを推定してからと計算つまり、

Off-Policy Evaluation for Large Action Spaces v...

Off-Policy Evaluation for Large Action Spaces via Embeddings (ICML'22)

More Decks by usaito

Other Decks in Research

Featured

Transcript