MIPS推定量を開発したモチベーション
IPS推定量の利点 (不偏性など) をできる限り保持しつつ
⼤規模⾏動空間における課題を解決する新たな推定量を作りたい
(どうやらIPS推定量が使っている重要度重みの使⽤を回避する必要がありそう)
Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for
Large Action Spaces via Embeddings. ICML2022.
我々の⼀連の研究のモチベーション
より最近の発展的な推定量
● Doubly Robust (DR) [Dudik+11,14]
● Switch DR [Wang+17]
● DR with Optimistic Shrinkage [Su+20]
● DR with Lambda-Smoothing [Metelli+21]
これら全ての推定量が
IPSと同様の重みを使⽤
結局のところ⼤規模問題では
分散かバイアスの問題を抱える
No Direct Effect Assumption: 具体例
⾏動特徴量だけで視聴確率の違いを説明しきれていないので仮定は満たされない
(=> 仮定を満たすためにはより⾼次元の⾏動特徴量が必要)
映画 (“a”) カテゴリ (“e”) 視聴確率 (“r”)
テネット SF 10%
ロッキー スポーツ 5%
スターウォーズ SF 20%
マネーボール スポーツ 30%
Slide 38
Slide 38 text
No Direct Effect Assumption: 具体例
⾏動特徴量が同じであれば視聴確率も同じなので仮定が満たされている
(カテゴリに⼗分な情報が含まれている)
映画 (“a”) カテゴリ (“e”) 視聴確率 (“r”)
テネット SF 20%
ロッキー スポーツ 10%
スターウォーズ SF 20%
マネーボール スポーツ 10%
Slide 39
Slide 39 text
MIPSはIPSとは異なる仮定のもとで不偏
● IPS推定量の利点 (不偏性 + ⼀致性) を基本的には保持
● No Direct Effectの仮定が満たされない場合でも、⾏動特徴量に
多くの情報量を詰め込むことでバイアスを⼩さく抑制できる
(詳しいバイアスの分析は論⽂のTheorem 3.5を参照)
No Direct Effectの仮定もとでMIPSは不偏
Slide 40
Slide 40 text
● ⾏動数が多ければ多いほど、IPS推定量と⽐較して分散を⼤きく減少
MIPS推定量が持つ望ましい性質
● No Direct Effectと共通embedサポートのもとで不偏
⾏動特徴量が有する情報量によりバイアス-バリアンスが決定
● バイアスを減らす or 不偏になるためには
できる限りの情報を⾏動特徴量に詰め込むべき
● バリアンスを減らすためには⾏動特徴量の情報量を制限すべき
戦略的/意図的に⾏動特徴量の情報量を制限して
No Direct Effectを積極的に破ることでMSEをさらに改善可能
(⾏動特徴量をいくらか意図的に”捨てる”)
MIPSのBias-Varianceトレードオフは
⾏動特徴量の表現⼒によって制御される
Slide 44
Slide 44 text
仮定が満たされない時の⽅がMSEの意味では良い
● 20次元ある⾏動特徴量を全て
使った場合、no direct effect
の仮定が満たされる
● ⾏動特徴量の次元をあえて
徐々に捨てていく
“あえて”使わない⾏動特徴量の次元を徐々に増やしていく
no direct effectを意図的に
破ることでMSEを改善可能
MIPS推定量の利点まとめ
● MIPSは⾏動特徴量を活⽤したかなり汎⽤・強⼒な枠組み
● no direct effectのもとで不偏で、⼤規模問題において⼤きな分散減少
● ⾏動特徴量の情報量によりbias-variance trade-offを制御可能
(no direct effectをあえて破ることによりMSEを改善できることがある)
誰にでもすぐに思い付く拡張の例: Marginalized Doubly Robust (MDR)
Yuta Saito, Thorsten Joachims. Off-Policy Evaluation for
Large Action Spaces via Embeddings. ICML2022.
Slide 47
Slide 47 text
MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma
批判的に⾒るとMIPSは未だ困難なbias-varianceのジレンマを抱えている
● ⾼次元 (でかつdeterministic)な⾏動特徴量が与えられたとき
にIPS推定量とほぼ同等の⼤きなバリアンスが発⽣
(バリアンス減少の式を参照)
● 分散の問題を避けるために意図的に⾏動特徴量の次元削減を
⾏うこともできるが、そうするとno direct effectが
満たされなくなり、⼤きなバイアスが発⽣する可能性
Slide 48
Slide 48 text
MIPSの弱点: No Direct Effectに関するBias-Variance Dilemma
⾏動と⾏動特徴量がほぼ1対1対応になる設定でMIPSを再検証
IPS/MIPS/DRの
全てが⾏動数の
増加に脆弱
IPS/MIPS/DRの
全てがデータ数
の減少に脆弱
ログデータサイズ ⾏動の数
結局どの既存推定量もデータ数の減少や⾏動数の増加に対応できない
グラフの縦軸
= 推定量のMSE