テック企業でRCTってやりやすい?
● 確かにテック企業ではRCTはやりやすい
● ビジネス上の意思決定において重要な役割を担っているが...
18
over 20000 test / year
over 500 test / year
参考: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing
報酬のオフライン評価の難しさ
33
context candidate
X1
a,b,c,d,e a d
X2
a,b,c c c
eval
NA
1
click
0
1
old
logic
new
logic
旧ロジックと新ロジックの選択が異なる
場合,クリック有無は観測不可能
一致した場合,クリック有無を観測可能
Biased!!!
たとえば,選択が一致したものだけで評価を行う ...?
配信データ シミュレーション
Replay Methodの例
36
context candidate
X1
a,b,c,d,e a d
X2
a,b,c c c
X3
c,d d d
X4
a,c,d a a
X5
a,d,e,f,g e f
eval
NA
1
0
1
NA
click
0
1
0
1
1
評価に使う
新ロジックをオフラインで評価した際の
クリック率は2/3
評価に使わない
評価に使わない
配信データ シミュレーション
Inverse Propensity Weighting (IPW)
40
40
X Y_A
X1 1 a b
X2 1 c c
X3 0 b b
X4 1 a a
X5 1 b c
eval
NA
1
0
1
NA
Aが選ばれる条件付き確率
Propensity Score
selected arm
selected arm
Slide 41
Slide 41 text
IPW (Estimated)
41
X Y_A
X1 1 a b
X2 1 c c
X3 0 b b
X4 1 a a
X5 1 b c
eval
NA
1
0
1
NA
Estimated Propensity
Score
by Logistic Regression, GBDT,
Random Forest
真のPSを用いるより推定されたPSを用いることで,オフライン評価の分散が小さくなる
参考リンク
● 企業の中の経済学 by Yusuke Kaneko
● Bandit Algorithm and Causal Inference by Yasui Shota
● Unbiased Offline Evaluation of Contextual-bandit-based News Article
Recommendation Algorithms
● Efficient Counterfactual Learning from Bandit Feedback
● A Contextual Bandit Algorithm for Ad Creative under Ad Fatigue
● A Feedback Shift Correction in Predicting Conversion Rates under Delayed
Feedback
58