Thompson Sampling MAB 6 model for 26 model for 75 ベータ分布 α:5 β:35 ベータ分布 α:3 β:12 0.2 0.4 sampling sampling arg max slot_1 slot _2 template_id: 75 clickされたらα=α+1 clickされなければβ=β+1 と更新する
model update 19 x candidates A = {a,b,c,d} b Y_b Predict + decision dataset X, A, Y x candidates A = {a,b,c,d} b Y_b Predict + decision モデルの学習と更新 1日この仕組みを回す 更新したモデルで回す データの蓄積 new system c Y_c ex)線形回帰→DNN counterfactual!
因果推論とオフライン評価 X Y_A X1 1 a c X2 1 c c X3 0 b c X4 1 c c X5 1 b c ● 常にcを選ぶPolicyを評価する ○ cが選ばれた部分から全体の期待値を考える ○ 別の選択肢の結果との差分は ATE ● 因果推論のIPW(Holvitz Thompson Estimator)は オフライン評価のIPSの特殊な形? 28