Slide 49
Slide 49 text
True Propensity Score
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule
(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Batched Bandit Setting/interactive machine learning
提案:選択確率をMLで推定してしまう。
•TPS= %でも実際のデータ上では55%だったりする。
•IPWではデータ上の割り振りを修正したい
•ML/nonparametric-modelでデータ上の割り振りを学習する
!49