Slide 44
Slide 44 text
AbemaTV, Inc. All Rights Reserved
Replay Methodとは
44
引用: L. Li, “Unbiased Offline Evaluation of Contextual-bandit-based News Article Recommendation Algorithms,”
● ランダムに配信されたログを用いる
○ サムネイル検証でABテストで配信されたログを用いる
● ランダムの選択とアルゴリズムの選択が一致すれば
報酬の評価に使う
○ 一致しなければ使わない
● 評価に使えるか使えないかの選択がランダムに行われる
評価に使えるデータ = 全体からランダムにサンプリングされたデータ
バイアスのない評価が可能になる