◦ どちらの腕の確率がいいか,というようなoutputが出る ◦ bayesABというRのパッケージも存在 ◦ この問題点は以下のWWWのpaperで指摘 Deng, Alex. "Objective bayesian two sample hypothesis testing for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015.
{1, ... , K} を選ぶ ◦ 報酬r a, t ∼ ν a を観測. ◦ ただし, r a, t ∈ [0,1] かつE[r a, t ]= μ a とする • 厳密に最適腕 argmax a μ a を発見することは難しい ◦ そこで「期待値が (max a μ a ) - ε 以上の腕を1つ以上発見する」という問題に落とし込む ◦ これを,ε-最適腕識別と呼ぶ • 最適腕識別はABテストの一般化とみなせる ◦ 最適腕識別の誤差εはいわゆる効果量に相当
for online controlled experiments." Proceedings of the 24th International Conference on World Wide Web. 2015. Ariu, Kaito, Kenshi Abe, and Alexandre Proutière. "Thresholded LASSO Bandit." arXiv preprint arXiv:2010.11994 (2020). 計量経済学ゼミ-最適腕識別1(AI Lab 加藤 スライド)