Slide 7
Slide 7 text
多腕バンディッド問題とは?
定義
複数の選択肢(アーム) があり、各アームを選んだときに得られる 報酬 は未知だけれど一定の確率で与えられる
探索( Exploration): どのアームが高い報酬を生むのか知るために試し続けること
活用( Exploitation): 試しつつ良いアームが分かってきたら、それを優先して報酬を増やすこと
目的: 全体の報酬(成果)を最大化する
具体例:広告配信
状況: 複数の広告バナー( Ad A, Ad B, Ad C など)を用意し、どれがもっともクリック率やコンバージョン率を高めるかを知りたい
対応関係:
アーム : 各広告バナー, 報酬: ユーザがクリックした、または購入した、などの成果
狙い: 高い成果が期待できるバナーを「活用」しながら、まだ試していないバナーも一定の割合で「探索」する
テスト期間中の機会損失をできるだけ抑えつつ、どんどん良い広告を多く配信して収益を高める