Slide 4
Slide 4 text
3
探索と利用のトレードオフ問題
● 強化学習では,探索と利用のバランスを上手く調節するのが肝!
○ 探索が不十分だと,広域的な最適解が得られない可能性がある
○ 利用が不十分だと,最終的に得られた報酬総額が少なくなる可能性がある
● (例)多腕バンディット問題
○ M本のアームを持つスロットマシンがある。アームを引き当選すれば報酬+1が得られるが,アーム
ごとに異なる当選確率が定められている。N回の試行を行い,報酬総額を最大化するにはどんな戦
略が良いか
○ パッと思いつく戦略としては,
■ 先ず,全てのアームを数回ずつ試行して,各アームの当選確率を調べる(探索)
■ その後,当選確率が最も高かったアームを引き続ける(利用)
○ しかし,当選確率が最も高いアームが最初の数回の試行で運悪く当選しなかったら,
その後,そのアームは引かれないことに...