Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Multi-Armed Bandit Problem and Its Solutions

The Multi-Armed Bandit Problem and Its Solutions

deeplab(https://deeplab-team.github.io/) で行われた,深層学習&ロボティクス勉強会の資料です.
題材としてOpenAI の Robotics チームの研究者である Lilian
Weng さんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表,ディスカッションを行いました.
その他の回の資料はこちら(https://speakerdeck.com/deeplab) に置いています.

17c1e4a05739a33e166d1dd982d717ec?s=128

Haruka Kiyohara

December 06, 2020
Tweet

Transcript

  1. deeplab 深層学習&ロボティクス勉強会 The Multi-Armed Bandit Problem and Its Solutions Haruka

    Kiyohara
  2. 深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である.東大,東工大,早 慶大をはじめとする都内の学部生を中心に20名以上が参加し,2019年度は5.4日に1 回ペース,年間60回を超える勉強会を開催し,人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics,

    Speech, HCI, CognitiveScience, etc) を探究している. 今回は「深層学習の最新トレンドと強化学習,ロボティックス分野における発展」をテー マとし,勉強会を実施した.題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし,資料作成,発表, ディスカッションを行った.
  3. Exploitation vs Exploration • 日常は非完全情報であふれている. ⇒常に探索と活用のジレンマが存在する. e.g., 近所の好きなレストランの隣に新しいレストランができたら,どっちに行く? ・好きなレストランに通い続ける: もっと良いレストランを見つける

    チャンスを逃すかもしれない. ・新しいレストランに行ってみる: もしかしたら,まずい昼食をとる ことになるかもしれない. • 長期的な視点で探索と活用をバランスよく行う必要がある. • 短期的な犠牲の上に長期的な最適化戦略が行われることも. Fig. UC Berkeley AI course slide, lecture 11.
  4. What is Multi-Armed Bandit? • 多腕バンディット問題は,探索と活用のジレンマをはらむ古典的な問題設定. e.g., 無限回試行可能なスロットマシンにおいて,獲得報酬の最大化を目指す問題. 毎回スロットを一台選んで賭けをするが,真の勝率をギャンブラーは知らない. •

    ひとつの可能な選択肢は,大数の法則を使って真の勝率を推定すること. • しかし,無駄が多いのでもっと効率的にできないか?
  5. Applications • 推薦システム / 広告配信 e.g., Netflixによる映画のサムネイルの個別最適化 [F. Amat et

    al., RecSys’18] • ゲームの手選択 e.g., AlphaGoによる囲碁におけるモンテカルロ木探索 [D. Silver et al., Nature’16] • 最適化 / モデル選択 e.g., 文脈を考慮したパラメータ最適化 [A. Krause and C. Ong, NIPS’11]
  6. Definition • ベルヌーイ多腕バンディット問題の定式化: • これはマルコフ決定過程において状態 がないものとしてみることができる. • 目標は累積報酬和 の最大化であり, 最適行動の報酬獲得確率は右式で,

    • ロスは,リグレットと呼ばれ,最適値と実現値の差分で表される.
  7. Bandit Strategies • 多腕バンディット問題へのアプローチは,大きく以下の3つに分かれる. • 探索なし: 短期的な報酬最大化を追求する貪欲的手法で,長期的には損をする 可能性もはらんでいる. • 確率的探索:

    主に貪欲に報酬最大化を行うが,一定割合のランダムな行動探索を することで探索も行えるようにする. • 効率的探索: 不確実性を定量的に評価し探索の優先順位を決定することで,効率 よく探索を行うことができる.
  8. ε-Greedy Algorithm • εの微小な割合でランダムに行動を選択して探索を行い, • それ以外の場合は推定価値関数を基に,価値関数を最大化する行動を選択する. (ここで,推定価値関数は報酬獲得確率として読み替える.) • 価値関数の推定 •

    貪欲的な行動選択 ある行動を取って報酬が得られた回数 ある行動を取った回数 報酬獲得確率が最大となる行動選択
  9. Upper Confidence Bounds • 報酬は確率的に決定されるので,不確実性が大きい. • 不確実性を考慮した上で,期待報酬の上界を見積もったのがUCB. • 不確実性に依る上界ポテンシャル (UCB)

    を と置くと,以下の条件を満たす. ① が大きくなるほど は減少する. ②真の価値関数の上界が,推定価値関数とUCBの和で抑えられる. • このとき,効率的な貪欲行動選択は, • では,実際にUCBはどのように構築すれば良いのか? 真の価値関数の上界を最大化する行動選択 推定価値関数 + 不確実性項(UCB)
  10. Hoeffding’s Inequality • 個の[0,1]にスケーリングされた独立同分布のサンプル について, 以下へフディングの不等式が成立する. • 先程のUCBの問題に置き換えると,報酬は確率関数と見なせるので, • 式展開により,UCBを得る.

    サンプル平均が,分布の真の期待値より一定量だけ大きくなる確率
  11. UCB1 • とおくと,UCB1アルゴリズムを得る. • UCBは, • 貪欲的行動選択は,

  12. Bayesian UCB • UCB1では分布の形状や観測値のばらつきの大小に関係なく,UCBを決定していた. • しかし,これは分布の形状を事前情報として分かっている場合,非効率になる. • 事前情報を基にUCB項を決定する手法をベイズUCBという. e.g., 報酬が正規分布に従って生成されると分かっている場合,

    分散をUCBとした方がより良い近似で上界を求めることができる. Fig. UCL RL course lecture 9’s slides.
  13. Thompson Sampling (1/2) • 最適行動を点推定ではなく確率的に求め,確率を基に行動をサンプリングする. 行動方策 ある行動の価値関数が,他のすべての行動の価値関数より大きくなる確率 ある行動が最適な行動である確率から行動をサンプリング

  14. Thompson Sampling (2/2) • 特にベルヌーイ分布に従う報酬確率 に対し,推定価値関数 を共役事前 分布のベータ分布で表現することで,ベイズ更新により価値関数を推定していく. • ベータ分布

    のパラメタは,以下のように解釈可能. : 報酬が得られたときの回数 : 報酬が得られなかったときの回数 e.g., のとき,不確実性が大きいが,報酬獲得確率は50%. のとき,かなり確からしく, 報酬獲得確率は10%. • 事後分布の推定は解析的でないので,ギブスサンプリングやラプラス近似,ブート ストラップ法などを用いて行う.
  15. Case Study • ベルヌーイバンディット問題における,手法の比較 Fig. 報酬獲得確率が {0.0, 0.1, .., 0.9}

    の10個の選択肢をもつベルヌーイバンディット問題 (左) 時間ステップと累積リグレット (中央) 真の報酬獲得確率と推定報酬獲得確率 (右) 10000ステップの学習において,各行動が選択された回数の割合
  16. Summary (revisit: Bandit Strategies) • 多腕バンディット問題へのアプローチは,大きく以下の3つに分かれる. • 探索なし: 短期的な報酬最大化を追求する貪欲的手法で,長期的には損をする 可能性もはらんでいる.

    • 確率的探索: 主に貪欲に報酬最大化を行うが,一定割合のランダムな行動探索を することで探索も行えるようにする. • 効率的探索: 不確実性を定量的に評価し探索の優先順位を決定することで,効率 よく探索を行うことができる. ⇒ベイズ的手法を取り入れていた.
  17. References (1/2) • Lilian Weng. Lil’Log The multi-armed bandit problem

    and its solutions. https://lilianweng.github.io/lil-log/2018/01/23/the-multi-armed-bandit-problem- and-its-solutions.html • CS229 supplemental lecture notes: Hoeffding’s inequality. • RL Course by David Silver - Lecture 9: Exploration and exploitation. • Olivier Chapelle and Lihong Li. An empirical evaluation of thompson sampling. NeurIPS, 2011. • Daniel Russo et al. A tutorial on Thompson sampling. arXiv, 2017. • Fernando Amat et al. Artwork personalization at Netflix. RecSys, 2018. • David Silver et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016.
  18. References (2/2) • Andreas Krause and Cheng Soon Ong. Contextual

    gaussian process bandit optimization. NeurIPS, 2011. • 本田淳也,中村篤祥.バンディット問題の理論とアルゴリズム.講談社.2016.