The Multi-Armed Bandit Problem and Its Solutions

Slide 1

Slide 1 text

deeplab 深層学習&ロボティクス勉強会 The Multi-Armed Bandit Problem and Its Solutions Haruka Kiyohara

Slide 2

Slide 2 text

深層学習&ロボティクス勉強会 deeplabは2019年4月に設立した学生による人工知能研究会である．東大，東工大，早慶大をはじめとする都内の学部生を中心に20名以上が参加し，2019年度は5.4日に1 回ペース，年間60回を超える勉強会を開催し，人工知能関連分野 (ML, DL, CV, NLP, RL, Robotics, Speech, HCI, CognitiveScience, etc) を探究している．今回は「深層学習の最新トレンドと強化学習，ロボティックス分野における発展」をテーマとし，勉強会を実施した．題材としてOpenAIのRoboticsチームの研究者であるLilian Wengさんのブログ (https://lilianweng.github.io/lil-log) を参考にし，資料作成，発表，ディスカッションを行った．

Slide 3

Slide 3 text

Exploitation vs Exploration ● 日常は非完全情報であふれている． ⇒常に探索と活用のジレンマが存在する． e.g., 近所の好きなレストランの隣に新しいレストランができたら，どっちに行く？・好きなレストランに通い続ける: もっと良いレストランを見つけるチャンスを逃すかもしれない．・新しいレストランに行ってみる: もしかしたら，まずい昼食をとることになるかもしれない． ● 長期的な視点で探索と活用をバランスよく行う必要がある． ● 短期的な犠牲の上に長期的な最適化戦略が行われることも． Fig. UC Berkeley AI course slide, lecture 11.

Slide 4

Slide 4 text

What is Multi-Armed Bandit? ● 多腕バンディット問題は，探索と活用のジレンマをはらむ古典的な問題設定． e.g., 無限回試行可能なスロットマシンにおいて，獲得報酬の最大化を目指す問題．毎回スロットを一台選んで賭けをするが，真の勝率をギャンブラーは知らない． ● ひとつの可能な選択肢は，大数の法則を使って真の勝率を推定すること． ● しかし，無駄が多いのでもっと効率的にできないか？

Slide 5

Slide 5 text

Applications ● 推薦システム / 広告配信 e.g., Netflixによる映画のサムネイルの個別最適化 [F. Amat et al., RecSys’18] ● ゲームの手選択 e.g., AlphaGoによる囲碁におけるモンテカルロ木探索 [D. Silver et al., Nature’16] ● 最適化 / モデル選択 e.g., 文脈を考慮したパラメータ最適化 [A. Krause and C. Ong, NIPS’11]

Slide 6

Slide 6 text

Definition ● ベルヌーイ多腕バンディット問題の定式化: ● これはマルコフ決定過程において状態がないものとしてみることができる． ● 目標は累積報酬和の最大化であり，最適行動の報酬獲得確率は右式で， ● ロスは，リグレットと呼ばれ，最適値と実現値の差分で表される．

Slide 7

Slide 7 text

Bandit Strategies ● 多腕バンディット問題へのアプローチは，大きく以下の3つに分かれる． ● 探索なし：短期的な報酬最大化を追求する貪欲的手法で，長期的には損をする可能性もはらんでいる． ● 確率的探索: 主に貪欲に報酬最大化を行うが，一定割合のランダムな行動探索をすることで探索も行えるようにする． ● 効率的探索: 不確実性を定量的に評価し探索の優先順位を決定することで，効率よく探索を行うことができる．

Slide 8

Slide 8 text

ε-Greedy Algorithm ● εの微小な割合でランダムに行動を選択して探索を行い， ● それ以外の場合は推定価値関数を基に，価値関数を最大化する行動を選択する．（ここで，推定価値関数は報酬獲得確率として読み替える．） ● 価値関数の推定 ● 貪欲的な行動選択ある行動を取って報酬が得られた回数ある行動を取った回数報酬獲得確率が最大となる行動選択

Slide 9

Slide 9 text

Upper Confidence Bounds ● 報酬は確率的に決定されるので，不確実性が大きい． ● 不確実性を考慮した上で，期待報酬の上界を見積もったのがUCB． ● 不確実性に依る上界ポテンシャル（UCB）をと置くと，以下の条件を満たす． ① が大きくなるほどは減少する． ②真の価値関数の上界が，推定価値関数とUCBの和で抑えられる． ● このとき，効率的な貪欲行動選択は， ● では，実際にUCBはどのように構築すれば良いのか？真の価値関数の上界を最大化する行動選択推定価値関数 + 不確実性項(UCB)

Slide 10

Slide 10 text

Hoeffding’s Inequality ● 個の[0,1]にスケーリングされた独立同分布のサンプルについて，以下へフディングの不等式が成立する． ● 先程のUCBの問題に置き換えると，報酬は確率関数と見なせるので， ● 式展開により，UCBを得る．サンプル平均が，分布の真の期待値より一定量だけ大きくなる確率

Slide 11

Slide 11 text

UCB1 ● とおくと，UCB1アルゴリズムを得る． ● UCBは， ● 貪欲的行動選択は，

Slide 12

Slide 12 text

Bayesian UCB ● UCB1では分布の形状や観測値のばらつきの大小に関係なく，UCBを決定していた． ● しかし，これは分布の形状を事前情報として分かっている場合，非効率になる． ● 事前情報を基にUCB項を決定する手法をベイズUCBという． e.g., 報酬が正規分布に従って生成されると分かっている場合，分散をUCBとした方がより良い近似で上界を求めることができる． Fig. UCL RL course lecture 9’s slides.

Slide 13

Slide 13 text

Thompson Sampling (1/2) ● 最適行動を点推定ではなく確率的に求め，確率を基に行動をサンプリングする．行動方策ある行動の価値関数が，他のすべての行動の価値関数より大きくなる確率ある行動が最適な行動である確率から行動をサンプリング

Slide 14

Slide 14 text

Thompson Sampling (2/2) ● 特にベルヌーイ分布に従う報酬確率に対し，推定価値関数を共役事前分布のベータ分布で表現することで，ベイズ更新により価値関数を推定していく． ● ベータ分布のパラメタは，以下のように解釈可能． : 報酬が得られたときの回数 : 報酬が得られなかったときの回数 e.g., のとき，不確実性が大きいが，報酬獲得確率は50%．のとき，かなり確からしく，報酬獲得確率は10%． ● 事後分布の推定は解析的でないので，ギブスサンプリングやラプラス近似，ブートストラップ法などを用いて行う．

Slide 15

Slide 15 text

Case Study ● ベルヌーイバンディット問題における，手法の比較 Fig. 報酬獲得確率が {0.0, 0.1, .., 0.9} の10個の選択肢をもつベルヌーイバンディット問題 (左) 時間ステップと累積リグレット (中央) 真の報酬獲得確率と推定報酬獲得確率 (右) 10000ステップの学習において，各行動が選択された回数の割合

Slide 16

Slide 16 text

Summary (revisit: Bandit Strategies) ● 多腕バンディット問題へのアプローチは，大きく以下の3つに分かれる． ● 探索なし：短期的な報酬最大化を追求する貪欲的手法で，長期的には損をする可能性もはらんでいる． ● 確率的探索: 主に貪欲に報酬最大化を行うが，一定割合のランダムな行動探索をすることで探索も行えるようにする． ● 効率的探索: 不確実性を定量的に評価し探索の優先順位を決定することで，効率よく探索を行うことができる． ⇒ベイズ的手法を取り入れていた．

Slide 17

Slide 17 text

References (1/2) ● Lilian Weng. Lil’Log The multi-armed bandit problem and its solutions. https://lilianweng.github.io/lil-log/2018/01/23/the-multi-armed-bandit-problem- and-its-solutions.html ● CS229 supplemental lecture notes: Hoeffding’s inequality. ● RL Course by David Silver - Lecture 9: Exploration and exploitation． ● Olivier Chapelle and Lihong Li. An empirical evaluation of thompson sampling. NeurIPS, 2011. ● Daniel Russo et al. A tutorial on Thompson sampling. arXiv, 2017. ● Fernando Amat et al. Artwork personalization at Netflix. RecSys, 2018. ● David Silver et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016.

Slide 18

Slide 18 text

References (2/2) ● Andreas Krause and Cheng Soon Ong. Contextual gaussian process bandit optimization. NeurIPS, 2011. ● 本田淳也，中村篤祥．バンディット問題の理論とアルゴリズム．講談社．2016.