Save 37% off PRO during our Black Friday Sale! »

計量経済学ゼミ-最適腕識別1

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=47 MasaKat0
March 13, 2021

 計量経済学ゼミ-最適腕識別1

最適腕識別の基礎

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=128

MasaKat0

March 13, 2021
Tweet

Transcript

  1. 計量経済学・機械学習ゼミ 最適腕識別 第1回 最適腕識別の基礎 AI事業本部 AdEconチーム 加藤真大 1

  2. n ABテストの一般化である最適腕識別について説明. 第1回:最適腕識別の基礎 ← 今回 第2回:ベイズ最適腕識別 第3回:適応的実験計画法 第4回:ベイズ最適化 予定 2

  3. 最適腕識別とは 3

  4. n 多腕バンディット問題(Multi-armed Bandit Problem; MAB): • 期間𝑡 = 1,2, …と𝐾個のスロット(腕)が与えられている状況を考える.

    • 各期において𝐾個の腕のなかから1個を選ぶことができる. • その腕はある確率分布に従ってプレイヤーに報酬を与える. • 最善の腕を探すため各腕を適当に選び探索(パラメータの推定)することが必要. • 最善の腕を見つけた後はその腕を選び続けて報酬を最大化. Ø 探索(exploration)と最善の腕を引き続けること(exploitation)のバランスを最適化 することが大事. 一方で,探索だけを行うことで,より大きい確率で最善の腕を発見する設定もある. 多腕バンディット問題 4
  5. n 表記: • 各腕𝑎 ∈ 𝐾 = {1,2, … ,

    𝐾}からの報酬の確率分布を𝑣! とする. • 報酬の期待値を𝜇! で表す. n 期待値最大の腕を 𝑎∗ = arg max !∈[%] 𝜇! . と表記する. 多腕バンディット問題の二つの問題設定 5
  6. n 多腕バンディット問題における2つの問題設定. • 累積報酬最大化(累積損失最小化): 期待値最大の腕𝑎∗,もしくは期待値最大の腕に限りなく近い期待値の腕をできる限り 多く引いて累積報酬を最大化することに関心がある. • 最適腕識別: 期待値最大の腕𝑎∗を高確率で識別することに関心がある. 多腕バンディット問題の二つの問題設定

    6
  7. n 各期𝑡において,𝐾個の腕のなかから腕を1つを選ぶ. n プレイヤーは各𝑡期において𝑎 ∈ 𝐾 ≔ 1, … ,

    𝐾 を選び,報酬𝑋!,( ∼ 𝑣! を観測. • 𝑋!,( ∈ [0,1] かつ𝔼 𝑋!,( = 𝜇! とする. • 𝑇! (𝑡): 𝑡期までに腕𝑖が引かれた回数. • 腕𝑎(𝑎 ≠ 𝑎∗)と腕𝑎∗の期待報酬の差を𝛥! = 𝜇!∗ − 𝜇! とする. 文脈によってはこの差を処置効果や因果効果と呼ぶこともできる. 最適腕識別の問題設定 7
  8. n ある𝑡期において, • ある腕𝑎の報酬の推定量を ̂ 𝜇!,( ,もしくは ̂ 𝜇! (𝑡)とし,

    • 最善の報酬を持つと思われる腕をC 𝑎∗ 𝑡 とする. n 厳密に最適腕argmax ! 𝜇! を発見することは難しいので, • 「期待値が𝜇∗ = max ! 𝜇! − 𝜖以上の腕を1つ以上発見する」 という𝜖-最適腕識別の問題を考えることにする. Ø 全てのアルゴリズムで誤差𝝐をハイパーパラメータとして事前に定める必要がある. 最適腕識別の問題設定 8
  9. n 最適腕識別はABテストの一般化. • 最適腕識別の誤差𝝐はいわゆる効果量に相当する. n 次に,ABテストの言葉で表現すれば, • 達成した検定の精度を固定して,サンプルサイズを決定するか, • 使えるサンプルサイズを固定して,そのもとで達成できる検定の精度を調べる

    ということを考える. n それぞれ最適腕識別では固定信頼度と固定予算の設定と呼ばれる. 最適腕識別の問題設定 9
  10. n つまり,最適腕識別には二つの設定がある. • 固定信頼度の最適腕識別. • 固定予算の最適腕識別. 最適腕識別の二つの問題設定 10

  11. n 固定信頼度の最適腕識別問題 • 総選択数(腕を引ける回数,サンプルサイズ)をプレイヤーが可変で決められる. • 事前に定められた𝛿 ∈ (0,1)に対して,誤識別率が𝛿以内になるまで選択を続ける. • 探索を終了するための停止時刻を適切に設定する必要がある.

    • プレイヤーの目的:設定した停止規則のもとでの停止時刻を𝜏とする時,誤識別率 ℙ C 𝑎∗ 𝜏 ≠ 𝑎∗ ≤ 𝛿 を満たしつつ,𝔼[𝜏]を小さくする方策を構成すること. 最適腕識別の二つの問題設定 11
  12. n 固定予算の最適腕識別問題 • 総選択数(腕を引ける回数,サンプルサイズ)が𝑡回までと固定されている. • プレイヤーの目的:合計𝑡回腕を引いた後に𝑎∗の推定値C 𝑎∗(𝑡)を回答し,その誤り確率 (誤識別率) 𝑃) =

    ℙ[C 𝑎∗ 𝑡 ≠ 𝑎∗] を最小化すること. 最適腕識別の二つの問題設定 12
  13. n 𝐾 = 2本の腕からの報酬が • それぞれ分散既知の正規分布𝒩 𝜇* , 𝜎+ に従うとし,

    • 固定予算𝑇での最適腕識別を考える. • 𝜇, > 𝜇+ と仮定する. n 最適方策:両方の腕を𝑇/2回ずつ引いた後,標本平均 ̂ 𝜇! が大きい腕を最適腕とする. • 腕2と1の標本平均の差𝑋は𝒩 𝜇+ − 𝜇, , 4𝜎+/𝑇 に従う. n 誤識別率𝑃-∼𝒩 0"10#,23"/5 𝑋 ≥ 0 = 1 − Φ 5 0#10" +3 ≈ exp − 5 0#10" " 63" . n 腕2の報酬の期待値の方が大きいと思われてしまう確率. 正規分布のA/Bテスト 13
  14. n 誤識別率の指数関数的な減衰 • 累積報酬のregret = 𝜇, − 𝜇+ 𝑇/2: 線形オーダー

    ↔ 累積報酬のリグレットではlog 𝑇のオーダーになるアルゴリズムが知られている. Ø 語弊を恐れずに言えば,この違いは一番いい腕を発見するための努力に起因する. 累積報酬最大化の場合,二番目以下の腕と僅差の一番いい腕を発見するために多くの 施行を必要とするぐらいなら,早々に切り上げて現状良さそうな腕を選ぶ方がいい. 正規分布のA/Bテスト 14
  15. 固定信頼度の最適腕識別アルゴリズムの例 15

  16. n 固定信頼度の手法. → ある一定の誤識別率を達成する腕が1本になるまで引き続ける. • 一様選択に基づく方法:逐次削除方策 • スコアに基づく方法:LUCB方策,UGapEc方策, lil’UCB方策,など. n

    固定予算の手法 → ある与えられた予算の範囲内で誤識別率を最小化する. 固定信頼度の手法 16
  17. n 腕の数が2本あり,2本の報酬の分散が等しい時 → 一様に(同じ確率で)腕を選ぶことが最適になる. • 無作為化比較実験と同じ. n 最適腕である可能性が残っている腕を一様に選択していく方式が考えられる. n 最適腕である可能性の低いものから順に削除していく.

    → 逐次削除(SR)方策. 一様選択 17
  18. n 入力:許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0. n パラメータ:𝛽 𝑎,

    𝛿 : ℕ× 0,1 → 0, ∞ . • ℛ ← 1,2, … , 𝐾 , 𝑡 ← 1. • loop ℛに含まれるすべての腕を1回ずつ引く. 各腕𝑖 ∈ ℛのUCB⋅LCBスコア ̅ 𝜇!,# = ̂ 𝜇!,# + $ #,% &# , 𝜇!,# = ̂ 𝜇!,# − $ #,% &# を計算. ? 𝑎 ∗ ← arg max !∈ℛ ̂ 𝜇!,# . if 𝜇* ! ∗,# + 𝜖 > max !+* ! ∗ ̅ 𝜇!,# then ? 𝑎 ∗を出力して終了. else if 𝜇* ! ∗,# > ̅ 𝜇!,# なる𝑎 ≠ ? 𝑎 が存在 then そのような𝑎を全てℛから削除 𝑡 ← 𝑡 + 1. 逐次削除(SR)方策のアルゴリズム 18
  19. n 候補として残っている腕の数の減少の挙動を確認した. Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 逐次削除(SR)方策の実験1 19 サンプル数 擬似データの作成 候 補

    と し て 残 ' て い る 腕 の 数
  20. n 候補として残っている腕の数の減少の挙動を確認した. Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 逐次削除(SR)方策の実験2 20 候 補 と し

    て 残 ' て い る 腕 の 数 サンプル数 擬似データの作成
  21. n 前ページで現れたUCB (Upper Confidence Bound) ・LCB (Lower Confidence Bound)とは. n

    多腕バンディット問題でよく現れる概念. n 引かれた回数の少ない腕の報酬の推定量を楽観的(悲観的)に見積もる. → 非漸近的な信頼区間を構築する. UCB・LCB 21
  22. n どのように見積もるのか?/非漸近的な信頼区間をどのように作るのか? n 確率集中不等式 • Hoeffdingの不等式:確率変数の区間. • Bernsteinの不等式:分散. • KLダイバージェンス:分布の情報が必要.

    • 繰り返し対数の法則(law of the iterated logarithm, LIL). n 詳細に触れたくないのでとりあえず 𝛽! 𝑡, 𝛿 : ℕ× 0,1 → 0, ∞ という関数で信頼区間を作るとする. UCB・LCB 22
  23. n 一様選択を行うと無駄に多くの腕を引く可能性がある. n そこでまず最適腕を予想し, ついで最適腕の候補の腕のLCBとそれ以外の腕の UCBとの差が早く広がるように腕を選ぶ方策を考える. 推定された最適腕の期待値の下限:𝜇7 ! ∗(𝑡),それ以外の腕の期待値の上限: ̅

    𝜇7 ! ∗∗ 𝑡 • 𝑑𝑖𝑓𝑓 = 𝜇7 ! ∗ 𝑡 − ̅ 𝜇7 ! ∗∗ 𝑡 が早く大きくなってほしい. • 𝑑𝑖𝑓𝑓が𝜖より大きくなれば良い. 腕へのスコアリング 23 最適腕 報 酬 腕 LCB UCB ここの差を広げていく. 現時点での最有力候補と その次の候補を引き続ける.
  24. n 入力:許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0. n パラメータ:𝛽 𝑡,

    𝛿 : ℕ× 0,1 → 0, ∞ . • すべての腕を1回ずつ選択.𝑡 ← 𝐾. • loop 各腕𝑎のUCB⋅LCBスコア ̅ 𝜇! (𝑡) = ̂ 𝜇! (𝑡) + $ #,% &," # , 𝜇! (𝑡) = ̂ 𝜇! (𝑡) − $ #,% &," # を計算. ? 𝑎 ∗ ← arg max ̂ 𝜇!,- , ? 𝑎 ∗∗ ← arg max !+* ! ∗ ̅ 𝜇!(𝑡) . if ̅ 𝜇* ! ∗∗ 𝑡 < 𝜇* ! ∗(𝑡) + 𝜖 then ? 𝑎 ∗を出力して終了. else 腕I 𝑎∗ と腕I 𝑎∗∗ を引く. 𝑡 ← 𝑡 + 2. LUCB方策のアルゴリズム 24
  25. n LUCB方策はスコアリングで一様選択で発生する余分な施行を減らそうとした. • 「腕a 𝑎 ∗ と腕a 𝑎 ∗∗ を引く」というプロセスが入っている.

    → 逐次削除方策とは逆に最適腕の選択数が過度に多くなってしまうという問題が. n UGapE方策では,反復ごとに腕a 𝑎 ∗ と腕a 𝑎 ∗∗のうちサンプル数が小さい(期待値の不 確かさが大きい)もののみを選択する. V. Gabillon, M. Ghavamzadeh, and A. Lazaric. Best arm identification: a unified approach to fixed budget and fixed confidence. NeurIPS, 2012. より効率的なスコアリングに基づく方策 25
  26. n 入力:許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0. n パラメータ𝛽! 𝑡,

    𝛿 : ℕ× 0,1 → 0, ∞ . • すべての腕を1回ずつ選択.𝑡 ← 𝐾. • loop 各腕𝑖のUCB⋅LCBスコア ̅ 𝜇!(𝑡) = ̂ 𝜇!(𝑡) + $" #,% &," # , 𝜇.(𝑡) = ̂ 𝜇!(𝑡) − $" #,% &," # を計算. 𝐽 𝑡 ∈ arg min !#∈ /,&,…,- max !+!# ̅ 𝜇! (𝑡) − 𝜇!#(𝑡) Pull ? 𝑎 ∗ ←. arg max 𝛽1 𝑡, 𝛿 , 𝛽2 𝑡, 𝛿 , ただし𝑢 = arg max 3+4 # ̅ 𝜇3(𝑡), 𝑙 = arg max .∈4 # 𝜇.(𝑡). if max !+5 ̅ 𝜇!(𝑡) − 𝜇!# 𝑡 ≥ 𝜖 for 𝑎′ ∈ 𝐽(𝑡) then 𝐽 𝑡 を出力して終了. else 𝑡 ← 𝑡 + 1. UGapEc方策のアルゴリズム 26
  27. n 𝑑𝑖𝑓𝑓がどのくらいの速さで小さくなるか実験した. n Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e LUCB方策とUGapEc方策の実験1 27 𝑑𝑖𝑓𝑓 サンプル数 擬似データの作成

  28. n LUCB方策とUGapEc方策とで停止するまでどの腕がどの程度引かれるかを図示. n LUCB方策では最適腕である腕0を(余分に)引きすぎていることがわかる. Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e LUCB方策とUGapEc方策の実験1 28 腕 を

    引 い た 回 数 腕の番号 LUCB方策 UgapEc方策
  29. 固定予算の最適腕識別アルゴリズムの例 29

  30. n 逐次削除方策では: • 腕が一度候補ℛから削除されたらその先には二度と引かれないため, • 固定予算の設定に自然に適用する方法が自明ではない. n LUCB方策のように,探索を行う腕を何らかのスコアにより適応的に決めていく方策 は,途中で探索が終了しないようにすると,固定予算の設定へ自然に適用可能. 逐次削除方策の欠点

    30
  31. n ただし,UCBやLCBスコアにおける信頼区間の幅 8((,:) +<'(() は信頼度𝛿に依存しており, 固定予算の設定ではこれを𝛿 ではなく予算𝑡 に依存した量に置き換える必要がある. n そこで,LUCB方策やUGapE方策では,

    固定予算設定における方策として, • 固定信頼度設定における𝛽(𝑡, 𝛿)をパラメータ𝑏を用いて, • 𝛽= 𝑡, 𝑇 = 𝑏𝑇 = log , >?@(1A5) に置き換える. ことが提案されている, 固定信頼度のアルゴリズムへの拡張 31
  32. 最適腕識別アルゴリズムの性能評価 32

  33. n Kaufmann et al. (2016)に従って,𝐾本の腕の中から期待値が最も大きいものから降 順に𝑚個目までの腕を識別する問題に対して,戦略を定義する. n Kaufmann et al.

    (2016)の表記: • バンディットのモデルを𝑣とする. • モデル𝑣は𝐾本の腕の確率分布𝑣! (1 ≤ 𝑎 ≤ 𝐾)の集合である. • 腕𝑎の期待値を𝜇! とする. 最適腕識別の性能をどのように評価するのか 33
  34. n 意思決定者は,各期𝑡において腕𝐴( ∈ {1,2, … , 𝐾}を選び,サンプル𝑍( が確率分布 𝑣B( から得られる.

    n 期待値を降順に並べたものを 𝜇 , , … , 𝜇 % とする. n 期待値が最も大きいものから降順に𝑚個目までの腕の集合を𝒮C ∗ とする. n モデル𝑣は集合ℳC に属するとする. • このℳC のモデルは全て𝜇[C] > 𝜇 CD, であり, 𝒮C ∗ を一意に定義できる. 最適腕識別の性能をどのように評価するのか 34
  35. n 最適𝑚腕識別戦略の定義: 戦略𝒜 = 𝐴( , 𝜏, j 𝑆C •

    サンプリングルールは,過去の情報に基づいて,ある時期𝑡にどの腕𝐴( を選ぶのか を決める.𝐴( はℱ(1, 可測である(ℱ( = 𝜎(𝐴, , 𝑍, , … , 𝐴( , 𝑍( )). • 停止ルール𝜏は,最適腕アルゴリズムの停止をコントロールする,ℙ 𝜏 < +∞ = 1 を満たす ℱ( (∈ℕ に関する停止時刻. • 推薦ルールはどの腕を選択するのかを決める,サイズ𝑚のℱ(1, 可測の部分集合. 最適腕識別の性能をどのように評価するのか 35
  36. n 固定信頼度の最適腕識別の場合: • リスクパラメータ𝛿を固定する. • 任意の選択𝑣 ∈ ℳC に対して,𝑝( 𝑣

    ≔ ℙF j 𝑆C = 𝒮C ∗ ≥ 1 − 𝛿であるような戦略 𝒜(𝛿)を𝛿-PAC戦略であるという. • ゴール:少ないサンプルサイズ(停止時刻)𝜏: で𝛿-PAC戦略を見つける. 最適腕識別の性能をどのように評価するのか 36
  37. n 固定予算の最適腕器別の場合: • サンプルサイズ𝜏を固定する(予算).定数として𝑡 ∈ ℕで表記する. • ゴール:この固定された予算𝑡の中で,誤識別確率𝑝( 𝑣 ≔

    ℙF ( j 𝑆C ≠ 𝒮)を最小に するような戦略𝒜(𝑡)を見つける. • 任意の選択𝑣 ∈ ℳC に𝑝( 𝑣 が0になる戦略はconsistentであるという. 最適腕識別の性能をどのように評価するのか 37
  38. n 固定信頼度の最適腕識別の場合は • リスクパラメータ𝛿 > 0を所与として, • 𝜏: や𝔼[𝜏: ]を抑える.

    • 𝔼[𝜏: ]はサンプル複雑度(sample complexity)と呼ばれている. 最適腕識別の性能をどのように評価するのか 38
  39. n 固定予算の最適腕識別の場合は • 予算𝑡 > 0を所与として, • 誤識別率𝑝( 𝑣 ≔

    ℙF ( j 𝑆C ≠ 𝒮)を抑える. • 理論的指標:サンプル複雑度𝔼[𝜏: ]と誤識別率𝑝( 𝑣 ≔ ℙF ( j 𝑆C ≠ 𝒮)に関して,何ら かのアルゴリズムが達成しうる理論的下界(最良値). • サンプル複雑度や誤識別率の下界を達成するアルゴリズムが欲しい. 最適腕識別の性能をどのように評価するのか 39
  40. n 報酬最大化のバンディット問題の理論解析はリグレット解析. ↔ 最適腕識別の理論解析の方向性はいろいろなものがあり定まっていない. n Bubeck et al. (2011):最適な腕の数が𝑚 =

    1の場合に対して,シンプル・リグレット 𝑟( ≔ 𝜇∗ − 𝜇 G H# を用いた理論解析を提案. 理論解析の方向性 40
  41. n Kalyanakrishnan et al. (2012):モデル𝑣の問題複雑度 𝐻 𝑣 = r !∈{,,+,…,%}

    1 Δ! + を用いてサンプル複雑度を評価.ここで, Δ! = t 𝜇! − 𝜇 CD, 𝑓𝑜𝑟 𝑎 ∈ 𝒮C ∗ 𝜇 C − 𝜇! 𝑓𝑜𝑟 𝑎 ∈ 𝒮C ∗ L 理論解析の方向性 41
  42. n これまでに述べた方策はおおよそ∑!M!∗ Δ! 1+ log Δ! 1+ 程度のオーダーを持つ. → 最適腕とそれ以外の腕の報酬の期待値の差が小さくなるにつれて,以下のようにサ

    ンプル複雑度が増大する. n 問題複雑度𝐻 𝑣 = ∑!∈{,,+,…,%} , N) " がそのオーダーと結びついている. 理論解析の方向性 42
  43. n Mannor and Tsitsiklis (2004)やKaufmann et al. (2016):リスクパラメータ𝛿のもとでの 固定信頼度の最適腕識別に対して,複雑度 𝜅O

    𝑣 ≔ inf B PBO lim sup :→R 𝔼[𝜏: ] log 1 𝛿 を用いてサンプル複雑度𝔼[𝜏: ]を評価. • また,予算𝑡のもとでの固定予算の最適腕識別に対して複雑度 𝜅S 𝑣 ≔ inf B LTUV*V()U( lim sup (→W − 1 𝑡 log 𝑝( 𝑣 1, を用いて誤識別率𝑝( 𝑣 ≔ ℙF ( j 𝑆C ≠ 𝒮)を評価. = リスクパラメータ𝛿に対して𝛿 → 0,固定予算𝑡に対して𝑡 → ∞という漸近論で評価. 理論解析の方向性 43
  44. n Karnin et al. (2013)やJamieson et al. (2014): • ギャップΔ!

    = t 𝜇! − 𝜇 CD, 𝑓𝑜𝑟 𝑎 ∈ 𝒮C ∗ 𝜇 C − 𝜇! 𝑓𝑜𝑟 𝑎 ∈ 𝒮C ∗ L に対して, • ギャップΔ! がΔ! → 0になるような漸近論を考える. • Δ! → 0であるとき,高確率1 − 𝛿で停止時刻𝜏をΔ! 1+log log Δ! 1, で抑えられるアル ゴリズムは最適であると考える. 理論解析の方向性 44
  45. n 二つの評価方法: • シンプル・リグレット: 𝑟( ≔ 𝜇∗ − 𝜇 G

    H# • サンプル複雑度と誤識別率をそれぞれ抑える. n 抑える道具: • 問題複雑度:𝐻 𝑣 = ∑!∈{,,+,…,%} , N) " • カルバック・ライブラー・ダイバージェンス:𝑑 𝑣, 𝑣= . など. 理論解析の方向性 45
  46. n 非漸近論と漸近論:サンプル複雑度と誤識別率を抑えるとき, • 𝔼 𝜏: や𝑝( 𝑣 を非漸近的に抑えたり, • 漸近的な状況を考えて,固定信頼度𝛿や固定予算𝑡に対して(minimax?),

    𝜅O 𝑣 ≔ inf B PBO lim sup :→R 𝔼 𝜏: log 1 𝛿 , 𝜅S 𝑣 ≔ inf B LTUV*V()U( lim sup (→W − 1 𝑡 log 𝑝( 𝑣 1, や,腕が2本のとき,Δ = 𝜇[,] − 𝜇[+] に対して, lim sup N→R 𝔼[𝜏N ] Δ1+ log log Δ1+ で抑えたりする. 理論解析の方向性 46
  47. n シンプル.リグレット 𝑟( ≔ 𝜇∗ − 𝜇 G H# の期待値は,𝑚

    = 1の場合の最適な腕を𝑎∗ = [1]とすると, 𝔼 𝑟( = r !M!∗ Δ! ℙF j 𝑆, = 𝑎 と書ける.ここで, Δ! = t 𝜇! − 𝜇 CD, 𝑓𝑜𝑟 𝑎 ∈ 𝒮C ∗ 𝜇 C − 𝜇! 𝑓𝑜𝑟 𝑎 ∈ 𝒮C ∗ L なので,実質的にΔ! = 𝜇!∗ − 𝜇! である. シンプル・リグレット 47
  48. n ここで,誤識別率𝑝( 𝑣 ≔ ℙF ( j 𝑆C ≠ 𝒮)を考える.

    n シンプル・リグレット𝔼 𝑟( = ∑!M!∗ Δ! ℙF j 𝑆, = 𝑎 を小さくすることは,係数部分Δ! を 無視すれば, 𝑝( 𝑣 ≔ ℙF j 𝑆C ≠ 𝒮 = ℙF j 𝑆, ≠ 𝑎∗ = ℙF ∪!M!∗ j 𝑆, = 𝑎 ≤ r !M!∗ ℙF j 𝑆, = 𝑎 なので,誤識別率を抑えることと実質的には同じ. n シンプル・リグレットは固定信頼度のアルゴリズムと固定予算のアルゴリズムの性能 を同時に(統一的に)評価するときに役に立つ. シンプル・リグレット 48
  49. n 逐次削除方策のサンプル複雑度を実際に抑えることを考える. • 抑えるために問題複雑度𝐻(𝑣)を用いる. • 非漸近的なバウンドを導出する. n 問題複雑度𝐻(𝑣)を, 𝐻 𝑣

    = 1 2 Δ[&] + 𝜖 & + S .8& 9 1 2 Δ. + 𝜖 & と再定義する. 逐次削除方策のサンプル複雑度 49
  50. n 入力:許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0. n パラメータ:𝛽 𝑛,

    𝛿 : ℕ× 0,1 → 0, ∞ . • ℛ ← 1,2, … , 𝐾 , 𝑛 ← 1. • loop ℛに含まれるすべての腕を1回ずつ引く. 各腕𝑎 ∈ ℛのUCB⋅LCBスコア ̅ 𝜇!,- = ̂ 𝜇!,- + $ -,% &- , 𝜇!,- = ̂ 𝜇!,- − $ -,% &- を計算. ? 𝑎 ∗ ← arg max !∈ℛ ̂ 𝜇!,- . if 𝜇* ! ∗,- + 𝜖 > max !+* ! ∗ ̅ 𝜇!,- then ? 𝑎 ∗を出力して終了. else if 𝜇* ! ∗,- > ̅ 𝜇!,- なる𝑎 ≠ ? 𝑎 が存在 then そのような𝑎を全てℛから削除 𝑛 ← 𝑛 + 1. 逐次削除方策のサンプル複雑度 50
  51. n 逐次削除方策のサンプル複雑度の定理(定理6.1,本多2016): • 𝛽 𝑛, 𝛿 = log 2%U" :

    とし,𝛿 ≤ % N"DX " Y+ を任意にとる. • このとき逐次削除方策は 1. 確率1 − 𝛿以上で𝜖-最適腕を正しく出力し,かつ 2. 停止するまでの総サンプル数が256𝐻 𝑣 log 2% : で抑えられる. 逐次削除方策のサンプル複雑度 51
  52. Ø 証明: n 次の事象𝑆を考える. 𝑆 =∩!∈ ,,+,…,% ∩VZ, 𝜇! 𝑠

    ≤ ̅ 𝜇! (𝑠) n 事象𝑆のもとで,任意の𝑎 ≠ 1に対して ̅ 𝜇! 𝑠 ≥ 𝜇, ≥ 𝜇+ ≥ 𝜇! (𝑠)が成立. 逐次削除方策のサンプル複雑度 52
  53. n したがって,アルゴリズムの else if 𝜇7 ! ∗,U > ̅ 𝜇*,U

    なる𝑎 ≠ a 𝑎 が存在 then の段階で腕1が除外されることはない. n したがって,ヘフディングの不等式により誤識別率は次の形で抑えられる. 𝑝( 𝑣 ≔ ℙF j 𝑆C ≠ 𝒮 = ℙF j 𝑆, ≠ 𝑎∗ = ℙF j 𝑆, ≠ 1 ≤ ℙF 𝑆L ≤ 2𝐾 r V[, W exp −𝛽 𝑠, 𝛿 = r V[, W 𝛿 2𝑠+ ≤ 𝛿 . 逐次削除方策のサンプル複雑度 53
  54. n 次に,𝜖-最適腕でない腕𝑖を削除するまでのサンプルサイズを考える. n まず,𝑛! = ,+6 N)DX " log 2%

    : とすると, • 𝑥 ≥ 1でlog 𝑥 < 𝑥が成り立つこと,および, • 仮定𝛿 ≤ % N"DX " Y+ より 4𝐾𝑛! + 𝛿 < 128 Δ! + 𝜖 + + 4𝐾 𝛿 + ≤ 4𝐾 𝛿 2 である. 逐次削除方策のサンプル複雑度 54
  55. n したがって, 𝛽 𝑛! , 𝛿 2𝑛! = log 4𝐾𝑛!

    + 𝛿 2𝑛! < 4 log 4𝐾 𝛿 256 Δ! + 𝜖 + log 4𝐾 𝛿 = Δ! + 𝜖 8 ≤ Δ! 4 (1) が得られる.ここで,腕𝑎が𝜖-最適腕でないことを用いた. 逐次削除方策のサンプル複雑度 55
  56. n 以上より, ̅ 𝜇! 𝑠* − 𝜇 𝑠* < N)

    + が成り立つため,事象𝑆のもとで, ̅ 𝜇!,U' < 𝜇!,U' + Δ! 2 ≤ 𝜇* + Δ! 2 = 𝜇, − Δ! 2 𝜇,,U) > ̅ 𝜇,,U) − Δ! 2 ≥ 𝜇, − Δ! 2 となり,腕𝑎は𝑛 ≤ 𝑛! でリストℛから削除される. 逐次削除方策のサンプル複雑度 56
  57. n さらに,任意の𝑎′ ≠ 1について,式 1 より 𝛽 𝑛+ , 𝛿

    2𝑛+ < Δ+ + 𝜖 8 ≤ Δ!= + 𝜖 8 ≤ Δ!= + 𝜖 4 (2) が成り立つ. 逐次削除方策のサンプル複雑度 57
  58. n よって,𝑆のもとで式(2)と同様にして ̅ 𝜇!=,U)* < 𝜇,,U)* + 𝜖となり,アルゴリズムは if 𝜇7

    ! ∗,U + 𝜖 > max *M\ * ∗ ̅ 𝜇!,U then により𝑛 ≤ 𝑛+ までに停止する.以上のことから,停止までの総サンプルサイズは事象𝑆 のもとで, r !=:0)*Z0#1X 𝑛+ + r !:0)^0#1X 𝑛* ≤ 256𝐻 𝑣 log 4𝐾 𝛿 で抑えられる. 逐次削除方策のサンプル複雑度 58
  59. n 逐次削除方策は • すべての腕を同オーダーの回数引くべき,という直感にあっており, • 実装・解析も容易. しかし,以下の問題点がある. 逐次削除方策の欠点 59

  60. n 腕が2本で𝜇[,] と𝜇[+] が近い場合: • どちらが最適腕かを識別するために双方ともに多くのサンプルが必要. n 腕が複数あって, 𝜇[,] と𝜇[%]

    が離れている場合: • 腕[1]が十分多く引かれている場合には,腕[1]の期待値が精度良く推定できるた めに,腕[𝐾]といった期待値の悪い腕については,サンプルサイズがやや小さくても 𝜇[,] と𝜇[%] のどちらが大きいかを高確率で識別できる. ↔ 逐次削除方策では,基本的に 𝐾 , 𝐾 − 1 , …と期待値が悪い順に最適腕以外の候 補が削除されていく. → これらの期待値が悪い腕を削除する段階では腕[1]のサンプルサイズが多くない, n 結果として腕[𝐾]や[𝐾 = 1]のサンプルサイズが多く必要となってしまう. 逐次削除方策の欠点 60
  61. n また,逐次削除方策では: • 腕が一度候補ℛから削除されたらその先には二度と引かれないため, • 固定予算の設定に自然に適用する方法が自明ではない. n 経験上良好な性能を達成する方法 • 𝑎番目の削除を行ってから𝑎

    + 1番目の削除を行う間隔を事前に固定する ↔ これらの理論補償は複雑度にもとづいたものではない. 逐次削除方策の欠点 61
  62. n Klyanakrishnan et al. ICML2012の定理: • 𝛽 𝑡, 𝛿 =

    log _%(+ 2: とする. • このときLUCB方策の誤識別率は高々𝛿で抑えられる. • また,アルゴリズムが停止するまでのサンプルサイズの期待値(サンプル複雑度) は2336 log 6`(F) : + 16で抑えられる. LUCBアルゴリズムのサンプル複雑度 62
  63. n LUCB方策やUGapE方策では固定信頼度における𝛽(𝑡, 𝛿)をパラメータ𝑏を用いて 𝛽= 𝑡, 𝑇 = 𝑏𝑇 = log

    1 exp(−𝑏𝑇) に置き換えたものが固定予算設定における方策として提案されている. 固定信頼度のアルゴリズムへの拡張 63
  64. n このときある𝐶 > 0が存在し,もし𝐻 𝑣 ≤ 𝐶/𝑏ならば,誤識別率を𝑂 exp −𝑏𝑇 で

    抑えられることが示されている. ↔ パラメータ𝑏は大きいほど誤識別率を小さくできるのに対して,実際には𝐻(𝑣)の値は 未知であり,𝐻 𝑣 ≤ 𝐶/𝑏が成り立たない場合には性能保証が全くない. 特に𝐻(𝑣)は非有界であり,𝑏をどう決めるかはプレイヤーの事前知識に完全に依存す る問題となる. n 性能保証を得るのが難しい. 固定信頼度のアルゴリズムへの拡張 64
  65. n サンプル複雑度の下界・誤識別率の下界・シンプル・リグレットの下界を調べる. 下界 = アルゴリズムが達成しうる最良値. n 定式化により様々な下界が提案されている. n 下界には大きく分けて •

    非漸近的な下界(Mannor and Tsitsiklis 2004) • 漸近的な下界(Jamieson et al. JMLR2014, Kaufmann et al. JMLR2016) がある. 達成しうる性能の下界 65
  66. n アルゴリズムは下界を達成するように設計される. → 下界の設計の仕方によってアルゴリズムも大きく変わる. • ただし,最適腕識別においては,𝜖 = 0かつ𝐾 = 2といった限られた設定のみでしか,

    サンプルサイズの下界と,達成可能であることがわかっている上界が漸近的に一致 していない. • まだ未解決問題が多い. 達成しうる性能の下界 66
  67. n 漸近的とは,サンプルサイズが無限に大きくなる状況だけでなく, (サンプルサイズを固定して) • リスクパラメータ𝛿が0に近づく状況や, • 期待値の差Δ! が0に近づく状況 も含む. 達成しうる性能の下界(漸近的な下界)

    67
  68. n Jamison et al. JMLR2014は繰り返し対数の法則に基づく下界を導出. n Jamison et al. JMLR2014の定理:

    • 腕が2本(𝐾 = 2)で,最適な腕を一本見つけたい(𝑚 = 1)場合を考える. • 最適な腕を𝑎∗とする. • 2本の腕の期待値の差をΔとする. • その差のもとでのサンプル複雑度を𝔼[𝜏N ]とする. • 任意のℙ j 𝑆, ≠ 𝑎∗ ≤ 𝛿,𝛿 ∈ (0, 1/2)に対して, lim sup N→R 𝔼[𝜏N ] Δ1+ log log Δ1+ ≥ 2 − 4𝛿. 達成しうる性能の下界(漸近的な下界) 68
  69. n 𝑚本の腕の識別を考える. n Kaufmann et al. JMLR2016は,Waldの補題より, • 𝐾本の腕の分布をもつ二つのバンディットモデル𝑣と𝑣=に対して, r

    ![, % 𝔼F 𝑁! 𝜎 𝐾𝐿 𝑣! , 𝑣! = ≥ sup ℰ∈ℱ, 𝑑(ℙF ℰ , ℙF*(ℰ)) という関係が成り立つことを利用して下界を導出.ここで, • 𝑁! 𝑡 = ∑V[, ( 1[𝐴V = 𝑎]は腕を引いた回数(サンプルサイズ), • ℱ( = 𝜎(𝐴, , 𝑍, , … , 𝐴( , 𝑍( ), • 𝑑 𝑥, 𝑦 = 𝑥 log c d + 1 − 𝑥 log ,1c ,1d . 達成しうる性能の下界(漸近的な下界) 69
  70. n 識別可能なバンディットモデルの集合を ℳC = 𝑣 = 𝑣, , … ,

    𝑣% : 𝑣* ∈ 𝒫, 𝜇 C > 𝜇[CD,] とする. • 識別可能=最適な腕が一意に定まる. • 𝒫はバンディットのモデル𝑣の集合=確率測度の集合. 達成しうる性能の下界(漸近的な下界) 70
  71. n 仮定1: • 前ページで定義した確率測度𝒫において,𝑝 ≠ 𝑞であるような,すべての𝑝, 𝑞 ∈ 𝒫+ に対して,すべての𝛼

    > 0に対して, 1. 次のような𝑞, ∈ 𝒫が存在する. • 𝐾𝐿 𝑝, 𝑞 < 𝐾𝐿 𝑝, 𝑞, < 𝐾𝐿(𝑝, 𝑞),かつ, • 𝔼-∼e# 𝑋 > 𝔼-∼e [𝑋]. 2. 次のような𝑞+ ∈ 𝒫が存在する. • 𝐾𝐿 𝑝, 𝑞 < 𝐾𝐿 𝑝, 𝑞+ < 𝐾𝐿 𝑝, 𝑞 + 𝛼,かつ, • 𝔼-∼e" 𝑋 < 𝔼-∼e [𝑋] 達成しうる性能の下界(漸近的な下界) 71
  72. n Kaufmann JMLR2016の定理: • 𝑣 ∈ ℳC とする.𝒫は仮定1を満たすとする. • ℳC

    上の任意の𝛿-PACアルゴリズムは,𝛿 ≤ 0.15に対して, 𝔼F 𝜏 ≥ r !∈𝒮- ∗ 1 𝐾𝐿 𝑣! , 𝑣 CD, + r !∈𝒮- ∗ 1 𝐾𝐿 𝑣! , 𝑣 C log 1 2.4𝛿 n この定理より,サンプル複雑度の漸近的な下界 𝜅O 𝑣 ≔ inf B PBO lim sup :→R 𝔼 𝜏: log 1 𝛿 ≥ r !∈𝒮- ∗ 1 𝐾𝐿 𝑣! , 𝑣 CD, + r !∈𝒮- ∗ 1 𝐾𝐿 𝑣! , 𝑣 C . が得られる. 達成しうる性能の下界(漸近的な下界) 72
  73. n Lattimore and Szepesvari 2020は,Kaufmannらの𝜅L (𝑣)を簡略化した, lim :→R 𝔼F [𝜏]

    log(1/𝛿) = 𝑐∗(𝑣) , ここで,𝑐∗(𝑣)はバンディットモデル𝑣と,その𝑣と比較される適当なバンディットモデル𝑣′ との間のカルバック・ライブラー・ダイバージェンスに依存する量・ 達成しうる性能の下界(漸近的な下界) 73
  74. n 次に,非漸近的な下界について考える. n Mannor and Tsitklis ICML2004は, • バンディットの腕の期待値が𝜇! ∈

    [0, 𝛼],𝛼 ∈ (0,1)であるとき, • 最適な腕が1本(𝑚 = 1,𝒮, ∗ = {[1]})の状況において, • 𝒢g 𝑣 ⊂ 𝒮, ∗とℋg 𝑣 ⊂ 𝐾 ∖ 𝒮, ∗に対して, 𝔼F 𝜏 ≥ 𝐶g r !∈𝒢. F 1 𝜖+ + r !∈ℋ. F 1 𝜇 , − 𝜇! + log 1 8𝛿 • ここで,𝐶g は適当な定数. 達成しうる性能の下界(非漸近的な下界) 74
  75. n Garivier and Kaufmann (2016)による非漸近バウンド. • 最適な腕を一本(𝑚 = 1)だけ識別する設定を考える. •

    腕の集合をℳとする. • あるバンディットモデル𝑣 ∈ ℳの最適な腕を𝑎∗(𝑣)とする. • あるバンディットモデル𝑣 ∈ ℳに対し,最適な腕が異なるモデルの集合を 𝐴𝑙𝑡 𝑣 ≔ 𝑣= ∈ ℳ: 𝑎∗ 𝑣 ≠ 𝑎∗ 𝑣= とする. • 腕の集合{1,2, … , 𝐾}上の確率分布をΣ% = {𝑤 ∈ ℝD %: 𝑤, + ⋯ + 𝑤% = 1}とする. 達成しうる性能の下界(非漸近的な下界) 75
  76. n 定理: • 𝛿 ∈ (0,1)とする.任意の𝛿-PAC戦略とバンディットモデル𝑣 ∈ ℳに対して, 𝔼F 𝜏:

    ≥ 𝑇∗ 𝑣 𝑘𝑙 𝛿, 1 − 𝛿 . • ここで, 𝑇∗ 𝑣 1, ≔ sup j∈k/ inf F*∈Bl( F r ![, % 𝑤! 𝑑 𝜇! , 𝜆! , 𝑑 𝑥, 𝑦 : Kullback Leibler divergence 𝑘𝑙 𝑥, 𝑦 ≔ 𝑥 log 𝑥 𝑦 + 1 − 𝑥 log 1 − 𝑥 1 − 𝑦 達成しうる性能の下界(非漸近的な下界) 76
  77. 参考⽂献 77

  78. • 「バンディット問題の理論とアルゴリズム」本多・中村,2014年 • Mannor and Tsitsiklis, The sample complexity of

    exploration in the multi-armed bandit problem, JMLR2004. • Kalyanakrishnan, Tewari, Auer, and Stone, PAC subset selection in stochastic multi-armed bandits, ICML2012. • Gabillon, Ghavamzadeh, and Lazaric, Best arm identification: a unified approach to fixed budget and fixed confidence, NeuriPS2012. • Jamieson, Malloy, Nowak, and Bubeck, lil’UCB: an optimal exploration algorithm for multi-armed bandits, JMLR2014. • Kaufmann, Cappe, and Garivier, On the complexity of best-arm identification in multi-armed bandit models, JMLR2016. • Garivier and Kaufmann, Optimal best arm identification with fixed confidence, COLT2016. • Lattimore and Szepesvari, Bandit Algorithms, 2020. 参考文献 78