計量経済学ゼミ-最適腕識別１

最適腕識別と適応的実験計画最適腕識別の基礎サイバーエージェント AILab Econチーム加藤真大

概要 n 最適腕識別の問題設定とアルゴリズム（戦略）の概要． • 本多・中村 (2014)，「バンディット問題の理論とアルゴリズム」の第6章の内容に基づく， n 説明すること： • 問題設定とアルゴリズム，およびその理論解析の簡単な紹介．
• 実装と実験例． n 説明しないこと： • 漸近最適性に関する議論については触れない． • 最近の研究成果（特に2016年以降の結果）については触れない． 2

最適腕識別の問題設定サイバーエージェント AILab Econチーム加藤真大

多腕バンディット問題 n 多腕バンディット問題（Multi-armed Bandit Problem; MAB）： • 期間𝑡 = 1,2,
…と𝐾個のスロットの腕（処置・選択肢・方策・施策・AB）が与えられている状況を考える． • 各期𝑡において𝐾個の腕のなかから1個を選んで引くことができる． • その引かれた腕は未知の確率分布に従ってプレイヤーに報酬を与える． • 過去に引かれた腕から観測された報酬に基づいて統計的な推論を行う．引かれた腕𝐴𝑡 の報酬 𝑌𝑡 𝐴𝑡を観測．プレイヤー腕𝐴# ∈ {1,2, … , 𝐾}を引く腕1 腕2 腕𝐾 ⋯ 4

多腕バンディット問題の問題設定 n 多腕バンディット問題はさらにいくつかの問題設定に分かれている． Ø データ生成過程に基づく分類： • 確率的バンディット：腕の報酬の確率分布が定常な（期間ごとに変化しない）設定． • 敵対的バンディット：腕の報酬の確率分布が各期に敵対的に選ばれる設定． Ø
目的関数に基づく分類： • リグレット最小化（累積報酬最大化）：期間1,2, … , 𝑇のなかで得られる累積報酬の最大化を目指す． • 最適腕識別：報酬の期待値が最大の腕を，間違えて選ぶ確率を最小化して，発見することを目指す． n 本スライドでは「確率的バンディット」の「最適腕識別」を解説する． 5

表記の整理 Ø 最適腕識別を説明するために数学表記を定義する． n 𝐾本のそれぞれの腕を表す番号を1,2 … , 𝐾とする． n 各腕𝑎
∈ {1,2, … , 𝐾}は確率分布𝑣$ に従って各期𝑡に報酬𝑌# $を生成する． • 𝑌# $はNeyman-Rubinの因果モデルでは潜在アウトカムと呼ばれる． n 𝐾個の腕の分布の集合𝑣 = (𝑣% , 𝑣& , . . , 𝑣$ )はバンディットモデルや潜在アウトカムの分布などと呼ばれる． • バンディットモデル𝑣は時間で変化しない． • バンディットモデル𝑣のもとでの腕𝑎の報酬の期待値を𝜇$ = 𝜇$(𝑣) = 𝔼' [𝑌# $]と表記する． n 期待報酬が最大の腕を最適腕と呼び，𝑎∗ = 𝑎∗(𝑣) = arg max$ 𝜇$と表記する． 6

表記の整理 n プレイヤーの行動： • 期間𝑡 = 1,2, …が与えられている． • 各期𝑡にプレイヤーが選んで引く腕を𝐴#
∈ {1,2, … , 𝐾}で表す． • プレイヤーは引いた腕の報酬𝑌# のみを観測できる．すなわち， 𝑌# = = $)% * 1 𝐴# = 𝑎 𝑌# $ • 時刻𝜏 ∈ {1,2, … . }に最適だと思う腕? 𝑎+ ∈ {1,2, . . , 𝐾}を推薦する． 7

表記の整理 n プレイヤーの戦略： • プレイヤーは戦略（strategy，方策とも呼ばれる）に従って行動する． • 戦略は以下の三つのルールから構成される． 1. サンプリングルール：各期𝑡に引く腕𝐴# を選ぶ．
2. 停止ルール：ある時刻𝜏に腕を引くのをやめる． 3. 推薦ルール：時刻𝜏に最適腕だと思う腕? 𝑎+ を推薦する． 8

最適腕識別の目的 n 最適腕識別の（ざっくりとした）目的 • プレイヤーが最適腕だと思う腕? 𝑎+ が，最適腕ではない確率（誤識別率）を最小化する． • バンディットモデル𝑣もとでの確率ℙ' を用いて，誤識別率を以下のように表す：
ℙ' ? 𝑎+ ≠ 𝑎∗ . n 最適腕識別にはさらに二つの問題設定があり，そのもとで具体的な目的を定める． • 固定信頼度設定での最適腕識別． • 固定予算設定での最適腕識別． 9

固定信頼度設定での最適腕識別 n 固定信頼度設定での最適腕識別問題 Ø プレイヤーが腕を引くのを止める時刻𝜏をプレイヤーが自身で決められる． • この時刻𝜏を停止時刻（stopping time）と呼ぶ．停止時刻𝜏は確率変数． Ø 事前に定められた𝛿
∈ (0,1)に対して，誤識別率が𝜹以内になるまで選択を続ける． n プレイヤーの目的： • 停止時刻𝝉に腕F 𝒂𝝉 を最適腕として推薦する． • この時，誤識別率についてℙ' ? 𝑎_𝜏 ≠ 𝑎∗ ≤ 𝛿を満たしつつ，停止時刻の期待値𝔼[𝜏]を小さくすること． 10

固定予算設定での最適腕識別 n 固定予算設定での最適腕識別問題 Ø プレイヤーが腕を引くのを止める時刻𝜏が事前に決められている． • この腕を引くのを止める時刻𝜏を予算𝑻と呼ぶ． n プレイヤーの目的： •
予算がなくなる𝑻期に腕F 𝒂𝑻 を最適腕として推薦する． • この時，誤識別率ℙ' ? 𝑎. ≠ 𝑎∗ を速いレートで最小化すること（ゼロに近づくレートを速くすること）． 11

𝝐-最適腕識別 n 厳密に最適腕argmax $ 𝜇$ を発見することは難しいので，ある値𝝐 ≥ 0に対して「期待値が𝜇∗ =
max $ 𝜇$ − 𝜖以上の腕を１つ以上発見する」という𝝐-最適腕識別の問題を考えることもできる． n 𝝐 = 𝟎の場合，今までに紹介した「厳密な」最適腕識別に対応する． n 以降では，厳密な最適腕識別を含む一般的な問題として𝝐-最適腕識別を考えることにする． 12

最適腕識別はABテストの一般化？ n ABテスト： • ２つの選択肢𝐴と𝐵について，実験によって得られたデータを用いて，それぞれの施策効果を比較する． • 例（ABテストの手順）：サンプルサイズを決める．無作為化比較実験を行う．実験後に仮説検定を行う．仮説検定を行った後に，その結果に基づいて２つの選択肢のうち１つを選ぶ． n 最適腕識別：
• 複数の選択肢（腕）があることを許容する（ABテストのように2種類でも良い）． • 実験によってデータを集める．実験の過程でデータの集め方を過去の観測結果を用いて最適化できる． • 複数の選択肢のうち１つを選ぶ． 13

最適腕識別はABテストの一般化？ n 最適腕識別はABテストの一般化と呼ばれている． Ø 一般化されている部分？： • ABテストでは２種類の選択肢に注目するが，最適腕識別では複数の選択肢を比較できる． • 最適腕識別では過去の観測値を用いてデータの集め方（𝐴# ）を最適化できる．
Ø 異なる部分？： • ABテストと異なり，最適腕識別では仮説検定を（陽には・一般的には）行わない． • 仮説検定≠意思決定． 14

２腕正規バンディットの最適腕識別：誤識別率の減衰レート n 最適腕識別の例として，腕の数が2本で，報酬が正規分布に従う場合の問題を考える． • 𝐾 = 2本の腕から得られる報酬𝑌%と𝑌&が， • それぞれ分散既知の正規分布𝒩
𝜇/ , 𝜎& に従うとし（分散は二つの腕で等しい）， • 固定予算𝑇での最適腕識別を考える． n 𝜇% > 𝜇&と仮定する．つまり，最適腕は1 = arg max$∈{%,&} 𝜇$ n 最適戦略（Glynn and Juneja (2004)，および，Kaufmann et al, (2016)）： • サンプリングルール：それぞれの腕を𝑇/2回ずつ引いた後， • 停止ルール：予算が尽きる𝑇期に， • 推薦ルール：標本平均 ̂ 𝜇$が大きい腕を最適腕とする．つまり，? 𝑎. = arg max $∈{%,&} ̂ 𝜇$ 15

２腕正規バンディットの最適腕識別：誤識別率の減衰レート n 腕2と1の標本平均の差V Δ. = ̂ 𝜇% − ̂
𝜇&は，正規分布𝒩 𝜇& − 𝜇% , 4𝜎&/𝑇 に従う確率変数． n このとき，誤識別率ℙ' ? 𝑎. ≠ 1 は， ℙ' ? 𝑎. ≠ 1 = ℙ' (V Δ. ≤ 0) = 1 − Φ 𝑇 𝜇% − 𝜇& 2𝜎 ≈ exp − 𝑇 𝜇% − 𝜇& & 8𝜎& . で与えられる． • Φは標準正規分布の累積分布関数． n 識別率の指数関数的な減衰． 16

２腕正規バンディットの最適腕識別：最適腕識別とリグレット最小化との違い n ２腕正規バンディットの例を通じて，最適腕識別とリグレット最小化（累積報酬最大化）との違いを考える． n 累積報酬最大化問題のアルゴリズムが被るリグレットを regret 𝑇 = =
#)% . 𝜇$∗ − 𝜇4# として定義する． n これは最適腕を𝑇期間引き続ける戦略との累積報酬の期待値の差分．＝理想的な戦略と比較したときの，プレイヤーの戦略の後悔を表している． n このリグレットの最小化（累積報酬の最大化）と最適腕識別は異なる戦略を要求する． 17

２腕正規バンディットの最適腕識別：最適腕識別とリグレット最小化との違い n リグレット最小化の戦略のもとで，リグレットはlog 𝑇のオーダーを達成することが望ましいとされる． ⇔ 最適腕識別の最適線Rにゃくの元では，リグレットは 𝜇% − 𝜇&
𝑇/2の線形オーダーを被る． • リグレット最小化の最適戦略では最適でない腕は高々log 𝑇回しか引かれない． • 一方で，２腕正規バンディットの最適腕識別の最適戦略は最適でない腕も𝑇/2回引くことになる． n 語弊を恐れずに言えば，この違いは最適腕を発見するための努力に起因する． • 累積報酬最大化の場合，二番目以下の最適でない腕と，それらと僅差の最適腕を発見するために多くの施行を必要とするぐらいなら，その差を気にせず良さそうな腕を選び続けて報酬を最大化する方がいい． 18

固定信頼度設定の最適腕識別アルゴリズムの例サイバーエージェント AILab Econチーム加藤真大

最適腕識別の戦略 n 固定信頼度設定での戦略． → ある一定の誤識別率を達成できるまで腕を引き続ける． → ある一定の誤識別率を達成できるようになるまで，候補となる腕を1本に絞り込むような戦略． n 大きく分けて２種類の戦略の枠組みがある： •
一様選択に基づく方法：逐次削除戦略． • スコアに基づく方法：LUCB戦略，UGapEc戦略， lil’UCB戦略など． n 固定予算設定での戦略． → 与えられた予算𝑇の範囲内で誤識別率を速いレートで最小化する． → 残り予算を考慮しながら候補となる腕を1本になるように絞り込む戦略もありうる． 20

一様選択に基づく戦略 n 腕の数が２本あり，２本の報酬の分散が等しい → 一様に腕を選ぶこと（同じ比率でサンプルを割り当てること）が最適に近くなる． → 腕の数が複数ある場合も，最適腕である可能性が残っている腕を一様に選択していく方式が考えられる．最適腕である可能性の低いものから順に削除していく． n 逐次削除（successive
elimination policy）戦略． 21

逐次削除戦略のアルゴリズム n 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0. 各期𝑡の信頼度：𝛽# 𝛿
: 0,1 → 0, ∞ . n 最適腕の候補ℛ ← 1,2, … , 𝐾 , 𝑡 ← 1. • loop ℛに含まれるすべての腕を1回ずつ引く．各腕𝑖 ∈ ℛのUCB⋅LCBスコア𝜇 # $ = ̂ 𝜇# $ + 5# 6 &# , 𝜇# $ = ̂ 𝜇# $ − 5# 6 &# を計算． ? 𝑎# ← arg max $∈ℛ ̂ 𝜇# $ . if 𝜇# 8 $# + 𝜖 > max $9 8 $# 𝜇 # $ then F 𝑎 ∗を出力して終了． else if 𝜇# 8 $# > 𝜇 # $なる𝑎 ≠ F 𝑎 が存在 then そのような𝑎を全てℛから削除 𝑡 ← 𝑡 + 1. 22

逐次削除戦略の実験１ n 腕の数を𝐾 = 5と設定して実験． • 逐次的に削除されて，候補として残っている腕の数の減少してく様子を確認． Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 人工データの作成
候補 # $ % 残 ' % ( ) 腕 + 数 23 サンプルサイズ

n 腕の数を増やして𝐾 = 100と設定して実験． • 候補として残っている腕の数の減少の挙動を確認した． Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 候補
# $ % 残 ' % ( ) 腕 + 数人工データの作成 24 逐次削除戦略の実験２サンプルサイズ

逐次削除戦略の欠点 n 逐次削除戦略は， • すべての腕を同オーダーの回数引くべき，という直観にあっており， • 実装・解析も容易しかし，以下の問題点がある． n 最適腕と二番目以降にいい腕の期待報酬の差が小さい場合：
• そのいずれが最適腕かを識別するためには双方について比較的多くのサンプルが必要になる．

逐次削除戦略の欠点 n 最適腕1として，腕の報酬の期待値が以下のように降順になっているとする：𝜇% ≥ 𝜇& ≥ ⋯ ≥ 𝜇*． n
最適腕1が十分多く引かれている場合： • 最適腕1の期待値が精度良く推定できるために， • 腕𝐾といった期待値の悪い腕については，サンプルサイズがやや小さくても𝜇%と𝜇*のどちらが大きいかを高確率で識別できる． n 一方で，逐次削除戦略では， • 基本的に𝐾, 𝐾 − 1, …と期待値が悪い順に最適腕以外の候補が削除されていくため， • これらの期待値が悪い腕を削除する段階では最適腕1のサンプルサイズが多くない， → 結果として腕𝐾や𝐾 − 1のサンプルサイズが多く必要となってしまう．

UCB・LCB n 前のページで現れたUCB (Upper Confidence Bound) ・LCB (Lower Confidence Bound)：
• 引かれた回数の少ない腕の報酬の推定量の真値からの乖離を楽観的（悲観的）に見積もる． → 各期𝑡において信頼区間（信頼度）を構築する． n 確率集中不等式 • Hoeffdingの不等式：確率変数が取りうる値の範囲を用いる確率評価． • Bernsteinの不等式：分散を用いる確率評価． • KLダイバージェンス：分布の情報を用いる確率評価． n 詳細に触れたくないので，抽象的に𝛽# 𝛿 : 0,1 → 0, ∞ という関数で信頼度を作るとする． 27

腕へのスコアリング n 一様選択に基づく戦略では必要のない腕を余分に多くの回数引く可能性がある． n そこで，まず最適腕を予想し，ついで最適腕の候補の腕のLCBと，それ以外の腕のUCBとの差が早く広がるように腕を選ぶ戦略を考える． • 推定された最適腕のLCB：𝜇# 8
$# ∗ ，推定された２番目に良い腕のUCB：𝜇 # 8 $# ∗∗ • 𝑑𝑖𝑓𝑓 = 𝜇# 8 $# ∗ − 𝜇 # 8 $# ∗∗ が早く広がるようにサンプリングを行う．最適腕報酬腕 LCB UCB ここの差を広げていく．現時点での最有力候補とその次の候補を引き続ける． 28

LUCB方策のアルゴリズム n 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0．各期𝑡の信頼度：𝛽# 𝛿 :
0,1 → 0, ∞ . n （初期化）すべての腕を1回ずつ選択．𝑡 ← 𝐾. n loop 各腕𝑎のUCB⋅LCBスコア𝜇 # $ = ̂ 𝜇# $ + 5# 6 & ∑$%& #'& %[4$)$] , 𝜇# $ = ̂ 𝜇# $ − 5# 6 & ∑$%& #'& %[4$)$] を計算． F 𝑎 # ∗ ← arg max ̂ 𝜇$,= , F 𝑎 # ∗∗ ← arg max $9 > $ ∗ ̅ 𝜇$ (𝑡) . if 𝜇 # > $ # ∗∗ < 𝜇# > $ # ∗ + 𝜖 then F 𝑎 # ∗を出力して終了． else 腕F 𝑎 # ∗と腕F 𝑎 # ∗∗を引く． 𝑡 ← 𝑡 + 2. 29

より効率的なスコアリングに基づく方策 n LUCB方策はスコアリングで一様選択で発生する余分な施行を減らそうとした． n 「腕F 𝑎 # ∗ と腕F 𝑎
# ∗∗ を引く」というプロセスが入っている． → 逐次削除戦略とは逆に最適腕の選択数が過度に多くなってしまうという問題が生じる． n UGapE戦略（Gabillon, Ghavamzadeh, and Lazaric (2012)）: • 反復ごとに腕F 𝒂 𝒕 ∗と腕F 𝒂 𝒕 ∗∗のうちサンプルサイズが小さいもののみを選択する． • サンプルサイズが小さい＝期待値の不確かさが大きい＝信頼度が広い． • 固定信頼度設定でのUGapE戦略はUGapEc戦略と，固定予算設定でのUGapE戦略はUGapEb戦略． 30

UGapEc戦略のアルゴリズム n 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0．各期𝑡の腕𝑎ごとの信頼度：𝛽$,# 𝛿 :
ℕ× 0,1 → 0, ∞ . n すべての腕を1回ずつ選択．𝑡 ← 𝐾. n loop 各腕𝑖のUCB⋅LCBスコア𝜇 # $ = ̂ 𝜇# $ + 5(,# 6 & ∑$%& #'& %[4$)$] , 𝜇# $ = ̂ 𝜇# $ − 5(,# 6 & ∑$%& #'& %[4$)$] を計算． 𝐽 𝑡 ∈ arg min $*∈ %,&,…,= max $9$* 𝜇 # $ − 𝜇# $* Pull F 𝑎 ∗ ←. arg max 𝛽A,# 𝛿 , 𝛽B,# 𝛿 ，ただし𝑢 = arg max C9D # 𝜇 # C， 𝑙 = arg max /∈D # 𝜇# /． if max $9E 𝜇 # $ − 𝜇# $* ≥ 𝜖 for 𝑎′ ∈ 𝐽(𝑡) then 𝐽 𝑡 を出力して終了． else 𝑡 ← 𝑡 + 1. 31

LUCB方策とUGapEc方策の実験１ n 𝑑𝑖𝑓𝑓 = 𝜇# 8 $# ∗ − 𝜇
# 8 $# ∗∗ がどのくらいの速さで小さくなるか実験で検証する Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 𝑑𝑖𝑓𝑓 サンプルサイズ擬似データの作成

LUCB方策とUGapEc方策の実験１ n LUCB方策とUGapEc方策とで停止するまでどの腕がどの程度引かれるかを図示． n LUCB方策では最適腕である腕0を多く引きすぎていることがわかる． Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 腕 - 引
( / 回数腕の番号（最適腕は0） LUCB方策 UgapEc方策 33 腕の番号（最適腕は0）

固定予算設定の最適腕識別アルゴリズムの例サイバーエージェント AILab Econチーム加藤真大

逐次削除戦略の固定予算設定への拡張 n 逐次削除戦略 • 腕が一度候補ℛから削除されたらその先には二度と引かれない． • 固定予算の設定に自然に適用する方法が自明ではない． n UCBやLCBを用いない戦略に改変することで逐次削除戦略を固定予算の設定で用いる． •
予算𝑻に応じて事前に決められたタイミングで腕を候補から削除していく． • 予算𝑻と腕の数𝑲に基づいて期間𝑻を分割．分割されたブロック回数分，腕を引いた後に，候補から腕を削除していく（Audibert, Bubeck, and Munos (2010)）． 35

LUCB戦略の固定予算設定への拡張 n LUCB戦略のように，探索を行う腕を何らかのスコアにより適応的に決めていく方策は，途中で探索が終了しないようにすると，固定予算の設定へ自然に適用可能． n ただし，UCBやLCBスコアにおける信頼区間の幅 5#(6) &H+(#) は信頼度𝛿に依存しており，固定予算の設定ではこれを𝛿ではなく予算𝑇に依存した量に置き換える必要がある．
n そこで，LUCB戦略やUGapE戦略では，固定予算設定における方策として， • 固定信頼度設定における𝛽# (𝛿)をパラメータ𝑏を用いて， • 𝛽# I 𝑇 = 𝑏𝑇 = log % JKL(MN.) に置き換える．ことが提案されている， 36

固定信頼度設定と固定予算設定 n 固定予算設定の戦略は，固定信頼度設定ほど研究があまり進んでいない． • 理論的最適性の議論が難しいため． n 最適なサンプル割り当て方法（サンプリングルール）が既知の場合は最適なアルゴリズムがある．例：Glynn and Juneja
(2004)など． • Kasy and Sautmann (2021)は経済学の分野において固定予算設定の最適腕識別の手法を紹介， • Glynn and Juneja (2004)や他の最適腕識別の手法を拡張． • しかし，最適なサンプル割り当て方法の推定を無視しているため，証明が不成立． • 一方で，その手法は固定信頼度の設定なら最適であることが知られている． 37

理論解析サイバーエージェント AILab Econチーム加藤真大

n 最適腕1として，腕の報酬の期待値が以下のように降順になっているとする：𝜇% ≥ 𝜇& ≥ ⋯ ≥ 𝜇* n バンディットモデル𝑣の問題の複雑度を以下のように定義する：
𝐻O 𝑣 = 1 2 𝜇% − 𝜇& + 𝜖 & + = $)& * 1 2 𝜇% − 𝜇$ + 𝜖 & . • 𝜖 > 0のとき𝐻O 𝑣 は高々有限の値で抑えられるが， 𝜖 = 0のときは𝜇& が𝜇%に近づくにつれ発散． n 腕の期待報酬の差分が小さくなるほど𝐻O 𝑣 は大きくなる = 問題が難しくなる． n これまでに述べた固定信頼度設定での戦略はおおよそ 𝐻O 𝑣 log(1/𝛿)程度のサンプルサイズを必要とする． • 2腕バンディットでΔ = 𝜇% − 𝜇& としたものを右図に示す．バンディットの問題の複雑度

固定信頼度の逐次削除戦略の理論保証 n 定理（定理６．１，本多2016）： • 𝛽# 𝛿 = log P*#, 6
とし，𝛿 ≤ * (Q&MQ,)RO , S& を任意にとる． • このとき逐次削除方策は 1. 確率1 − 𝛿以上で𝜖-最適腕を正しく出力し，かつ 2. 停止するまでの総サンプル数が256𝐻O 𝑣 log P* 6 で抑えられる．

固定予算設定の戦略の理論保証 n 前述したようにLUCB戦略やUGapE方策では固定信頼度における𝛽# (𝛿)をパラメータ𝑏を用いて𝛽# 𝑇 = 𝑏𝑇 = log %
JKL(MN.) に置き換えたものが固定予算設定における戦略として提案されている， n このときある𝐶 > 0が存在し，もし𝐻O 𝑣 ≤ 𝐶/𝑏ならば，誤識別率を𝑂 exp −𝑏𝑇 で抑えられる． ↔ パラメータ𝑏は大きいほど誤識別率を小さくできるのに対して，実際には𝐻O (𝑣)の値は未知であり，𝐻 𝑣 ≤ 𝐶/𝑏が成り立たない場合には性能保証ができない． • 特に𝜖 = 0の場合には，𝐻O (𝑣)は非有界であり，𝑏をどう決めるかはプレイヤーの事前知識に依存．

シンプル・リグレット n 報酬最大化のバンディット問題の理論解析はリグレット解析が中心． ↔ 最適腕識別においてもリグレットを定義する． n シンプル・リグレット（Bubeck et al. (2011)）．
• 推薦される腕? 𝑎. が最適腕𝑎∗と異なる場合に生じるリグレット： 𝑟 𝑇 = 𝜇$∗ − 𝜇 8 $- n 期待シンプル・リグレット𝔼 𝑟# = ∑$9$∗ 𝜇$∗ − 𝜇$ ℙ' ? 𝑎. = 𝑎 を小さくすることは，係数部分 𝜇$∗ − 𝜇$ を無視すれば，指数の速さで減衰する誤識別率ℙ' ? 𝑎. = 𝑎 を小さくすることと実質的には同じ． • シンプル・リグレットは固定信頼度と固定予算の戦略の性能を統一的に評価するときに役に立つ？ • 経済学的な意味を付加することもできる？（Kasy and Sautmann (2021)）

参考文献 • 「バンディット問題の理論とアルゴリズム」本多・中村，2014年 • Bubeck, S., Munos, R., and Stoltz,
G. (2009), “Pure Exploration in Multi-armed Bandits Problems,” in Algorithmic Learning Theory, Springer Berlin Heidelberg, pp. 23–37. — (2011), “Pure exploration in finitely-armed and continuous-armed bandits,” Theoretical Computer Science • Gabillon, Ghavamzadeh, and Lazaric, Best arm identification: a unified approach to fixed budget and fixed confidence, NeuriPS2012. • Kaufmann, Cappe, and Garivier, On the complexity of best-arm identification in multi-armed bandit models, JMLR2016. • Garivier and Kaufmann, Optimal best arm identification with fixed confidence, COLT2016. • Glynn, P. and Juneja, S. (2004), “A large deviations perspective on ordinal optimization,” in Proceedings of the 2004 Winter Simulation Conference, IEEE, vol. 1. • Kasy, M. and Sautmann, A. (2021), “Adaptive Treatment Assignment in Experiments for Policy Choice,” Econometrica, 89, 113–132.

計量経済学ゼミ-最適腕識別１

計量経済学ゼミ-最適腕識別１

MasaKat0

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

最適腕識別と適応的実験計画最適腕識別の基礎サイバーエージェント AILab Econチーム加藤真大

最適腕識別の問題設定サイバーエージェント AILab Econチーム加藤真大

多腕バンディット問題 n 多腕バンディット問題（Multi-armed Bandit Problem; MAB）： • 期間𝑡 = 1,2,

表記の整理 Ø 最適腕識別を説明するために数学表記を定義する． n 𝐾本のそれぞれの腕を表す番号を1,2 … , 𝐾とする． n 各腕𝑎

表記の整理 n プレイヤーの行動： • 期間𝑡 = 1,2, …が与えられている． • 各期𝑡にプレイヤーが選んで引く腕を𝐴#

表記の整理 n プレイヤーの戦略： • プレイヤーは戦略（strategy，方策とも呼ばれる）に従って行動する． • 戦略は以下の三つのルールから構成される． 1. サンプリングルール：各期𝑡に引く腕𝐴# を選ぶ．

固定予算設定での最適腕識別 n 固定予算設定での最適腕識別問題 Ø プレイヤーが腕を引くのを止める時刻𝜏が事前に決められている． • この腕を引くのを止める時刻𝜏を予算𝑻と呼ぶ． n プレイヤーの目的： •

𝝐-最適腕識別 n 厳密に最適腕argmax $ 𝜇$ を発見することは難しいので，ある値𝝐 ≥ 0に対して「期待値が𝜇∗ =

２腕正規バンディットの最適腕識別：誤識別率の減衰レート n 腕2と1の標本平均の差V Δ. = ̂ 𝜇% − ̂

固定信頼度設定の最適腕識別アルゴリズムの例サイバーエージェント AILab Econチーム加藤真大

逐次削除戦略のアルゴリズム n 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0. 各期𝑡の信頼度：𝛽# 𝛿

逐次削除戦略の実験１ n 腕の数を𝐾 = 5と設定して実験． • 逐次的に削除されて，候補として残っている腕の数の減少してく様子を確認． Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 人工データの作成

n 腕の数を増やして𝐾 = 100と設定して実験． • 候補として残っている腕の数の減少の挙動を確認した． Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e 候補

逐次削除戦略の欠点 n 最適腕1として，腕の報酬の期待値が以下のように降順になっているとする：𝜇% ≥ 𝜇& ≥ ⋯ ≥ 𝜇*． n

UCB・LCB n 前のページで現れたUCB (Upper Confidence Bound) ・LCB (Lower Confidence Bound)：

LUCB方策のアルゴリズム n 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0．各期𝑡の信頼度：𝛽# 𝛿 :

より効率的なスコアリングに基づく方策 n LUCB方策はスコアリングで一様選択で発生する余分な施行を減らそうとした． n 「腕F 𝑎 # ∗ と腕F 𝑎

UGapEc戦略のアルゴリズム n 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0．各期𝑡の腕𝑎ごとの信頼度：𝛽$,# 𝛿 :

LUCB方策とUGapEc方策の実験１ n 𝑑𝑖𝑓𝑓 = 𝜇# 8 $# ∗ − 𝜇

固定予算設定の最適腕識別アルゴリズムの例サイバーエージェント AILab Econチーム加藤真大

理論解析サイバーエージェント AILab Econチーム加藤真大

n 最適腕1として，腕の報酬の期待値が以下のように降順になっているとする：𝜇% ≥ 𝜇& ≥ ⋯ ≥ 𝜇* n バンディットモデル𝑣の問題の複雑度を以下のように定義する：

固定信頼度の逐次削除戦略の理論保証 n 定理（定理６．１，本多2016）： • 𝛽# 𝛿 = log P*#, 6

固定予算設定の戦略の理論保証 n 前述したようにLUCB戦略やUGapE方策では固定信頼度における𝛽# (𝛿)をパラメータ𝑏を用いて𝛽# 𝑇 = 𝑏𝑇 = log %

シンプル・リグレット n 報酬最大化のバンディット問題の理論解析はリグレット解析が中心． ↔ 最適腕識別においてもリグレットを定義する． n シンプル・リグレット（Bubeck et al. (2011)）．

参考文献 • 「バンディット問題の理論とアルゴリズム」本多・中村，2014年 • Bubeck, S., Munos, R., and Stoltz,