icml2021_reading_lenient_regret_and_good_action_identification_in_gaussian_process_bandits

0 Lenient Regret and Good-Action Identification in Gaussian Process Bandits
Xu Cai, Selwyn Gomes, Jonathan Scarlett ⿅野英明 @ BCG GAMMA ICML2021 論⽂読み会 Twitter: #icml2021_reading

1 ⾃⼰紹介⿅野英明 Kano, Hideaki 経歴 • 2019年 09⽉
– 現在: データサイエンティスト, BCG, DigitalBCG Japan, BCG GAMMA • 2018年 04⽉ - 2019年 08⽉: エンジニア, リクルートコミュニケーションズ (RCO) • 2017年 03⽉ – 2018年 03⽉: リサーチアシスタント, RIKEN AIP • 2018年 03⽉: 修⼠, 東京⼤学⼤学院新領域創成科学研究科複雑理⼯学専攻杉⼭研究室 • 2016年 03⽉: 学⼠, 北海道⼤学⼯学部情報ｴﾚｸﾄﾛﾆｸｽ学科ｺﾝﾋﾟｭｰﾀｻｲｴﾝｽｺｰｽ今井研究室経験領域 • ｼｪｱﾘﾝｸﾞｴｺﾉﾐｰ: ｼﾐｭﾚｰｼｮﾝ, 数理最適化 • 保険: 顧客特性分析 • ヘルスケア: 疾病予測 • ⼩売り: 需要予測, 商品特性分析 • 物流: 需要予測, 数理最適化過去の活動 • JSAI2021 のランチョンセミナーにて以下の発表を⾏いました「AI技術とデータによる社会変⾰のインパクト創出を⽬指した、AI⼈材教育と医療データ活⽤の取り組み」 https://www.ai-gakkai.or.jp/jsai2021/night-luncheon • 今年1⽉に TECH PLAY の以下のイベントに登壇いたしました「ボストンコンサルティンググループ（BCG）が仕掛けるデジタル産業イノベーション事例【ビジネス（経営）×データサイエンス】」 https://techplay.jp/column/1475 • リクルート在籍時に「多腕バンディット問題と A/B テスト」という解説記事を書きました https://www.rco.recruit.co.jp/career/engineer/blog/bandit/ • リクルート在籍時に以下の紹介記事を書きました「新⼈エンジニア主催で ISUCON に機械学習の要素を取り⼊れた新しいタイプのコンテストを開催しました」 https://www.rco.recruit.co.jp/career/engineer/blog/pigicon/

2 本⽇の内容論⽂の問い • Multi-Armed Bandits と Gaussian Process Bandits
• Lenient Regret と Good Arm Identification ― Optimal は Practical か︖ • 本論⽂の位置づけ論⽂の貢献 • Theoretical な貢献: Lenient Regret を⽤いた Gaussian Process Bandits の Upper and Lower Bounds の導出 • Practical な貢献: Good-Action Identification を効率的に解くアルゴリズムの開発 • 実験結果まとめ

3 単⼀のエージェントが複数台のスロットマシン** を繰り返しプレイこのとき、どのような戦略がベストかを考える問題 • アーム 𝑎 ∈ 𝐾 =
{1, … , 𝐾} は期待報酬 𝜇! の確率分布 𝜈! を持つ • エージェントは時刻 𝑡 = 1, … , 𝑇 でアーム 𝑎 𝑡 を引き、報酬 𝑋! " 𝑡 ∼ $.$.&. 𝜈!(") を得る古典的な枠組みは以下の2つ • 累積リグレット最⼩化: 得られる報酬を最⼤化したい • Best Arm Identification: 最も当たる台を⾒つけたい選択可能な候補の数は、離散的かつ有限個 Multi-Armed Bandits (多腕バンディット問題*) Multi-Armed Bandits と Gaussian Process Bandits * 多腕バンディット問題という名前は, スロットマシンをギャンブラーからお⾦を奪う “1本腕の盗賊 (one-armed bandit)” と喩える遊び⼼に由来しています ** スロットマシンのことを単に “アーム”, スロットマシンをプレイすることを “アームを引く” と呼ぶことが多いので, それに倣います単⼀のエージェントが選択可能なアクションを繰り返し実⾏このとき、どのような戦略がベストかを考える問題 • 選択可能なアクションは 𝑎 ∈ 𝒟 = 0, 1 & • エージェントは時刻 𝑡 = 1, … , 𝑇 でアクション 𝑎" を⾏い、報酬 𝑋" = 𝑓 𝑎" + 𝜖" , 𝜖" ∼ 𝒩(0, 𝜎)) を得る (ただし 𝑓 は 𝒟 上の未知の関数) 古典的な枠組みは以下の2つ • 累積リグレット最⼩化: 得られる報酬を最⼤化したい • 単純リグレット最⼩化: 最適なアクションを実⾏したい選択可能なの候補の数は、連続的かつ無限個 Gaussian Process Bandits

4 Lenient Regret と Good Arm Identification ― Optimal は
Practical か︖ 古典的な枠組みでは、最適な値や台を特定するための探索回数が多く、実応⽤できないケースがしばしば存在 → 最近、Multi-Armed Bandits では "near-optimal" な戦略や "good enough" な台を求める⼿法が発展 near-optimal なアームを引いた場合はペナルティが⽣じないように緩和したリグレット Standard Regret: 𝑅 𝑇 = 𝔼 Σ"*+ , Δ" • Δ" ≔ 𝜇∗ − 𝜇!(") • 𝜇∗ ≔ max !∈ / 𝜇! Lenient Regret: B 𝑅0 𝑇 ≔ 𝔼 [Σ"*+ , Φ(Δ" )] • 𝜖-gap 関数 Φ: 0, 1 → 0, ∞ s.t. Φ Δ = 0, ∀Δ < 𝜖 優良腕 (期待報酬がしきい値以上の台) を探索する問題アルゴリズムが 𝛿-PAC (Probably Approximately Correct) という条件下で、優良腕を出⼒し停⽌するまでの時刻 {𝜏+ , . . , 𝜏2345 } の同時最⼩化問題として定式化 • 𝛿-PAC: 𝜆, 𝛿 -PAC ∀𝜆 ∈ 𝐾 • (𝜆, 𝛿)-PAC: ℙ ) 𝑚 < 𝜆 ∪ ⋃"∈ $ %!,… , $ %" 𝜇" < 𝜉 ≤ 𝛿 if 𝜆 ≤ |𝒜())* |, ℙ ) 𝑚 ≥ 𝜆 ≤ 𝛿 if 𝜆 > |𝒜())* | , where 𝜆: 出⼒したい優良腕の数, ) 𝑚: 優良腕として出⼒した台の数, 𝜉: しきい値, 𝒜())* : 優良腕の集合 Dilemma of Confidence が発⽣し、累積リグレット最⼩化に類似 → この類似性を活⽤した探索アルゴリズムは漸近最適性を持つ Lenient Regret [Merlis and Manner, '21] Good Arm Identification [Kano+, '19]

5 Cumulative Regret 本論⽂の位置づけ Best Arm Identification Multiple Arms Continuous
Actions Optimal Policy Sufficient Policy Lenient Regret Good Arm Identification Cumulative Regret Simple Regret Lenient Regret and Good-Actions Identification in Gaussian Bandits Today's Paper

6 Theoretical な貢献: Lenient Regret を⽤いた Gaussian Process Bandits の
Upper and Lower Bounds の導出 Upper Bound Lower Bound Squared Exponential (SE) Kernel においては以下が知られているので、 𝛾+ = 𝑂∗ log 𝑡 - , where 𝑂∗ ⋅ hides dimension-independent logarithmic factors 𝑁./0 に関して以下が成り⽴つ 𝑁./0 ≤ 𝑂∗ log 𝑇 ⋅ log 1 Δ - Δ1 GP-UCB を⽤いた Standard Regret の Regret bound: 𝑂 𝑇𝛾2 𝛽2 Lenient Regret の主要な項は 𝑇 poly(log 𝑇) から poly(log 𝑇) へ削減

7 流体⼯学での研究 [Kushner, 1964] から着想しきい値 𝜂 よりも上回っている確率が⾼い箇所を以下のスコア 𝛼"
(x) で推定し、 𝛼"(x) = Φ 6345 7 8 9 :345 7 • Φ: 正規分布の累積分布関数このスコアが最⼤のアクションを各時刻で実⾏ここで、Φ は単調増加関数なので、実装上は 6345 7 8 9 :345 7 のみを考慮すればよい Probability of Being Good (PG) Practical な貢献: Good-Action Identification を効率的に解くアルゴリズムの開発 PG 法では、しきい値を上回る確率のみを考えていたが、期待改善幅も EG 法では考慮以下のスコアが最⼤となるようなアクションを実⾏ 𝛼" x = 𝜇"8+ x − 𝜂 ⋅ Φ 6345 7 8 9 :345 7 + 𝜎"8+ x ⋅ 𝜙 6345 7 8 9 :345 7 • 𝜙: 正規分布の確率密度関数単純リグレットを⽤いた Gaussian Process Bandits において「⽬先の」最⼤値改善を⽬指す貪欲法として Expected Improvement 法は知られている Expected Improvement Over Good (EG) Good Arm Identification を解く従来のアルゴリズムでは、探索時にしきい値の情報は未活⽤以下の提案⼿法*では、これを活⽤したより効率的な探索を実⾏ * この他にも, 論⽂内で Good-Action Search, Supplementary 内で Satisficing Thompson Sampling, Elimination Algorithm が提案されている

8 実験結果 (抜粋) Good-Action Identification 従来法提案法 Noisy Setting Non-
Synth. Lenient Regret • PG 法は従来法よりも効率的に探索 • Standard Regret より Lenient Regret は早く収束

9 まとめ • 問題設定: Lenient Regret と Good Arm Identification
を Multi-Armed Bandits から Gaussian Process Bandits へ拡張 • Theoretical な貢献: Lenient Regret を⽤いた Gaussian Process Bandits の Upper and Lower Bounds の導出 • Practical な貢献: Good-Action Identification を効率的に解くアルゴリズムの開発

10 DigitalBCG GAMMA - 募集要項勤務地選考プロセス書類選考、テクニカルテスト、複数回の⾯接東京・京都・⼤阪オフィスデータサイエンティスト
ソフトウェアエンジニア/ データエンジニア詳細はDigitalBCG Japanウェブサイトもしくは [email protected]へお問合せ下さい職種

icml2021_reading_lenient_regret_and_good_action...

icml2021_reading_lenient_regret_and_good_action_identification_in_gaussian_process_bandits

Hideaki Kano

More Decks by Hideaki Kano

Featured

Transcript

0 Lenient Regret and Good-Action Identification in Gaussian Process Bandits

1 ⾃⼰紹介⿅野英明 Kano, Hideaki 経歴 • 2019年 09⽉

2 本⽇の内容論⽂の問い • Multi-Armed Bandits と Gaussian Process Bandits

3 単⼀のエージェントが複数台のスロットマシン** を繰り返しプレイこのとき、どのような戦略がベストかを考える問題 • アーム 𝑎 ∈ 𝐾 =

4 Lenient Regret と Good Arm Identification ― Optimal は

5 Cumulative Regret 本論⽂の位置づけ Best Arm Identification Multiple Arms Continuous

6 Theoretical な貢献: Lenient Regret を⽤いた Gaussian Process Bandits の

7 流体⼯学での研究 [Kushner, 1964] から着想しきい値 𝜂 よりも上回っている確率が⾼い箇所を以下のスコア 𝛼"

8 実験結果 (抜粋) Good-Action Identification 従来法提案法 Noisy Setting Non-

9 まとめ • 問題設定: Lenient Regret と Good Arm Identification

10 DigitalBCG GAMMA - 募集要項勤務地選考プロセス書類選考、テクニカルテスト、複数回の⾯接東京・京都・⼤阪オフィスデータサイエンティスト