Practical か︖ 古典的な枠組みでは、最適な値や台を特定するための探索回数が多く、実応⽤できないケースがしばしば存在 → 最近、Multi-Armed Bandits では "near-optimal" な戦略 や "good enough" な台を求める⼿法が発展 near-optimal なアームを引いた場合は ペナルティが⽣じないように緩和したリグレット Standard Regret: 𝑅 𝑇 = 𝔼 Σ"*+ , Δ" • Δ" ≔ 𝜇∗ − 𝜇!(") • 𝜇∗ ≔ max !∈ / 𝜇! Lenient Regret: B 𝑅0 𝑇 ≔ 𝔼 [Σ"*+ , Φ(Δ" )] • 𝜖-gap 関数 Φ: 0, 1 → 0, ∞ s.t. Φ Δ = 0, ∀Δ < 𝜖 優良腕 (期待報酬がしきい値以上の台) を探索する問題 アルゴリズムが 𝛿-PAC (Probably Approximately Correct) という 条件下で、優良腕を出⼒し停⽌するまでの時刻 {𝜏+ , . . , 𝜏2345 } の同時最⼩化問題として定式化 • 𝛿-PAC: 𝜆, 𝛿 -PAC ∀𝜆 ∈ 𝐾 • (𝜆, 𝛿)-PAC: ℙ ) 𝑚 < 𝜆 ∪ ⋃"∈ $ %!,… , $ %" 𝜇" < 𝜉 ≤ 𝛿 if 𝜆 ≤ |𝒜())* |, ℙ ) 𝑚 ≥ 𝜆 ≤ 𝛿 if 𝜆 > |𝒜())* | , where 𝜆: 出⼒したい優良腕の数, ) 𝑚: 優良腕として出⼒した台の数, 𝜉: しきい値, 𝒜())* : 優良腕の集合 Dilemma of Confidence が発⽣し、累積リグレット最⼩化に類似 → この類似性を活⽤した探索アルゴリズムは漸近最適性を持つ Lenient Regret [Merlis and Manner, '21] Good Arm Identification [Kano+, '19]