Slide 5
Slide 5 text
4
Lenient Regret と Good Arm Identification ― Optimal は Practical か︖
古典的な枠組みでは、最適な値や台を特定するための探索回数が多く、実応⽤できないケースがしばしば存在
→ 最近、Multi-Armed Bandits では "near-optimal" な戦略 や "good enough" な台を求める⼿法が発展
near-optimal なアームを引いた場合は
ペナルティが⽣じないように緩和したリグレット
Standard Regret: 𝑅 𝑇 = 𝔼 Σ"*+
, Δ"
• Δ" ≔ 𝜇∗ − 𝜇!(")
• 𝜇∗ ≔ max
!∈ /
𝜇!
Lenient Regret: B
𝑅0
𝑇 ≔ 𝔼 [Σ"*+
, Φ(Δ"
)]
• 𝜖-gap 関数 Φ: 0, 1 → 0, ∞
s.t. Φ Δ = 0, ∀Δ < 𝜖
優良腕 (期待報酬がしきい値以上の台) を探索する問題
アルゴリズムが 𝛿-PAC (Probably Approximately Correct) という
条件下で、優良腕を出⼒し停⽌するまでの時刻 {𝜏+
, . . , 𝜏2345
}
の同時最⼩化問題として定式化
• 𝛿-PAC: 𝜆, 𝛿 -PAC ∀𝜆 ∈ 𝐾
• (𝜆, 𝛿)-PAC:
ℙ )
𝑚 < 𝜆 ∪ ⋃"∈ $
%!,… , $
%"
𝜇"
< 𝜉 ≤ 𝛿 if 𝜆 ≤ |𝒜())*
|,
ℙ )
𝑚 ≥ 𝜆 ≤ 𝛿 if 𝜆 > |𝒜())*
| ,
where 𝜆: 出⼒したい優良腕の数, )
𝑚: 優良腕として出⼒した台の数,
𝜉: しきい値, 𝒜())*
: 優良腕の集合
Dilemma of Confidence が発⽣し、累積リグレット最⼩化に類似
→ この類似性を活⽤した探索アルゴリズムは漸近最適性を持つ
Lenient Regret [Merlis and Manner, '21] Good Arm Identification [Kano+, '19]