Slide 41
Slide 41 text
Discounted CFR モチベーション
● CFR+ ポーカー等で大きな成果を上げた一方課題もある
○ 負 Regretを0にするため、大きな負 利得が存在するゲーム 場合
かえって更新が遅くなる
Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 2019; AAAI2019)
https://arxiv.org/abs/1809.04040
P1
P2 P2 P2
0 +1 -1,000,000
333,333 333,334
利得 :
Regret:
1/3 1/3 1/3
初期戦略 :
P1
P2 P2 P2
1/2 1/2 0
333,332.5 333,334.5 0
Regret:
0 +1 -1,000,000
利得 :
大きな負 利得に引きづられて更新が遅くなる
0
(-666,667)