Learning in games: ゲーム理論とオンライン学習

LEARNING IN GAMES 株式会社サイバーエージェント AI事業本部 AI Lab 阿部拳之 Algorithmic Learning
＆ Optimization勉強会#1 (2023/06/24)

⾃⼰紹介 ▪ 名前 – 阿部拳之（あべけんし） – @bakanaouji（ばかなおうじ） ▪
経歴 – 東京⼯業⼤学総合理⼯学研究科知能システム科学専攻（〜2017年） ▪ 強化学習×進化計算をメインに研究 – 株式会社ハル研究所（2017年〜2018年） ▪ ゲームプログラマー – 株式会社サイバーエージェント AI事業本部 AILab（2018年〜） ▪ 強化学習チーム・リサーチャー兼チームリーダー ▪ Learning in Games・凸最適化について研究 1

今回の発表 ▪ ミニマックス最適化問題を中⼼としたマルチエージェントゲームのナッシュ均衡解を効率的に近似・学習するアルゴリズムに関する研究分野は「Learning in Games」と呼ばれています ▪ Learning in Gamesは国際会議などではメジャーなトピックの１つとなっていま
すが，国内ではあまり知られていない印象があります ▪ そこで，本発表ではミニマックス最適化の均衡学習を例として，learning in gamesにおける基礎的な内容から近年のアルゴリズムの発展まで，網羅的な解説を⾏います 2

導⼊

ミニマックス最適化問題 ▪ 以下で表現されるゲームのナッシュ均衡解を求める問題 min !∈𝒳 max $∈𝒴 𝑓(𝑥, 𝑦) –
𝑓: 𝒳×𝒴 → ℝ︓利得関数 – 𝒳, 𝒴︓各プレイヤの戦略集合 – プレイヤ𝑥は𝑓を最⼩化するように戦略𝑥を選びたいが，プレイヤ𝑦は𝑓を最⼤化するように戦略𝑦を選びたい ▪ ナッシュ均衡 𝑥∗, 𝑦∗ ∈ 𝒳×𝒴 – プレイヤ𝑥と𝑦どちらも⾃分の戦略を変更することによって，得られる利得を改善することができないような戦略の組み合わせ ∀𝑥 ∈ 𝒳, 𝑓 𝑥∗, 𝑦∗ ≤ 𝑓 𝑥, 𝑦∗ , ∀𝑦 ∈ 𝒴, 𝑓 𝑥∗, 𝑦∗ ≥ 𝑓 𝑥∗, 𝑦 4 ※ 本発表では，利得関数 𝑓(𝑥, 𝑦) が 𝑥 について凸関数， 𝑦について凹関数と仮定（convex-concave game）

アプリケーション ▪ 敵対的⽣成ネットワーク [Goodfellow et al., 2014] min ' max
( 𝔼!∼*!"#" ! log 𝐷 𝑥 − 𝔼+∼*$ + log 1 − 𝐷 𝐺 𝑧 ▪ 制約付き最適化問題のLagrangian relaxation min !∈ℝ% max -∈ℝ& 𝑓 𝑥 + @ ./0 1 𝜆.𝑔. 𝑥 ▪ ⼆⼈零和標準型・展開型ゲーム（Sequence-form Game） min !∈𝒳 max $∈𝒴 𝑥2𝐺𝑦 5

ミニマックス最適化問題 6 ▪ ⼀般に，ミニマックス最適化問題のナッシュ均衡を厳密に計算することは困難 – 例えば・・・ ▪ 標準型・展開型ゲームは線形計画法で解けることが知られているが，ゲームのサイズが巨⼤になると計算量が爆発する min
!∈𝒳 max $∈𝒴 𝑥2𝐴𝑦 ▪ 𝑓 𝑥, 𝑦 が複雑な関数の場合も閉形式の解が与えられないため，厳密計算は困難 ▪ よって，ナッシュ均衡を効率良く近似するアルゴリズムの研究が盛んに⾏われている

ゲームにおけるオンライン学習 𝑥! 𝑦! ∇" 𝑓 𝑥!, 𝑦! ∇# 𝑓 𝑥!,
𝑦! Player x Game Player x 7 ▪ 典型的なアプローチとして，各プレイヤが⾃⾝の⼀次の勾配情報を⽤いて反復的に戦略を更新するオンライン学習が使い勝⼿や拡張性の良さから好まれて使われている ▪ ゲームにおけるオンライン学習の流れ – 反復𝑡 = 1, ⋯ , 𝑇において，以下のプロセスを繰り返す 1. 各プレイヤが現在の戦略𝑥3, 𝑦3の基づいて，利得関数𝑓の⾃⾝の勾配 ∇!𝑓 𝑥3, 𝑦3 , ∇$𝑓 𝑥3, 𝑦3 をそれぞれ観測 2. 観測した勾配をもとに，戦略を𝑥340, 𝑦340へと更新する

代表的なアルゴリズム 8 𝑥! ∇" 𝑓 𝑥!, 𝑦! 𝑥!$% 𝜂︓学習率 ▪
Gradient Descent Ascent (GDA) 𝑥340 = Proj𝒳 𝑥3 − 𝜂∇!𝑓 𝑥3, 𝑦3 , 𝑦340 = Proj𝒴 𝑦3 + 𝜂∇$𝑓 𝑥3, 𝑦3 – ニューラルネットワークの学習でおなじみの勾配法 – 戦略𝑥, 𝑦が実数値ベクトルで与えられる場合には⼤体適⽤可能 ▪ Multiplicative Weights Update (MWU) 𝑥5 340 = 𝑥5 3 exp −𝜂 𝜕 𝜕𝑥5 𝑓 𝑥3, 𝑦3 ∑. 𝑥. 3 exp −𝜂 𝜕 𝜕𝑥. 𝑓 𝑥3, 𝑦3 , 𝑦5 340 = 𝑦5 3 exp 𝜂 𝜕 𝜕𝑦5 𝑓 𝑥3, 𝑦3 ∑. 𝑦. 3 exp 𝜂 𝜕 𝜕𝑦. 𝑓 𝑥3, 𝑦3 – 戦略空間𝒳, 𝒴が確率単体であるときに適⽤可能 – 戦略更新に必要な計算量が⼩さいので使い勝⼿が良い

代表的なアルゴリズム 9 均衡解戦略の軌道 ▪ シングルエージェントの最適化問題に勾配法を適⽤した場合，最適解（あるいは局所解）に収束することはよく知られている min !∈𝒳 𝑓
𝑥 ▪ 直感的には，ミニマックス最適化問題でも，GDAやMWUに従って戦略𝑥3, 𝑦3を更新したらナッシュ均衡に収束しそう︖︖ – 残念ながら⼀般的にはNo!! – 単純な標準型ゲームであっても，𝑥3, 𝑦3は均衡解へと収束せず，ナッシュ均衡の周りを循環するような軌道を描くことが⽰されている [Mertikopoulos et al., 2018]

代表的なアルゴリズム 10 ▪ ナッシュ均衡へ収束しないことがあるのに，なぜGDAやMWUはゲームの学習において良く⽤いられるのか︖︖ – Answer︓反復間の平均的な戦略（平均戦略） ̅ 𝑥6 =
0 6 ∑3/0 6 𝑥3 , R 𝑦6 = 0 6 ∑3/0 6 𝑦3 がナッシュ均衡へと収束することが保証されるから︕ ▪ 以降では，これらのアルゴリズムの平均戦略 ̅ 𝑥6, R 𝑦6 がなぜナッシュ均衡へと収束するのか，ということについて解説します

NO-REGRET LEARNING 11

リグレット 12 ▪ 平均戦略の収束性は，オンライン学習や敵対的にバンディットにおけるリグレットと⼤きな関係性を持つ ▪ リグレットの定義︓ Regret! 𝑇 =
max !∈𝒳 @ 3/0 6 𝑓 𝑥3, 𝑦3 − 𝑓 𝑥, 𝑦3 , Regret$ 𝑇 = max $∈𝒴 @ 3/0 6 𝑓 𝑥3, 𝑦 − 𝑓 𝑥3, 𝑦3 – 「𝑡 = 1から𝑇までの相⼿に対して，事後的に⾒てどの戦略を取り続けることが最も利得を改善できたか」を表す量 ( '() * 𝑓 𝑥', 𝑦' min +∈𝒳 ( '() * 𝑓 𝑥, 𝑦'

Exploitability 13 ▪ 戦略の組 𝑥, 𝑦 がナッシュ均衡とどのくらい近いのかを測る指標 exploit 𝑥, 𝑦
= max 7 !∈𝒳 𝑓 𝑥, 𝑦 − 𝑓 U 𝑥, 𝑦 + max 7 $∈𝒴 𝑓 𝑥, U 𝑦 − 𝑓 𝑥, 𝑦 ▪ 各プレイヤが固定した相⼿に対して，⾃⾝の戦略を変えることで利得をどれだけ改善できるかを表す – リグレットは𝑡 = 1から𝑇までの相⼿の戦略の列に対して最適なものを⾒るが，exploitabilityでは固定した相⼿に対して最適なものを⾒る ▪ （直感的には）0に近いほどナッシュ均衡に近い ▪ 𝑥, 𝑦 がナッシュ均衡のときに限り，最⼩値0を取る

リグレットとexploitabilityの関係性 14 ▪ 【平均戦略のexploitabilityの上限】このとき，あるアルゴリズムに従って更新された戦略の平均戦略W 𝒙𝑻 = 𝟏 𝑻 ∑𝒕/𝟏
𝑻 𝒙𝒕 , W 𝒚𝑻 = 𝟏 𝑻 ∑𝐭/𝟏 𝑻 𝒚𝒕のexploitabilityは，各プレイヤのリグレットの和によって以下のように抑えることができる︓ exploit ̅ 𝑥6, R 𝑦6 ≤ 1 𝑇 Regret! 𝑇 + Regret$ 𝑇 ▪ リグレットが<=>?=@ 6 6 → 0を満たすなら，平均戦略はナッシュ均衡に収束︕

exploit ̅ 𝑥6, R 𝑦6 = max !∈𝒳 𝑓 ̅
𝑥6, R 𝑦6 − 𝑓 𝑥, R 𝑦6 + max $∈𝒴 𝑓 ̅ 𝑥6, 𝑦 − 𝑓 ̅ 𝑥6, R 𝑦6 = max $∈𝒴 𝑓 ̅ 𝑥6, 𝑦 − min !∈𝒳 𝑓 𝑥, R 𝑦6 = max $∈𝒴 𝑓 1 𝑇 @ 3/0 6 𝑥3 , 𝑦 − min !∈𝒳 𝑓 𝑥, 1 𝑇 @ 3/0 6 𝑦3 ≤ 1 𝑇 max $∈𝒴 @ 3/0 6 𝑓 𝑥3, 𝑦 − 1 𝑇 min !∈𝒳 @ 3/0 6 𝑓 𝑥, 𝑦3 = 1 𝑇 max $∈𝒴 @ 3/0 6 𝑓 𝑥3, 𝑦 − @ 3/0 6 𝑓 𝑥3, 𝑦3 − 1 𝑇 min !∈𝒳 @ 3/0 6 𝑓 𝑥, 𝑦3 − @ 3/0 6 𝑓 𝑥3, 𝑦3 = 1 𝑇 Regret$ 𝑇 + Regret! 𝑇 証明 15 （∵𝑓 ̅ 𝑥6, R 𝑦6 − 𝑓 ̅ 𝑥6, R 𝑦6 = 0より）（∵ 𝑓の凸・凹性より）（∵𝑓 𝑥3, 𝑦3 − 𝑓 𝑥3, 𝑦3 = 0より）

代表的なアルゴリズムの収束性 16 𝐶) , 𝐶. , 𝐶/ , 𝐶0 >
0︓適当な定数 ▪ 【GDA・MWUのリグレット上限】 GDAやMWUのリグレットの上限は以下のように抑えられる︓ Regret! 𝑇 ≤ 𝐶0 𝜂 + 𝜂𝐶A @ 3/0 6 ||∇!𝑓 𝑥3, 𝑦3 ||A A , Regret$ 𝑇 ≤ 𝐶B 𝜂 + 𝜂𝐶C @ 3/0 6 ||∇$𝑓 𝑥3, 𝑦3 ||A A ▪ 𝜂を⼤きくすると第⼀項を⼩さくできるが，第⼆項が⼤きくなる →これらの項が同等程度の⼤きさになるように𝜂を設定するとリグレットを⼩さく抑えられる

代表的なアルゴリズムの収束性 17 ▪ 𝜂 = 0 6 とすると，以下のようなリグレット上限を達成できる︓ Regret! 𝑇
= 𝑂 𝑇 , Regret$ 𝑇 = 𝑂 𝑇 ▪ よって， 𝜂 = 0 6 のときexploit ̅ 𝑥6, R 𝑦6 = 𝑂 0 6 となるので，平均戦略は 0 6 程度の早さで均衡に収束︕

OPTIMISTIC LEARNING 18

Last-Iterate Convergence 19 ▪ 平均戦略 ̅ 𝑥6, R 𝑦6のみが収束するような性質は，規模が⼤きい，あるいは複雑なミニマックス最適化問題においては不⼗分
– 例1︓展開型ゲームの均衡学習 ▪ サイズが⼤きいゲームでは，毎反復ごとにすべての状態（情報集合）における戦略の平均を計算するのは厳しい – 例2︓戦略がニューラルネットワークによって表現される場合 ▪ すべての反復のネットワークの重みを保持していないといけないため，膨⼤な量のメモリを必要とする ▪ よって，欲を⾔えば更新される戦略𝑥3, 𝑦3そのものが均衡解へと収束してほしい – この性質はlast-iterate convergence [Daskalakis and Panageas, 2019, Wei et al., 2021]と呼ばれ，この性質を持つアルゴリズムの研究が近年盛んに⾏われている

Optimistic GDA 20 GDAの更新式︓𝑥340 = Proj𝒳 𝑥3 − 𝜂∇!𝑓 𝑥3,
𝑦3 , 𝑦340 = Proj𝒴 𝑦3 + 𝜂∇$𝑓 𝑥3, 𝑦3 ▪ GDAに楽観性を導⼊したアルゴリズム ▪ Optimistic GDA (OGDA) 𝑥340 = Proj𝒳 U 𝑥340 − 𝜂∇!𝑓 𝑥3, 𝑦3 , U 𝑥340 = Proj𝒳 U 𝑥3 − 𝜂∇!𝑓 𝑥3, 𝑦3 , 𝑦340 = Proj𝒴 U 𝑦340 + 𝜂∇$𝑓 𝑥3, 𝑦3 , U 𝑦340 = Proj𝒴 U 𝑥3 + 𝜂∇$𝑓 𝑥3, 𝑦3

Optimistic MWU 21 ▪ MWUに楽観性を導⼊したアルゴリズム ▪ Optimistic MWU (OMWU) 𝑥5
340 = U 𝑥5 340 exp −𝜂 𝜕 𝜕𝑥5 𝑓 𝑥3, 𝑦3 ∑. U 𝑥. 340 exp −𝜂 𝜕 𝜕𝑥. 𝑓 𝑥3, 𝑦3 , U 𝑥5 340 = U 𝑥5 3 exp −𝜂 𝜕 𝜕𝑥5 𝑓 𝑥3, 𝑦3 ∑. U 𝑥. 3 exp −𝜂 𝜕 𝜕𝑥. 𝑓 𝑥3, 𝑦3 , 𝑦5 340 = U 𝑦5 340 exp 𝜂 𝜕 𝜕𝑦5 𝑓 𝑥3, 𝑦3 ∑. U 𝑦. 340 exp 𝜂 𝜕 𝜕𝑦. 𝑓 𝑥3, 𝑦3 , U 𝑦5 340 = U 𝑦5 3 exp 𝜂 𝜕 𝜕𝑦5 𝑓 𝑥3, 𝑦3 ∑. U 𝑦. 3 exp 𝜂 𝜕 𝜕𝑦. 𝑓 𝑥3, 𝑦3

直感的な更新式のイメージ 22 勾配の差分 = ∇+ 𝑓 𝑥'1), 𝑦'1) ∇+𝑓 𝑥',
𝑦' 𝑡 − 1 𝑡 𝑡 + 1 4 ∇+𝑓 𝑥'2), 𝑦'2) ▪ 更新式だけ⾒ると何がしたいのかわかりにくい ▪ わかりやすさのために，𝒳 = ℝDである場合のOGDAの更新式について考える 𝑥340 = 𝑥3 − 𝜂 ∇!𝑓 𝑥3, 𝑦3 + ∇!𝑓 𝑥3, 𝑦3 − ∇!𝑓 𝑥3E0, 𝑦3E0 ▪ 「反復t − 1から反復𝑡にかけて勾配は∇!𝑓 𝑥3, 𝑦3 − ∇!𝑓 𝑥3E0, 𝑦3E0 だけ変化したので，反復𝑡から反復𝑡 + 1にかけても同じくらい変化するだろう」という⼤雑把な推定をしている – つまり，次反復での勾配∇!𝑓 𝑥340, 𝑦340 を雑に予測していると捉えることができる ∇!𝑓 𝑥340, 𝑦340 ≃ _ ∇! ` 𝑓 𝑥340, 𝑦340 = ∇!𝑓 𝑥3, 𝑦3 + ∇!𝑓 𝑥3, 𝑦3 − ∇!𝑓 𝑥3E0, 𝑦3E0

直感的な更新式のイメージ 23 ▪ _ ∇! ` 𝑓 𝑥340, 𝑦340 による予測が完璧に当たっているのであれば，次反復𝑡
+ 1での相⼿に対しての利得を改善することができる ▪ よって，予測の精度が良ければより早く学習させることができそう – 当然，相⼿が劇的に戦略を変えてきた場合は予測は全く当てにならない – しかし，均衡学習では同じようなアルゴリズムを使って各プレイヤの戦略を更新することが⼀般的なため，突然相⼿の戦略が変化することは稀 →𝑥3, 𝑦3をOGDAやOMWUで更新すればより良い収束性が達成できるのでは︖

Last-Iterate Convergence Guarantee 24 ▪ 【 OGDA・OMWUのlast-iterate convergence [Mertikopoulos et
al., 2019]】利得関数𝑓が𝐿平滑である，つまり以下の不等式を満たすと仮定する︓ ||∇!𝑓 𝑥, 𝑦 − ∇!𝑓 𝑥F, 𝑦F ||A A + ||∇$𝑓 𝑥, 𝑦 − ∇$𝑓 𝑥F, 𝑦F ||A A ≤ 𝐿A ||𝑥 − 𝑥F||A A + ||𝑦 − 𝑦F||A A また，学習率が𝜂 < 0 GH を満たすと仮定する．このとき，あるナッシュ均衡 𝒙∗, 𝒚∗ が存在して 𝒙𝒕, 𝒚𝒕 → 𝒙∗, 𝒚∗ ．

OGDAの収束性の証明のスケッチ 25 _ ∇!𝑓 𝑥3, 𝑦3 の推定誤差によって発⽣するゴミの項 ▪ プレイヤ𝑥の戦略𝑥3と任意のナッシュ均衡戦略𝑥∗との距離は以下のように抑えら
れる︓ 1 2 ||𝑥∗ − U 𝑥340||A A ≤ 1 2 ||𝑥∗ − 𝑥0||A A + 𝜂 @ 3/0 6 ∇!𝑓 𝑥3, 𝑦3 , 𝑥∗ − 𝑥3 − 1 4 @ 3/0 6 ||𝑥3 − 𝑥3E0||A A +𝜂A𝐿A @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + ||𝑥3 − 𝑥3E0||A A ▪ プレイヤ𝑦に関しても同様の不等式が得られる

OGDAの収束性の証明のスケッチ 26 +𝜂 @ 3/0 6 ∇!𝑓 𝑥3, 𝑦3 ,
𝑥∗ − 𝑥3 + ∇$𝑓 𝑥3, 𝑦3 , 𝑦∗ − 𝑦3 − 1 4 @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + ||𝑦3 − 𝑦3E0||A A +2𝜂A𝐿A @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + ||𝑥3 − 𝑥3E0||A A ▪ プレイヤ𝑥, 𝑦についての不等式の和を取ると， 1 2 ||𝑥∗ − U 𝑥340||A A + ||𝑦∗ − U 𝑦340||A A ≤ 1 2 ||𝑥∗ − 𝑥0||A A + ||𝑦∗ − 𝑦0||A A

OGDAの収束性の証明のスケッチ 27 +𝜂 @ 3/0 6 ∇!𝑓 𝑥3, 𝑦3 ,
𝑥∗ − 𝑥3 + ∇$𝑓 𝑥3, 𝑦3 , 𝑦∗ − 𝑦3 − 1 4 @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + ||𝑦3 − 𝑦3E0||A A +2𝜂A𝐿A @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + ||𝑥3 − 𝑥3E0||A A ▪ プレイヤ𝑥, 𝑦についての不等式の和を取ると， 1 2 ||𝑥∗ − U 𝑥340||A A + ||𝑦∗ − U 𝑦340||A A ≤ 1 2 ||𝑥∗ − 𝑥0||A A + ||𝑦∗ − 𝑦0||A A ゴミの項が打ち消される ≤ 0 （∵⼆⼈零和ゲームとナッシュ均衡の性質から）

OGDAの収束性の証明のスケッチ 28 ▪ まとめると， 1 2 ||𝑥∗ − U 𝑥340||A
A + ||𝑦∗ − U 𝑦340||A A ≤ 1 2 ||𝑥∗ − 𝑥0||A A + ||𝑦∗ − 𝑦0||A A − 2 1 8 − 𝜂A𝐿A @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + ||𝑦3 − 𝑦3E0||A A ▪ よって，𝜂 < 0 GH のとき||𝑥3 − 𝑥3E0||A → 0かつ||𝑦3 − 𝑦3E0||A → 0であることが導ける – ここから𝑥3, 𝑦3がある定常点 f 𝑥, f 𝑦 に収束することが導ける – 最後に，OGDAやOMWUの更新則の定常点は必ずナッシュ均衡となることから， 𝑥3, 𝑦3がナッシュ均衡に収束することが⽰せる

OGDA ・OMWUの実験的性能 29 ⼆⼈零和標準型ゲームにおけるOGDA・OMWUの性能 [Wei et al., 2021] ▪ 実験的にも，OGDAやOMWUはlast-iterate
convergence性を持つ

OGDA・OMWUのリグレット 30 ▪ リグレット上限に関しても推定を⼊れることによる恩恵が得られる ▪ 【 OGDA・OMWUのリグレット上限】 OGDAやOMWUのリグレットの上限は以下のように抑えられる︓ Regret! 𝑇
≤ 𝐶0 𝜂 − 𝐶A 𝜂 @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + 𝜂𝐶B @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + ||𝑥3 − 𝑥3E0||A A Regret$ 𝑇 ≤ 𝐶C 𝜂 − 𝐶I 𝜂 @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + 𝜂𝐶J @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + ||𝑦3 − 𝑦3E0||A A

OGDA・OMWUのリグレット 31 ▪ リグレット上限に関しても推定を⼊れることによる恩恵が得られる ▪ 【 OGDA・OMWUのリグレット上限 [Syrgkanis et al,
2015]】 OGDAやOMWUのリグレットの上限は以下のように抑えられる︓ Regret! 𝑇 ≤ 𝐶0 𝜂 − 𝐶A 𝜂 @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + 𝜂𝐶B @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + ||𝑥3 − 𝑥3E0||A A Regret$ 𝑇 ≤ 𝐶C 𝜂 − 𝐶I 𝜂 @ 3/0 6 ||𝑦3 − 𝑦3E0||A A + 𝜂𝐶J @ 3/0 6 ||𝑥3 − 𝑥3E0||A A + ||𝑦3 − 𝑦3E0||A A ゴミの項が打ち消される

OGDA・OMWUの平均戦略の収束性 32 ▪ 𝜂を⼀定以上⼩さい定数に設定すると，リグレットの和を取ったときにゴミの項が打ち消されて消える︕ Regret! 𝑇 + Regret$ 𝑇
≤ 𝐶0 + 𝐶C 𝜂 = 𝑂 1 ▪ よって，exploit ̅ 𝑥6, R 𝑦6 = 0 6 Regret! 𝑇 + Regret$ 𝑇 = 𝑂 0 6 となるので，平均戦略は0 6 程度の早さで均衡に収束︕ – GDA，MWUの収束レート𝑂 0 6 よりも早い︕

PAYOFF-REGULARIZED LEARNING 33

OGDA・OMWUの問題点 34 ▪ OGDA・OMWUは良い収束性を持つが，そのためには各反復ごとに勾配 ∇!𝑓 𝑥3, 𝑦3 , ∇$𝑓 𝑥3,
𝑦3 が完璧に観測できることを必要とする ▪ しかし，実⽤的には勾配∇!𝑓 𝑥3, 𝑦3 , ∇$𝑓 𝑥3, 𝑦3 にノイズが載って観測されることが多い g ∇!𝑓 𝑥3, 𝑦3 = ∇!𝑓 𝑥3, 𝑦3 + 𝜉! 3, g ∇$𝑓 𝑥3, 𝑦3 = ∇$𝑓 𝑥3, 𝑦3 + 𝜉$ 3 – 𝜉! 3, 𝜉$ 3︓期待値0のノイズベクトル – 例えば，敵対的⽣成ネットワークの学習やマルチエージェント強化学習では，有限個のサンプルから勾配を近似する – 以降では，ノイズがある設定はnoisy feedback，ノイズがない設定はfull feedbackと呼ぶ

OGDA・OMWUの問題点 ▪ Noisy feedback設定では，OGDAやOMWUのlast-iterate convergence性や平均戦略の早い収束レートは失われる ▪ 直感的には，次反復の勾配の予測の精度が悪化するため，解析において打ち消しが発⽣する項に加えてノイズによる余分なゴミの項が発⽣するため @
3/0 6 ||𝜉! 3||A A + ||𝜉$ 3||A A ▪ よって，noisy feedback設定でもlast-iterate convergence性を保持するようなアルゴリズムが注⽬されてきている 35 Noisy feedback設定でOMWUによって更新される戦略が描く軌道 [Abe et al., 2023a]

Payoff-Regularized Learning 36 ▪ 【強凸関数に対するGDA・MWU収束性】利得関数𝑓(⋅, 𝑦)が任意の𝑦 ∈ 𝒴に対して強凸関数， 𝑓(𝑥,⋅)が任意の𝑥
∈ 𝒳に対して強凹関数であるとする．このとき，full feedback設定では， GDAやMWUによって更新される戦略𝒙𝒕, 𝒚𝒕は指数関数的な早さ𝐞𝐱𝐩 −𝑶 𝑻 でナッシュ均衡へと収束する．さらに，noisy feedback設定においても，適切に学習率を減衰させると，𝒙𝒕, 𝒚𝒕はナッシュ均衡へほとんど確実に収束する ▪ これを利⽤し，元の利得関数𝑓に適当な強凸関数𝑔を加えて利得を摂動させるアプローチが発展してきている

Payoff-Regularized Learning Algorithms 37 ▪ [Perolat et al., 2022]︓Strategoという不完全情報ゲームの学習アルゴリズムDeepNashを提案．
▪ [Bakhtin et al., 2023]︓No-press Diplomacyというストラテジーゲームを学習 ▪ [Abe et al., 2022, 2023a]︓Replicator Mutator Dynamicsという連続時間ダイナミクスから着想を得たアルゴリズムを提案

38 ▪ [Abe et al., 2023b]では，距離関数（またはダイバージェンス）𝐺 ⋅,⋅ を摂動を与える関数𝑔として⽤いたアルゴリズム（MD-SP）を提案 𝑥340 =
arg min !∈𝒳 𝜂 ∇!𝑓 𝑥3, 𝑦3 + 𝜇∇!𝐺 𝑥3, 𝜎 + 𝐷K 𝑥, 𝑥3 – 𝜎︓基準となる戦略（slingshot戦略） – 𝐺︓第⼀引数に関して強凸．𝐺 𝑥, 𝜎 は𝑥 = 𝜎で最⼩値0を取る． – 𝜇︓摂動の強さ – 𝐷K ︓Bregmanダイバージェンス．例えば𝐷K 𝑥, 𝑥3 = 0 A ||𝑥 − 𝑥3||A Aとすると， 𝑥340 = Proj𝒳 𝑥3 − 𝜂 ∇!𝑓 𝑥3, 𝑦3 + 𝜇∇!𝐺 𝑥3, 𝜎 ▪ Slingshot戦略に近づくように戦略の更新⽅向をずらすことで学習を安定化 Mirror Descent with Slingshot Perturbations (MD-SP) MWUが描く軌道摂動を加えた MWUが描く軌道

MD-SPの特徴 39 ▪ MD-SPは𝑮に様々な関数を設定することで既存の多くのpayoff-regularized learning algorithmsの更新式を表現可能 ▪ 例えば．．． – [Perolat
et al., 2022, Bakhtin et al., 2023]︓ 𝐺 𝑥, 𝜎 = KL 𝑥, 𝜎 – [Abe et al., 2022, 2023a]︓𝐺 𝑥, 𝜎 = KL 𝜎, 𝑥

MD-SPの理論的性質 40 ▪ 【MD-SPの定常点への収束性︓Full Feedback】勾配が完璧に観測できる設定において，MD-SPによって更新される𝒙𝒕, 𝒚𝒕は，𝝁, 𝝈を固定した場合に唯⼀１つに定まる定常点𝒙𝝁,𝝈, 𝒚𝝁,𝝈へと指数関数的な早さで収束す
る︓ 𝐷K 𝑥O,P, 𝑥3 + 𝐷K 𝑦O,P, 𝑦3 ≤ 𝐷K 𝑥O,P, 𝑥Q + 𝐷K 𝑦O,P, 𝑦Q 1 − 𝜂𝜇𝐶0 2 3 ただし，定常点𝒙𝝁,𝝈, 𝒚𝝁,𝝈はナッシュ均衡から𝜇程度の近さの点︓ exploit 𝑥O,P , 𝑦O,P ≤ 𝐶A𝜇 均衡解定常点𝑥&,(

MD-SPの理論的性質 41 ▪ 【MD-SPの定常点への収束性︓Noisy Feedback】勾配にノイズ𝝃𝒙 𝒕 , 𝝃𝒚 𝒕
が載って観測される設定において，学習率を適切に減衰させた場合︓ 𝔼 𝐷K 𝑥O,P, 𝑥3 + 𝐷K 𝑦O,P, 𝑦3 ≤ 𝐶0 log 𝑡 + 𝐶A 𝑡 + 𝐶B – 𝑂 TU> 3 3 程度の早さで収束 ▪ ノイズの有無に関わらず，かなり早い速度で定常点𝑥O,P, 𝑦O,Pに収束︕

真のナッシュ均衡への収束性 42 ▪ 関数 𝐺 の導⼊によって定常点に素早く収束するようにはなるが，収束先は真のナッシュ均衡からわずかにずれる ▪ そこで収束先をナッシュ均衡と⼀致させるために，slingshot戦略𝜎Vを定期的に更新するアプローチを提案
– 具体的には，𝑇P 反復ごとに𝜎Vを現在の戦略𝑥3で上書きする – 𝑇P が⼤きい場合，𝑥3は𝑥O,P3に⼗分近づいているはずなので，実質的に以下の更新をしているようにみなせる︓ 𝜎V40 ← 𝑥O,P3 𝜎%

– 具体的には，𝑇P 反復ごとに𝜎Vを現在の戦略𝑥3で上書きする – 𝑇P が⼤きい場合，𝑥3は𝑥O,P3に⼗分近づいているはずなので，実質的に以下の更新をしているようにみなせる︓ 𝜎V40 ← 𝑥O,P3 𝜎% 𝑥&,(! = 𝜎)

– 具体的には，𝑇P 反復ごとに𝜎Vを現在の戦略𝑥3で上書きする – 𝑇P が⼤きい場合，𝑥3は𝑥O,P3に⼗分近づいているはずなので，実質的に以下の更新をしているようにみなせる︓ 𝜎V40 ← 𝑥O,P3 𝜎% 𝑥&,(! = 𝜎) 𝑥&,(" = 𝜎)

– 具体的には，𝑇P 反復ごとに𝜎Vを現在の戦略𝑥3で上書きする – 𝑇P が⼤きい場合，𝑥3は𝑥O,P3に⼗分近づいているはずなので，実質的に以下の更新をしているようにみなせる︓ 𝜎V40 ← 𝑥O,P3 𝜎% 𝑥&,(! = 𝜎) 𝑥&,(" = 𝜎* 𝑥&,(# = 𝜎+

MD-SPの理論的性質 46 ▪ 【Slingshot戦略の収束性】プレイヤ𝑥, 𝑦のslingshot戦略をそれぞれ𝜎! V, 𝜎$ Vとし，以下の更新則で更新を⾏ったとする︓
𝜎! V40 ← 𝑥O,P4 3 , 𝜎$ V40 ← 𝑦O,P5 3 このとき，任意の初期点𝝈𝒙 𝟏, 𝝈𝒚 𝟏に対して，あるナッシュ均衡 𝒙∗, 𝒚∗ が存在して 𝝈𝒙 𝒌, 𝝈𝒚 𝒌 → 𝒙∗, 𝒚∗ ．また，𝑮 𝒙, 𝝈 = 𝟏 𝟐 ||𝒙 − 𝝈||𝟐 𝟐としたとき，slingshot戦略の exploitabilityは以下のように抑えられる︓ exploit 𝜎! V, 𝜎$ V ≤ 𝐶0 𝑘 ▪ この収束性はノイズの有無に関わらず成り⽴つため，MD-SPはnoisy feedback設定においてもlast-iterate convergence性を保持することが⽰唆

実験結果 47 ▪ Noisy feedback設定において，提案したアプローチはOGDA，OMWUよりも良好な性能を⽰すことを確認三⼈零和polymatrix gameにおける提案⼿法の性能 [Abe et
al., 2023b]

おわりに

まとめ 49 ▪ Learning in gamesの理論的な研究は世界的には盛んだけど国内では浸透していないので，皆さん⼀緒に盛り上げましょう︕ ▪ 近⽇中に本⽇の発表内容を含んだLearning
in games のレクチャーノート的なものを公開します︕ – スライドには載せきれない証明も載せる予定

参考⽂献 50 ▪ Kenshi Abe, Mitsuki Sakamoto, and Atsushi Iwasaki.
Mutation-driven Follow the Regularized Leader for Last-Iterate Convergence in Zero-Sum Games. In UAI, 2022. ▪ Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, and Atsushi Iwasaki. Last- Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-sum Games. In AISTATS, 2023a. ▪ Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, and Atsushi Iwasaki. A Slingshot Approach to Learning in Monotone Games. arXiv preprint arXiv:2305.16610, 2023b. ▪ Anton Bakhtin, David J Wu, Adam Lerer, Jonathan Gray, Athul Paul Jacob, Gabriele Farina, Alexander H Miller, and Noam Brown. Mastering the Game of No-Press Diplomacy via Human- Regularized Reinforcement Learning and Planning. In ICLR, 2023. ▪ Constantinos Daskalakis and Ioannis Panageas. Last-Iterate Convergence: Zero-sum Games and Constrained Min-Max Optimization. In ITCS, 2019.

参考⽂献 51 ▪ Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,
Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative Adversarial Nets. In NeurIPS, 2014. ▪ Panayotis Mertikopoulos, Christos Papadimitriou, and Georgios Piliouras. Cycles in Adversarial Regularized Learning. In SODA, 2018. ▪ Panayotis Mertikopoulos, Bruno Lecouat, Houssam Zenati, Chuan-Sheng Foo, Vijay Chandrasekhar, and Georgios Piliouras. Optimistic Mirror Descent in Saddle-Point Problems: Going the Extra (Gradient) Mile. In ICLR, 2019. ▪ Vasilis Syrgkanis, Alekh Agarwal, Haipeng Luo, and Robert E Schapire. Fast Convergence of Regularized Learning in Games. In NeurIPS, 2015. ▪ Chen-Yu Wei, Chung-Wei Lee, Mengxiao Zhang, and Haipeng Luo. Linear Last-Iterate Convergence in Constrained Saddle-Point Optimization. In ICLR, 2021.

Learning in games: ゲーム理論とオンライン学習

Learning in games: ゲーム理論とオンライン学習

More Decks by Kenshi Abe

Other Decks in Research

Featured

Transcript