Upgrade to Pro — share decks privately, control downloads, hide ads and more …

非協力ゲーム理論 第 1,2 章 グレーヴァ 香子 勉強会資料

Kaede Hanazawa
February 12, 2024
11

非協力ゲーム理論 第 1,2 章 グレーヴァ 香子 勉強会資料

『非協力ゲーム理論 第 1,2 章 グレーヴァ 香子』の勉強会資料として作成したもの

Kaede Hanazawa

February 12, 2024
Tweet

Transcript

  1. 非協力ゲーム理論 第 1,2 章 グレーヴァ 香子 [1] 花澤楓 横浜国立大学 経済学部

    February 12, 2024 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 1 / 32
  2. 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5 支配される戦略の逐次消去

    6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 2 / 32
  3. 数学の準備 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 3 / 32
  4. 数学の準備 数学の準備 • 集合 X • 要素の集まり • 要素 x

    が X に含まれるときに、x ∈ X とかく • 実数全体の集合を R で表す • R = (−∞, ∞) • 非負の実数全体の集合を R+ = [0, ∞) • 集合の直積 X × Y • 集合 X の要素 x と集合 Y の要素 y の組 (x, y) の集まり • X × Y = {(x, y) | x ∈ X, y ∈ Y } 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 4 / 32
  5. ゲームとは 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 5 / 32
  6. ゲームとは ゲームとは 以下の 3 つの要素を定めたものを「ゲームと定義する」 1 プレーヤー 2 戦略(行動) 3

    利得(効用) これら 3 つの要素を定めて定義されたゲームを、標準形ゲーム(normal form game)という 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 6 / 32
  7. ゲームとは 標準形ゲームの定義 標準形ゲーム G = (N, {Si}i∈N, {ui}i∈N): • N

    = {1, . . . , n}: プレーヤーの集合 • Si: プレーヤー i ∈ N が選ぶことのできる(純粋)戦略の集合 • プレーヤー i が選ぶ 1 つの戦略 si ∈ Si • 戦略の組を s = (s1, . . . , sn ) • 戦略の組の集合を S = S1 × · · · × Sn • 戦略の組 = 各人の選択をまとめたもの = 結果 • ui : S → R: プレーヤー i ∈ N の利得関数 • s が取られた時のプレーヤー i の利得 ui (s) = ui (s1, . . . , sn ∈ R) • ui (s) が大きいほど嬉しい 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 7 / 32
  8. 囚人のジレンマ 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 8 / 32
  9. 囚人のジレンマ 囚人のジレンマ Table: 利得表 A/B 自白 (C) 黙秘 (D) 自白

    (C) -1,-1 -5,0 黙秘 (D) 0,-5 -3,-3 • N = {1, 2} • S1 = S2 = {C, D} • u1(C, C) = u2(C, C) = −1 • u1(D, D) = u2(D, D) = −3 • u1(D, C) = u2(C, D) = 0 • u1(C, D) = u2(D, C) = −5 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 9 / 32
  10. 囚人のジレンマ 厳密に支配される戦略 Definition プレーヤー i の戦略 si ∈ Si が、そのプレーヤーの他の戦略

    si ∈ Si に厳密 に支配される(strictly dominated)とは、他のプレーヤーの任意の戦略 の組み合わせ s−i ∈ S−i について、 ui(si, s−i) < ui(si , s−i) が成立すること。 • 利得を最大化しようとする合理的なプレーヤーは、他の戦略に厳密 に支配される戦略はとらない 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 10 / 32
  11. 囚人のジレンマ 効率的な戦略の組 Definition 戦略の組 s = (s1, . . .

    , sn) ∈ S が効率的(efficient)であるとは、以下の条 件が成立する戦略の組 (s1 , . . . , sn ) ∈ S が存在しないことである。 1 ui(s1, . . . , sn) ≤ ui(s1 , . . . , sn ) ∀i ∈ N 2 かつ、少なくとも一人のプレーヤー j にとって uj(s1, . . . , sn) < uj(s1 , . . . , sn ) • よって、合理的プレーヤーによる戦略の組み合わせ (自白, 自白) は効 率的ではない • (黙秘, 黙秘) が効率的 • 各プレーヤーが自己の利得を最大にしようと合理的に意思決定した 結果が、プレーヤー全体で考えると効率的ではない 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 11 / 32
  12. ゲームをよく知っているということ 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 12 / 32
  13. ゲームをよく知っているということ ゲームをよく知っているということ:共有知識 • 各プレーヤーはゲームの構造を知っている • プレーヤーの集合 • 全員の戦略の集合 • 全員の利得関数

    • 全員が合理的であると知っている • 各プレーヤーは「各プレーヤーがゲームの構造と全員の合理性を 知っている」ことを知っている • 各プレーヤーは「各プレーヤーは「各プレーヤーがゲームの構造と 全員の合理性を知っている」ことを知っている」ことを知っている... • 無限に深い知識を仮定する • このような状況を、ゲームが共有知識 (common knowledge) になっ ている、という 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 13 / 32
  14. 支配される戦略の逐次消去 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 14 / 32
  15. 支配される戦略の逐次消去 支配される戦略の逐次消去 Table: 別の利得表 A/B 自白 (C) 黙秘 (D) 自白

    (C) -3,-3 -1,-5 黙秘 (D) -5,0 0,-1 • プレーヤー B の黙秘戦略は自白戦略に厳密に支配されている • B は黙秘を選ばない Table: 縮小バージョン A/B 自白 (C) 自白 (C) -3,-3 黙秘 (D) -5,0 • プレーヤー A の黙秘戦略は自白戦略に厳密に支配されている • (自白、自白) が支配戦略均衡 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 15 / 32
  16. 弱く支配される戦略 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 17 / 32
  17. 弱く支配される戦略 弱く支配される戦略 Table: 戦略間の弱い支配関係 A/B L R U 11,0 10,0

    D 10,0 10,0 • どちらのプレーヤーにとっても厳密に支配される戦略は存在しない • プレーヤー 1 にとって D は相手が R のとき U と同じ利得 • プレーヤー 2 にとってはどちらの戦略も同じ利得 • プレーヤー 1 にとって D はあまり合理的とは言えなそう • U を取れば、相手が何をしようとも利得 10 を最低でも貰えるし、場 合によってはそれよりも厳密に高い利得がもらえるため 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 18 / 32
  18. 弱く支配される戦略 弱く支配される戦略 Definition プレーヤー i の戦略 si ∈ Si が、そのプレーヤーの他の戦略

    si ∈ Si に弱く 支配される(weakly dominated)とは、以下の 2 つの条件が成立する こと。 1 任意の s−i ∈ S−i について、 ui(si, s−i) ≤ ui(si , s−i) かつ、 2 si ∈ Si が少なくとも 1 つ存在し、 ui(si, s−i ) < ui(si , s−i ) が成立する。 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 19 / 32
  19. 弱く支配される戦略 弱く支配される戦略 Table: 弱く支配される戦略の消去 A/B L R U 11,0 10,10

    D 10,0 10,10 • 弱く支配される戦略の逐次消去を考えると、消去の順番によって残 る戦略の組み合わせが異なることがあるので、使えない • P2 に注目して、L を消去すると、その後には弱く支配される戦略が 存在しないので、{(U, R), (D, R)} が残る • P1 に注目して、D を消去すると、(U, R) だけが残る 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 20 / 32
  20. ミニマックス定理 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ 5

    支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 21 / 32
  21. ミニマックス定理 ミニマックス定理 : 2 人ゼロサムゲーム • 次のゲームを考える 1/2 X Y

    x 3,-3 -4,4 y -2,2 -1,1 z 1,-1 0,0 • 自分の利得を大きくすること ⇔ 相手の利得を小さくすること • 自分がある戦略を取ろうとしたら、相手は逆に自分の利得を最小に するように行動してくるはず • e.g. P1 が、戦略 x を取るなら、P2 は Y をとるはずなので、戦略 x は利得 −4 をもたらすはず • 相手が自分の利得を最小にするよう行動してきた時の自分の利得: 保証利得 (reservation payoff) • ゼロサムゲーム:N = {1, 2}, 全ての戦略の組 s ∈ S について u1(s) + u2(s) = 0 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 22 / 32
  22. ミニマックス定理 ミニマックス定理 : 2 人ゼロサムゲーム Table: 各戦略の保証利得 1/2 X Y

    1 の保証利得 x 3,-3 -4,4 -4 y -2,2 -1,1 -2 z 1,-1 0,0 0 2 の保証利得 -3 0 • P1 は次の最大化問題を解く max s1∈S1 min s2∈S2 u1(s1, s2) • 同様に、P2 は次の最大化問題を解く max ss ∈Ss min s1∈S1 u2(s1, s2) 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 23 / 32
  23. ミニマックス定理 ミニマックス定理 : 2 人ゼロサムゲーム • ゼロサムゲームでは任意の (s1, s2) について

    u2(s1, s2) = −u1(s1, s2) なので、P1 の最大化問題は min s2∈S2 max s1∈S1 u1(s1, s2) としても同じ。この値は P1 のミニマックス値 (あるいは保証水準) と 呼ばれる。 • P1 にとって保証利得を最大にする戦略は z • P2 にとって保証利得を最大にする戦略は Y • 2 人がこの戦略の組み合わせをしているとき、保証利得が実現する 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 24 / 32
  24. ミニマックス定理 ミニマックス定理 : 2 人ゼロサムゲーム • 戦略の数が有限であるとき、2 人ゼロサムゲームにおいて、保証利得 最大化の戦略の組み合わせが矛盾なく実際にその保証利得を実現す る組み合わせになっていることが証明されている

    • そのときの P1 の利得をゲームの値(value) Theorem 任意の 2 人有限戦略ゼロサムゲームにおいて max s1∈S1 min s2∈S2 u1(s1, s2) = min s2∈S2 max s1∈S1 u1(s1, s2) が成立する。これを、ミニマックス定理(Min-Max Theorem)という。 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 25 / 32
  25. ミニマックス定理 証明. 任意の s1 ∈ S1, s2 ∈ S2 について

    min s2∈S2 u1 (s1, s2 ) ≤ u1 (s1, s2 ) となる。両辺を s1 を動かして最大化すると max s1∈S1 min s2∈S2 u1 (s1, s2 ) ≤ max s1∈S1 u1 (s1, s2 ) となる。両辺を s2 を動かして最小化すると min s2∈S2 max s1∈S1 min s2∈S2 u1 (s1, s2 ) ≤ min s2∈S2 max s1∈S1 u1 (s1, s2 ) 左辺の maxs1∈S1 mins2∈S2 u1 (s1, s2 ) はすでに定数であったから max s1∈S1 min s2∈S2 u1 (s1, s2 ) 定数 ≤ min s2∈S2 max s1∈S1 u1 (s1, s2 ) (1) が成立する。一般にマックスミニ値はミニマックス値より小さい。 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 26 / 32
  26. ミニマックス定理 P2 の利得についても同様に考える。任意の s1 ∈ S1, s2 ∈ S2 について

    min s1∈S1 u2 (s1, s2 ) ≤ u2 (s1, s2 ) であるから両辺を s2 を動かして最大化すると max s2∈S2 min s1∈S1 u2 (s1, s2 ) ≤ max s2∈S2 u2 (s1, s2 ) 両辺を s1 を動かして最小化すると min s1∈S1 max s2∈S2 min s1∈S1 u2 (s1, s2 ) ≤ min s1∈S1 max s2∈S2 u2 (s1, s2 ) となるが、左辺はすでに定数であるので max s2∈S2 min s1∈S1 u2 (s1, s2 ) ≤ min s1∈S1 max s2∈S2 u2 (s1, s2 ) が成立する。ここで、u2 (s1, s2 ) = −u1 (s1, s2 ) であるから、利得関数とその最大 化、最小化を入れ替えて min s2∈S2 max s1∈S1 u1 (s1, s2 ) ≤ max s1∈S1 min s2∈S2 u1 (s1, s2 ) (2) とすることができる。 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 27 / 32
  27. ミニマックス定理 (1) と (2) より、 max s1∈S1 min s2∈S2 u1(s1,

    s2) ≤ min s2∈S2 max s1∈S1 u1(s1, s2) min s2∈S2 max s1∈S1 u1(s1, s2) ≤ max s1∈S1 min s2∈S2 u1(s1, s2) の両方が成立することがわかったので、 max s1∈S1 min s2∈S2 u1(s1, s2) = min s2∈S2 max s1∈S1 u1(s1, s2) となることがわかった。証明終わり。 • ゼロサムゲームでなければ必ずしもミニマックス定理は成立しない ことに注意 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 28 / 32
  28. 練習問題 2.4 1 数学の準備 2 ゲームとは 3 囚人のジレンマ 4 ゲームをよく知っているということ

    5 支配される戦略の逐次消去 6 弱く支配される戦略 7 ミニマックス定理 8 練習問題 2.4 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 29 / 32
  29. 練習問題 2.4 練習問題 2.4: 封印第 2 価格オークション • N =

    {1, . . . , n} がある 1 つの財について入札 • i が財を所有した場合に得られる便益(評価額)は各個人ごとに異 なる • 評価額(留保価値)vi ≥ 0 とすることができる • 各 i の入札額は bi ∈ R+ • 全員の入札額の組を b = (b1, . . . , bn) • 一番高い入札額を出した人が勝者(落札) • 勝者は 2 番目に高かった入札額を支払う • i が勝者になったときの利得は vi − max j=i bj ⇔ vi − f (b) ここで、f (b) はベクトル b の座標の値の中で 2 番目に高い数値 • 負けたときの利得は 0 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 30 / 32
  30. 練習問題 2.4 問題 封印第 2 価格オークションにおいて、任意のプレーヤー i = 1, 2,

    . . . , n について、 b∗ i = vi がその他の任意の戦略を弱く支配する(弱支配戦略)となっていること を証明せよ。 i 以外の任意の入札額の組の中で、最大の入札額を b∗ = maxj=i bj とする。 • ケース 1 : vi > b∗ のとき i が落札するような入札額を出すと、bi に関わらず利得は vi − b∗ > 0. もし 負ければ利得は 0. よって、i は落札した方が良いから、最適反応は任意の bi > b∗. bi = vi は 最適反応の一つ。 • ケース 2 : vi < b∗ のとき i が落札するような入札額を出すと、bi に関わらず利得は vi − b∗ < 0. もし 負ければ利得は 0. よって、i は負けた方がいいから、最適反応は任意の bi < b∗. bi = vi は最 適反応の一つ。 • ケース 3 : vi = b∗ のとき i は入札額に関係なく、勝っても負けても利得は 0。どのような入札額でも 最適反応で、bi = vi は最適反応の一つ。証明終わり。 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 31 / 32
  31. 練習問題 2.4 References I グレーヴァ香子. 非協力ゲーム理論. 数理経済学叢書 ; 1. 知泉書館,

    2011.5. 花澤楓 (横浜国立大学 経済学部) ゲーム理論勉強会 February 12, 2024 32 / 32