Reinforcement Learning and Game Theory

強化学習とゲーム理論 (MARL) Reinforcement Learning x Game Theory 東京工業大学経営工学系清原
明加 Haruka Kiyohara 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 1

目次 • 強化学習とは？ • ゲーム理論について • マルチエージェント強化学習 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原
明加 2

強化学習とは？教師あり学習/教師無し学習/強化学習 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 3 machine learning reinforcement
supervised unsupervised Cartpole Atari breakout 碁(Go)

強化学習とは？歴史的には，動物の餌付けが起源とされるボタンを踏むと確率的に餌が落ちてくる ⇒鶏はせかせかとボタンを踏み続けるように 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原
明加 4 https://www.reddit.com/r/aww/comments/f 1akqn/parrots_playing_basketball/

強化学習とは？ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 5 状態ｓ報酬ｒ行動 a
エージェント環境将来的に得られる報酬を最大化するよう，エージェントが行動価値/行動方策を学習し，最適化する．

強化学習とは？-前提- • エージェントが，環境のなかで得られる報酬を最大化する最適化問題． • ただし，報酬を得るためにどうしたらよいかというのは非自明な場合が多く，また，報酬のみではスパースで扱いにくいので，途中の過程ででてくる状態や，エージェントの行動に価値を付与し，その価値を最大化する問題に置き換える．
• 状態や行動の価値に関しても一概に決まるものではないため，まずは価値を推測するところから始め，推測した価値の最大化までをひとまとめで行うことを目標とする． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 6

強化学習とは？-方策ベース・価値ベース- • 方策ベース状態価値Vを推測し，以降の状態価値の現在割引和を最大化する方策π(s,a)を決定 • 価値ベースエージェントの行動価値Qを推測し，以降の行動価値の現在割引和を最大化する行動aを決定 •
モデルベース環境が分かっているという仮定のもと，価値最大化をプランニング現在割引和..同じ報酬が得られるならなるべく早く得られる方が良い，という考え方．数学的には，割り引くことで和を発散させたくない，という意味も． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 7

強化学習とは？-最適化問題の解き方- • 動的計画法選択肢をひとつづつ増やしていき，逐次的に最適化問題を解いていく方法で，厳密的な解法． • モンテカルロ法方策ベースなどで用いられ，ロールアウトによって疑似体験的にいくつかの選択肢を比較し，方策を選択． •
TD法価値ベースなどで用いられ，tステップ先の行動価値まで考えた上での行動選択の最適化を行う． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 8

強化学習とは？-探索と活用- • 探索現時点で持っている知識では最適とは限らない方策を選択し，周辺の環境や行動価値を学習する． • 活用探索で得られた情報を基に，考えられる内で最適な行動(方策)を選択する．上記の探索と活用にはトレードオフが存在
⇒学習初期には探索を重視し，後半では活用を重視． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 9 活用探索 exploration exploitation

強化学習とは？-観測範囲と報酬- • Fully Observable エージェントがすべての環境や状態を観測できる場合． • Partially Observable エージェントが環境や状態を部分的にしか観測できない場合．例えば，一人称視点など．
• Sparse Reward 報酬が一番最後だけなど，連続的に得られない場合． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 10

強化学習とは？-最近のトレンド- • 2014年頃から再び波が来ている．(ex. AlphaGo) • 強化学習の価値関数の推論に深層学習を組み込んだ，深層強化学習で適応可能性が広がる． • 分散学習による効率的かつ精度の高い学習． •
一人称視点など，環境を部分的にしか観測できないエージェントの行動(方策)最適化の研究． • 環境に複数のエージェントが存在するマルチエージェント環境での挙動の研究． • 近年，実応用がますます注目される． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 11

強化学習とは？-マルチエージェント化と最適- 最適化の3つの視点とトレードオフ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 12 自律分散型最適化個別最適化全体最適化
全体での利益が最大になるよう設計．格差が存在することも．全体/個別での利益が両方ともそこそこ大きい．バランス型と言える．各個人が自分の利益を最大化するよう行動．過剰競争などが発生．

ゲーム理論について-概要- • ゲーム理論の定義 (from Wikipedia) 社会や自然界における複数主体が関わる意思決定の問題や行動の相互依存的状況を数学的なモデルを用いて研究する学問である． • 起源
1944年「ゲームの理論と経済活動」著者：数学者ジョン・フォン・ノイマン経済学者オスカー・モルゲンシュテルン 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 13

ゲーム理論について-協力/非協力- • 非協力ゲーム理論戦略的ゲームの参加者が互いにコミュニケーションを取れない状況で，それぞれが自分の利益を最大化する行動をとる．戦略形ゲームと展開ゲーム． • 協力ゲーム理論プレーヤー間の連携が可能で，連携を含めた戦略を各参加者が検討し，自分の利益を最大化する行動をとる．
一般的に，コミュニケーションや事前協議が可能． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 14

ゲーム理論について-対称/非対称- • 対称ゲーム全てのプレーヤーが同じ状況下で同じ選択肢のもとで行動選択を行う場合．厳密な意味での対称ゲームは社会にはあまり存在しないが，問題の簡略化として． • 非対称ゲームプレーヤー毎に置かれた状況や選考，選択肢が異なる場合を考えたゲーム．特に，相手の状況が部分的にし
か把握できない場合，不完全情報ゲームと呼ばれる． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 15

ゲーム理論について-完全/不完全- • 完全情報ゲームゲームへの参加者が，他者のことも含めて全ての情報を知っているという仮定が置かれている． • 不完全情報ゲームある人のみが知っている情報など，情報の非対称性が生じるゲーム．実社会での状況は不完全情報ゲームに該当するが，この時意思決定者は既に知っている情報
を基に，知らない情報に対する信念を形成する． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 16

ゲーム理論について-囚人のジレンマ- 対称ゲームにおいて，最適は実現されない 2人の共犯の強盗がいたとします．2人とも黙秘であれば物証が得られていないので， 2人は1年の懲役，2人とも自供すれば，立証により2人は3年の懲役を受けます．ただし，警察は自供させたいので，片方が自供し，もう片方が自供しなかった場合，自供した方は懲役0年，しなかった方は懲役5年とすることにしました．2人は別々に尋問を受けていますが，あなたが強盗だとしたら自供するでしょうか？・・ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原
明加 17 囚人A / 囚人B 自供黙秘自供 (-3,-3) (0,-5) 黙秘 (-5,0) (-1,-1)

ゲーム理論について-非対称のジレンマ- 非対称ゲームにおける意思決定は悩ましい Aさん(彼)とBさん(彼女)は付き合っています．2人は週末デートに行くことになっていて，カラオケか映画館のどちらかに行く予定で，10時に入口で待ち合わせをしました．ところが困ったことに，2人はカラオケか映画館のどちらにするか決め忘れていたことに家を出てから気づきました．スマホは持っていません．2人は，落ち合えなければ最悪の気持ちですが，もし落ち合えるならば，彼の方はどちらかというとカラオケに，彼女の方はどちらかというと映画館にいきたいと思っており，お互いにそのことは分かっています．さあ，あなたが彼/彼女ならどちらへいきますか？・・ 2020/5/17
強化学習とゲーム理論(MARL)@deeplab 清原明加 18 彼A / 彼女B カラオケ映画館カラオケ (3,2) (0,0) 映画館 (0,0) (2,3)

ゲーム理論について-共有地の悲劇- 個別最適と全体最適は一致しない村全体で飼うなら3頭が適切な(利益が最大となる)牛の放牧．しかし，村の農家一人ひとりが自分自身の利益を最大化しようとすると，3人の農家は一人2頭牛を飼い始め，村全体では計6頭になってしまいました．・・ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 19
too much 6cow/village appropriate 3cow/village

ゲーム理論について-ジレンマの回避- 互いの意思を確認できる場合と，できない場合．あなたの意思決定は変わりますか？ A国では国民10人全員に，ひとりあたり10万円が与えられることになりました．10万円は国民それぞれのものですので，どんな使い方をするかは国民の自由です．今，国が投資のための資金を国民から集めることにしました．この投資は成功が保障されていて，国民から集まったお金の3倍を税金として10人に均等に再分配することができます．あなたはいくら国に投資資金として渡すでしょうか？また，その決断は他の住民と話し合いの上行う場合と，自分一人で行う場合，変わりますか？・・ 2020/5/17
強化学習とゲーム理論(MARL)@deeplab 清原明加 20 協力する出し抜く話し合いあり？なし？

マルチエージェント強化学習 Multi-Agent Reinforcement Learning (MARL) 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 21

問題提起 • ゲーム的状況において，個別学習させたエージェントは周囲との協調を考えた行動を選択できるのか？ • つまり，自律分散型最適化をマルチエージェント環境において学習させることはできるのか？ •
人間の行うコミュニケーションの代わりとなるものを，どのように観測環境や情報として組み込めるか？また，コミュニケーションなく協調は可能なのか？ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 22

場面設定 • 協力エージェント同士が協力して行動しなければ良い報酬が得られない，全体での報酬を大きくしたい場合． • 敵対 zero-sumゲームなどの，一方が得をすれば他方が損をする状況で敵対的にエージェントを学習させたい場合． •
影響必ずしもエージェント間で協力して何かを達成したい訳ではないが，他のエージェントの行動も考慮に入れた上で最適化をしなければならない場合． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 23

以下での参考文献 • A Review of Cooperative Multi-Agent Deep Reinforcement Learning,
Oroojlooyjadid, Afshin, and Davood Hajinezhad , 2019 https://arxiv.org/abs/1908.03963 • Paper Collection of Multi-Agent Reinforcement Learning (MARL), https://github.com/LantaoYu/MARL-Papers と，上記紹介論文のAbstractをいくつか． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 24

主要課題 • MDPが達成されない⇒定常性がない，収束性に問題． (つまり，経験再生が利用しづらい) • 情報共有を規定すると，情報過多になり次元の呪いが問題に． • どうやって協力することをを学ばせるか． 2020/5/17
強化学習とゲーム理論(MARL)@deeplab 清原明加 25

研究分野 • Framework • Joint Action Learning • Cooperation and
Competition • Coordination • Security • Self-Play • Learning to Communicate • Transfer Learning • Imitation and Inverse Reinforcement Learning • Meta Learning • Application 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 26

研究分野の概観-Framework/Joint Action- • Framework あるシチュエーションを仮定して，どのような枠組みの中で収束性を担保できるかなど，アルゴリズムの話． • Joint Action Learning
エージェントが同時に意思決定するシチュエーションを考えて，マルコフ性など収束性に関する問題への考察を行う． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 27

研究分野の概観-3C- • Cooperation and Competition マルチエージェント環境において，エージェント同士に協力したり，競い合ったりする状況での方策や行動の最適化を学習させる． • Coordination
上記Cooperationタスクにおいて，同じタイミングでエージェントがそれぞれ適切な行動を起こさないといけない状況設定において，探索の困難性などについて議論する． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 28

研究分野の概観-Security/Self-Play- • Security サイバーセキュリティの状況設定において，attacker とdefenderの間のzero-sumゲームを考えている．ここで，defender側をマルチエージェントにして，パトロールの最適化をしたいらしい． • Self-Play AlphaGoなど，正解を人間が知らない∧ゲームなどの
閉じた設定∧対戦相手が明確な場合に，エージェント同士を戦わせて，自己対戦によって最適方策(行動)を学習していく． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 29

研究分野の概観-Communicate/Transfer- • Learn to Communicate(詳しくは次ページ) マルチエージェントの特にCooperativeな場面において，情報共有や意思伝達の機能をエージェントに学習させる．個人的には，Competitiveな状況でCommunication によって駆け引きが学習できると面白そうと思うけど，収束性に問題があるのかあまり研究されていなさそう．
• Transfer Learning 他のエージェントが異なる/同じ状況で学習した記録を，別のエージェントの学習に転用できないだろうか？という発想．学習効率の向上について議論． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 30

意思疎通・情報共有の設定 • Consensus 予め人間の手によって共有する情報と範囲を決めておき(その意味で”合意”という)，共有された情報と自分の見れる範囲の観測を基にエージェントは意思決定する．また，全体最適の場合エージェント間の重みについても取り決められていたりする． • Communication
エージェントに，”いつ” ”誰と” ”どのようにして”情報を共有したり，シグナルを発信したりするのかまでも学習・決定させる．ここで送られるメッセージはあくまで環境を変化させないものと仮定されている． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 31

研究分野の概観-Imitation/Inverse/Meta- • Imitation and Inverse Reinforcement Learning 通常は報酬を最大化するようエージェントが最適方策 (行動)を学習するが，対して，最適な方策(行動)を天下り的に与えて，そこから報酬の推定を行う，という意
味で逆強化学習．状態数が多く探索が困難な場合に，優秀な人間のデータを最適方策として与えることも． • Meta Learning 学習の仕方を学習する．マルチエージェントの Competitiveな状況において，メタ学習を使って変化していく状況に対応し，収束性課題に取り組むなど． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 32

研究分野の概観-Application- • multiple traffic signals 交通量を最大化するように，信号機の切り替えを都市全体で調整． • bike rebalancing
貸し自転車の店舗間移送を効率化する． • distributed resource allocation 流通システムにおいて在庫を抱えないよう資源を分配． • liquidation of stock 株の流動性の予測やポートフォリオ最適化など． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 33

モデル選択の自由度 • 使用するモデル方策ベース？価値ベース？ • 観測範囲 state, action, rewardについて，各々local,
neighbor, globalのどの範囲で観察できるか？ • ConsensusとCommunication どの範囲での情報共有を設定するか？ • 階層(ヒエラルキー) 中央集権的に行うか？どこまで自主性に任せるか？ • その他 RNN, GNN, Attention, Importance Sampling, Distributed, etc. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 34

補足-観測範囲について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 35 Fully Observable (すべてのエージェントが) すべての状態や報酬を観測できる．
Partially Observable 各エージェントは，自分の周りの近くの状態や報酬のみ観測できる．観測の共有をConsensusで決定．・観測を全エージェント間で共有・観測を近傍のエージェントや，サブグループ内でのみ共有・エージェント間の共有は行わない Share? or not? globally locally individually

補足-階層について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 36 Centralized Decentralized 中央集権型エージェントを統括して
全体を見る仮想エージェントがいるイメージ．サブグループ型のさらに上のエージェントなども．サブグループ型近傍のエージェントとなどサブグループを生成し，その中を統括するリーダーエージェントが存在しているイメージ．自律分散型各エージェントが個別に意思決定を行い，全体を統括するエージェントが存在しないイメージ．

補足-その他(1)- • RNN.. 価値の推定に，自身の時系列の過去経験から内部状態を保持・使用する．LSTM, GRUなど． • GNN.. エージェントをノード，エージェント間の関係をエッジとみるとグラフとして全体を把握できる．
• Attention.. 全体でのpolicy, Qの決定を行う際に，各エージェントの持つ予測モデルの重みづけができる． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 37

補足-その他(2)- • Importance Sampling.. 重みづけをした場合など，重みに応じてSampling Rate を変えることで，優先付けしてサンプリングできる． • Distributed Learning..
あるエージェントで学習した結果を他のエージェントでも活用できるようにすることで，分散的に学習を行うことができ，学習効率が向上する．ただし，基本的に他のエージェントの行動を観測できないようにしている場合などは，経験をどこまで他のエージェントが活用できるようにするかは議論がある． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 38

ホットトピック • Off-policy MARL 他のエージェントも含めた状況で，行動方策から最適な方策を学習する． • Safe MARL 長期的利益を最大化しつつ，決定的な打撃をさけるた
めのリスク回避を行いたい． • Heterogeneous MARL 一様なエージェントではなく，技能などに個性を持ったエージェントでの最適化． • Optimization in MARL マルチエージェント環境での最適化問題を解く数学． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 39

問題提起(再掲) • ゲーム的状況において，個別学習させたエージェントは周囲との協調を考えた行動を選択できるのか？⇒できる • つまり，自律分散型最適化をマルチエージェント環境において学習させることはできるのか？⇒できそう •
人間の行うコミュニケーションの代わりとなるものを，どのように観測環境や情報として組み込めるか？また，コミュニケーションなく協調は可能なのか？ ⇒ConsensusとCommunicationを導入できる 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 40

まとめ • MARLはゲーム理論的な課題に対し，Communicationの導入などにより解決できそうだった． • ただし，MARLでは収束性や学習の安定性が課題となるので，工夫が必要そうだった． • これからのMARLは，適用範囲を増やしていくことや，一人一人違う個性を持ったエージェントにおける最適
化などがおもしろそうだった． 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 41

Appendix. 強化学習ライブラリ • OpenAI Gym Atariゲームなど，強化学習の一般的なタスクについて実装されているライブラリ． https://gym.openai.com/ • OpenSpiel
バックギャモンや囲碁など，幅広く対戦型のゲームのタスクについて実装されているライブラリ． https://deepmind.com/research/open-source/openspiel • Arena 多くのMARLの実行環境を備え，MARLのベースラインタスクを作ろうというモチベでつくられたライブラリ． https://sites.google.com/view/arena-unity/ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 42

Reinforcement Learning and Game Theory

Reinforcement Learning and Game Theory

Haruka Kiyohara

More Decks by Haruka Kiyohara

Other Decks in Research

Featured

Transcript

強化学習とゲーム理論 (MARL) Reinforcement Learning x Game Theory 東京工業大学経営工学系清原

目次 • 強化学習とは？ • ゲーム理論について • マルチエージェント強化学習 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原

強化学習とは？教師あり学習/教師無し学習/強化学習 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 3 machine learning reinforcement

強化学習とは？歴史的には，動物の餌付けが起源とされるボタンを踏むと確率的に餌が落ちてくる ⇒鶏はせかせかとボタンを踏み続けるように 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原

強化学習とは？ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 5 状態ｓ報酬ｒ行動 a

強化学習とは？-観測範囲と報酬- • Fully Observable エージェントがすべての環境や状態を観測できる場合． • Partially Observable エージェントが環境や状態を部分的にしか観測できない場合．例えば，一人称視点など．

強化学習とは？-マルチエージェント化と最適- 最適化の3つの視点とトレードオフ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 12 自律分散型最適化個別最適化全体最適化

ゲーム理論について-概要- • ゲーム理論の定義 (from Wikipedia) 社会や自然界における複数主体が関わる意思決定の問題や行動の相互依存的状況を数学的なモデルを用いて研究する学問である． • 起源

マルチエージェント強化学習 Multi-Agent Reinforcement Learning (MARL) 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 21

問題提起 • ゲーム的状況において，個別学習させたエージェントは周囲との協調を考えた行動を選択できるのか？ • つまり，自律分散型最適化をマルチエージェント環境において学習させることはできるのか？ •

以下での参考文献 • A Review of Cooperative Multi-Agent Deep Reinforcement Learning,

主要課題 • MDPが達成されない⇒定常性がない，収束性に問題． (つまり，経験再生が利用しづらい) • 情報共有を規定すると，情報過多になり次元の呪いが問題に． • どうやって協力することをを学ばせるか． 2020/5/17

研究分野 • Framework • Joint Action Learning • Cooperation and

研究分野の概観-Framework/Joint Action- • Framework あるシチュエーションを仮定して，どのような枠組みの中で収束性を担保できるかなど，アルゴリズムの話． • Joint Action Learning

研究分野の概観-3C- • Cooperation and Competition マルチエージェント環境において，エージェント同士に協力したり，競い合ったりする状況での方策や行動の最適化を学習させる． • Coordination

研究分野の概観-Application- • multiple traffic signals 交通量を最大化するように，信号機の切り替えを都市全体で調整． • bike rebalancing

モデル選択の自由度 • 使用するモデル方策ベース？価値ベース？ • 観測範囲 state, action, rewardについて，各々local,

補足-観測範囲について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 35 Fully Observable (すべてのエージェントが) すべての状態や報酬を観測できる．

補足-階層について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原明加 36 Centralized Decentralized 中央集権型エージェントを統括して

補足-その他(1)- • RNN.. 価値の推定に，自身の時系列の過去経験から内部状態を保持・使用する．LSTM, GRUなど． • GNN.. エージェントをノード，エージェント間の関係をエッジとみるとグラフとして全体を把握できる．

補足-その他(2)- • Importance Sampling.. 重みづけをした場合など，重みに応じてSampling Rate を変えることで，優先付けしてサンプリングできる． • Distributed Learning..

ホットトピック • Off-policy MARL 他のエージェントも含めた状況で，行動方策から最適な方策を学習する． • Safe MARL 長期的利益を最大化しつつ，決定的な打撃をさけるた

Appendix. 強化学習ライブラリ • OpenAI Gym Atariゲームなど，強化学習の一般的なタスクについて実装されているライブラリ． https://gym.openai.com/ • OpenSpiel