Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning and Game Theory
Search
Haruka Kiyohara
May 17, 2020
Research
2
840
Reinforcement Learning and Game Theory
study seminar @ deeplab
https://deeplab-team.github.io/
Haruka Kiyohara
May 17, 2020
Tweet
Share
More Decks by Haruka Kiyohara
See All by Haruka Kiyohara
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction(日本語版)
aiueola
0
250
Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE (日本語版)
aiueola
0
280
SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ
aiueola
0
320
Off-Policy Evaluation of Ranking Policies under Diverse User Behavior (日本語版)
aiueola
0
540
Off-Policy Evaluation of Ranking Policies under Diverse User Behavior
aiueola
1
290
海外大学院留学説明会@東工大 2023夏 事前共有資料
aiueola
1
3.2k
Policy-Adaptive Estimator Selection for Off-Policy Evaluation
aiueola
0
940
OFRL: Designing an Offline Reinforcement Learning and Policy Evaluation Platform from Practical Perspectives
aiueola
0
660
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model
aiueola
2
490
Other Decks in Research
See All in Research
機械学習による言語パフォーマンスの評価
langstat
6
720
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
18
3.1k
第79回 産総研人工知能セミナー 発表資料
agiats
2
160
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
s_mizuki_nlp
1
350
Generative Predictive Model for Autonomous Driving 第61回 コンピュータビジョン勉強会@関東 (後編)
kentosasaki
0
210
外積やロドリゲスの回転公式を利用した点群の回転
kentaitakura
1
650
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
160
「並列化時代の乱数生成」
abap34
3
820
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
3
730
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
510
授業評価アンケートのテキストマイニング
langstat
1
360
さんかくのテスト.pdf
sankaku0724
0
340
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Side Projects
sachag
452
42k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
120
Navigating Team Friction
lara
183
14k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Invisible Side of Design
smashingmag
298
50k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
Practical Orchestrator
shlominoach
186
10k
Transcript
強化学習とゲーム理論 (MARL) Reinforcement Learning x Game Theory 東京工業大学 経営工学系 清原
明加 Haruka Kiyohara 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 1
目次 • 強化学習とは? • ゲーム理論について • マルチエージェント強化学習 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原
明加 2
強化学習とは? 教師あり学習/教師無し学習/強化学習 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 3 machine learning reinforcement
supervised unsupervised Cartpole Atari breakout 碁(Go)
強化学習とは? 歴史的には,動物の餌付け が起源とされる ボタンを踏むと確率的に餌 が落ちてくる ⇒鶏はせかせかとボタンを 踏み続けるように 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原
明加 4 https://www.reddit.com/r/aww/comments/f 1akqn/parrots_playing_basketball/
強化学習とは? 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 5 状態s 報酬r 行動 a
エージェント 環境 将来的に得られる報酬を最大化するよう,エージェント が行動価値/行動方策を学習し,最適化する.
強化学習とは?-前提- • エージェントが,環境のなかで得られる報酬を最大化 する最適化問題. • ただし,報酬を得るためにどうしたらよいかというの は非自明な場合が多く,また,報酬のみではスパース で扱いにくいので,途中の過程ででてくる状態や, エージェントの行動に価値を付与し,その価値を最大 化する問題に置き換える.
• 状態や行動の価値に関しても一概に決まるものではな いため,まずは価値を推測するところから始め,推測 した価値の最大化までをひとまとめで行うことを目標 とする. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 6
強化学習とは?-方策ベース・価値ベース- • 方策ベース 状態価値Vを推測し,以降の状態価値の現在割引和を 最大化する方策π(s,a)を決定 • 価値ベース エージェントの行動価値Qを推測し,以降の行動価値 の現在割引和を最大化する行動aを決定 •
モデルベース 環境が分かっているという仮定のもと,価値最大化を プランニング 現在割引和..同じ報酬が得られるならなるべく早く得られる方が良い,という考え方. 数学的には,割り引くことで和を発散させたくない,という意味も. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 7
強化学習とは?-最適化問題の解き方- • 動的計画法 選択肢をひとつづつ増やしていき,逐次的に最適化 問題を解いていく方法で,厳密的な解法. • モンテカルロ法 方策ベースなどで用いられ,ロールアウトによって 疑似体験的にいくつかの選択肢を比較し,方策を選択. •
TD法 価値ベースなどで用いられ,tステップ先の行動価値 まで考えた上での行動選択の最適化を行う. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 8
強化学習とは?-探索と活用- • 探索 現時点で持っている知識では最適とは限らない方策を 選択し,周辺の環境や行動価値を学習する. • 活用 探索で得られた情報を基に,考えられる内で最適な 行動(方策)を選択する. 上記の探索と活用にはトレードオフが存在
⇒学習初期には探索を重視し,後半では活用を重視. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 9 活用 探索 exploration exploitation
強化学習とは?-観測範囲と報酬- • Fully Observable エージェントがすべての環境や状態を観測できる場合. • Partially Observable エージェントが環境や状態を部分的にしか観測できな い場合.例えば,一人称視点など.
• Sparse Reward 報酬が一番最後だけなど,連続的に得られない場合. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 10
強化学習とは?-最近のトレンド- • 2014年頃から再び波が来ている.(ex. AlphaGo) • 強化学習の価値関数の推論に深層学習を組み込んだ, 深層強化学習で適応可能性が広がる. • 分散学習による効率的かつ精度の高い学習. •
一人称視点など,環境を部分的にしか観測できない エージェントの行動(方策)最適化の研究. • 環境に複数のエージェントが存在するマルチエージェ ント環境での挙動の研究. • 近年,実応用がますます注目される. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 11
強化学習とは?-マルチエージェント化と最適- 最適化の3つの視点とトレードオフ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 12 自律分散型最適化 個別最適化 全体最適化
全体での利益が最大に なるよう設計. 格差が存在することも. 全体/個別での利益が両方 ともそこそこ大きい. バランス型と言える. 各個人が自分の利益を 最大化するよう行動. 過剰競争などが発生.
ゲーム理論について-概要- • ゲーム理論の定義 (from Wikipedia) 社会や自然界における複数主体が関わる意思決定の 問題や行動の相互依存的状況を数学的なモデルを用 いて研究する学問である. • 起源
1944年「ゲームの理論と経済活動」 著者:数学者 ジョン・フォン・ノイマン 経済学者 オスカー・モルゲンシュテルン 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 13
ゲーム理論について-協力/非協力- • 非協力ゲーム理論 戦略的ゲームの参加者が互いにコミュニケーションを 取れない状況で,それぞれが自分の利益を最大化する 行動をとる.戦略形ゲームと展開ゲーム. • 協力ゲーム理論 プレーヤー間の連携が可能で,連携を含めた戦略を各 参加者が検討し,自分の利益を最大化する行動をとる.
一般的に,コミュニケーションや事前協議が可能. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 14
ゲーム理論について-対称/非対称- • 対称ゲーム 全てのプレーヤーが同じ状況下で同じ選択肢のもとで 行動選択を行う場合.厳密な意味での対称ゲームは社 会にはあまり存在しないが,問題の簡略化として. • 非対称ゲーム プレーヤー毎に置かれた状況や選考,選択肢が異なる 場合を考えたゲーム.特に,相手の状況が部分的にし
か把握できない場合,不完全情報ゲームと呼ばれる. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 15
ゲーム理論について-完全/不完全- • 完全情報ゲーム ゲームへの参加者が,他者のことも含めて全ての情報 を知っているという仮定が置かれている. • 不完全情報ゲーム ある人のみが知っている情報など,情報の非対称性が 生じるゲーム.実社会での状況は不完全情報ゲームに 該当するが,この時意思決定者は既に知っている情報
を基に,知らない情報に対する信念を形成する. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 16
ゲーム理論について-囚人のジレンマ- 対称ゲームにおいて,最適は実現されない 2人の共犯の強盗がいたとします.2人とも黙秘であれば物証が得られていないので, 2人は1年の懲役,2人とも自供すれば,立証により2人は3年の懲役を受けます.ただ し,警察は自供させたいので,片方が自供し,もう片方が自供しなかった場合,自 供した方は懲役0年,しなかった方は懲役5年とすることにしました.2人は別々に尋 問を受けていますが,あなたが強盗だとしたら自供するでしょうか?・・ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原
明加 17 囚人A / 囚人B 自供 黙秘 自供 (-3,-3) (0,-5) 黙秘 (-5,0) (-1,-1)
ゲーム理論について-非対称のジレンマ- 非対称ゲームにおける意思決定は悩ましい Aさん(彼)とBさん(彼女)は付き合っています.2人は週末デートに行くことになってい て,カラオケか映画館のどちらかに行く予定で,10時に入口で待ち合わせをしまし た.ところが困ったことに,2人はカラオケか映画館のどちらにするか決め忘れてい たことに家を出てから気づきました.スマホは持っていません.2人は,落ち合えな ければ最悪の気持ちですが,もし落ち合えるならば,彼の方はどちらかというとカ ラオケに,彼女の方はどちらかというと映画館にいきたいと思っており,お互いに そのことは分かっています.さあ,あなたが彼/彼女ならどちらへいきますか?・・ 2020/5/17
強化学習とゲーム理論(MARL)@deeplab 清原 明加 18 彼A / 彼女B カラオケ 映画館 カラオケ (3,2) (0,0) 映画館 (0,0) (2,3)
ゲーム理論について-共有地の悲劇- 個別最適と全体最適は一致しない 村全体で飼うなら3頭が適切な(利益が最大となる)牛の放牧.しかし,村の農家一人 ひとりが自分自身の利益を最大化しようとすると,3人の農家は一人2頭牛を飼い始 め,村全体では計6頭になってしまいました.・・ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 19
too much 6cow/village appropriate 3cow/village
ゲーム理論について-ジレンマの回避- 互いの意思を確認できる場合と,できない場合. あなたの意思決定は変わりますか? A国では国民10人全員に,ひとりあたり10万円が与えられることになりました.10万 円は国民それぞれのものですので,どんな使い方をするかは国民の自由です.今, 国が投資のための資金を国民から集めることにしました.この投資は成功が保障さ れていて,国民から集まったお金の3倍を税金として10人に均等に再分配することが できます.あなたはいくら国に投資資金として渡すでしょうか?また,その決断は 他の住民と話し合いの上行う場合と,自分一人で行う場合,変わりますか?・・ 2020/5/17
強化学習とゲーム理論(MARL)@deeplab 清原 明加 20 協力する 出し抜く 話し合い あり?なし?
マルチエージェント強化学習 Multi-Agent Reinforcement Learning (MARL) 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 21
問題提起 • ゲーム的状況において,個別学習させた エージェントは周囲との協調を考えた行動 を選択できるのか? • つまり,自律分散型最適化をマルチエー ジェント環境において学習させることはで きるのか? •
人間の行うコミュニケーションの代わりと なるものを,どのように観測環境や情報と して組み込めるか? また,コミュニケーションなく協調は可能 なのか? 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 22
場面設定 • 協力 エージェント同士が協力して行動しなければ良い報酬 が得られない,全体での報酬を大きくしたい場合. • 敵対 zero-sumゲームなどの,一方が得をすれば他方が損を する状況で敵対的にエージェントを学習させたい場合. •
影響 必ずしもエージェント間で協力して何かを達成したい 訳ではないが,他のエージェントの行動も考慮に入れ た上で最適化をしなければならない場合. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 23
以下での参考文献 • A Review of Cooperative Multi-Agent Deep Reinforcement Learning,
Oroojlooyjadid, Afshin, and Davood Hajinezhad , 2019 https://arxiv.org/abs/1908.03963 • Paper Collection of Multi-Agent Reinforcement Learning (MARL), https://github.com/LantaoYu/MARL-Papers と,上記紹介論文のAbstractをいくつか. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 24
主要課題 • MDPが達成されない⇒定常性がない,収束性に問題. (つまり,経験再生が利用しづらい) • 情報共有を規定すると,情報過多になり次元の呪いが 問題に. • どうやって協力することをを学ばせるか. 2020/5/17
強化学習とゲーム理論(MARL)@deeplab 清原 明加 25
研究分野 • Framework • Joint Action Learning • Cooperation and
Competition • Coordination • Security • Self-Play • Learning to Communicate • Transfer Learning • Imitation and Inverse Reinforcement Learning • Meta Learning • Application 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 26
研究分野の概観-Framework/Joint Action- • Framework あるシチュエーションを仮定して,どのような枠組み の中で収束性を担保できるかなど,アルゴリズムの話. • Joint Action Learning
エージェントが同時に意思決定するシチュエーション を考えて,マルコフ性など収束性に関する問題への考 察を行う. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 27
研究分野の概観-3C- • Cooperation and Competition マルチエージェント環境において,エージェント同士 に協力したり,競い合ったりする状況での方策や行動 の最適化を学習させる. • Coordination
上記Cooperationタスクにおいて,同じタイミングで エージェントがそれぞれ適切な行動を起こさないとい けない状況設定において,探索の困難性などについて 議論する. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 28
研究分野の概観-Security/Self-Play- • Security サイバーセキュリティの状況設定において,attacker とdefenderの間のzero-sumゲームを考えている.ここ で,defender側をマルチエージェントにして,パト ロールの最適化をしたいらしい. • Self-Play AlphaGoなど,正解を人間が知らない∧ゲームなどの
閉じた設定∧対戦相手が明確な場合に,エージェント 同士を戦わせて,自己対戦によって最適方策(行動)を 学習していく. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 29
研究分野の概観-Communicate/Transfer- • Learn to Communicate(詳しくは次ページ) マルチエージェントの特にCooperativeな場面において, 情報共有や意思伝達の機能をエージェントに学習させ る.個人的には,Competitiveな状況でCommunication によって駆け引きが学習できると面白そうと思うけど, 収束性に問題があるのかあまり研究されていなさそう.
• Transfer Learning 他のエージェントが異なる/同じ状況で学習した記録 を,別のエージェントの学習に転用できないだろう か?という発想.学習効率の向上について議論. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 30
意思疎通・情報共有の設定 • Consensus 予め人間の手によって共有する情報と範囲を決めてお き(その意味で”合意”という),共有された情報と自分 の見れる範囲の観測を基にエージェントは意思決定す る.また,全体最適の場合エージェント間の重みにつ いても取り決められていたりする. • Communication
エージェントに,”いつ” ”誰と” ”どのようにして”情報 を共有したり,シグナルを発信したりするのかまでも 学習・決定させる.ここで送られるメッセージはあく まで環境を変化させないものと仮定されている. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 31
研究分野の概観-Imitation/Inverse/Meta- • Imitation and Inverse Reinforcement Learning 通常は報酬を最大化するようエージェントが最適方策 (行動)を学習するが,対して,最適な方策(行動)を天下 り的に与えて,そこから報酬の推定を行う,という意
味で逆強化学習.状態数が多く探索が困難な場合に, 優秀な人間のデータを最適方策として与えることも. • Meta Learning 学習の仕方を学習する.マルチエージェントの Competitiveな状況において,メタ学習を使って変化し ていく状況に対応し,収束性課題に取り組むなど. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 32
研究分野の概観-Application- • multiple traffic signals 交通量を最大化するように,信号機の切り替えを都市 全体で調整. • bike rebalancing
貸し自転車の店舗間移送を効率化する. • distributed resource allocation 流通システムにおいて在庫を抱えないよう資源を分配. • liquidation of stock 株の流動性の予測やポートフォリオ最適化など. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 33
モデル選択の自由度 • 使用するモデル 方策ベース?価値ベース? • 観測範囲 state, action, rewardについて, 各々local,
neighbor, globalのどの範囲で観察できるか? • ConsensusとCommunication どの範囲での情報共有を設定するか? • 階層(ヒエラルキー) 中央集権的に行うか?どこまで自主性に任せるか? • その他 RNN, GNN, Attention, Importance Sampling, Distributed, etc. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 34
補足-観測範囲について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 35 Fully Observable (すべてのエージェントが) すべての状態や報酬を観測できる.
Partially Observable 各エージェントは,自分の周りの近くの 状態や報酬のみ観測できる. 観測の共有をConsensusで決定. ・観測を全エージェント間で共有 ・観測を近傍のエージェントや,サブグ ループ内でのみ共有 ・エージェント間の共有は行わない Share? or not? globally locally individually
補足-階層について- 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 36 Centralized Decentralized 中央集権型 エージェントを統括して
全体を見る仮想エージェ ントがいるイメージ. サブグループ型のさらに 上のエージェントなども. サブグループ型 近傍のエージェントとな どサブグループを生成し, その中を統括するリーダ ーエージェントが存在し ているイメージ. 自律分散型 各エージェントが個別に 意思決定を行い,全体を 統括するエージェントが 存在しないイメージ.
補足-その他(1)- • RNN.. 価値の推定に,自身の時系列の過去経験から内部状態 を保持・使用する.LSTM, GRUなど. • GNN.. エージェントをノード,エージェント間の関係をエッ ジとみるとグラフとして全体を把握できる.
• Attention.. 全体でのpolicy, Qの決定を行う際に,各エージェント の持つ予測モデルの重みづけができる. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 37
補足-その他(2)- • Importance Sampling.. 重みづけをした場合など,重みに応じてSampling Rate を変えることで,優先付けしてサンプリングできる. • Distributed Learning..
あるエージェントで学習した結果を他のエージェント でも活用できるようにすることで,分散的に学習を行 うことができ,学習効率が向上する.ただし,基本的 に他のエージェントの行動を観測できないようにして いる場合などは,経験をどこまで他のエージェントが 活用できるようにするかは議論がある. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 38
ホットトピック • Off-policy MARL 他のエージェントも含めた状況で,行動方策から最適 な方策を学習する. • Safe MARL 長期的利益を最大化しつつ,決定的な打撃をさけるた
めのリスク回避を行いたい. • Heterogeneous MARL 一様なエージェントではなく,技能などに個性を持っ たエージェントでの最適化. • Optimization in MARL マルチエージェント環境での最適化問題を解く数学. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 39
問題提起(再掲) • ゲーム的状況において,個別学習させた エージェントは周囲との協調を考えた行動 を選択できるのか?⇒できる • つまり,自律分散型最適化をマルチエー ジェント環境において学習させることはで きるのか?⇒できそう •
人間の行うコミュニケーションの代わりと なるものを,どのように観測環境や情報と して組み込めるか? また,コミュニケーションなく協調は可能 なのか? ⇒ConsensusとCommunicationを導入できる 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 40
まとめ • MARLはゲーム理論的な課題に対し,Communicationの 導入などにより解決できそうだった. • ただし,MARLでは収束性や学習の安定性が課題となる ので,工夫が必要そうだった. • これからのMARLは,適用範囲を増やしていくことや, 一人一人違う個性を持ったエージェントにおける最適
化などがおもしろそうだった. 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 41
Appendix. 強化学習ライブラリ • OpenAI Gym Atariゲームなど,強化学習の一般的なタスクについて 実装されているライブラリ. https://gym.openai.com/ • OpenSpiel
バックギャモンや囲碁など,幅広く対戦型のゲームの タスクについて実装されているライブラリ. https://deepmind.com/research/open-source/openspiel • Arena 多くのMARLの実行環境を備え,MARLのベースライン タスクを作ろうというモチベでつくられたライブラリ. https://sites.google.com/view/arena-unity/ 2020/5/17 強化学習とゲーム理論(MARL)@deeplab 清原 明加 42