Slide 1

Slide 1 text

AAAI 2019 概要 ゲーム理論・強化学習トピック報告 Jun Ernesto Okumura @第76回人工知能セミナー

Slide 2

Slide 2 text

講師紹介:奥村 エルネスト 純 ● 理学博士(専門:宇宙物理学) ● データアナリスト@DeNA ○ 領域:ゲーム、オートモーティブ ● AI研究開発エンジニア@DeNA ○ ゲームAI・強化学習チームリーダー ○ 案件推進、AI戦略策定 ● コミュニティ活動 ○ 強化学習アーキテクチャ勉強会(https://rlarch.connpass.com/) ○ Data Analyst Meetup Tokyo(https://data-analyst.connpass.com/) @pacocat 『データサイエンティスト養成読本 ビジネス活用編』 (技術評論社)

Slide 3

Slide 3 text

本講演 流れ 1 AAAI 2019 概要について 2 気になったトピック ご紹介 ● 統計情報、トレンド ● 招待講演について ● 不完全情報ゲーム攻略 現在 ● 交通領域における強化学習 活用 ● 個人 興味領域から部分的に紹介します ○ 面白い講演が多かった で全てを細かく紹介したいですが、 時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています ● 特に招待講演やチュートリアル 内容で AAAI2019以前 論文についても紹介しています Disclaimer

Slide 4

Slide 4 text

AAAI、AAAI Conference について ● アメリカ人工知能学会 Association for the Advancement of Artificial Intelligence ● 開催しているカンファレンス ○ AAAI Conference ○ IJCAI(国際人工知能会議)も他 団体と共に主催 ○ 他、様々な人工知能に関わる会議を主催 ● AAAI Conference ○ NeurIPS等と並び人工知能に関するトップカンファレンス 一つ ○ 採択率20%弱

Slide 5

Slide 5 text

AAAI Conference 2019 ● Date: Jan 27 - Feb 1, 2019 ● Venue:Hilton Hawaiian Village, Honolulu ● Program: https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI-19-Schedule.1.17.19-Final.pdf カンファレンス会場 外 様子

Slide 6

Slide 6 text

AAAI Conference 2019 様子

Slide 7

Slide 7 text

投稿数・採択率 ● 論文 投稿数 倍増 ○ full-paper submission: 7,095本 ○ 4,865本 (68.5%) 学生が主著者 ● 採択率 16.2% ○ 採択数 1,147本(Oral: 460, Poster: 687, Technical session: 122) Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

Slide 8

Slide 8 text

採択率 傾向 ● 投稿数 増加に伴い一部減少傾向が見られる ○ 会場 キャパシティ 問題で採択率が下がるケースも ○ 論文クオリティも上がっておりレッドオーシャン化が加速 https://github.com/lixin4ever/Conference-Acceptance-Rate よりグラフ化

Slide 9

Slide 9 text

国別 投稿状況 ● 国別で 中国・アメリカが大部分を占める Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

Slide 10

Slide 10 text

国別 採択率 Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

Slide 11

Slide 11 text

分野別 投稿状況 ● 増加傾向 領域: ○ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI”, など Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

Slide 12

Slide 12 text

参考:採択別によるタイトル 傾向 Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

Slide 13

Slide 13 text

参考:投稿タイミングによる採択率 Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

Slide 14

Slide 14 text

レビューについて ● Summary Reject 導入 ○ 事前にAAAI レギュレーションに沿っていないも 、 クオリティ 極端に低いも を除外(234本をreject) ● Biddingシステム 導入 ○ Toronto Paper Matching Systemによるレビュアー マッチング ○ PC(Program Committee) / SCP(Senior Program Committee)による入札 ○ レビュアー 専門性 考慮 ● 匿名性を強化したDouble Blind review 投稿数 増大に対する効率性・信頼性 高いレビュー方式 模索 段階

Slide 15

Slide 15 text

AAAI2019 統計情報についてまとめ ● 投稿数 大きく増加傾向 ○ 会場やスケジュールと 兼 合いで採択率が下がるケースも ○ クオリティも同時に上がっておりレッドオーシャン化が加速 ○ レビューシステムについてより洗練させる必要が生じている ● 国別で (他会議と同様)中国・アメリカがマジョリティ ● 増加傾向にあった分野 ○ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI” など ○ これら 数として大きい訳で ないが、プログラム構成からみても AI 実適用やHuman Interaction 事例や関心が増えてきている印象

Slide 16

Slide 16 text

招待講演 ● AAAI2019で 8件 招待講演が開催された Living and Flourishing with AI AIがど ように人間 生活に役立っていくか、インタラクションや Social Good 文脈で近年 研究をまとめた講演。スマートスピーカーと インタラクションに 対してど ような感情を想起するか検証した研究、子ども 教育パートナーとして 強化学習を使ったエージェントで学習効果 改善をもたらした事例、お年寄りと AIと 会話がど ように成長していくかを調査した研究、などが幅広く紹介された。 https://vimeo.com/313938302 Experiments in Teaching AI AAAI/EAAI 2019 Outstanding Educator Award Talkとして開催。 AI教育 需要が高まっている中、 AI教育にど ようにAIを活用するかという観点で 自身 事例を紹介していた。講演者が受け持つ「認知システム」 授業において、 オンラインによる学習・ Face-to-Face学習・両者 ブレンド それぞれに対して 行われたAI活用 実証実験が紹介された。 AAAI 2019: Invited Talks https://aaai.org/Conferences/AAAI-19/invited-speakers/

Slide 17

Slide 17 text

招待講演 Cases of Study in Computational Urban Science 新進気鋭 物理学者である Marta Gonzalez氏による移動 モデリングについて 講演。 様々な都市にいおいて、人 移動や生活行動をど ようなデータ( e.g. 携帯端末GPS 、 SNS)や確率分布を使ってモデリングするか、物理学から 知見も活用しながら 最新 シミュレーション成果について報告された。研究成果と合わせて、これら モデルが都市設計やマーケティングに活用できるような未来についても語られた。 https://vimeo.com/313942794 Adversarial Machine Learning GANs (Generative Adversarial Networks) 提唱者であるIan Goodfellow氏より、近年 敵対的学習について 発展 紹介が行われた。 AI 推論に影響を与える Adversarial Exampleに対して堅牢な学習をど ように行うか、 GAN 学習が強化学習における 自己対戦とど ように接続するか、ドメイン適用で 活用動向、解釈性など様々な 観点からGANs 展開を概観していた。 https://vimeo.com/313941176

Slide 18

Slide 18 text

招待講演 AI and Multiagent Systems for Social Good IAAI Robert S. Engelmore Award Lectureとして開催。 「介入リソースが限られている時に他者と インタラクションを最適化する」と いうゲーム理論・マルチエージェント 問題系を使った、安全保障・野生動物保護・感 染症拡大防止といった ”Social Good” ため AI活用を実践した事例を紹介していた。 https://vimeo.com/313940453 New Results for Solving Imperfect Information Games 2017年に初めてHeads up No-limit Texas Hold’emでプロプレイヤーを破った ポーカーAI「Libratus」 開発者Tuomas Sandholm氏 講演。近年 不完全情報ゲー ムへ アプローチ 進捗として、深層学習によってゲーム木探索を効率化した研究 や、様々な課題に対して早い収束性を持ったアルゴリズム 紹介が行われた。 https://vimeo.com/313942390 本講演でも触れます

Slide 19

Slide 19 text

招待講演 GDPR, Data Shortage and AI 近年 AI研究 、大規模データ( Big Data)へ アクセスによって大きく進捗しているが、 実課題を解く際に 、収集コストから十分な量 データが集められなかったり、プライバ シー観点で暗号化されたデータで学習する必要があったり、また GDPRなど データ保護 ポリシーによってデータが断片化していたりする。こ ような小規模化・断片化・暗号化され たデータからど ように学習を行え 良い か、転移学習や Federated Learningなど 解 決策が網羅的に紹介されていた。 https://vimeo.com/313941621 Urban Computing: Building Intelligent Cities Using Big Data and AI 移動体 GPS情報、大気データ、電力供給など、現在 都市で 多く データが収集でき る時代になっている。こうしたデータと機械学習を活用して、ど ようにスマートな都市を実 装していくか、中国における様々な事例が紹介された。 GPS情報を使った人口統計予測、違 反車両 検知、大気 状態予測など幅広い取り組みと現状 結果が語られた。 https://vimeo.com/313942000

Slide 20

Slide 20 text

● Answer Set Engineering ● Deep Multi-view Visual Data Analytics ● Deep Reinforcement Learning with Applications in Transportation ○ 講義資料:https://outreach.didichuxing.com/tutorial/AAAI2019/ ● On Explainable AI: From Theory to Motivation, Applications and Limitations ● Plan, Activity and Intent Recognition (PAIR) ● Behavior Analytics: Methods and Applications ● Building Deep Learning Applications for Big Data Platforms ○ 講演資料:https://jason-dai.github.io/aaai2019/ ● New Frontiers of Automated Mechanism Design for Pricing and Auctions ○ 講演資料:https://sites.google.com/view/amdtutorial/home ● Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning ○ 講演資料:https://www.fedai.org/#/conferences/link_aaai2019 本講演でも触れます チュートリアル AAAI 2019: Tutorials https://aaai.org/Conferences/AAAI-19/aaai19tutorials/

Slide 21

Slide 21 text

チュートリアル ● An Overview of the International Planning Competition ○ 講演資料:https://www.nms.kcl.ac.uk/andrew.coles/PlanningCompetitionAAAISlides.html ● Presenting a Paper ○ 講演資料:https://wp.me/P3qAAw-76 ● Planning and Scheduling Approaches for Urban Traffic Control ○ 講演資料:https://helios.hud.ac.uk/scommv/storage/TutorialSlides.pdf ● The Road to Industry ● Adversarial Machine Learning ○ 講演資料:https://aaai19adversarial.github.io/index.html#org ● Deep Bayesian and Sequential Learning ○ 講演資料:http://chien.cm.nctu.edu.tw/home/aaai-tutorial/ ● Multi-Agent Pathfinding: Models, Solvers, and Systems ○ 講演資料:http://ktiml.mff.cuni.cz/~bartak/AAAI2019/ ● Neural Vector Representations beyond Words: Sentence and Document Embeddings ○ 講演資料:http://gerard.demelo.org/teaching/embedding-tutorial/

Slide 22

Slide 22 text

チュートリアル ● Recent Advances in Scalable Retrieval of Personalized Recommendations ○ 講演資料:https://preferred.ai/aaai19-tutorial/ ● End-to-end Goal-oriented Question Answering Systems ○ 講演資料:https://www.slideshare.net/QiHe2/aaai-2019-tutorial-endtoend-goaloriented-question-answering-systems ● Graph Representation Learning ● Imagination Science: Beyond Data Science ○ 講演資料:https://people.cs.umass.edu/~mahadeva/AAAI_2019_Tutorial/Welcome.html ● Integrating Human Factors into AI for Fake News Prevention: Challenges and Opportunities ● Knowledge-based Sequential Decision-Making under Uncertainty ○ 講演資料:http://www.cs.binghamton.edu/~szhang/2019_aaai_tutorial/ ● Human Identification at a Distance by Gait Recognition ○ 講演資料:http://yushiqi.cn/research/aaai19-gait-recognition-tutorial

Slide 23

Slide 23 text

ワークショップ ● Affective Content Analysis: Modeling Affect-in-Action ● Agile Robotics for Industrial Automation Competition (ARIAC) ● Artificial Intelligence for Cyber Security (AICS) ● Artificial Intelligence Safety ● Dialog System Technology Challenge (DSTC7) ● Engineering Dependable and Secure Machine Learning Systems ● Games and Simulations for Artificial Intelligence ● Health Intelligence ● Knowledge Extraction from Games ● Network Interpretability for Deep Learning ● Plan, Activity, and Intent Recognition (PAIR) 2019 ● Reasoning and Learning for Human-Machine Dialogues (DEEP-DIAL 2019) ● Reasoning for Complex Question Answering ● Recommender Systems Meet Natural Language Processing ● Reinforcement Learning in Games ● Reproducible AI 本講演でも触れます

Slide 24

Slide 24 text

Emerging Track: Artificial Intelligence for Social Impact ● AIが社会にど ような影響を及ぼしうるかにフォーカス ● ここで紹介する事例 ○ ゲーム理論や機械学習を使ったAI for Social Good事例 ■ 警戒行動、野生動物保護、感染症拡大防止 ため 介入 AAAI 2019: Emerging Track https://aaai.org/Conferences/AAAI-19/aaai19emergingcall/ ● AI and Multiagent Systems for Social Good (Milind Tambe; AAAI2019 Invited) ● On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019) ● Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019) 紹介するAAAI2019/NeurIPS2018講演・論文

Slide 25

Slide 25 text

Public Safety and Security ● Stackelberg Security Game ○ 空港警備 、警備側 状態が分かっている状況下で犯罪者が利得を最大化させ ようとする、シュタッケルベルグ競争モデルで記述できる ○ 「警備員が限られている中で警備側 利得を最大化させるために  ど ような警備スケジュール(混合戦略)を取るべきか?」を解く ○ ロサンゼルス空港へ 導入で薬物・危険物 検知実績が向上(次頁右下) ARMOR Security for Los Angeles International Airport (Pita et al.2008; AAAI2008) https://www.aaai.org/Papers/AAAI/2008/AAAI08-331.pdf 利得行列 警備側 利得を最大化する警備スケジュール(混合戦略) 犯罪者 最大期待利得

Slide 26

Slide 26 text

Public Safety and Security Computing Optimal Randomized Resource Allocations for Massive Security Games (Kiekintveld et al.2009; AAMAS2009) http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf ● Federal Air Marshal Service ○ 同様 アプローチ 、航空機に対する警備行動でも適用可能 ○ 組み合わせが1041に及ぶ警備行動を、部分問題を拡張することで解いた GUARDS and PROTECT: Next Generation Applications of Security Games (An et al.2011) http://teamcore.usc.edu/people/marecki/sigecom.pdf ● GUARDS and PROTECT ○ 船舶 警備に適用した事例(現在 様々な国と地域で導入) ○ ターゲティングスケジュール 探索次元を削る工夫をしている ○ 当時 人間によるスケジューリングと比べ350% 利得改善

Slide 27

Slide 27 text

On the Inducibility of Stackelberg Equilibrium for Security Games On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019) http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf ● Stackelberg Equlibrium for Security Games 課題 ○ シュタッケルベルグ均衡解(SE)に Strong SEとWeak SEがある ■ Strong SE (SSE): attackerが、複数 ナッシュ均衡から defender 利得を最大化するような行動を選択する場合 ■ Weak SE (WSE): attackerが、defender 利得が下がる ナッシュ均衡を選択するような場合 ○ defender リソースが十分にある場合 、防御戦略に摂動を加えることでSSEを 実現できるが、実際に そ ような理想的なケース ほぼない ● 論文 貢献 ○ defender 最低限 利得(unitiry guarantee)を最大化するような inducible Stackelberg equilibrium (ISE) を定義し、解 存在を証明 ○ 限られたリソースで 期待利得が保証できる警備戦略が選択可能に

Slide 28

Slide 28 text

Conservation/Wildlife Protection Adversary models account for imperfect crime data: Forecasting and planning against real-world poachers (Gholami et al.2018) http://teamcore.usc.edu/papers/2018/sgholami_aamas18.pdf ● Green Security Games ○ ウガンダ 国立公園で 毎年数千 野生動物が密猟者 罠にかかっている ○ 動物密度や過去 罠個数などを特徴量として罠 密度関数をモデリング ■ パトロール 信頼度ごと 複数モデルでEnsembleしている が特徴 ● 罠予測器でパトロールを最適化して罠 発見個数が5倍に ● 現在 600 国立公園で導入 ● 近年 ドローンによる介入戦略も 研究が進んでいる

Slide 29

Slide 29 text

Conservation/Wildlife Protection Signaling in Bayesian Stackelberg Games (Hu et al. 2016) http://teamcore.usc.edu/people/haifeng/files/SignalBSG_AAMAS16_Full.pdf ● Strategic Signaling ○ 近年 ドローンによる密猟者へ 介入行動も研究が進んでいる ○ 「監視員が近くにいる」というシグナルを伝える混合戦略を最適化して、 密猟者 シグナル信用度を50%に調整する(最適応答戦略を調整)

Slide 30

Slide 30 text

Public Health ● Games against Nature ○ ホームレス 若者 HIV感染率 通常 10倍 ○ 彼ら リアルグラフ上で、最も効果的にHIV 情報を伝搬させられる ノード(Peer Leader候補)を同定したい ○ ノード間 伝達確率が未知なPOMDP※に対して介入方策を学習 End-to-End Influence Maximization in the Field (Wilder et al. 2017) http://teamcore.usc.edu/papers/2018/aamas_deployment.pdf POMDPs for Assisting Homeless Shelters - Computational and Deployment Challenges (Yadav et al.2016) http://teamcore.usc.edu/papers/2016/IDEAS-Amulya.pdf ※ Partial Observable Markov Decision Process(部分観測マルコフ決定過程)

Slide 31

Slide 31 text

Public Health ● Learning to Prescribe Interventions ○ インドで 毎年数十万人が結核により命を落としている ○ 未完治状態 人や耐性菌 発生を抑えるため、薬 服用を辞めそうな人 予測モデル(RF/LSTM)を構築して介入行動を行う ○ 実データ ノイズが多いため複数モデルを確率的に混ぜた混合戦略を構築 ● 発展事例 ○ 子ども 肥満防止や自殺防止 介入戦略にも活用が検討されている Learning to Prescribe Interventions for Tuberculosis Patients using Digital Adherence Data (Killian et al. 2019) https://arxiv.org/abs/1902.01506

Slide 32

Slide 32 text

Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization ● 介入による結果も含めたDecision-Focusedな学習 提案 ○ 先 結核患者へ 介入モデルで 、「治療離脱予測」と「介入行動」が それぞれ別 モジュールとして学習されていた ○ 介入 結果を微分可能にすることで、end-to-endな学習器を構築 Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019) http://teamcore.usc.edu/people/bryanwilder/publications/aaai_melding.pdf AUC 悪化 介入結果 改善

Slide 33

Slide 33 text

本講演 流れ 1 AAAI 2019 概要について 2 気になったトピック ご紹介 ● 統計情報、トレンド ● 招待講演について ● 不完全情報ゲーム攻略 現在 ● 交通領域における強化学習 活用 ● 個人 興味領域から部分的に紹介します ○ 面白い講演が多かった で全てを細かく紹介したいですが、 時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています ● 特に招待講演やチュートリアル 内容で AAAI2019以前 論文についても紹介しています Disclaimer

Slide 34

Slide 34 text

New Results for Solving Imperfect-Information Games ● なぜ不完全情報ゲームか? ○ 限られた情報化で利得を最大化したい場面が現実世界に 多い ■ 経済活動、交渉、安全保障行動、ポーカー・麻雀など ゲーム、… ○ 完全情報ゲーム(チェッカー・オセロ・チェス・将棋・囲碁)で 人間を超える方策が獲得できている ● Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018) ● Solving Imperfect-Information Games via Discounted Regret Minimization (Brown&Sandholm2018; AAAI2019) ● New Results for Solving Imperfect Information Games (AAAI2019 Invited Talk) 紹介するAAAI2019/NeurIPS2018講演・論文

Slide 35

Slide 35 text

プロプレイヤーに勝利したポーカーAI「Libratus」 ● Libratus ○ NeurIPS2018ベストペーパー ○ Heads up No-limit Texas Hold'em (HUNL)を攻略した初めて AI ■ 状態数10161にも及ぶゲーム木探索を効率化 ○ 4名 プロプレイヤーと12万試合戦う検証で$1.7M 勝利 Safe and Nested Subgame Solving for Imperfect-Information Games (Brown & Sandholm 2017; NeurIPS2017) https://arxiv.org/abs/1705.02955 参考: ● 機械学習による意思決定, 小宮山, 人工知能vol.33, 2018 ● ポーカーAI 最新動向 https://www.slideshare.net/juneokumura/ai-20171031

Slide 36

Slide 36 text

不完全情報ゲームを解くと ? ● ナッシュ均衡 ○ 2人 プレイヤー1,2を考え、各戦略をσ 1 , σ 2 (戦略集合をΣ 1 , Σ 2 )とする ○ 相手 戦略を固定した時、お互いど ように混合戦略σを変えても 利得※uが改善しない状態をナッシュ均衡と呼ぶ ● ε-ナッシュ均衡 ○ 完全なナッシュ均衡を解く が難しい場合 均衡条件をεだけ緩和する 相手戦略σ 2 を固定した上で、 どれだけ自分 戦略を変えても 混合戦略σ 利得を超えられない 相手戦略σ 1 を固定した上で、 どれだけ自分 戦略を変えても 混合戦略σ 利得を超えられない ※ 勝率や儲けなど、問題ごとに定義される効用

Slide 37

Slide 37 text

不完全情報ゲームをど ように解く か? ● Regret Minimizationアルゴリズム ○ 「こ 選択をした方が良かった」という後悔(Regret)を定量化 ○ ゼロ和ゲームで 、Regretをε以下に抑えることが出来れ 、 得られた平均戦略 2ε-ナッシュ均衡解になる 現在 戦略で得られる期待利得 他プレイヤー 戦略を現在 戦略 σtに固定して、 自分 戦略をσ*に変更した時 仮想利得 Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007) http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf

Slide 38

Slide 38 text

Regret Minimization イメージ ● じゃんけん(同時手番ゲーム) Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007) http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf P2 P1 -1 +1 P1 P1 P1 第一回目 What if... Regret 0 +2 +1 戦略 更新 { ,  ,   } = {0, 2/3, 1/3} 繰り返すことでナッシュ均衡解に近づく { ,  ,   } → {1/3, 1/3, 1/3}

Slide 39

Slide 39 text

Counterfactual Regret Minimization (CFR), CFR+ ● Counterfactual Regret Minimization (CFR) ○ 同様 考え方 、じゃんけん ような同時手番ゲームだけでなく、 交互に行動選択を行う展開型ゲームにも拡張できる ● CFR+ ○ CFRにおいて負 regretを0に置き換えて効率化したも ○ 他にも重み付け平均を導入するなど 改良が行われている ○ 1014程度 状態数 ある抽象化ポーカーでも収束させることが可能 An Introduction to Counterfactual Regret Minimization (Neller & Lanctot 2013) http://modelai.gettysburg.edu/2013/cfr/cfr.pdf ノードIにおける現戦略 期待利得 ノードIで行動aを選択した時 期待利得 初期局面からノードIに到達する確率

Slide 40

Slide 40 text

ポーカーAI「Libratus」を構成する3つ 要素 Libratus: The Superhuman AI for No-Limit Poker (Brown & Sandholm 2017; IJCAI2017) https://www.ijcai.org/proceedings/2017/0772.pdf Abstraction Equilibrium Finding ゲーム木 抽象化 ● 似た状態 同ノードに結合する等 ● 状態数を10161→1012まで縮減 抽象化したゲームを解く ● CFRやCFR+等 ● 大雑把な戦略 獲得 Subgame Solving 部分木展開で精度改善 ● 抽象化したゲーム木を再展開 (前工程 評価値を元にする) ● 精緻な戦略 獲得 Self Improver ゲーム木 自己改良 ● 新しい木 抽象化を行う Libratus以降 発展 ● CRFアルゴリズム 改善 ⇒ Discounted CFR(AAAI2019 best paper) ● ゲーム木 抽象化をDNNによって行う ⇒ Deep CFR(NeurIPS2018 oral)

Slide 41

Slide 41 text

Discounted CFR モチベーション ● CFR+ ポーカー等で大きな成果を上げた一方課題もある ○ 負 Regretを0にするため、大きな負 利得が存在するゲーム 場合 かえって更新が遅くなる Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 2019; AAAI2019) https://arxiv.org/abs/1809.04040 P1 P2 P2 P2 0 +1 -1,000,000 333,333 333,334 利得 : Regret: 1/3 1/3 1/3 初期戦略 : P1 P2 P2 P2 1/2 1/2 0 333,332.5 333,334.5 0 Regret: 0 +1 -1,000,000 利得 : 大きな負 利得に引きづられて更新が遅くなる 0 (-666,667)

Slide 42

Slide 42 text

Discounted CFR アプローチ ● Regretを重み付け平均として定義 ● 重み 付け方 ○ Regretが正 場合: ○ Regretが負 場合: ● 結果 ○ 過剰なRegret値 影響を低減することで収束速度が大幅に改善 ■ 先程 例で 収束までに必要なイテレーションが 471407 → 970 に ○ α=1.5, β=0 場合 実験上常に CFR+ よりも優れた収束性が出ていた Upper bound Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 209; AAAI2019) https://arxiv.org/abs/1809.04040

Slide 43

Slide 43 text

Discounted CFR 貢献 ● CFR+よりも収束 早いアルゴリズム 開発 ○ 過去にもCFR+を拡張したLinear CFR(重みが1/t) あったが、 今回 さらに重みを一般化することで改善が見られた ○ 収束速度についても丁寧に議論が行われている ● より一般的な不完全情報ゲームへ 対応 ○ これまでCFR+ ポーカー等で活用されていたが、CFR+が苦手としていた ような他 ゲームに対しても一般化できる手法

Slide 44

Slide 44 text

Deep CFR ● モチベーション ○ ゲーム木 なるべく抽象化することで解きやすいサイズにしたい ○ 抽象化 ため 表現 ドメイン知識を使わず獲得したい ● アプローチ ○ DNNを使ってRegret 予測器を構築 ○ 各イテレーション中に軌跡を集めておき、それらを教師データとして学習 Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018) https://arxiv.org/abs/1811.00164

Slide 45

Slide 45 text

不完全情報ゲーム攻略 現在:まとめ ● Libratus 登場 ○ ゲーム抽象化とCFR/CFR+を組み合わせた解法が成果を上げていた ○ 1対1ポーカーで プロプレイヤーを破るアルゴリズムが完成している ● Libratus以降 流れ ○ アルゴリズム 改良・より一般的なゲームに対応するため 拡張 ■ CFR+ 課題を緩和したDiscounted CFR ■ ゲーム抽象化を学習するDeep CFR ○ 今回扱えなかった話題 ■ 複数人プレイヤーへ 拡張 ■ 他 ベンチマークタスクへ 適用 昨年 、Dota2やStarCraftIIといった不完全情報 MOBA(Multiplayer Online Battle Arena)タイトル においてプロプレイヤー以上 成績を収めた大規模分散深層学習エージェントが話題だが、 今回 話 「モデル(ゲーム木)が所与 前提で不完全情報問題をゲーム理論観点で解く」という 立場であり、アプローチが異なる。 Note

Slide 46

Slide 46 text

Deep Reinforcement Learning with Applications in Transportation ● DiDi(中国 タクシー配車サービス) AI Labによる 交通に関連した深層強化学習事例 紹介 講義資料:https://outreach.didichuxing.com/tutorial/AAAI2019/ ● Deep Reinforcement Learning with Applications in Transportation (AAAI2018 Workshop) ● Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS) ● Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018) 紹介するAAAI2019/NeurIPS2018講演・論文

Slide 47

Slide 47 text

強化学習と ? ● ある環境下で、目的とする収益を最大化するため 戦略(行動 系列)を獲得する機械学習 一種 ○ 教師データがなくても学習できる ■ 環境に対する試行錯誤によってターゲットをサンプリングできる ○ モデルが未知 状況でも学習ができる ■ MDP(Markov Decision Process) 成立を仮定する必要がある

Slide 48

Slide 48 text

(深層)強化学習 現在 ● キャッチーな事例 登場と実応用へ 期待 ○ ゲーム、交通、推薦システム、制御、教育、ヘルスケア、金融、… Deep Reinforcement Learning(Yuxi Li, 2018) https://arxiv.org/abs/1810.06339 Reinforcement Learning Applications https://medium.com/@yuxili/rl-applications-73ef685c07eb DQN SPACE INVADERS - DeepMind https://www.youtube.com/watch?v=W2CAghUiofY AlphaGo Zero: Learning from scratch https://deepmind.com/blog/alphago-zero-learning-scratch/ Learning Dexterity https://blog.openai.com/learning-dexterity/

Slide 49

Slide 49 text

(深層)強化学習 現在 ● 実応用に至るまで 課題 まだ多い ○ 環境開発・学習 コスト ○ Reality Gap ○ マルチタスク・転移 ○ 不完全観測 ○ マルチエージェント ○ 安全性 ○ 再現性 ○ … 多様な強化学習 概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 本パートで 、現在「交通領域」でど ようなアプリケーション 研究が行われているか、 現時点で出来ることや課題について簡単にまとめていきます

Slide 50

Slide 50 text

交通領域における事例について ● 強化学習 様々な移動課題に対して研究が行われている ○ タクシー配車(Dispatching / Repositioning) ○ 信号機制御 ○ ナビゲーション ○ 自動運転 ○ … ● 最近 トレンド ○ 個別制御からマルチエージェント制御へ 拡張(Cooperative) ○ 大規模データへ アクセス ○ シミュレータ環境 改善 ○ 転移学習 ○ ゲーム理論的アプローチ

Slide 51

Slide 51 text

Taxi Dispatching 1. Tabular Setting ● 強化学習として 問題設定 ○ 過去 需要データから価値関数(状態から累積期待報酬へ 写像)を構築 ■ 状態:時間・空間 メッシュ、行動:オーダーを受けうるかどうか ○ 直近 オーダーだけでなく将来 期待報酬を最大化するようにマッチング Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach (Xu et al. 2018; KDD2018) https://dl.acm.org/citation.cfm?id=3219824

Slide 52

Slide 52 text

Taxi Dispatching 1. Deep Reinforcement Learning ● 関数近似(DNN) 導入 ○ DNNによって大規模都市へ 適用、転移学習 活用、汎化効果が期待 ● Action Search ○ 過去 軌跡を活用してデータ拡張することでスパースなグリッドに対応 Deep Reinforcement Learning with Knowledge Transfer for Online Rides Order Dispatching (Wang et al. 2018; ICDM2018) https://tonyzqin.files.wordpress.com/2018/09/drl_tl_dispatch_icdm_camera_ready.pdf

Slide 53

Slide 53 text

Taxi Repositioning ● ど ように移動すれ 需要を満たせるかを解く ○ 状態:配車ステータス・需要予測・供給分布、行動:移動するグリッド ○ CNNベース エージェントで学習(Double DQN) ● 実験結果 ○ 他 最適化手法(Receding-Horizon Control; RDH)と比較して20%以上 需要を満たせることを確認 MOVI: A Model-Free Approach to Dynamic Fleet Management (Oda et al. 2018) https://arxiv.org/abs/1804.04758

Slide 54

Slide 54 text

Taxi Dispatching + Repositioning ● Dispatch + Repositioning ○ 配車を取るかどうか(Dispatch)と高需要が見込まれるグリッドに移動 するかどうか(Repositioning)を同時に扱う ● マルチエージェントへ 拡張 ○ 他 タクシー位置やオーダー情報をGlobal Contextとして表現を学習 Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS) https://drive.google.com/file/d/0B_utB5Y8Y6D5MGdfQktjQXgySDdPeG0wYnFxRnBJNDl3UlhF/view

Slide 55

Slide 55 text

Traffic Signal Control (TSC) ● 交通流量や経過時間を最適化するタスク ○ レーン/グリッドごと 車両数や速度を状態として入力 ○ 全車両 経過時間等を(負 )報酬として信号切り替えタイミングを制御 Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (Liang et al.2018) https://arxiv.org/abs/1803.11115

Slide 56

Slide 56 text

Traffic Signal Control (TSC): simple DQN ● 状態表現 ● 行動 ○ 実際に変えられる信号 ステータス Using a Deep Reinforcement Learning Agent for Traffic Signal Control (Genders & Razavi 2016) https://arxiv.org/abs/1611.01142 レーン・グリッドごと 車両数 レーン・グリッドごと 平均車両速度

Slide 57

Slide 57 text

Traffic Signal Control (TSC): IntelliLight ● より現実 ケースに即したネットワーク 模索 ○ 高頻度に切り替わること 抑制 ○ 信号が青 ときと赤 ときでネットワークを分離する ● SUMOシミュレータ 検証で 渋滞時間が改善 IntelliLight: A reinforcement learning approach for intelligent traffic light control (Wei et al. 2018 KDD2018) https://pennstate.pure.elsevier.com/en/publications/intellilight-a-reinforcement-learning-approach-for-intelligent-tr 頻繁に切り替わって欲しくない Phase Gate

Slide 58

Slide 58 text

Learning to Navigate in Cities Without a Map ● 地図情報を使わないナビゲーション ○ Google Street View 画像を元にゴール(緯度経度)まで移動するタスク ○ 画像認識にCNN、不完全観測に対してLSTMを活用(迷路タスクと同様) ○ 方策獲得に 分散強化学習(IMPALA)を活用 ○ カリキュラム学習 採用 ○ 都市間 転移学習にも成功 Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018) https://arxiv.org/abs/1804.00168 フィーチャーサイト(動画あり) https://sites.google.com/view/streetlearn

Slide 59

Slide 59 text

Learning to Navigate in Cities Without a Map ● 方策 獲得 ○ 地域依存 情報(ゴールに対する方向)と方策(ど 方向に移動するか) を分離することで学習 ⇒ 都市間 転移がしやすくなる ○ 分散強化学習(IMPALA)によって効率的に学習を行う 参考(紹介論文):日本語解説 以下が詳しい https://www.slideshare.net/DeepLearningJP2016/dllearning-to-navigate-in-cities-without-a-map-93034591 参考(IMPALA):深層強化学習 分散化・RNN利用 動向 https://www.slideshare.net/juneokumura/rnnr2d2 Goal LSTM ゴールと画像情報から エージェント 向きを予測 (地域依存) Policy LSTM 状態(入力画像と向き予測)と行動(移動方向) 報酬から、Actor-Critic法で学習 (地域に依存しない)

Slide 60

Slide 60 text

Learning to Navigate in Cities Without a Map ● 転移学習 ○ Goal LSTMをそれぞれ 都市について学習 ○ CNN encoderとPolicy LSTM 汎化も期待できる

Slide 61

Slide 61 text

交通領域における強化学習 活用:まとめ ● AAAI2019 Workshopから以下 領域について紹介した ○ タクシー配車 ■ Dispatching / Repositioning に関する研究を紹介 ○ 信号機制御 ■ 現在まで トレンドを概観 ○ ナビゲーション ■ 地図を使わずに複数都市間でナビゲート可能な学習について紹介

Slide 62

Slide 62 text

まとめ ● AAAI2019 概要やトレンドを報告 ○ Artificial Intelligence for Social Impact ■ ゲーム理論を中心とした社会実装事例を紹介 ● AAAI2019/NeurIPS2018から気になったトピックを報告 ○ 不完全情報ゲーム攻略 現在 ■ “Libratus”以降 CFRアルゴリズム 進展を紹介 ○ 交通領域における強化学習 活用 ■ タクシー配車・信号機制御・ナビゲーション等 研究事例を紹介