第76回人工知能セミナー登壇資料（NeurIPS2018/AAAI2019報告会）

Slide 1

Slide 1 text

AAAI 2019 概要ゲーム理論・強化学習トピック報告 Jun Ernesto Okumura ＠第76回人工知能セミナー

Slide 2

Slide 2 text

講師紹介：奥村エルネスト純 ● 理学博士（専門：宇宙物理学） ● データアナリスト＠DeNA ○ 領域：ゲーム、オートモーティブ ● AI研究開発エンジニア＠DeNA ○ ゲームAI・強化学習チームリーダー ○ 案件推進、AI戦略策定 ● コミュニティ活動 ○ 強化学習アーキテクチャ勉強会（https://rlarch.connpass.com/） ○ Data Analyst Meetup Tokyo（https://data-analyst.connpass.com/） @pacocat 『データサイエンティスト養成読本ビジネス活用編』（技術評論社）

Slide 3

Slide 3 text

本講演流れ 1 AAAI 2019 概要について 2 気になったトピックご紹介 ● 統計情報、トレンド ● 招待講演について ● 不完全情報ゲーム攻略現在 ● 交通領域における強化学習活用 ● 個人興味領域から部分的に紹介します ○ 面白い講演が多かったで全てを細かく紹介したいですが、時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています ● 特に招待講演やチュートリアル内容で AAAI2019以前論文についても紹介しています Disclaimer

Slide 4

Slide 4 text

AAAI、AAAI Conference について ● アメリカ人工知能学会 Association for the Advancement of Artificial Intelligence ● 開催しているカンファレンス ○ AAAI Conference ○ IJCAI（国際人工知能会議）も他団体と共に主催 ○ 他、様々な人工知能に関わる会議を主催 ● AAAI Conference ○ NeurIPS等と並び人工知能に関するトップカンファレンス一つ ○ 採択率20%弱

Slide 5

Slide 5 text

AAAI Conference 2019 ● Date: Jan 27 - Feb 1, 2019 ● Venue：Hilton Hawaiian Village, Honolulu ● Program： https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI-19-Schedule.1.17.19-Final.pdf カンファレンス会場外様子

Slide 6

Slide 6 text

AAAI Conference 2019 様子

Slide 7

Slide 7 text

投稿数・採択率 ● 論文投稿数倍増 ○ full-paper submission: 7,095本 ○ 4,865本 (68.5%) 学生が主著者 ● 採択率 16.2% ○ 採択数 1,147本（Oral: 460, Poster: 687, Technical session: 122） Zhi-Hua Zhou氏スライドより（https://vimeo.com/313938302）

Slide 8

Slide 8 text

採択率傾向 ● 投稿数増加に伴い一部減少傾向が見られる ○ 会場キャパシティ問題で採択率が下がるケースも ○ 論文クオリティも上がっておりレッドオーシャン化が加速 https://github.com/lixin4ever/Conference-Acceptance-Rate よりグラフ化

Slide 9

Slide 9 text

国別投稿状況 ● 国別で中国・アメリカが大部分を占める Zhi-Hua Zhou氏スライドより（https://vimeo.com/313938302）

Slide 10

Slide 10 text

国別採択率 Zhi-Hua Zhou氏スライドより（https://vimeo.com/313938302）

Slide 11

Slide 11 text

分野別投稿状況 ● 増加傾向領域： ○ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI”, など Zhi-Hua Zhou氏スライドより（https://vimeo.com/313938302）

Slide 12

Slide 12 text

参考：採択別によるタイトル傾向 Zhi-Hua Zhou氏スライドより（https://vimeo.com/313938302）

Slide 13

Slide 13 text

参考：投稿タイミングによる採択率 Zhi-Hua Zhou氏スライドより（https://vimeo.com/313938302）

Slide 14

Slide 14 text

レビューについて ● Summary Reject 導入 ○ 事前にAAAI レギュレーションに沿っていないも、クオリティ極端に低いもを除外（234本をreject） ● Biddingシステム導入 ○ Toronto Paper Matching Systemによるレビュアーマッチング ○ PC(Program Committee) / SCP(Senior Program Committee)による入札 ○ レビュアー専門性考慮 ● 匿名性を強化したDouble Blind review 投稿数増大に対する効率性・信頼性高いレビュー方式模索段階

Slide 15

Slide 15 text

AAAI2019 統計情報についてまとめ ● 投稿数大きく増加傾向 ○ 会場やスケジュールと兼合いで採択率が下がるケースも ○ クオリティも同時に上がっておりレッドオーシャン化が加速 ○ レビューシステムについてより洗練させる必要が生じている ● 国別で（他会議と同様）中国・アメリカがマジョリティ ● 増加傾向にあった分野 ○ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI” など ○ これら数として大きい訳でないが、プログラム構成からみても AI 実適用やHuman Interaction 事例や関心が増えてきている印象

Slide 16

Slide 16 text

招待講演 ● AAAI2019で 8件招待講演が開催された Living and Flourishing with AI AIがどように人間生活に役立っていくか、インタラクションや Social Good 文脈で近年研究をまとめた講演。スマートスピーカーとインタラクションに対してどような感情を想起するか検証した研究、子ども教育パートナーとして強化学習を使ったエージェントで学習効果改善をもたらした事例、お年寄りと AIと会話がどように成長していくかを調査した研究、などが幅広く紹介された。 https://vimeo.com/313938302 Experiments in Teaching AI AAAI/EAAI 2019 Outstanding Educator Award Talkとして開催。 AI教育需要が高まっている中、 AI教育にどようにAIを活用するかという観点で自身事例を紹介していた。講演者が受け持つ「認知システム」授業において、オンラインによる学習・ Face-to-Face学習・両者ブレンドそれぞれに対して行われたAI活用実証実験が紹介された。 AAAI 2019: Invited Talks https://aaai.org/Conferences/AAAI-19/invited-speakers/

Slide 17

Slide 17 text

招待講演 Cases of Study in Computational Urban Science 新進気鋭物理学者である Marta Gonzalez氏による移動モデリングについて講演。様々な都市にいおいて、人移動や生活行動をどようなデータ（ e.g. 携帯端末GPS 、 SNS）や確率分布を使ってモデリングするか、物理学から知見も活用しながら最新シミュレーション成果について報告された。研究成果と合わせて、これらモデルが都市設計やマーケティングに活用できるような未来についても語られた。 https://vimeo.com/313942794 Adversarial Machine Learning GANs (Generative Adversarial Networks) 提唱者であるIan Goodfellow氏より、近年敵対的学習について発展紹介が行われた。 AI 推論に影響を与える Adversarial Exampleに対して堅牢な学習をどように行うか、 GAN 学習が強化学習における自己対戦とどように接続するか、ドメイン適用で活用動向、解釈性など様々な観点からGANs 展開を概観していた。 https://vimeo.com/313941176

Slide 18

Slide 18 text

招待講演 AI and Multiagent Systems for Social Good IAAI Robert S. Engelmore Award Lectureとして開催。「介入リソースが限られている時に他者とインタラクションを最適化する」というゲーム理論・マルチエージェント問題系を使った、安全保障・野生動物保護・感染症拡大防止といった ”Social Good” ため AI活用を実践した事例を紹介していた。 https://vimeo.com/313940453 New Results for Solving Imperfect Information Games 2017年に初めてHeads up No-limit Texas Hold’emでプロプレイヤーを破ったポーカーAI「Libratus」開発者Tuomas Sandholm氏講演。近年不完全情報ゲームへアプローチ進捗として、深層学習によってゲーム木探索を効率化した研究や、様々な課題に対して早い収束性を持ったアルゴリズム紹介が行われた。 https://vimeo.com/313942390 本講演でも触れます

Slide 19

Slide 19 text

招待講演 GDPR, Data Shortage and AI 近年 AI研究、大規模データ（ Big Data）へアクセスによって大きく進捗しているが、実課題を解く際に、収集コストから十分な量データが集められなかったり、プライバシー観点で暗号化されたデータで学習する必要があったり、また GDPRなどデータ保護ポリシーによってデータが断片化していたりする。こような小規模化・断片化・暗号化されたデータからどように学習を行え良いか、転移学習や Federated Learningなど解決策が網羅的に紹介されていた。 https://vimeo.com/313941621 Urban Computing: Building Intelligent Cities Using Big Data and AI 移動体 GPS情報、大気データ、電力供給など、現在都市で多くデータが収集できる時代になっている。こうしたデータと機械学習を活用して、どようにスマートな都市を実装していくか、中国における様々な事例が紹介された。 GPS情報を使った人口統計予測、違反車両検知、大気状態予測など幅広い取り組みと現状結果が語られた。 https://vimeo.com/313942000

Slide 20

Slide 20 text

● Answer Set Engineering ● Deep Multi-view Visual Data Analytics ● Deep Reinforcement Learning with Applications in Transportation ○ 講義資料：https://outreach.didichuxing.com/tutorial/AAAI2019/ ● On Explainable AI: From Theory to Motivation, Applications and Limitations ● Plan, Activity and Intent Recognition (PAIR) ● Behavior Analytics: Methods and Applications ● Building Deep Learning Applications for Big Data Platforms ○ 講演資料：https://jason-dai.github.io/aaai2019/ ● New Frontiers of Automated Mechanism Design for Pricing and Auctions ○ 講演資料：https://sites.google.com/view/amdtutorial/home ● Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning ○ 講演資料：https://www.fedai.org/#/conferences/link_aaai2019 本講演でも触れますチュートリアル AAAI 2019: Tutorials https://aaai.org/Conferences/AAAI-19/aaai19tutorials/

Slide 21

Slide 21 text

チュートリアル ● An Overview of the International Planning Competition ○ 講演資料：https://www.nms.kcl.ac.uk/andrew.coles/PlanningCompetitionAAAISlides.html ● Presenting a Paper ○ 講演資料：https://wp.me/P3qAAw-76 ● Planning and Scheduling Approaches for Urban Traffic Control ○ 講演資料：https://helios.hud.ac.uk/scommv/storage/TutorialSlides.pdf ● The Road to Industry ● Adversarial Machine Learning ○ 講演資料：https://aaai19adversarial.github.io/index.html#org ● Deep Bayesian and Sequential Learning ○ 講演資料：http://chien.cm.nctu.edu.tw/home/aaai-tutorial/ ● Multi-Agent Pathfinding: Models, Solvers, and Systems ○ 講演資料：http://ktiml.mff.cuni.cz/~bartak/AAAI2019/ ● Neural Vector Representations beyond Words: Sentence and Document Embeddings ○ 講演資料：http://gerard.demelo.org/teaching/embedding-tutorial/

Slide 22

Slide 22 text

チュートリアル ● Recent Advances in Scalable Retrieval of Personalized Recommendations ○ 講演資料：https://preferred.ai/aaai19-tutorial/ ● End-to-end Goal-oriented Question Answering Systems ○ 講演資料：https://www.slideshare.net/QiHe2/aaai-2019-tutorial-endtoend-goaloriented-question-answering-systems ● Graph Representation Learning ● Imagination Science: Beyond Data Science ○ 講演資料：https://people.cs.umass.edu/~mahadeva/AAAI_2019_Tutorial/Welcome.html ● Integrating Human Factors into AI for Fake News Prevention: Challenges and Opportunities ● Knowledge-based Sequential Decision-Making under Uncertainty ○ 講演資料：http://www.cs.binghamton.edu/~szhang/2019_aaai_tutorial/ ● Human Identification at a Distance by Gait Recognition ○ 講演資料：http://yushiqi.cn/research/aaai19-gait-recognition-tutorial

Slide 23

Slide 23 text

ワークショップ ● Affective Content Analysis: Modeling Affect-in-Action ● Agile Robotics for Industrial Automation Competition (ARIAC) ● Artificial Intelligence for Cyber Security (AICS) ● Artificial Intelligence Safety ● Dialog System Technology Challenge (DSTC7) ● Engineering Dependable and Secure Machine Learning Systems ● Games and Simulations for Artificial Intelligence ● Health Intelligence ● Knowledge Extraction from Games ● Network Interpretability for Deep Learning ● Plan, Activity, and Intent Recognition (PAIR) 2019 ● Reasoning and Learning for Human-Machine Dialogues (DEEP-DIAL 2019) ● Reasoning for Complex Question Answering ● Recommender Systems Meet Natural Language Processing ● Reinforcement Learning in Games ● Reproducible AI 本講演でも触れます

Slide 24

Slide 24 text

Emerging Track: Artificial Intelligence for Social Impact ● AIが社会にどような影響を及ぼしうるかにフォーカス ● ここで紹介する事例 ○ ゲーム理論や機械学習を使ったAI for Social Good事例 ■ 警戒行動、野生動物保護、感染症拡大防止ため介入 AAAI 2019: Emerging Track https://aaai.org/Conferences/AAAI-19/aaai19emergingcall/ ● AI and Multiagent Systems for Social Good (Milind Tambe; AAAI2019 Invited) ● On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019) ● Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019) 紹介するAAAI2019/NeurIPS2018講演・論文

Slide 25

Slide 25 text

Public Safety and Security ● Stackelberg Security Game ○ 空港警備、警備側状態が分かっている状況下で犯罪者が利得を最大化させようとする、シュタッケルベルグ競争モデルで記述できる ○ 「警備員が限られている中で警備側利得を最大化させるために　どような警備スケジュール（混合戦略）を取るべきか？」を解く ○ ロサンゼルス空港へ導入で薬物・危険物検知実績が向上（次頁右下） ARMOR Security for Los Angeles International Airport (Pita et al.2008; AAAI2008) https://www.aaai.org/Papers/AAAI/2008/AAAI08-331.pdf 利得行列警備側利得を最大化する警備スケジュール（混合戦略）犯罪者最大期待利得

Slide 26

Slide 26 text

Public Safety and Security Computing Optimal Randomized Resource Allocations for Massive Security Games (Kiekintveld et al.2009; AAMAS2009) http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf ● Federal Air Marshal Service ○ 同様アプローチ、航空機に対する警備行動でも適用可能 ○ 組み合わせが1041に及ぶ警備行動を、部分問題を拡張することで解いた GUARDS and PROTECT: Next Generation Applications of Security Games (An et al.2011) http://teamcore.usc.edu/people/marecki/sigecom.pdf ● GUARDS and PROTECT ○ 船舶警備に適用した事例（現在様々な国と地域で導入） ○ ターゲティングスケジュール探索次元を削る工夫をしている ○ 当時人間によるスケジューリングと比べ350% 利得改善

Slide 27

Slide 27 text

On the Inducibility of Stackelberg Equilibrium for Security Games On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019) http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf ● Stackelberg Equlibrium for Security Games 課題 ○ シュタッケルベルグ均衡解（SE）に Strong SEとWeak SEがある ■ Strong SE (SSE): attackerが、複数ナッシュ均衡から defender 利得を最大化するような行動を選択する場合 ■ Weak SE (WSE): attackerが、defender 利得が下がるナッシュ均衡を選択するような場合 ○ defender リソースが十分にある場合、防御戦略に摂動を加えることでSSEを実現できるが、実際にそような理想的なケースほぼない ● 論文貢献 ○ defender 最低限利得（unitiry guarantee）を最大化するような inducible Stackelberg equilibrium (ISE) を定義し、解存在を証明 ○ 限られたリソースで期待利得が保証できる警備戦略が選択可能に

Slide 28

Slide 28 text

Conservation/Wildlife Protection Adversary models account for imperfect crime data: Forecasting and planning against real-world poachers (Gholami et al.2018) http://teamcore.usc.edu/papers/2018/sgholami_aamas18.pdf ● Green Security Games ○ ウガンダ国立公園で毎年数千野生動物が密猟者罠にかかっている ○ 動物密度や過去罠個数などを特徴量として罠密度関数をモデリング ■ パトロール信頼度ごと複数モデルでEnsembleしているが特徴 ● 罠予測器でパトロールを最適化して罠発見個数が5倍に ● 現在 600 国立公園で導入 ● 近年ドローンによる介入戦略も研究が進んでいる

Slide 29

Slide 29 text

Conservation/Wildlife Protection Signaling in Bayesian Stackelberg Games (Hu et al. 2016) http://teamcore.usc.edu/people/haifeng/files/SignalBSG_AAMAS16_Full.pdf ● Strategic Signaling ○ 近年ドローンによる密猟者へ介入行動も研究が進んでいる ○ 「監視員が近くにいる」というシグナルを伝える混合戦略を最適化して、密猟者シグナル信用度を50%に調整する（最適応答戦略を調整）

Slide 30

Slide 30 text

Public Health ● Games against Nature ○ ホームレス若者 HIV感染率通常 10倍 ○ 彼らリアルグラフ上で、最も効果的にHIV 情報を伝搬させられるノード（Peer Leader候補）を同定したい ○ ノード間伝達確率が未知なPOMDP※に対して介入方策を学習 End-to-End Influence Maximization in the Field (Wilder et al. 2017) http://teamcore.usc.edu/papers/2018/aamas_deployment.pdf POMDPs for Assisting Homeless Shelters - Computational and Deployment Challenges (Yadav et al.2016) http://teamcore.usc.edu/papers/2016/IDEAS-Amulya.pdf ※ Partial Observable Markov Decision Process（部分観測マルコフ決定過程）

Slide 31

Slide 31 text

Public Health ● Learning to Prescribe Interventions ○ インドで毎年数十万人が結核により命を落としている ○ 未完治状態人や耐性菌発生を抑えるため、薬服用を辞めそうな人予測モデル（RF/LSTM）を構築して介入行動を行う ○ 実データノイズが多いため複数モデルを確率的に混ぜた混合戦略を構築 ● 発展事例 ○ 子ども肥満防止や自殺防止介入戦略にも活用が検討されている Learning to Prescribe Interventions for Tuberculosis Patients using Digital Adherence Data (Killian et al. 2019) https://arxiv.org/abs/1902.01506

Slide 32

Slide 32 text

Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization ● 介入による結果も含めたDecision-Focusedな学習提案 ○ 先結核患者へ介入モデルで、「治療離脱予測」と「介入行動」がそれぞれ別モジュールとして学習されていた ○ 介入結果を微分可能にすることで、end-to-endな学習器を構築 Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019) http://teamcore.usc.edu/people/bryanwilder/publications/aaai_melding.pdf AUC 悪化介入結果改善

Slide 33

Slide 33 text

Slide 34

Slide 34 text

New Results for Solving Imperfect-Information Games ● なぜ不完全情報ゲームか？ ○ 限られた情報化で利得を最大化したい場面が現実世界に多い ■ 経済活動、交渉、安全保障行動、ポーカー・麻雀などゲーム、… ○ 完全情報ゲーム（チェッカー・オセロ・チェス・将棋・囲碁）で人間を超える方策が獲得できている ● Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018) ● Solving Imperfect-Information Games via Discounted Regret Minimization (Brown&Sandholm2018; AAAI2019) ● New Results for Solving Imperfect Information Games (AAAI2019 Invited Talk) 紹介するAAAI2019/NeurIPS2018講演・論文

Slide 35

Slide 35 text

プロプレイヤーに勝利したポーカーAI「Libratus」 ● Libratus ○ NeurIPS2018ベストペーパー ○ Heads up No-limit Texas Hold'em (HUNL)を攻略した初めて AI ■ 状態数10161にも及ぶゲーム木探索を効率化 ○ 4名プロプレイヤーと12万試合戦う検証で$1.7M 勝利 Safe and Nested Subgame Solving for Imperfect-Information Games (Brown & Sandholm 2017; NeurIPS2017) https://arxiv.org/abs/1705.02955 参考： ● 機械学習による意思決定, 小宮山, 人工知能vol.33, 2018 ● ポーカーAI 最新動向 https://www.slideshare.net/juneokumura/ai-20171031

Slide 36

Slide 36 text

不完全情報ゲームを解くと？ ● ナッシュ均衡 ○ 2人プレイヤー1,2を考え、各戦略をσ 1 , σ 2 （戦略集合をΣ 1 , Σ 2 ）とする ○ 相手戦略を固定した時、お互いどように混合戦略σを変えても利得※uが改善しない状態をナッシュ均衡と呼ぶ ● ε-ナッシュ均衡 ○ 完全なナッシュ均衡を解くが難しい場合均衡条件をεだけ緩和する相手戦略σ 2 を固定した上で、どれだけ自分戦略を変えても混合戦略σ 利得を超えられない相手戦略σ 1 を固定した上で、どれだけ自分戦略を変えても混合戦略σ 利得を超えられない ※ 勝率や儲けなど、問題ごとに定義される効用

Slide 37

Slide 37 text

不完全情報ゲームをどように解くか？ ● Regret Minimizationアルゴリズム ○ 「こ選択をした方が良かった」という後悔（Regret）を定量化 ○ ゼロ和ゲームで、Regretをε以下に抑えることが出来れ、得られた平均戦略 2ε-ナッシュ均衡解になる現在戦略で得られる期待利得他プレイヤー戦略を現在戦略 σtに固定して、自分戦略をσ*に変更した時仮想利得 Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007) http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf

Slide 38

Slide 38 text

Regret Minimization イメージ ● じゃんけん（同時手番ゲーム） Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007) http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf P2 P1 -1 +1 P1 P1 P1 第一回目 What if... Regret 0 +2 +1 戦略更新 { ,　 , 　 } = {0, 2/3, 1/3} 繰り返すことでナッシュ均衡解に近づく { ,　 , 　 } → {1/3, 1/3, 1/3}

Slide 39

Slide 39 text

Counterfactual Regret Minimization (CFR), CFR+ ● Counterfactual Regret Minimization (CFR) ○ 同様考え方、じゃんけんような同時手番ゲームだけでなく、交互に行動選択を行う展開型ゲームにも拡張できる ● CFR+ ○ CFRにおいて負 regretを0に置き換えて効率化したも ○ 他にも重み付け平均を導入するなど改良が行われている ○ 1014程度状態数ある抽象化ポーカーでも収束させることが可能 An Introduction to Counterfactual Regret Minimization (Neller & Lanctot 2013) http://modelai.gettysburg.edu/2013/cfr/cfr.pdf ノードIにおける現戦略期待利得ノードIで行動aを選択した時期待利得初期局面からノードIに到達する確率

Slide 40

Slide 40 text

ポーカーAI「Libratus」を構成する3つ要素 Libratus: The Superhuman AI for No-Limit Poker (Brown & Sandholm 2017; IJCAI2017) https://www.ijcai.org/proceedings/2017/0772.pdf Abstraction Equilibrium Finding ゲーム木抽象化 ● 似た状態同ノードに結合する等 ● 状態数を10161→1012まで縮減抽象化したゲームを解く ● CFRやCFR+等 ● 大雑把な戦略獲得 Subgame Solving 部分木展開で精度改善 ● 抽象化したゲーム木を再展開（前工程評価値を元にする） ● 精緻な戦略獲得 Self Improver ゲーム木自己改良 ● 新しい木抽象化を行う Libratus以降発展 ● CRFアルゴリズム改善 ⇒ Discounted CFR（AAAI2019 best paper） ● ゲーム木抽象化をDNNによって行う ⇒ Deep CFR（NeurIPS2018 oral）

Slide 41

Slide 41 text

Discounted CFR モチベーション ● CFR+ ポーカー等で大きな成果を上げた一方課題もある ○ 負 Regretを0にするため、大きな負利得が存在するゲーム場合かえって更新が遅くなる Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 2019; AAAI2019) https://arxiv.org/abs/1809.04040 P1 P2 P2 P2 0 +1 -1,000,000 333,333 333,334 利得： Regret： 1/3 1/3 1/3 初期戦略： P1 P2 P2 P2 1/2 1/2 0 333,332.5 333,334.5 0 Regret： 0 +1 -1,000,000 利得：大きな負利得に引きづられて更新が遅くなる 0 (-666,667)

Slide 42

Slide 42 text

Discounted CFR アプローチ ● Regretを重み付け平均として定義 ● 重み付け方 ○ Regretが正場合： ○ Regretが負場合： ● 結果 ○ 過剰なRegret値影響を低減することで収束速度が大幅に改善 ■ 先程例で収束までに必要なイテレーションが 471407 → 970 に ○ α=1.5, β=0 場合実験上常に CFR+ よりも優れた収束性が出ていた Upper bound Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 209; AAAI2019) https://arxiv.org/abs/1809.04040

Slide 43

Slide 43 text

Discounted CFR 貢献 ● CFR+よりも収束早いアルゴリズム開発 ○ 過去にもCFR+を拡張したLinear CFR（重みが1/t）あったが、今回さらに重みを一般化することで改善が見られた ○ 収束速度についても丁寧に議論が行われている ● より一般的な不完全情報ゲームへ対応 ○ これまでCFR+ ポーカー等で活用されていたが、CFR+が苦手としていたような他ゲームに対しても一般化できる手法

Slide 44

Slide 44 text

Deep CFR ● モチベーション ○ ゲーム木なるべく抽象化することで解きやすいサイズにしたい ○ 抽象化ため表現ドメイン知識を使わず獲得したい ● アプローチ ○ DNNを使ってRegret 予測器を構築 ○ 各イテレーション中に軌跡を集めておき、それらを教師データとして学習 Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018) https://arxiv.org/abs/1811.00164

Slide 45

Slide 45 text

不完全情報ゲーム攻略現在：まとめ ● Libratus 登場 ○ ゲーム抽象化とCFR/CFR+を組み合わせた解法が成果を上げていた ○ 1対1ポーカーでプロプレイヤーを破るアルゴリズムが完成している ● Libratus以降流れ ○ アルゴリズム改良・より一般的なゲームに対応するため拡張 ■ CFR+ 課題を緩和したDiscounted CFR ■ ゲーム抽象化を学習するDeep CFR ○ 今回扱えなかった話題 ■ 複数人プレイヤーへ拡張 ■ 他ベンチマークタスクへ適用昨年、Dota2やStarCraftIIといった不完全情報 MOBA（Multiplayer Online Battle Arena）タイトルにおいてプロプレイヤー以上成績を収めた大規模分散深層学習エージェントが話題だが、今回話「モデル（ゲーム木）が所与前提で不完全情報問題をゲーム理論観点で解く」という立場であり、アプローチが異なる。 Note

Slide 46

Slide 46 text

Deep Reinforcement Learning with Applications in Transportation ● DiDi（中国タクシー配車サービス） AI Labによる交通に関連した深層強化学習事例紹介講義資料：https://outreach.didichuxing.com/tutorial/AAAI2019/ ● Deep Reinforcement Learning with Applications in Transportation (AAAI2018 Workshop) ● Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS) ● Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018) 紹介するAAAI2019/NeurIPS2018講演・論文

Slide 47

Slide 47 text

強化学習と？ ● ある環境下で、目的とする収益を最大化するため戦略（行動系列）を獲得する機械学習一種 ○ 教師データがなくても学習できる ■ 環境に対する試行錯誤によってターゲットをサンプリングできる ○ モデルが未知状況でも学習ができる ■ MDP（Markov Decision Process）成立を仮定する必要がある

Slide 48

Slide 48 text

（深層）強化学習現在 ● キャッチーな事例登場と実応用へ期待 ○ ゲーム、交通、推薦システム、制御、教育、ヘルスケア、金融、… Deep Reinforcement Learning（Yuxi Li, 2018） https://arxiv.org/abs/1810.06339 Reinforcement Learning Applications https://medium.com/@yuxili/rl-applications-73ef685c07eb DQN SPACE INVADERS - DeepMind https://www.youtube.com/watch?v=W2CAghUiofY AlphaGo Zero: Learning from scratch https://deepmind.com/blog/alphago-zero-learning-scratch/ Learning Dexterity https://blog.openai.com/learning-dexterity/

Slide 49

Slide 49 text

（深層）強化学習現在 ● 実応用に至るまで課題まだ多い ○ 環境開発・学習コスト ○ Reality Gap ○ マルチタスク・転移 ○ 不完全観測 ○ マルチエージェント ○ 安全性 ○ 再現性 ○ … 多様な強化学習概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 本パートで、現在「交通領域」でどようなアプリケーション研究が行われているか、現時点で出来ることや課題について簡単にまとめていきます

Slide 50

Slide 50 text

交通領域における事例について ● 強化学習様々な移動課題に対して研究が行われている ○ タクシー配車（Dispatching / Repositioning） ○ 信号機制御 ○ ナビゲーション ○ 自動運転 ○ … ● 最近トレンド ○ 個別制御からマルチエージェント制御へ拡張（Cooperative） ○ 大規模データへアクセス ○ シミュレータ環境改善 ○ 転移学習 ○ ゲーム理論的アプローチ

Slide 51

Slide 51 text

Taxi Dispatching 1. Tabular Setting ● 強化学習として問題設定 ○ 過去需要データから価値関数（状態から累積期待報酬へ写像）を構築 ■ 状態：時間・空間メッシュ、行動：オーダーを受けうるかどうか ○ 直近オーダーだけでなく将来期待報酬を最大化するようにマッチング Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach (Xu et al. 2018; KDD2018) https://dl.acm.org/citation.cfm?id=3219824

Slide 52

Slide 52 text

Taxi Dispatching 1. Deep Reinforcement Learning ● 関数近似（DNN）導入 ○ DNNによって大規模都市へ適用、転移学習活用、汎化効果が期待 ● Action Search ○ 過去軌跡を活用してデータ拡張することでスパースなグリッドに対応 Deep Reinforcement Learning with Knowledge Transfer for Online Rides Order Dispatching (Wang et al. 2018; ICDM2018) https://tonyzqin.files.wordpress.com/2018/09/drl_tl_dispatch_icdm_camera_ready.pdf

Slide 53

Slide 53 text

Taxi Repositioning ● どように移動すれ需要を満たせるかを解く ○ 状態：配車ステータス・需要予測・供給分布、行動：移動するグリッド ○ CNNベースエージェントで学習（Double DQN） ● 実験結果 ○ 他最適化手法（Receding-Horizon Control; RDH）と比較して20%以上需要を満たせることを確認 MOVI: A Model-Free Approach to Dynamic Fleet Management (Oda et al. 2018) https://arxiv.org/abs/1804.04758

Slide 54

Slide 54 text

Taxi Dispatching + Repositioning ● Dispatch + Repositioning ○ 配車を取るかどうか（Dispatch）と高需要が見込まれるグリッドに移動するかどうか（Repositioning）を同時に扱う ● マルチエージェントへ拡張 ○ 他タクシー位置やオーダー情報をGlobal Contextとして表現を学習 Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS) https://drive.google.com/file/d/0B_utB5Y8Y6D5MGdfQktjQXgySDdPeG0wYnFxRnBJNDl3UlhF/view

Slide 55

Slide 55 text

Traffic Signal Control (TSC) ● 交通流量や経過時間を最適化するタスク ○ レーン/グリッドごと車両数や速度を状態として入力 ○ 全車両経過時間等を（負）報酬として信号切り替えタイミングを制御 Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (Liang et al.2018) https://arxiv.org/abs/1803.11115

Slide 56

Slide 56 text

Traffic Signal Control (TSC): simple DQN ● 状態表現 ● 行動 ○ 実際に変えられる信号ステータス Using a Deep Reinforcement Learning Agent for Traffic Signal Control (Genders & Razavi 2016) https://arxiv.org/abs/1611.01142 レーン・グリッドごと車両数レーン・グリッドごと平均車両速度

Slide 57

Slide 57 text

Traffic Signal Control (TSC): IntelliLight ● より現実ケースに即したネットワーク模索 ○ 高頻度に切り替わること抑制 ○ 信号が青ときと赤ときでネットワークを分離する ● SUMOシミュレータ検証で渋滞時間が改善 IntelliLight: A reinforcement learning approach for intelligent traffic light control (Wei et al. 2018 KDD2018) https://pennstate.pure.elsevier.com/en/publications/intellilight-a-reinforcement-learning-approach-for-intelligent-tr 頻繁に切り替わって欲しくない Phase Gate

Slide 58

Slide 58 text

Learning to Navigate in Cities Without a Map ● 地図情報を使わないナビゲーション ○ Google Street View 画像を元にゴール（緯度経度）まで移動するタスク ○ 画像認識にCNN、不完全観測に対してLSTMを活用（迷路タスクと同様） ○ 方策獲得に分散強化学習（IMPALA）を活用 ○ カリキュラム学習採用 ○ 都市間転移学習にも成功 Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018) https://arxiv.org/abs/1804.00168 フィーチャーサイト（動画あり） https://sites.google.com/view/streetlearn

Slide 59

Slide 59 text

Learning to Navigate in Cities Without a Map ● 方策獲得 ○ 地域依存情報（ゴールに対する方向）と方策（ど方向に移動するか）を分離することで学習 ⇒ 都市間転移がしやすくなる ○ 分散強化学習（IMPALA）によって効率的に学習を行う参考（紹介論文）：日本語解説以下が詳しい https://www.slideshare.net/DeepLearningJP2016/dllearning-to-navigate-in-cities-without-a-map-93034591 参考（IMPALA）：深層強化学習分散化・RNN利用動向 https://www.slideshare.net/juneokumura/rnnr2d2 Goal LSTM ゴールと画像情報からエージェント向きを予測（地域依存） Policy LSTM 状態（入力画像と向き予測）と行動（移動方向）報酬から、Actor-Critic法で学習（地域に依存しない）

Slide 60

Slide 60 text

Learning to Navigate in Cities Without a Map ● 転移学習 ○ Goal LSTMをそれぞれ都市について学習 ○ CNN encoderとPolicy LSTM 汎化も期待できる

Slide 61

Slide 61 text

交通領域における強化学習活用：まとめ ● AAAI2019 Workshopから以下領域について紹介した ○ タクシー配車 ■ Dispatching / Repositioning に関する研究を紹介 ○ 信号機制御 ■ 現在までトレンドを概観 ○ ナビゲーション ■ 地図を使わずに複数都市間でナビゲート可能な学習について紹介

Slide 62

Slide 62 text

まとめ ● AAAI2019 概要やトレンドを報告 ○ Artificial Intelligence for Social Impact ■ ゲーム理論を中心とした社会実装事例を紹介 ● AAAI2019/NeurIPS2018から気になったトピックを報告 ○ 不完全情報ゲーム攻略現在 ■ “Libratus”以降 CFRアルゴリズム進展を紹介 ○ 交通領域における強化学習活用 ■ タクシー配車・信号機制御・ナビゲーション等研究事例を紹介