第76回人工知能セミナー登壇資料(NeurIPS2018/AAAI2019報告会)

 第76回人工知能セミナー登壇資料(NeurIPS2018/AAAI2019報告会)

第76回人工知能セミナー「AIトレンド・トップカンファレンス報告会:世界最先端のAI研究開発動向が1日でわかる!」での登壇資料を一部修正したものです。
https://www.ai-gakkai.or.jp/no76_jsai_seminar/

AAAI2019概要、ゲーム理論・強化学習トピックについて一部解説しています。

※ ご意見・間違い等ありましたら @pacocat までお知らせください。

0ece01ad1513ae4ec0cdb062f9c3e6d8?s=128

Jun Ernesto Okumura

March 04, 2019
Tweet

Transcript

  1. AAAI 2019 概要 ゲーム理論・強化学習トピック報告 Jun Ernesto Okumura @第76回人工知能セミナー

  2. 講師紹介:奥村 エルネスト 純 • 理学博士(専門:宇宙物理学) • データアナリスト@DeNA ◦ 領域:ゲーム、オートモーティブ •

    AI研究開発エンジニア@DeNA ◦ ゲームAI・強化学習チームリーダー ◦ 案件推進、AI戦略策定 • コミュニティ活動 ◦ 強化学習アーキテクチャ勉強会(https://rlarch.connpass.com/) ◦ Data Analyst Meetup Tokyo(https://data-analyst.connpass.com/) @pacocat 『データサイエンティスト養成読本 ビジネス活用編』 (技術評論社)
  3. 本講演 流れ 1 AAAI 2019 概要について 2 気になったトピック ご紹介 •

    統計情報、トレンド • 招待講演について • 不完全情報ゲーム攻略 現在 • 交通領域における強化学習 活用 • 個人 興味領域から部分的に紹介します ◦ 面白い講演が多かった で全てを細かく紹介したいですが、 時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています • 特に招待講演やチュートリアル 内容で AAAI2019以前 論文についても紹介しています Disclaimer
  4. AAAI、AAAI Conference について • アメリカ人工知能学会 Association for the Advancement of

    Artificial Intelligence • 開催しているカンファレンス ◦ AAAI Conference ◦ IJCAI(国際人工知能会議)も他 団体と共に主催 ◦ 他、様々な人工知能に関わる会議を主催 • AAAI Conference ◦ NeurIPS等と並び人工知能に関するトップカンファレンス 一つ ◦ 採択率20%弱
  5. AAAI Conference 2019 • Date: Jan 27 - Feb 1,

    2019 • Venue:Hilton Hawaiian Village, Honolulu • Program: https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI-19-Schedule.1.17.19-Final.pdf カンファレンス会場 外 様子
  6. AAAI Conference 2019 様子

  7. 投稿数・採択率 • 論文 投稿数 倍増 ◦ full-paper submission: 7,095本 ◦

    4,865本 (68.5%) 学生が主著者 • 採択率 16.2% ◦ 採択数 1,147本(Oral: 460, Poster: 687, Technical session: 122) Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)
  8. 採択率 傾向 • 投稿数 増加に伴い一部減少傾向が見られる ◦ 会場 キャパシティ 問題で採択率が下がるケースも ◦

    論文クオリティも上がっておりレッドオーシャン化が加速 https://github.com/lixin4ever/Conference-Acceptance-Rate よりグラフ化
  9. 国別 投稿状況 • 国別で 中国・アメリカが大部分を占める Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

  10. 国別 採択率 Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

  11. 分野別 投稿状況 • 増加傾向 領域: ◦ “Reasoning Under Uncertainty”, “Applications”,

    “Humans and AI”, など Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)
  12. 参考:採択別によるタイトル 傾向 Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

  13. 参考:投稿タイミングによる採択率 Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

  14. レビューについて • Summary Reject 導入 ◦ 事前にAAAI レギュレーションに沿っていないも 、 クオリティ

    極端に低いも を除外(234本をreject) • Biddingシステム 導入 ◦ Toronto Paper Matching Systemによるレビュアー マッチング ◦ PC(Program Committee) / SCP(Senior Program Committee)による入札 ◦ レビュアー 専門性 考慮 • 匿名性を強化したDouble Blind review 投稿数 増大に対する効率性・信頼性 高いレビュー方式 模索 段階
  15. AAAI2019 統計情報についてまとめ • 投稿数 大きく増加傾向 ◦ 会場やスケジュールと 兼 合いで採択率が下がるケースも ◦

    クオリティも同時に上がっておりレッドオーシャン化が加速 ◦ レビューシステムについてより洗練させる必要が生じている • 国別で (他会議と同様)中国・アメリカがマジョリティ • 増加傾向にあった分野 ◦ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI” など ◦ これら 数として大きい訳で ないが、プログラム構成からみても AI 実適用やHuman Interaction 事例や関心が増えてきている印象
  16. 招待講演 • AAAI2019で 8件 招待講演が開催された Living and Flourishing with AI

    AIがど ように人間 生活に役立っていくか、インタラクションや Social Good 文脈で近年 研究をまとめた講演。スマートスピーカーと インタラクションに 対してど ような感情を想起するか検証した研究、子ども 教育パートナーとして 強化学習を使ったエージェントで学習効果 改善をもたらした事例、お年寄りと AIと 会話がど ように成長していくかを調査した研究、などが幅広く紹介された。 https://vimeo.com/313938302 Experiments in Teaching AI AAAI/EAAI 2019 Outstanding Educator Award Talkとして開催。 AI教育 需要が高まっている中、 AI教育にど ようにAIを活用するかという観点で 自身 事例を紹介していた。講演者が受け持つ「認知システム」 授業において、 オンラインによる学習・ Face-to-Face学習・両者 ブレンド それぞれに対して 行われたAI活用 実証実験が紹介された。 AAAI 2019: Invited Talks https://aaai.org/Conferences/AAAI-19/invited-speakers/
  17. 招待講演 Cases of Study in Computational Urban Science 新進気鋭 物理学者である

    Marta Gonzalez氏による移動 モデリングについて 講演。 様々な都市にいおいて、人 移動や生活行動をど ようなデータ( e.g. 携帯端末GPS 、 SNS)や確率分布を使ってモデリングするか、物理学から 知見も活用しながら 最新 シミュレーション成果について報告された。研究成果と合わせて、これら モデルが都市設計やマーケティングに活用できるような未来についても語られた。 https://vimeo.com/313942794 Adversarial Machine Learning GANs (Generative Adversarial Networks) 提唱者であるIan Goodfellow氏より、近年 敵対的学習について 発展 紹介が行われた。 AI 推論に影響を与える Adversarial Exampleに対して堅牢な学習をど ように行うか、 GAN 学習が強化学習における 自己対戦とど ように接続するか、ドメイン適用で 活用動向、解釈性など様々な 観点からGANs 展開を概観していた。 https://vimeo.com/313941176
  18. 招待講演 AI and Multiagent Systems for Social Good IAAI Robert

    S. Engelmore Award Lectureとして開催。 「介入リソースが限られている時に他者と インタラクションを最適化する」と いうゲーム理論・マルチエージェント 問題系を使った、安全保障・野生動物保護・感 染症拡大防止といった ”Social Good” ため AI活用を実践した事例を紹介していた。 https://vimeo.com/313940453 New Results for Solving Imperfect Information Games 2017年に初めてHeads up No-limit Texas Hold’emでプロプレイヤーを破った ポーカーAI「Libratus」 開発者Tuomas Sandholm氏 講演。近年 不完全情報ゲー ムへ アプローチ 進捗として、深層学習によってゲーム木探索を効率化した研究 や、様々な課題に対して早い収束性を持ったアルゴリズム 紹介が行われた。 https://vimeo.com/313942390 本講演でも触れます
  19. 招待講演 GDPR, Data Shortage and AI 近年 AI研究 、大規模データ( Big

    Data)へ アクセスによって大きく進捗しているが、 実課題を解く際に 、収集コストから十分な量 データが集められなかったり、プライバ シー観点で暗号化されたデータで学習する必要があったり、また GDPRなど データ保護 ポリシーによってデータが断片化していたりする。こ ような小規模化・断片化・暗号化され たデータからど ように学習を行え 良い か、転移学習や Federated Learningなど 解 決策が網羅的に紹介されていた。 https://vimeo.com/313941621 Urban Computing: Building Intelligent Cities Using Big Data and AI 移動体 GPS情報、大気データ、電力供給など、現在 都市で 多く データが収集でき る時代になっている。こうしたデータと機械学習を活用して、ど ようにスマートな都市を実 装していくか、中国における様々な事例が紹介された。 GPS情報を使った人口統計予測、違 反車両 検知、大気 状態予測など幅広い取り組みと現状 結果が語られた。 https://vimeo.com/313942000
  20. • Answer Set Engineering • Deep Multi-view Visual Data Analytics

    • Deep Reinforcement Learning with Applications in Transportation ◦ 講義資料:https://outreach.didichuxing.com/tutorial/AAAI2019/ • On Explainable AI: From Theory to Motivation, Applications and Limitations • Plan, Activity and Intent Recognition (PAIR) • Behavior Analytics: Methods and Applications • Building Deep Learning Applications for Big Data Platforms ◦ 講演資料:https://jason-dai.github.io/aaai2019/ • New Frontiers of Automated Mechanism Design for Pricing and Auctions ◦ 講演資料:https://sites.google.com/view/amdtutorial/home • Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning ◦ 講演資料:https://www.fedai.org/#/conferences/link_aaai2019 本講演でも触れます チュートリアル AAAI 2019: Tutorials https://aaai.org/Conferences/AAAI-19/aaai19tutorials/
  21. チュートリアル • An Overview of the International Planning Competition ◦

    講演資料:https://www.nms.kcl.ac.uk/andrew.coles/PlanningCompetitionAAAISlides.html • Presenting a Paper ◦ 講演資料:https://wp.me/P3qAAw-76 • Planning and Scheduling Approaches for Urban Traffic Control ◦ 講演資料:https://helios.hud.ac.uk/scommv/storage/TutorialSlides.pdf • The Road to Industry • Adversarial Machine Learning ◦ 講演資料:https://aaai19adversarial.github.io/index.html#org • Deep Bayesian and Sequential Learning ◦ 講演資料:http://chien.cm.nctu.edu.tw/home/aaai-tutorial/ • Multi-Agent Pathfinding: Models, Solvers, and Systems ◦ 講演資料:http://ktiml.mff.cuni.cz/~bartak/AAAI2019/ • Neural Vector Representations beyond Words: Sentence and Document Embeddings ◦ 講演資料:http://gerard.demelo.org/teaching/embedding-tutorial/
  22. チュートリアル • Recent Advances in Scalable Retrieval of Personalized Recommendations

    ◦ 講演資料:https://preferred.ai/aaai19-tutorial/ • End-to-end Goal-oriented Question Answering Systems ◦ 講演資料:https://www.slideshare.net/QiHe2/aaai-2019-tutorial-endtoend-goaloriented-question-answering-systems • Graph Representation Learning • Imagination Science: Beyond Data Science ◦ 講演資料:https://people.cs.umass.edu/~mahadeva/AAAI_2019_Tutorial/Welcome.html • Integrating Human Factors into AI for Fake News Prevention: Challenges and Opportunities • Knowledge-based Sequential Decision-Making under Uncertainty ◦ 講演資料:http://www.cs.binghamton.edu/~szhang/2019_aaai_tutorial/ • Human Identification at a Distance by Gait Recognition ◦ 講演資料:http://yushiqi.cn/research/aaai19-gait-recognition-tutorial
  23. ワークショップ • Affective Content Analysis: Modeling Affect-in-Action • Agile Robotics

    for Industrial Automation Competition (ARIAC) • Artificial Intelligence for Cyber Security (AICS) • Artificial Intelligence Safety • Dialog System Technology Challenge (DSTC7) • Engineering Dependable and Secure Machine Learning Systems • Games and Simulations for Artificial Intelligence • Health Intelligence • Knowledge Extraction from Games • Network Interpretability for Deep Learning • Plan, Activity, and Intent Recognition (PAIR) 2019 • Reasoning and Learning for Human-Machine Dialogues (DEEP-DIAL 2019) • Reasoning for Complex Question Answering • Recommender Systems Meet Natural Language Processing • Reinforcement Learning in Games • Reproducible AI 本講演でも触れます
  24. Emerging Track: Artificial Intelligence for Social Impact • AIが社会にど ような影響を及ぼしうるかにフォーカス

    • ここで紹介する事例 ◦ ゲーム理論や機械学習を使ったAI for Social Good事例 ▪ 警戒行動、野生動物保護、感染症拡大防止 ため 介入 AAAI 2019: Emerging Track https://aaai.org/Conferences/AAAI-19/aaai19emergingcall/ • AI and Multiagent Systems for Social Good (Milind Tambe; AAAI2019 Invited) • On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019) • Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019) 紹介するAAAI2019/NeurIPS2018講演・論文
  25. Public Safety and Security • Stackelberg Security Game ◦ 空港警備

    、警備側 状態が分かっている状況下で犯罪者が利得を最大化させ ようとする、シュタッケルベルグ競争モデルで記述できる ◦ 「警備員が限られている中で警備側 利得を最大化させるために  ど ような警備スケジュール(混合戦略)を取るべきか?」を解く ◦ ロサンゼルス空港へ 導入で薬物・危険物 検知実績が向上(次頁右下) ARMOR Security for Los Angeles International Airport (Pita et al.2008; AAAI2008) https://www.aaai.org/Papers/AAAI/2008/AAAI08-331.pdf 利得行列 警備側 利得を最大化する警備スケジュール(混合戦略) 犯罪者 最大期待利得
  26. Public Safety and Security Computing Optimal Randomized Resource Allocations for

    Massive Security Games (Kiekintveld et al.2009; AAMAS2009) http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf • Federal Air Marshal Service ◦ 同様 アプローチ 、航空機に対する警備行動でも適用可能 ◦ 組み合わせが1041に及ぶ警備行動を、部分問題を拡張することで解いた GUARDS and PROTECT: Next Generation Applications of Security Games (An et al.2011) http://teamcore.usc.edu/people/marecki/sigecom.pdf • GUARDS and PROTECT ◦ 船舶 警備に適用した事例(現在 様々な国と地域で導入) ◦ ターゲティングスケジュール 探索次元を削る工夫をしている ◦ 当時 人間によるスケジューリングと比べ350% 利得改善
  27. On the Inducibility of Stackelberg Equilibrium for Security Games On

    the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019) http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf • Stackelberg Equlibrium for Security Games 課題 ◦ シュタッケルベルグ均衡解(SE)に Strong SEとWeak SEがある ▪ Strong SE (SSE): attackerが、複数 ナッシュ均衡から defender 利得を最大化するような行動を選択する場合 ▪ Weak SE (WSE): attackerが、defender 利得が下がる ナッシュ均衡を選択するような場合 ◦ defender リソースが十分にある場合 、防御戦略に摂動を加えることでSSEを 実現できるが、実際に そ ような理想的なケース ほぼない • 論文 貢献 ◦ defender 最低限 利得(unitiry guarantee)を最大化するような inducible Stackelberg equilibrium (ISE) を定義し、解 存在を証明 ◦ 限られたリソースで 期待利得が保証できる警備戦略が選択可能に
  28. Conservation/Wildlife Protection Adversary models account for imperfect crime data: Forecasting

    and planning against real-world poachers (Gholami et al.2018) http://teamcore.usc.edu/papers/2018/sgholami_aamas18.pdf • Green Security Games ◦ ウガンダ 国立公園で 毎年数千 野生動物が密猟者 罠にかかっている ◦ 動物密度や過去 罠個数などを特徴量として罠 密度関数をモデリング ▪ パトロール 信頼度ごと 複数モデルでEnsembleしている が特徴 • 罠予測器でパトロールを最適化して罠 発見個数が5倍に • 現在 600 国立公園で導入 • 近年 ドローンによる介入戦略も 研究が進んでいる
  29. Conservation/Wildlife Protection Signaling in Bayesian Stackelberg Games (Hu et al.

    2016) http://teamcore.usc.edu/people/haifeng/files/SignalBSG_AAMAS16_Full.pdf • Strategic Signaling ◦ 近年 ドローンによる密猟者へ 介入行動も研究が進んでいる ◦ 「監視員が近くにいる」というシグナルを伝える混合戦略を最適化して、 密猟者 シグナル信用度を50%に調整する(最適応答戦略を調整)
  30. Public Health • Games against Nature ◦ ホームレス 若者 HIV感染率

    通常 10倍 ◦ 彼ら リアルグラフ上で、最も効果的にHIV 情報を伝搬させられる ノード(Peer Leader候補)を同定したい ◦ ノード間 伝達確率が未知なPOMDP※に対して介入方策を学習 End-to-End Influence Maximization in the Field (Wilder et al. 2017) http://teamcore.usc.edu/papers/2018/aamas_deployment.pdf POMDPs for Assisting Homeless Shelters - Computational and Deployment Challenges (Yadav et al.2016) http://teamcore.usc.edu/papers/2016/IDEAS-Amulya.pdf ※ Partial Observable Markov Decision Process(部分観測マルコフ決定過程)
  31. Public Health • Learning to Prescribe Interventions ◦ インドで 毎年数十万人が結核により命を落としている

    ◦ 未完治状態 人や耐性菌 発生を抑えるため、薬 服用を辞めそうな人 予測モデル(RF/LSTM)を構築して介入行動を行う ◦ 実データ ノイズが多いため複数モデルを確率的に混ぜた混合戦略を構築 • 発展事例 ◦ 子ども 肥満防止や自殺防止 介入戦略にも活用が検討されている Learning to Prescribe Interventions for Tuberculosis Patients using Digital Adherence Data (Killian et al. 2019) https://arxiv.org/abs/1902.01506
  32. Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization •

    介入による結果も含めたDecision-Focusedな学習 提案 ◦ 先 結核患者へ 介入モデルで 、「治療離脱予測」と「介入行動」が それぞれ別 モジュールとして学習されていた ◦ 介入 結果を微分可能にすることで、end-to-endな学習器を構築 Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019) http://teamcore.usc.edu/people/bryanwilder/publications/aaai_melding.pdf AUC 悪化 介入結果 改善
  33. 本講演 流れ 1 AAAI 2019 概要について 2 気になったトピック ご紹介 •

    統計情報、トレンド • 招待講演について • 不完全情報ゲーム攻略 現在 • 交通領域における強化学習 活用 • 個人 興味領域から部分的に紹介します ◦ 面白い講演が多かった で全てを細かく紹介したいですが、 時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています • 特に招待講演やチュートリアル 内容で AAAI2019以前 論文についても紹介しています Disclaimer
  34. New Results for Solving Imperfect-Information Games • なぜ不完全情報ゲームか? ◦ 限られた情報化で利得を最大化したい場面が現実世界に

    多い ▪ 経済活動、交渉、安全保障行動、ポーカー・麻雀など ゲーム、… ◦ 完全情報ゲーム(チェッカー・オセロ・チェス・将棋・囲碁)で 人間を超える方策が獲得できている • Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018) • Solving Imperfect-Information Games via Discounted Regret Minimization (Brown&Sandholm2018; AAAI2019) • New Results for Solving Imperfect Information Games (AAAI2019 Invited Talk) 紹介するAAAI2019/NeurIPS2018講演・論文
  35. プロプレイヤーに勝利したポーカーAI「Libratus」 • Libratus ◦ NeurIPS2018ベストペーパー ◦ Heads up No-limit Texas

    Hold'em (HUNL)を攻略した初めて AI ▪ 状態数10161にも及ぶゲーム木探索を効率化 ◦ 4名 プロプレイヤーと12万試合戦う検証で$1.7M 勝利 Safe and Nested Subgame Solving for Imperfect-Information Games (Brown & Sandholm 2017; NeurIPS2017) https://arxiv.org/abs/1705.02955 参考: • 機械学習による意思決定, 小宮山, 人工知能vol.33, 2018 • ポーカーAI 最新動向 https://www.slideshare.net/juneokumura/ai-20171031
  36. 不完全情報ゲームを解くと ? • ナッシュ均衡 ◦ 2人 プレイヤー1,2を考え、各戦略をσ 1 , σ

    2 (戦略集合をΣ 1 , Σ 2 )とする ◦ 相手 戦略を固定した時、お互いど ように混合戦略σを変えても 利得※uが改善しない状態をナッシュ均衡と呼ぶ • ε-ナッシュ均衡 ◦ 完全なナッシュ均衡を解く が難しい場合 均衡条件をεだけ緩和する 相手戦略σ 2 を固定した上で、 どれだけ自分 戦略を変えても 混合戦略σ 利得を超えられない 相手戦略σ 1 を固定した上で、 どれだけ自分 戦略を変えても 混合戦略σ 利得を超えられない ※ 勝率や儲けなど、問題ごとに定義される効用
  37. 不完全情報ゲームをど ように解く か? • Regret Minimizationアルゴリズム ◦ 「こ 選択をした方が良かった」という後悔(Regret)を定量化 ◦

    ゼロ和ゲームで 、Regretをε以下に抑えることが出来れ 、 得られた平均戦略 2ε-ナッシュ均衡解になる 現在 戦略で得られる期待利得 他プレイヤー 戦略を現在 戦略 σtに固定して、 自分 戦略をσ*に変更した時 仮想利得 Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007) http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf
  38. Regret Minimization イメージ • じゃんけん(同時手番ゲーム) Regret Minimization in Games with

    Incomplete Information (Zinkevich et al. 2007; NeurIPS2007) http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf P2 P1 -1 +1 P1 P1 P1 第一回目 What if... Regret 0 +2 +1 戦略 更新 { ,  ,   } = {0, 2/3, 1/3} 繰り返すことでナッシュ均衡解に近づく { ,  ,   } → {1/3, 1/3, 1/3}
  39. Counterfactual Regret Minimization (CFR), CFR+ • Counterfactual Regret Minimization (CFR)

    ◦ 同様 考え方 、じゃんけん ような同時手番ゲームだけでなく、 交互に行動選択を行う展開型ゲームにも拡張できる • CFR+ ◦ CFRにおいて負 regretを0に置き換えて効率化したも ◦ 他にも重み付け平均を導入するなど 改良が行われている ◦ 1014程度 状態数 ある抽象化ポーカーでも収束させることが可能 An Introduction to Counterfactual Regret Minimization (Neller & Lanctot 2013) http://modelai.gettysburg.edu/2013/cfr/cfr.pdf ノードIにおける現戦略 期待利得 ノードIで行動aを選択した時 期待利得 初期局面からノードIに到達する確率
  40. ポーカーAI「Libratus」を構成する3つ 要素 Libratus: The Superhuman AI for No-Limit Poker (Brown

    & Sandholm 2017; IJCAI2017) https://www.ijcai.org/proceedings/2017/0772.pdf Abstraction Equilibrium Finding ゲーム木 抽象化 • 似た状態 同ノードに結合する等 • 状態数を10161→1012まで縮減 抽象化したゲームを解く • CFRやCFR+等 • 大雑把な戦略 獲得 Subgame Solving 部分木展開で精度改善 • 抽象化したゲーム木を再展開 (前工程 評価値を元にする) • 精緻な戦略 獲得 Self Improver ゲーム木 自己改良 • 新しい木 抽象化を行う Libratus以降 発展 • CRFアルゴリズム 改善 ⇒ Discounted CFR(AAAI2019 best paper) • ゲーム木 抽象化をDNNによって行う ⇒ Deep CFR(NeurIPS2018 oral)
  41. Discounted CFR モチベーション • CFR+ ポーカー等で大きな成果を上げた一方課題もある ◦ 負 Regretを0にするため、大きな負 利得が存在するゲーム

    場合 かえって更新が遅くなる Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 2019; AAAI2019) https://arxiv.org/abs/1809.04040 P1 P2 P2 P2 0 +1 -1,000,000 333,333 333,334 利得 : Regret: 1/3 1/3 1/3 初期戦略 : P1 P2 P2 P2 1/2 1/2 0 333,332.5 333,334.5 0 Regret: 0 +1 -1,000,000 利得 : 大きな負 利得に引きづられて更新が遅くなる 0 (-666,667)
  42. Discounted CFR アプローチ • Regretを重み付け平均として定義 • 重み 付け方 ◦ Regretが正

    場合: ◦ Regretが負 場合: • 結果 ◦ 過剰なRegret値 影響を低減することで収束速度が大幅に改善 ▪ 先程 例で 収束までに必要なイテレーションが 471407 → 970 に ◦ α=1.5, β=0 場合 実験上常に CFR+ よりも優れた収束性が出ていた Upper bound Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 209; AAAI2019) https://arxiv.org/abs/1809.04040
  43. Discounted CFR 貢献 • CFR+よりも収束 早いアルゴリズム 開発 ◦ 過去にもCFR+を拡張したLinear CFR(重みが1/t)

    あったが、 今回 さらに重みを一般化することで改善が見られた ◦ 収束速度についても丁寧に議論が行われている • より一般的な不完全情報ゲームへ 対応 ◦ これまでCFR+ ポーカー等で活用されていたが、CFR+が苦手としていた ような他 ゲームに対しても一般化できる手法
  44. Deep CFR • モチベーション ◦ ゲーム木 なるべく抽象化することで解きやすいサイズにしたい ◦ 抽象化 ため

    表現 ドメイン知識を使わず獲得したい • アプローチ ◦ DNNを使ってRegret 予測器を構築 ◦ 各イテレーション中に軌跡を集めておき、それらを教師データとして学習 Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018) https://arxiv.org/abs/1811.00164
  45. 不完全情報ゲーム攻略 現在:まとめ • Libratus 登場 ◦ ゲーム抽象化とCFR/CFR+を組み合わせた解法が成果を上げていた ◦ 1対1ポーカーで プロプレイヤーを破るアルゴリズムが完成している

    • Libratus以降 流れ ◦ アルゴリズム 改良・より一般的なゲームに対応するため 拡張 ▪ CFR+ 課題を緩和したDiscounted CFR ▪ ゲーム抽象化を学習するDeep CFR ◦ 今回扱えなかった話題 ▪ 複数人プレイヤーへ 拡張 ▪ 他 ベンチマークタスクへ 適用 昨年 、Dota2やStarCraftIIといった不完全情報 MOBA(Multiplayer Online Battle Arena)タイトル においてプロプレイヤー以上 成績を収めた大規模分散深層学習エージェントが話題だが、 今回 話 「モデル(ゲーム木)が所与 前提で不完全情報問題をゲーム理論観点で解く」という 立場であり、アプローチが異なる。 Note
  46. Deep Reinforcement Learning with Applications in Transportation • DiDi(中国 タクシー配車サービス)

    AI Labによる 交通に関連した深層強化学習事例 紹介 講義資料:https://outreach.didichuxing.com/tutorial/AAAI2019/ • Deep Reinforcement Learning with Applications in Transportation (AAAI2018 Workshop) • Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS) • Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018) 紹介するAAAI2019/NeurIPS2018講演・論文
  47. 強化学習と ? • ある環境下で、目的とする収益を最大化するため 戦略(行動 系列)を獲得する機械学習 一種 ◦ 教師データがなくても学習できる ▪

    環境に対する試行錯誤によってターゲットをサンプリングできる ◦ モデルが未知 状況でも学習ができる ▪ MDP(Markov Decision Process) 成立を仮定する必要がある
  48. (深層)強化学習 現在 • キャッチーな事例 登場と実応用へ 期待 ◦ ゲーム、交通、推薦システム、制御、教育、ヘルスケア、金融、… Deep Reinforcement

    Learning(Yuxi Li, 2018) https://arxiv.org/abs/1810.06339 Reinforcement Learning Applications https://medium.com/@yuxili/rl-applications-73ef685c07eb DQN SPACE INVADERS - DeepMind https://www.youtube.com/watch?v=W2CAghUiofY AlphaGo Zero: Learning from scratch https://deepmind.com/blog/alphago-zero-learning-scratch/ Learning Dexterity https://blog.openai.com/learning-dexterity/
  49. (深層)強化学習 現在 • 実応用に至るまで 課題 まだ多い ◦ 環境開発・学習 コスト ◦

    Reality Gap ◦ マルチタスク・転移 ◦ 不完全観測 ◦ マルチエージェント ◦ 安全性 ◦ 再現性 ◦ … 多様な強化学習 概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 本パートで 、現在「交通領域」でど ようなアプリケーション 研究が行われているか、 現時点で出来ることや課題について簡単にまとめていきます
  50. 交通領域における事例について • 強化学習 様々な移動課題に対して研究が行われている ◦ タクシー配車(Dispatching / Repositioning) ◦ 信号機制御

    ◦ ナビゲーション ◦ 自動運転 ◦ … • 最近 トレンド ◦ 個別制御からマルチエージェント制御へ 拡張(Cooperative) ◦ 大規模データへ アクセス ◦ シミュレータ環境 改善 ◦ 転移学習 ◦ ゲーム理論的アプローチ
  51. Taxi Dispatching 1. Tabular Setting • 強化学習として 問題設定 ◦ 過去

    需要データから価値関数(状態から累積期待報酬へ 写像)を構築 ▪ 状態:時間・空間 メッシュ、行動:オーダーを受けうるかどうか ◦ 直近 オーダーだけでなく将来 期待報酬を最大化するようにマッチング Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach (Xu et al. 2018; KDD2018) https://dl.acm.org/citation.cfm?id=3219824
  52. Taxi Dispatching 1. Deep Reinforcement Learning • 関数近似(DNN) 導入 ◦

    DNNによって大規模都市へ 適用、転移学習 活用、汎化効果が期待 • Action Search ◦ 過去 軌跡を活用してデータ拡張することでスパースなグリッドに対応 Deep Reinforcement Learning with Knowledge Transfer for Online Rides Order Dispatching (Wang et al. 2018; ICDM2018) https://tonyzqin.files.wordpress.com/2018/09/drl_tl_dispatch_icdm_camera_ready.pdf
  53. Taxi Repositioning • ど ように移動すれ 需要を満たせるかを解く ◦ 状態:配車ステータス・需要予測・供給分布、行動:移動するグリッド ◦ CNNベース

    エージェントで学習(Double DQN) • 実験結果 ◦ 他 最適化手法(Receding-Horizon Control; RDH)と比較して20%以上 需要を満たせることを確認 MOVI: A Model-Free Approach to Dynamic Fleet Management (Oda et al. 2018) https://arxiv.org/abs/1804.04758
  54. Taxi Dispatching + Repositioning • Dispatch + Repositioning ◦ 配車を取るかどうか(Dispatch)と高需要が見込まれるグリッドに移動

    するかどうか(Repositioning)を同時に扱う • マルチエージェントへ 拡張 ◦ 他 タクシー位置やオーダー情報をGlobal Contextとして表現を学習 Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS) https://drive.google.com/file/d/0B_utB5Y8Y6D5MGdfQktjQXgySDdPeG0wYnFxRnBJNDl3UlhF/view
  55. Traffic Signal Control (TSC) • 交通流量や経過時間を最適化するタスク ◦ レーン/グリッドごと 車両数や速度を状態として入力 ◦

    全車両 経過時間等を(負 )報酬として信号切り替えタイミングを制御 Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (Liang et al.2018) https://arxiv.org/abs/1803.11115
  56. Traffic Signal Control (TSC): simple DQN • 状態表現 • 行動

    ◦ 実際に変えられる信号 ステータス Using a Deep Reinforcement Learning Agent for Traffic Signal Control (Genders & Razavi 2016) https://arxiv.org/abs/1611.01142 レーン・グリッドごと 車両数 レーン・グリッドごと 平均車両速度
  57. Traffic Signal Control (TSC): IntelliLight • より現実 ケースに即したネットワーク 模索 ◦

    高頻度に切り替わること 抑制 ◦ 信号が青 ときと赤 ときでネットワークを分離する • SUMOシミュレータ 検証で 渋滞時間が改善 IntelliLight: A reinforcement learning approach for intelligent traffic light control (Wei et al. 2018 KDD2018) https://pennstate.pure.elsevier.com/en/publications/intellilight-a-reinforcement-learning-approach-for-intelligent-tr 頻繁に切り替わって欲しくない Phase Gate
  58. Learning to Navigate in Cities Without a Map • 地図情報を使わないナビゲーション

    ◦ Google Street View 画像を元にゴール(緯度経度)まで移動するタスク ◦ 画像認識にCNN、不完全観測に対してLSTMを活用(迷路タスクと同様) ◦ 方策獲得に 分散強化学習(IMPALA)を活用 ◦ カリキュラム学習 採用 ◦ 都市間 転移学習にも成功 Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018) https://arxiv.org/abs/1804.00168 フィーチャーサイト(動画あり) https://sites.google.com/view/streetlearn
  59. Learning to Navigate in Cities Without a Map • 方策

    獲得 ◦ 地域依存 情報(ゴールに対する方向)と方策(ど 方向に移動するか) を分離することで学習 ⇒ 都市間 転移がしやすくなる ◦ 分散強化学習(IMPALA)によって効率的に学習を行う 参考(紹介論文):日本語解説 以下が詳しい https://www.slideshare.net/DeepLearningJP2016/dllearning-to-navigate-in-cities-without-a-map-93034591 参考(IMPALA):深層強化学習 分散化・RNN利用 動向 https://www.slideshare.net/juneokumura/rnnr2d2 Goal LSTM ゴールと画像情報から エージェント 向きを予測 (地域依存) Policy LSTM 状態(入力画像と向き予測)と行動(移動方向) 報酬から、Actor-Critic法で学習 (地域に依存しない)
  60. Learning to Navigate in Cities Without a Map • 転移学習

    ◦ Goal LSTMをそれぞれ 都市について学習 ◦ CNN encoderとPolicy LSTM 汎化も期待できる
  61. 交通領域における強化学習 活用:まとめ • AAAI2019 Workshopから以下 領域について紹介した ◦ タクシー配車 ▪ Dispatching

    / Repositioning に関する研究を紹介 ◦ 信号機制御 ▪ 現在まで トレンドを概観 ◦ ナビゲーション ▪ 地図を使わずに複数都市間でナビゲート可能な学習について紹介
  62. まとめ • AAAI2019 概要やトレンドを報告 ◦ Artificial Intelligence for Social Impact

    ▪ ゲーム理論を中心とした社会実装事例を紹介 • AAAI2019/NeurIPS2018から気になったトピックを報告 ◦ 不完全情報ゲーム攻略 現在 ▪ “Libratus”以降 CFRアルゴリズム 進展を紹介 ◦ 交通領域における強化学習 活用 ▪ タクシー配車・信号機制御・ナビゲーション等 研究事例を紹介