Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第76回人工知能セミナー登壇資料(NeurIPS2018/AAAI2019報告会)

 第76回人工知能セミナー登壇資料(NeurIPS2018/AAAI2019報告会)

第76回人工知能セミナー「AIトレンド・トップカンファレンス報告会:世界最先端のAI研究開発動向が1日でわかる!」での登壇資料を一部修正したものです。
https://www.ai-gakkai.or.jp/no76_jsai_seminar/

AAAI2019概要、ゲーム理論・強化学習トピックについて一部解説しています。

※ ご意見・間違い等ありましたら @pacocat までお知らせください。

Jun Ernesto Okumura

March 04, 2019
Tweet

More Decks by Jun Ernesto Okumura

Other Decks in Technology

Transcript

  1. AAAI 2019 概要
    ゲーム理論・強化学習トピック報告
    Jun Ernesto Okumura
    @第76回人工知能セミナー

    View full-size slide

  2. 講師紹介:奥村 エルネスト 純
    ● 理学博士(専門:宇宙物理学)
    ● データアナリスト@DeNA
    ○ 領域:ゲーム、オートモーティブ
    ● AI研究開発エンジニア@DeNA
    ○ ゲームAI・強化学習チームリーダー
    ○ 案件推進、AI戦略策定
    ● コミュニティ活動
    ○ 強化学習アーキテクチャ勉強会(https://rlarch.connpass.com/)
    ○ Data Analyst Meetup Tokyo(https://data-analyst.connpass.com/)
    @pacocat
    『データサイエンティスト養成読本
    ビジネス活用編』
    (技術評論社)

    View full-size slide

  3. 本講演 流れ
    1 AAAI 2019 概要について
    2 気になったトピック ご紹介
    ● 統計情報、トレンド
    ● 招待講演について
    ● 不完全情報ゲーム攻略 現在
    ● 交通領域における強化学習 活用
    ● 個人 興味領域から部分的に紹介します
    ○ 面白い講演が多かった で全てを細かく紹介したいですが、
    時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています
    ● 特に招待講演やチュートリアル 内容で AAAI2019以前 論文についても紹介しています
    Disclaimer

    View full-size slide

  4. AAAI、AAAI Conference について
    ● アメリカ人工知能学会
    Association for the Advancement of Artificial Intelligence
    ● 開催しているカンファレンス
    ○ AAAI Conference
    ○ IJCAI(国際人工知能会議)も他 団体と共に主催
    ○ 他、様々な人工知能に関わる会議を主催
    ● AAAI Conference
    ○ NeurIPS等と並び人工知能に関するトップカンファレンス 一つ
    ○ 採択率20%弱

    View full-size slide

  5. AAAI Conference 2019
    ● Date: Jan 27 - Feb 1, 2019
    ● Venue:Hilton Hawaiian Village, Honolulu
    ● Program:
    https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI-19-Schedule.1.17.19-Final.pdf
    カンファレンス会場 外 様子

    View full-size slide

  6. AAAI Conference 2019 様子

    View full-size slide

  7. 投稿数・採択率
    ● 論文 投稿数 倍増
    ○ full-paper submission: 7,095本
    ○ 4,865本 (68.5%) 学生が主著者
    ● 採択率 16.2%
    ○ 採択数 1,147本(Oral: 460, Poster: 687, Technical session: 122)
    Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

    View full-size slide

  8. 採択率 傾向
    ● 投稿数 増加に伴い一部減少傾向が見られる
    ○ 会場 キャパシティ 問題で採択率が下がるケースも
    ○ 論文クオリティも上がっておりレッドオーシャン化が加速
    https://github.com/lixin4ever/Conference-Acceptance-Rate よりグラフ化

    View full-size slide

  9. 国別 投稿状況
    ● 国別で 中国・アメリカが大部分を占める
    Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

    View full-size slide

  10. 国別 採択率
    Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

    View full-size slide

  11. 分野別 投稿状況
    ● 増加傾向 領域:
    ○ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI”, など
    Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

    View full-size slide

  12. 参考:採択別によるタイトル 傾向
    Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

    View full-size slide

  13. 参考:投稿タイミングによる採択率
    Zhi-Hua Zhou氏 スライドより(https://vimeo.com/313938302)

    View full-size slide

  14. レビューについて
    ● Summary Reject 導入
    ○ 事前にAAAI レギュレーションに沿っていないも 、
    クオリティ 極端に低いも を除外(234本をreject)
    ● Biddingシステム 導入
    ○ Toronto Paper Matching Systemによるレビュアー マッチング
    ○ PC(Program Committee) / SCP(Senior Program Committee)による入札
    ○ レビュアー 専門性 考慮
    ● 匿名性を強化したDouble Blind review
    投稿数 増大に対する効率性・信頼性 高いレビュー方式 模索 段階

    View full-size slide

  15. AAAI2019 統計情報についてまとめ
    ● 投稿数 大きく増加傾向
    ○ 会場やスケジュールと 兼 合いで採択率が下がるケースも
    ○ クオリティも同時に上がっておりレッドオーシャン化が加速
    ○ レビューシステムについてより洗練させる必要が生じている
    ● 国別で (他会議と同様)中国・アメリカがマジョリティ
    ● 増加傾向にあった分野
    ○ “Reasoning Under Uncertainty”, “Applications”, “Humans and AI” など
    ○ これら 数として大きい訳で ないが、プログラム構成からみても
    AI 実適用やHuman Interaction 事例や関心が増えてきている印象

    View full-size slide

  16. 招待講演
    ● AAAI2019で 8件 招待講演が開催された
    Living and Flourishing with AI
    AIがど ように人間 生活に役立っていくか、インタラクションや Social Good
    文脈で近年 研究をまとめた講演。スマートスピーカーと インタラクションに
    対してど ような感情を想起するか検証した研究、子ども 教育パートナーとして
    強化学習を使ったエージェントで学習効果 改善をもたらした事例、お年寄りと
    AIと 会話がど ように成長していくかを調査した研究、などが幅広く紹介された。
    https://vimeo.com/313938302
    Experiments in Teaching AI
    AAAI/EAAI 2019 Outstanding Educator Award Talkとして開催。
    AI教育 需要が高まっている中、 AI教育にど ようにAIを活用するかという観点で
    自身 事例を紹介していた。講演者が受け持つ「認知システム」 授業において、
    オンラインによる学習・ Face-to-Face学習・両者 ブレンド それぞれに対して
    行われたAI活用 実証実験が紹介された。
    AAAI 2019: Invited Talks
    https://aaai.org/Conferences/AAAI-19/invited-speakers/

    View full-size slide

  17. 招待講演
    Cases of Study in Computational Urban Science
    新進気鋭 物理学者である Marta Gonzalez氏による移動 モデリングについて 講演。
    様々な都市にいおいて、人 移動や生活行動をど ようなデータ( e.g. 携帯端末GPS 、
    SNS)や確率分布を使ってモデリングするか、物理学から 知見も活用しながら
    最新 シミュレーション成果について報告された。研究成果と合わせて、これら
    モデルが都市設計やマーケティングに活用できるような未来についても語られた。
    https://vimeo.com/313942794
    Adversarial Machine Learning
    GANs (Generative Adversarial Networks) 提唱者であるIan Goodfellow氏より、近年
    敵対的学習について 発展 紹介が行われた。 AI 推論に影響を与える Adversarial
    Exampleに対して堅牢な学習をど ように行うか、 GAN 学習が強化学習における
    自己対戦とど ように接続するか、ドメイン適用で 活用動向、解釈性など様々な
    観点からGANs 展開を概観していた。
    https://vimeo.com/313941176

    View full-size slide

  18. 招待講演
    AI and Multiagent Systems for Social Good
    IAAI Robert S. Engelmore Award Lectureとして開催。
    「介入リソースが限られている時に他者と インタラクションを最適化する」と
    いうゲーム理論・マルチエージェント 問題系を使った、安全保障・野生動物保護・感
    染症拡大防止といった ”Social Good” ため AI活用を実践した事例を紹介していた。
    https://vimeo.com/313940453
    New Results for Solving Imperfect Information Games
    2017年に初めてHeads up No-limit Texas Hold’emでプロプレイヤーを破った
    ポーカーAI「Libratus」 開発者Tuomas Sandholm氏 講演。近年 不完全情報ゲー
    ムへ アプローチ 進捗として、深層学習によってゲーム木探索を効率化した研究
    や、様々な課題に対して早い収束性を持ったアルゴリズム 紹介が行われた。
    https://vimeo.com/313942390
    本講演でも触れます

    View full-size slide

  19. 招待講演
    GDPR, Data Shortage and AI
    近年 AI研究 、大規模データ( Big Data)へ アクセスによって大きく進捗しているが、
    実課題を解く際に 、収集コストから十分な量 データが集められなかったり、プライバ
    シー観点で暗号化されたデータで学習する必要があったり、また GDPRなど データ保護
    ポリシーによってデータが断片化していたりする。こ ような小規模化・断片化・暗号化され
    たデータからど ように学習を行え 良い か、転移学習や Federated Learningなど 解
    決策が網羅的に紹介されていた。
    https://vimeo.com/313941621
    Urban Computing: Building Intelligent Cities Using Big Data
    and AI
    移動体 GPS情報、大気データ、電力供給など、現在 都市で 多く データが収集でき
    る時代になっている。こうしたデータと機械学習を活用して、ど ようにスマートな都市を実
    装していくか、中国における様々な事例が紹介された。 GPS情報を使った人口統計予測、違
    反車両 検知、大気 状態予測など幅広い取り組みと現状 結果が語られた。
    https://vimeo.com/313942000

    View full-size slide

  20. ● Answer Set Engineering
    ● Deep Multi-view Visual Data Analytics
    ● Deep Reinforcement Learning with Applications in Transportation
    ○ 講義資料:https://outreach.didichuxing.com/tutorial/AAAI2019/
    ● On Explainable AI: From Theory to Motivation, Applications and Limitations
    ● Plan, Activity and Intent Recognition (PAIR)
    ● Behavior Analytics: Methods and Applications
    ● Building Deep Learning Applications for Big Data Platforms
    ○ 講演資料:https://jason-dai.github.io/aaai2019/
    ● New Frontiers of Automated Mechanism Design for Pricing and Auctions
    ○ 講演資料:https://sites.google.com/view/amdtutorial/home
    ● Federated Learning: User Privacy, Data Security and Confidentiality in
    Machine Learning
    ○ 講演資料:https://www.fedai.org/#/conferences/link_aaai2019
    本講演でも触れます
    チュートリアル
    AAAI 2019: Tutorials
    https://aaai.org/Conferences/AAAI-19/aaai19tutorials/

    View full-size slide

  21. チュートリアル
    ● An Overview of the International Planning Competition
    ○ 講演資料:https://www.nms.kcl.ac.uk/andrew.coles/PlanningCompetitionAAAISlides.html
    ● Presenting a Paper
    ○ 講演資料:https://wp.me/P3qAAw-76
    ● Planning and Scheduling Approaches for Urban Traffic Control
    ○ 講演資料:https://helios.hud.ac.uk/scommv/storage/TutorialSlides.pdf
    ● The Road to Industry
    ● Adversarial Machine Learning
    ○ 講演資料:https://aaai19adversarial.github.io/index.html#org
    ● Deep Bayesian and Sequential Learning
    ○ 講演資料:http://chien.cm.nctu.edu.tw/home/aaai-tutorial/
    ● Multi-Agent Pathfinding: Models, Solvers, and Systems
    ○ 講演資料:http://ktiml.mff.cuni.cz/~bartak/AAAI2019/
    ● Neural Vector Representations beyond Words: Sentence and Document
    Embeddings
    ○ 講演資料:http://gerard.demelo.org/teaching/embedding-tutorial/

    View full-size slide

  22. チュートリアル
    ● Recent Advances in Scalable Retrieval of Personalized Recommendations
    ○ 講演資料:https://preferred.ai/aaai19-tutorial/
    ● End-to-end Goal-oriented Question Answering Systems
    ○ 講演資料:https://www.slideshare.net/QiHe2/aaai-2019-tutorial-endtoend-goaloriented-question-answering-systems
    ● Graph Representation Learning
    ● Imagination Science: Beyond Data Science
    ○ 講演資料:https://people.cs.umass.edu/~mahadeva/AAAI_2019_Tutorial/Welcome.html
    ● Integrating Human Factors into AI for Fake News Prevention: Challenges and
    Opportunities
    ● Knowledge-based Sequential Decision-Making under Uncertainty
    ○ 講演資料:http://www.cs.binghamton.edu/~szhang/2019_aaai_tutorial/
    ● Human Identification at a Distance by Gait Recognition
    ○ 講演資料:http://yushiqi.cn/research/aaai19-gait-recognition-tutorial

    View full-size slide

  23. ワークショップ
    ● Affective Content Analysis: Modeling Affect-in-Action
    ● Agile Robotics for Industrial Automation Competition (ARIAC)
    ● Artificial Intelligence for Cyber Security (AICS)
    ● Artificial Intelligence Safety
    ● Dialog System Technology Challenge (DSTC7)
    ● Engineering Dependable and Secure Machine Learning Systems
    ● Games and Simulations for Artificial Intelligence
    ● Health Intelligence
    ● Knowledge Extraction from Games
    ● Network Interpretability for Deep Learning
    ● Plan, Activity, and Intent Recognition (PAIR) 2019
    ● Reasoning and Learning for Human-Machine Dialogues (DEEP-DIAL 2019)
    ● Reasoning for Complex Question Answering
    ● Recommender Systems Meet Natural Language Processing
    ● Reinforcement Learning in Games
    ● Reproducible AI 本講演でも触れます

    View full-size slide

  24. Emerging Track: Artificial Intelligence for Social Impact
    ● AIが社会にど ような影響を及ぼしうるかにフォーカス
    ● ここで紹介する事例
    ○ ゲーム理論や機械学習を使ったAI for Social Good事例
    ■ 警戒行動、野生動物保護、感染症拡大防止 ため 介入
    AAAI 2019: Emerging Track
    https://aaai.org/Conferences/AAAI-19/aaai19emergingcall/
    ● AI and Multiagent Systems for Social Good (Milind Tambe; AAAI2019 Invited)
    ● On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019)
    ● Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization
    (Wilder et al.2019; AAAI2019)
    紹介するAAAI2019/NeurIPS2018講演・論文

    View full-size slide

  25. Public Safety and Security
    ● Stackelberg Security Game
    ○ 空港警備 、警備側 状態が分かっている状況下で犯罪者が利得を最大化させ
    ようとする、シュタッケルベルグ競争モデルで記述できる
    ○ 「警備員が限られている中で警備側 利得を最大化させるために
     ど ような警備スケジュール(混合戦略)を取るべきか?」を解く
    ○ ロサンゼルス空港へ 導入で薬物・危険物 検知実績が向上(次頁右下)
    ARMOR Security for Los Angeles International Airport (Pita et al.2008; AAAI2008)
    https://www.aaai.org/Papers/AAAI/2008/AAAI08-331.pdf
    利得行列
    警備側 利得を最大化する警備スケジュール(混合戦略)
    犯罪者 最大期待利得

    View full-size slide

  26. Public Safety and Security
    Computing Optimal Randomized Resource Allocations for Massive Security Games (Kiekintveld et al.2009; AAMAS2009)
    http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf
    ● Federal Air Marshal Service
    ○ 同様 アプローチ 、航空機に対する警備行動でも適用可能
    ○ 組み合わせが1041に及ぶ警備行動を、部分問題を拡張することで解いた
    GUARDS and PROTECT: Next Generation Applications of Security Games (An et al.2011)
    http://teamcore.usc.edu/people/marecki/sigecom.pdf
    ● GUARDS and PROTECT
    ○ 船舶 警備に適用した事例(現在 様々な国と地域で導入)
    ○ ターゲティングスケジュール 探索次元を削る工夫をしている
    ○ 当時 人間によるスケジューリングと比べ350% 利得改善

    View full-size slide

  27. On the Inducibility of Stackelberg Equilibrium for Security Games
    On the Inducibility of Stackelberg Equilibrium for Security Games (Guo et al.2019; AAAI2019)
    http://teamcore.usc.edu/kiekintveld/papers/2009/kjtpot-massive-security-games.pdf
    ● Stackelberg Equlibrium for Security Games 課題
    ○ シュタッケルベルグ均衡解(SE)に Strong SEとWeak SEがある
    ■ Strong SE (SSE): attackerが、複数 ナッシュ均衡から
    defender 利得を最大化するような行動を選択する場合
    ■ Weak SE (WSE): attackerが、defender 利得が下がる
    ナッシュ均衡を選択するような場合
    ○ defender リソースが十分にある場合 、防御戦略に摂動を加えることでSSEを
    実現できるが、実際に そ ような理想的なケース ほぼない
    ● 論文 貢献
    ○ defender 最低限 利得(unitiry guarantee)を最大化するような
    inducible Stackelberg equilibrium (ISE) を定義し、解 存在を証明
    ○ 限られたリソースで 期待利得が保証できる警備戦略が選択可能に

    View full-size slide

  28. Conservation/Wildlife Protection
    Adversary models account for imperfect crime data: Forecasting and planning against real-world poachers (Gholami et al.2018)
    http://teamcore.usc.edu/papers/2018/sgholami_aamas18.pdf
    ● Green Security Games
    ○ ウガンダ 国立公園で 毎年数千 野生動物が密猟者 罠にかかっている
    ○ 動物密度や過去 罠個数などを特徴量として罠 密度関数をモデリング
    ■ パトロール 信頼度ごと 複数モデルでEnsembleしている が特徴
    ● 罠予測器でパトロールを最適化して罠
    発見個数が5倍に
    ● 現在 600 国立公園で導入
    ● 近年 ドローンによる介入戦略も
    研究が進んでいる

    View full-size slide

  29. Conservation/Wildlife Protection
    Signaling in Bayesian Stackelberg Games (Hu et al. 2016)
    http://teamcore.usc.edu/people/haifeng/files/SignalBSG_AAMAS16_Full.pdf
    ● Strategic Signaling
    ○ 近年 ドローンによる密猟者へ 介入行動も研究が進んでいる
    ○ 「監視員が近くにいる」というシグナルを伝える混合戦略を最適化して、
    密猟者 シグナル信用度を50%に調整する(最適応答戦略を調整)

    View full-size slide

  30. Public Health
    ● Games against Nature
    ○ ホームレス 若者 HIV感染率 通常 10倍
    ○ 彼ら リアルグラフ上で、最も効果的にHIV 情報を伝搬させられる
    ノード(Peer Leader候補)を同定したい
    ○ ノード間 伝達確率が未知なPOMDP※に対して介入方策を学習
    End-to-End Influence Maximization in the Field (Wilder et al. 2017)
    http://teamcore.usc.edu/papers/2018/aamas_deployment.pdf
    POMDPs for Assisting Homeless Shelters - Computational and Deployment Challenges (Yadav et al.2016)
    http://teamcore.usc.edu/papers/2016/IDEAS-Amulya.pdf
    ※ Partial Observable Markov Decision Process(部分観測マルコフ決定過程)

    View full-size slide

  31. Public Health
    ● Learning to Prescribe Interventions
    ○ インドで 毎年数十万人が結核により命を落としている
    ○ 未完治状態 人や耐性菌 発生を抑えるため、薬 服用を辞めそうな人
    予測モデル(RF/LSTM)を構築して介入行動を行う
    ○ 実データ ノイズが多いため複数モデルを確率的に混ぜた混合戦略を構築
    ● 発展事例
    ○ 子ども 肥満防止や自殺防止 介入戦略にも活用が検討されている
    Learning to Prescribe Interventions for Tuberculosis Patients using Digital Adherence Data (Killian et al. 2019)
    https://arxiv.org/abs/1902.01506

    View full-size slide

  32. Melding the Data-Decisions Pipeline: Decision-Focused
    Learning for Combinatorial Optimization
    ● 介入による結果も含めたDecision-Focusedな学習 提案
    ○ 先 結核患者へ 介入モデルで 、「治療離脱予測」と「介入行動」が
    それぞれ別 モジュールとして学習されていた
    ○ 介入 結果を微分可能にすることで、end-to-endな学習器を構築
    Melding the Data-Decisions Pipeline: Decision-Focused Learning for Combinatorial Optimization (Wilder et al.2019; AAAI2019)
    http://teamcore.usc.edu/people/bryanwilder/publications/aaai_melding.pdf
    AUC 悪化 介入結果 改善

    View full-size slide

  33. 本講演 流れ
    1 AAAI 2019 概要について
    2 気になったトピック ご紹介
    ● 統計情報、トレンド
    ● 招待講演について
    ● 不完全情報ゲーム攻略 現在
    ● 交通領域における強化学習 活用
    ● 個人 興味領域から部分的に紹介します
    ○ 面白い講演が多かった で全てを細かく紹介したいですが、
    時間とコンセプトを考慮し、あくまで概要や部分的な紹介に留めています
    ● 特に招待講演やチュートリアル 内容で AAAI2019以前 論文についても紹介しています
    Disclaimer

    View full-size slide

  34. New Results for Solving Imperfect-Information Games
    ● なぜ不完全情報ゲームか?
    ○ 限られた情報化で利得を最大化したい場面が現実世界に 多い
    ■ 経済活動、交渉、安全保障行動、ポーカー・麻雀など ゲーム、…
    ○ 完全情報ゲーム(チェッカー・オセロ・チェス・将棋・囲碁)で
    人間を超える方策が獲得できている
    ● Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018)
    ● Solving Imperfect-Information Games via Discounted Regret Minimization
    (Brown&Sandholm2018; AAAI2019)
    ● New Results for Solving Imperfect Information Games (AAAI2019 Invited Talk)
    紹介するAAAI2019/NeurIPS2018講演・論文

    View full-size slide

  35. プロプレイヤーに勝利したポーカーAI「Libratus」
    ● Libratus
    ○ NeurIPS2018ベストペーパー
    ○ Heads up No-limit Texas Hold'em (HUNL)を攻略した初めて AI
    ■ 状態数10161にも及ぶゲーム木探索を効率化
    ○ 4名 プロプレイヤーと12万試合戦う検証で$1.7M 勝利
    Safe and Nested Subgame Solving for Imperfect-Information Games (Brown & Sandholm 2017; NeurIPS2017)
    https://arxiv.org/abs/1705.02955
    参考:
    ● 機械学習による意思決定, 小宮山, 人工知能vol.33, 2018
    ● ポーカーAI 最新動向 https://www.slideshare.net/juneokumura/ai-20171031

    View full-size slide

  36. 不完全情報ゲームを解くと ?
    ● ナッシュ均衡
    ○ 2人 プレイヤー1,2を考え、各戦略をσ
    1
    , σ
    2
    (戦略集合をΣ
    1
    , Σ
    2
    )とする
    ○ 相手 戦略を固定した時、お互いど ように混合戦略σを変えても
    利得※uが改善しない状態をナッシュ均衡と呼ぶ
    ● ε-ナッシュ均衡
    ○ 完全なナッシュ均衡を解く が難しい場合 均衡条件をεだけ緩和する
    相手戦略σ
    2
    を固定した上で、
    どれだけ自分 戦略を変えても
    混合戦略σ 利得を超えられない
    相手戦略σ
    1
    を固定した上で、
    どれだけ自分 戦略を変えても
    混合戦略σ 利得を超えられない
    ※ 勝率や儲けなど、問題ごとに定義される効用

    View full-size slide

  37. 不完全情報ゲームをど ように解く か?
    ● Regret Minimizationアルゴリズム
    ○ 「こ 選択をした方が良かった」という後悔(Regret)を定量化
    ○ ゼロ和ゲームで 、Regretをε以下に抑えることが出来れ 、
    得られた平均戦略 2ε-ナッシュ均衡解になる
    現在 戦略で得られる期待利得
    他プレイヤー 戦略を現在 戦略 σtに固定して、
    自分 戦略をσ*に変更した時 仮想利得
    Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007)
    http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf

    View full-size slide

  38. Regret Minimization イメージ
    ● じゃんけん(同時手番ゲーム)
    Regret Minimization in Games with Incomplete Information (Zinkevich et al. 2007; NeurIPS2007)
    http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf
    P2
    P1
    -1 +1
    P1 P1 P1
    第一回目
    What if...
    Regret 0 +2 +1
    戦略 更新
    { ,  ,   } = {0, 2/3, 1/3}
    繰り返すことでナッシュ均衡解に近づく
    { ,  ,   } → {1/3, 1/3, 1/3}

    View full-size slide

  39. Counterfactual Regret Minimization (CFR), CFR+
    ● Counterfactual Regret Minimization (CFR)
    ○ 同様 考え方 、じゃんけん ような同時手番ゲームだけでなく、
    交互に行動選択を行う展開型ゲームにも拡張できる
    ● CFR+
    ○ CFRにおいて負 regretを0に置き換えて効率化したも
    ○ 他にも重み付け平均を導入するなど 改良が行われている
    ○ 1014程度 状態数 ある抽象化ポーカーでも収束させることが可能
    An Introduction to Counterfactual Regret Minimization (Neller & Lanctot 2013)
    http://modelai.gettysburg.edu/2013/cfr/cfr.pdf
    ノードIにおける現戦略 期待利得
    ノードIで行動aを選択した時 期待利得
    初期局面からノードIに到達する確率

    View full-size slide

  40. ポーカーAI「Libratus」を構成する3つ 要素
    Libratus: The Superhuman AI for No-Limit Poker (Brown & Sandholm 2017; IJCAI2017)
    https://www.ijcai.org/proceedings/2017/0772.pdf
    Abstraction
    Equilibrium Finding
    ゲーム木 抽象化
    ● 似た状態 同ノードに結合する等
    ● 状態数を10161→1012まで縮減
    抽象化したゲームを解く
    ● CFRやCFR+等
    ● 大雑把な戦略 獲得
    Subgame Solving
    部分木展開で精度改善
    ● 抽象化したゲーム木を再展開
    (前工程 評価値を元にする)
    ● 精緻な戦略 獲得
    Self Improver
    ゲーム木 自己改良
    ● 新しい木 抽象化を行う
    Libratus以降 発展
    ● CRFアルゴリズム 改善 ⇒ Discounted CFR(AAAI2019 best paper)
    ● ゲーム木 抽象化をDNNによって行う ⇒ Deep CFR(NeurIPS2018 oral)

    View full-size slide

  41. Discounted CFR モチベーション
    ● CFR+ ポーカー等で大きな成果を上げた一方課題もある
    ○ 負 Regretを0にするため、大きな負 利得が存在するゲーム 場合
    かえって更新が遅くなる
    Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 2019; AAAI2019)
    https://arxiv.org/abs/1809.04040
    P1
    P2 P2 P2
    0 +1 -1,000,000
    333,333 333,334
    利得 :
    Regret:
    1/3 1/3 1/3
    初期戦略 :
    P1
    P2 P2 P2
    1/2 1/2 0
    333,332.5 333,334.5 0
    Regret:
    0 +1 -1,000,000
    利得 :
    大きな負 利得に引きづられて更新が遅くなる
    0
    (-666,667)

    View full-size slide

  42. Discounted CFR アプローチ
    ● Regretを重み付け平均として定義
    ● 重み 付け方
    ○ Regretが正 場合:
    ○ Regretが負 場合:
    ● 結果
    ○ 過剰なRegret値 影響を低減することで収束速度が大幅に改善
    ■ 先程 例で 収束までに必要なイテレーションが 471407 → 970 に
    ○ α=1.5, β=0 場合 実験上常に CFR+ よりも優れた収束性が出ていた
    Upper bound
    Solving Imperfect-Information Games via Discounted Regret Minimization (Brown & Sandholm 209; AAAI2019)
    https://arxiv.org/abs/1809.04040

    View full-size slide

  43. Discounted CFR 貢献
    ● CFR+よりも収束 早いアルゴリズム 開発
    ○ 過去にもCFR+を拡張したLinear CFR(重みが1/t) あったが、
    今回 さらに重みを一般化することで改善が見られた
    ○ 収束速度についても丁寧に議論が行われている
    ● より一般的な不完全情報ゲームへ 対応
    ○ これまでCFR+ ポーカー等で活用されていたが、CFR+が苦手としていた
    ような他 ゲームに対しても一般化できる手法

    View full-size slide

  44. Deep CFR
    ● モチベーション
    ○ ゲーム木 なるべく抽象化することで解きやすいサイズにしたい
    ○ 抽象化 ため 表現 ドメイン知識を使わず獲得したい
    ● アプローチ
    ○ DNNを使ってRegret 予測器を構築
    ○ 各イテレーション中に軌跡を集めておき、それらを教師データとして学習
    Deep Counterfactual Regret Minimization (Brown et al. 2018; NeurIPS2018)
    https://arxiv.org/abs/1811.00164

    View full-size slide

  45. 不完全情報ゲーム攻略 現在:まとめ
    ● Libratus 登場
    ○ ゲーム抽象化とCFR/CFR+を組み合わせた解法が成果を上げていた
    ○ 1対1ポーカーで プロプレイヤーを破るアルゴリズムが完成している
    ● Libratus以降 流れ
    ○ アルゴリズム 改良・より一般的なゲームに対応するため 拡張
    ■ CFR+ 課題を緩和したDiscounted CFR
    ■ ゲーム抽象化を学習するDeep CFR
    ○ 今回扱えなかった話題
    ■ 複数人プレイヤーへ 拡張
    ■ 他 ベンチマークタスクへ 適用
    昨年 、Dota2やStarCraftIIといった不完全情報 MOBA(Multiplayer Online Battle Arena)タイトル
    においてプロプレイヤー以上 成績を収めた大規模分散深層学習エージェントが話題だが、
    今回 話 「モデル(ゲーム木)が所与 前提で不完全情報問題をゲーム理論観点で解く」という
    立場であり、アプローチが異なる。
    Note

    View full-size slide

  46. Deep Reinforcement Learning with Applications in Transportation
    ● DiDi(中国 タクシー配車サービス) AI Labによる
    交通に関連した深層強化学習事例 紹介
    講義資料:https://outreach.didichuxing.com/tutorial/AAAI2019/
    ● Deep Reinforcement Learning with Applications in Transportation (AAAI2018 Workshop)
    ● Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning.
    (Holler et al. 2018; NeurIPS2018 DRL WS)
    ● Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018)
    紹介するAAAI2019/NeurIPS2018講演・論文

    View full-size slide

  47. 強化学習と ?
    ● ある環境下で、目的とする収益を最大化するため 戦略(行動
    系列)を獲得する機械学習 一種
    ○ 教師データがなくても学習できる
    ■ 環境に対する試行錯誤によってターゲットをサンプリングできる
    ○ モデルが未知 状況でも学習ができる
    ■ MDP(Markov Decision Process) 成立を仮定する必要がある

    View full-size slide

  48. (深層)強化学習 現在
    ● キャッチーな事例 登場と実応用へ 期待
    ○ ゲーム、交通、推薦システム、制御、教育、ヘルスケア、金融、…
    Deep Reinforcement Learning(Yuxi Li, 2018)
    https://arxiv.org/abs/1810.06339
    Reinforcement Learning Applications
    https://medium.com/@yuxili/rl-applications-73ef685c07eb
    DQN SPACE INVADERS - DeepMind
    https://www.youtube.com/watch?v=W2CAghUiofY
    AlphaGo Zero: Learning from scratch
    https://deepmind.com/blog/alphago-zero-learning-scratch/
    Learning Dexterity
    https://blog.openai.com/learning-dexterity/

    View full-size slide

  49. (深層)強化学習 現在
    ● 実応用に至るまで 課題 まだ多い
    ○ 環境開発・学習 コスト
    ○ Reality Gap
    ○ マルチタスク・転移
    ○ 不完全観測
    ○ マルチエージェント
    ○ 安全性
    ○ 再現性
    ○ …
    多様な強化学習 概念と課題認識
    https://www.slideshare.net/yukono1/ss-102843951
    本パートで 、現在「交通領域」でど ようなアプリケーション 研究が行われているか、
    現時点で出来ることや課題について簡単にまとめていきます

    View full-size slide

  50. 交通領域における事例について
    ● 強化学習 様々な移動課題に対して研究が行われている
    ○ タクシー配車(Dispatching / Repositioning)
    ○ 信号機制御
    ○ ナビゲーション
    ○ 自動運転
    ○ …
    ● 最近 トレンド
    ○ 個別制御からマルチエージェント制御へ 拡張(Cooperative)
    ○ 大規模データへ アクセス
    ○ シミュレータ環境 改善
    ○ 転移学習
    ○ ゲーム理論的アプローチ

    View full-size slide

  51. Taxi Dispatching 1. Tabular Setting
    ● 強化学習として 問題設定
    ○ 過去 需要データから価値関数(状態から累積期待報酬へ 写像)を構築
    ■ 状態:時間・空間 メッシュ、行動:オーダーを受けうるかどうか
    ○ 直近 オーダーだけでなく将来 期待報酬を最大化するようにマッチング
    Large-Scale Order Dispatch in On-Demand Ride-Hailing Platforms: A Learning and Planning Approach (Xu et al. 2018; KDD2018)
    https://dl.acm.org/citation.cfm?id=3219824

    View full-size slide

  52. Taxi Dispatching 1. Deep Reinforcement Learning
    ● 関数近似(DNN) 導入
    ○ DNNによって大規模都市へ 適用、転移学習 活用、汎化効果が期待
    ● Action Search
    ○ 過去 軌跡を活用してデータ拡張することでスパースなグリッドに対応
    Deep Reinforcement Learning with Knowledge Transfer for Online Rides Order Dispatching (Wang et al. 2018; ICDM2018)
    https://tonyzqin.files.wordpress.com/2018/09/drl_tl_dispatch_icdm_camera_ready.pdf

    View full-size slide

  53. Taxi Repositioning
    ● ど ように移動すれ 需要を満たせるかを解く
    ○ 状態:配車ステータス・需要予測・供給分布、行動:移動するグリッド
    ○ CNNベース エージェントで学習(Double DQN)
    ● 実験結果
    ○ 他 最適化手法(Receding-Horizon Control; RDH)と比較して20%以上
    需要を満たせることを確認
    MOVI: A Model-Free Approach to Dynamic Fleet Management (Oda et al. 2018)
    https://arxiv.org/abs/1804.04758

    View full-size slide

  54. Taxi Dispatching + Repositioning
    ● Dispatch + Repositioning
    ○ 配車を取るかどうか(Dispatch)と高需要が見込まれるグリッドに移動
    するかどうか(Repositioning)を同時に扱う
    ● マルチエージェントへ 拡張
    ○ 他 タクシー位置やオーダー情報をGlobal Contextとして表現を学習
    Deep Q-Learning Approaches to Dynamic Multi-Driver Dispatching and Repositioning. (Holler et al. 2018; NeurIPS2018 DRL WS)
    https://drive.google.com/file/d/0B_utB5Y8Y6D5MGdfQktjQXgySDdPeG0wYnFxRnBJNDl3UlhF/view

    View full-size slide

  55. Traffic Signal Control (TSC)
    ● 交通流量や経過時間を最適化するタスク
    ○ レーン/グリッドごと 車両数や速度を状態として入力
    ○ 全車両 経過時間等を(負 )報酬として信号切り替えタイミングを制御
    Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (Liang et al.2018)
    https://arxiv.org/abs/1803.11115

    View full-size slide

  56. Traffic Signal Control (TSC): simple DQN
    ● 状態表現
    ● 行動
    ○ 実際に変えられる信号 ステータス
    Using a Deep Reinforcement Learning Agent for Traffic Signal Control (Genders & Razavi 2016)
    https://arxiv.org/abs/1611.01142
    レーン・グリッドごと 車両数
    レーン・グリッドごと 平均車両速度

    View full-size slide

  57. Traffic Signal Control (TSC): IntelliLight
    ● より現実 ケースに即したネットワーク 模索
    ○ 高頻度に切り替わること 抑制
    ○ 信号が青 ときと赤 ときでネットワークを分離する
    ● SUMOシミュレータ 検証で 渋滞時間が改善
    IntelliLight: A reinforcement learning approach for intelligent traffic light control (Wei et al. 2018 KDD2018)
    https://pennstate.pure.elsevier.com/en/publications/intellilight-a-reinforcement-learning-approach-for-intelligent-tr
    頻繁に切り替わって欲しくない
    Phase Gate

    View full-size slide

  58. Learning to Navigate in Cities Without a Map
    ● 地図情報を使わないナビゲーション
    ○ Google Street View 画像を元にゴール(緯度経度)まで移動するタスク
    ○ 画像認識にCNN、不完全観測に対してLSTMを活用(迷路タスクと同様)
    ○ 方策獲得に 分散強化学習(IMPALA)を活用
    ○ カリキュラム学習 採用
    ○ 都市間 転移学習にも成功
    Learning to Navigate in Cities Without a Map (Mirowski et al.2018; NeurIPS2018)
    https://arxiv.org/abs/1804.00168
    フィーチャーサイト(動画あり)
    https://sites.google.com/view/streetlearn

    View full-size slide

  59. Learning to Navigate in Cities Without a Map
    ● 方策 獲得
    ○ 地域依存 情報(ゴールに対する方向)と方策(ど 方向に移動するか)
    を分離することで学習 ⇒ 都市間 転移がしやすくなる
    ○ 分散強化学習(IMPALA)によって効率的に学習を行う
    参考(紹介論文):日本語解説 以下が詳しい
    https://www.slideshare.net/DeepLearningJP2016/dllearning-to-navigate-in-cities-without-a-map-93034591
    参考(IMPALA):深層強化学習 分散化・RNN利用 動向
    https://www.slideshare.net/juneokumura/rnnr2d2
    Goal LSTM
    ゴールと画像情報から
    エージェント 向きを予測
    (地域依存)
    Policy LSTM
    状態(入力画像と向き予測)と行動(移動方向)
    報酬から、Actor-Critic法で学習
    (地域に依存しない)

    View full-size slide

  60. Learning to Navigate in Cities Without a Map
    ● 転移学習
    ○ Goal LSTMをそれぞれ 都市について学習
    ○ CNN encoderとPolicy LSTM 汎化も期待できる

    View full-size slide

  61. 交通領域における強化学習 活用:まとめ
    ● AAAI2019 Workshopから以下 領域について紹介した
    ○ タクシー配車
    ■ Dispatching / Repositioning に関する研究を紹介
    ○ 信号機制御
    ■ 現在まで トレンドを概観
    ○ ナビゲーション
    ■ 地図を使わずに複数都市間でナビゲート可能な学習について紹介

    View full-size slide

  62. まとめ
    ● AAAI2019 概要やトレンドを報告
    ○ Artificial Intelligence for Social Impact
    ■ ゲーム理論を中心とした社会実装事例を紹介
    ● AAAI2019/NeurIPS2018から気になったトピックを報告
    ○ 不完全情報ゲーム攻略 現在
    ■ “Libratus”以降 CFRアルゴリズム 進展を紹介
    ○ 交通領域における強化学習 活用
    ■ タクシー配車・信号機制御・ナビゲーション等 研究事例を紹介

    View full-size slide