Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強化学習でトップレベルの強さに到達した逆転オセロニア対戦 AI【DeNA TechCon 2022】

強化学習でトップレベルの強さに到達した逆転オセロニア対戦 AI【DeNA TechCon 2022】

トップレベルの強さに到達した『逆転オセロニア』対戦 AI が開発できました!この発表ではプロフェッショナルがこの AI と戦ってみた感想や、この AI 技術の解説、応用先・展望について話していきます。

従来より自分たちは手軽な対戦ゲームである『逆転オセロニア』を例に様々な AI 研究を重ねてきました。例えば大量のプレイヤーログを使用した教師あり学習による対戦 AI や、デッキの自動編成 AI などは実際にゲーム内に導入し、ご利用いただいております。しかし様々なゲーム環境をより良くしていくためには、新たにリリースするキャラクターのポテンシャル推計のため、その適切な使い方も自律的に学ぶことができる最強 AI が必要になります。その一環として自分たちは逆転オセロニアにおいて自律的に試行錯誤から学ぶ強化学習で強さを極める AI 技術を開発してきました。そしてゲーム AI 作成のトッププロと共に開発を進めることで、人間の対戦データから作った教師あり学習 AI に勝る強さに到達しました。 発表では開発の鍵となった自社開発の分散強化学習フレームワーク HandyRL の紹介も行います。

トップレベルの強さに到達した『逆転オセロニア』対戦 AI が開発できました!この発表ではプロフェッショナルがこの AI と戦ってみた感想や、この AI 技術の解説、応用先・展望について話していきます。

従来より自分たちは手軽な対戦ゲームである『逆転オセロニア』を例に様々な AI 研究を重ねてきました。例えば大量のプレイヤーログを使用した教師あり学習による対戦 AI や、デッキの自動編成 AI などは実際にゲーム内に導入し、ご利用いただいております。しかし様々なゲーム環境をより良くしていくためには、新たにリリースするキャラクターのポテンシャル推計のため、その適切な使い方も自律的に学ぶことができる最強 AI が必要になります。その一環として自分たちは逆転オセロニアにおいて自律的に試行錯誤から学ぶ強化学習で強さを極める AI 技術を開発してきました。そしてゲーム AI 作成のトッププロと共に開発を進めることで、人間の対戦データから作った教師あり学習 AI に勝る強さに到達しました。 発表では開発の鍵となった自社開発の分散強化学習フレームワーク HandyRL の紹介も行います。

資料内容関連リンク集:
HandyRLで切り開く並列強化学習, https://engineering.dena.com/blog/2021/12/distributed-reinforcement-learning-with-handyrl/
GitHub - DeNA/HandyRL, https://github.com/DeNA/HandyRL

◆ You Tube
https://youtu.be/Lvn5Rzcj6ws

◆ You Tube チャンネル登録はこちら↓
https://youtube.com/c/denatech?sub_confirmation=1

◆ Twitter
https://twitter.com/DeNAxTech

◆ DeNA Engineering
https://engineering.dena.com/

◆ DeNA Engineer Blog
https://engineering.dena.com/blog/

◆ DeNA TechCon 2022 公式サイト
https://techcon2022.dena.dev/spring/

DeNA_Tech

March 17, 2022
Tweet

More Decks by DeNA_Tech

Other Decks in Technology

Transcript

  1. AI vs ヒト 1998年 チェス 2016年 囲碁 2017年 将棋 2019年

    StarCraftⅡ(RTS) …etc 2022年『逆転オセロニア』←New! なにが可能にした? なんの役に立つ?
  2. 自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズ ムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学

    習・プログラムを教える講師も • 「GPS将棋」の田中哲朗研究室でゲーム AIを学ぶ • 大富豪、カーリング、サイコロ将棋、 KaggleにてゲームAI大会優勝 • 強化学習ライブラリ  HandyRLの開発 大渡 勝己
 甲野 佑

  3. 自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズ ムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学

    習・プログラムを教える講師も • 「GPS将棋」の田中哲朗研究室でゲーム AIを学ぶ • 大富豪、カーリング、サイコロ将棋、 KaggleにてゲームAI大会優勝 • 強化学習ライブラリ  HandyRLの開発 大渡 勝己
 甲野 佑

  4. 『逆転オセロニア』とは? 2人対戦のモバイルゲーム • 16枚の固有のスキルを有した駒 を持ち寄り対戦 • オセロのルールで駒を配置 • その際に発生するダメージで相 手の体力

    (HP) を先に 0 にする と勝利 高度な戦略性 • 駒のスキルで戦略性に富む • 様々なキャラクターを使いこな す必要 • 現在の AI 技術では難易度が高い
  5. 目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 3.『逆転オセロニア』とその

    AI 活用 1. 強化学習とは? 2. 強化学習のプロダクト需要 〜ゲームにおけるバランス調整支援〜 3. トップレベル AI 1. AI 開発トッププロとの協業・HandyRL 2. 人間 vs AI 対戦結果
  6. 目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 3.『逆転オセロニア』とその

    AI 活用 1. 強化学習とは? 2. 強化学習のプロダクト需要 〜ゲームにおけるバランス調整支援〜 3. トップレベル AI 1. AI 開発トッププロとの協業・HandyRL 2. 人間 vs AI 対戦結果
  7. 強化学習とは? 対戦環境 教師あり学習 AI 
 (深層ニューラルネットワーク使用)
 対戦ログ
 データ収集 誤差 模倣

    強化学習 AI 
 (深層ニューラルネットワーク使用)
 試行錯誤 ゲーム
 シミュレータ
 対戦ログ
 状態:ゲーム状況
 報酬:勝/負
 教師あり学習とは・・・ 強化学習とは・・・ データ生成 強化学習は自ら試行錯誤してデータ生成から行う学習形式 = より担当範囲が広い
  8. バランス調整フローイメージ 検証 設計完了 設計案の作成 NG
 対戦環境への 投入 評価 OK
 -

    このサイクルはゲーム形態にあまり依存せず普遍的 - AI でどんな補助ができる?
  9. AI の役割 〜 創造性は人間 検証は AI 〜 設計完了 NG
 対戦環境への 投入 評価

    OK
 設計案の作成 検証 人間の創造性・感性
 AI の処理能力
 - AI は人間が寝ている間も働ける - 業務効率化・新人設計者の教育ツール - AI と人間の理想的な協業のカタチ
  10. AI の仕事 新規キャラクターを
 扱えるAI
 AI同士の大量対戦に よるデータ生成
 結果集計・可視化
 既存データにないリリース前キャラクターは教師あり学習 AI では扱いきれない

    → 強化学習 - 機械学習による未知キャラクターの自動戦術獲得! - 疲れ知らずの大量対戦によるテストプレイの網羅性! - データ蓄積・可視化による客観性・振り返りの容易さ! 『逆転オセロニア』のトップレベル対戦 AI の必要性! 他モバイルゲームへ転用できる汎用的な方法で!
  11. 目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 2.

    逆転オセロニアとその AI 活用 1. 強化学習とは? 2. 強化学習のプロダクト需要 〜ゲームにおけるバランス調整支援〜 3. トップレベル AI 1. AI 開発トッププロとの協業・HandyRL 2. 人間 vs AI 対戦結果
  12. 自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズ ムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学

    習・プログラムを教える講師も • 「GPS将棋」の田中哲朗研究室でゲーム AIを学ぶ • 大富豪、カーリング、サイコロ将棋、 KaggleにてゲームAI大会優勝 • 強化学習ライブラリ  HandyRLの開発 大渡 勝己
 甲野 佑

  13. 対戦AI ゲーム シミュレータ 中枢学習 AI ・・・ 対戦AI ゲーム シミュレータ 対戦AI

    ゲーム シミュレータ 対戦AI ゲーム シミュレータ 並列的に対戦・データ生成 並列的にデータ集積して学習・各 AI に最新学習結果を反映 任意の対戦ゲームを利用可能な並列強化学習フレームワークを新たに開発! 手軽なコードベースの汎用フレームワークとして OSS 化! 実用化必須技術 〜 並列強化学習 〜 対戦ログ 対戦ログ
  14. HandyRL の実績 • 2021/1/25〜07/26 開催 • 7/27〜08/9 評価期間 • 8/10

    世界1位! ◦ (875チーム中) • 2020/9/29〜2020/11/30 開催 • サッカーゲームのAgent作成が目的 • 5位入賞/1138チーム ◦ 日本人最高位 Google Research Football with Manchester City F.C. | Kaggle Hungry Geese | Kaggle 多くの深層強化学習アルゴリズムを網羅するのではなく 安定性・効率性の高い Off-policy PG 主眼のシンプルな実装
  15. HandyRL の実績 • 2021/1/25〜07/26 開催 • 7/27〜08/9 評価期間 • 8/10

    世界1位! ◦ (875チーム中) • 2020/9/29〜2020/11/30 開催 • サッカーゲームのAgent作成が目的 • 5位入賞/1138チーム ◦ 日本人最高位 Google Research Football with Manchester City F.C. | Kaggle Hungry Geese | Kaggle 実用性の高さが特徴 自分たちが使いやすいものを汎用的に使えるよう作りあげた
  16. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  17. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  18. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  19. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  20. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  21. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  人間は終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  22. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  23. 人間 vs AI の対戦の感想  定石をキチンと打てている  定石から少し外れた?  人間側が耐久戦術だから長期戦覚悟?  人間側は盤面重視=長期戦術で応戦  定石の亜種!攻撃力と盤面優位の両立狙い?  長期戦術の要が取られる危険

     守りの要を失う・継続ダメージの二者択一を迫る  人間側は守りの要の保護を優先  AI はミスなく盤面優位を保ち続ける  終盤パスで何もできなくなる  そのままHP差をつけられ・・・  AI の勝利・・・!          :AI ターンコメント          :人間ターンコメント
  24. 人間 vs AI の対戦の総評 - 多様なスキル・戦術が使い分けできている - 長期戦での盤面をオセロ的に支配力 - 非オセロ的な打ち方の短期決戦型の戦術

    - 自傷ダメージスキルなどリスクのある戦術も - 総じて「人間的」で強いプレイヤーと遜色ない - 人間らしくないが強いプレイングは見かけず - 「人間的」なのは逆転オセロニアのゲーム特性? - HP 削りあうゲームだから
  25. その他機会学習知見からのノウハウ 論文化などなんらかのカタチで発表予定! 今後も DeNA × AI にご注目ください ゲーム状態
 行動
 ニューラルネット

    キャラクター間のシナジーが捉えられる 汎用的ネットワーク構造 ゲーム状況を捉えやすい 特徴量設計 ゲーム状態特徴
 特徴抽出