強化学習でトップレベルの強さに到達した逆転オセロニア対戦 AI【DeNA TechCon 2022】

強化学習でトップレベルの強さに到達した『逆転オセロニア』対戦 AI 大渡勝己　甲野佑

AI vs ヒト 1998年チェス 2016年囲碁 2017年将棋 2019年
StarCraftⅡ(RTS) …etc 2022年『逆転オセロニア』←New! なにが可能にした？なんの役に立つ？

自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学
習・プログラムを教える講師も • 「GPS将棋」の田中哲朗研究室でゲーム AIを学ぶ • 大富豪、カーリング、サイコロ将棋、 KaggleにてゲームAI大会優勝 • 強化学習ライブラリ　 HandyRLの開発大渡勝己  甲野佑 

『逆転オセロニア』とは？ 2人対戦のモバイルゲーム • 16枚の固有のスキルを有した駒を持ち寄り対戦 • オセロのルールで駒を配置 • その際に発生するダメージで相手の体力
(HP) を先に 0 にすると勝利高度な戦略性 • 駒のスキルで戦略性に富む • 様々なキャラクターを使いこなす必要 • 現在の AI 技術では難易度が高い

『逆転オセロニア』× AI の歴史オススメ編成オセロニア道場レコメンド技術により実践的なデッキを自動構築！プレイヤーの打ち方を学習した強力なAIと対戦！ 2018年
2019年

2022 年　AI がトップレベルの強さについに到達・・・？！『逆転オセロニア』× AI の歴史

目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 3.『逆転オセロニア』とその
AI 活用 1. 強化学習とは？ 2. 強化学習のプロダクト需要　〜ゲームにおけるバランス調整支援〜 3. トップレベル AI 1. AI 開発トッププロとの協業・HandyRL 2. 人間 vs AI 対戦結果

一般的な Deep Learning (教師あり学習) は与えられたデータを模倣する学習形式対戦環境教師あり学習 AI   （深層ニューラルネットワーク使用） 
対戦ログ  データ収集誤差模倣教師あり学習とは・・・強化学習とは？

強化学習とは？対戦環境教師あり学習 AI   （深層ニューラルネットワーク使用）  対戦ログ  データ収集誤差模倣
強化学習 AI   （深層ニューラルネットワーク使用）  試行錯誤ゲーム  シミュレータ  対戦ログ  状態：ゲーム状況  報酬：勝/負  教師あり学習とは・・・強化学習とは・・・データ生成強化学習は自ら試行錯誤してデータ生成から行う学習形式＝より担当範囲が広い

強化学習のプロダクト需要プロフェッショナルかつ複雑な探索 / 高度な動的判断を AI に置き換える

ゲームにおける強化学習需要がありそうな問題一方で... ゲーム環境の複雑化バランス崩壊によるプレイヤーの失望ゲームバランスの担保の難しさ・調整時間の増大・認知限界　　　近年のゲームは更新されるのが一般的にアイテム・キャラクター・スキル・ステージの追加プレイヤーに飽きさせない工夫・楽しさの提供

逆転オセロニアでは・・・？対戦環境の複雑化  駒総数  5,000  以上  AI で解決はできないか？  バランス調整の難易度が上昇 

バランス調整フローイメージ検証設計完了設計案の作成 NG  対戦環境への投入評価 OK  -
このサイクルはゲーム形態にあまり依存せず普遍的 - AI でどんな補助ができる？

AI の役割　〜創造性は人間　検証は AI 〜設計完了 NG  対戦環境への投入評価
OK  設計案の作成検証人間の創造性・感性  AI の処理能力  - AI は人間が寝ている間も働ける - 業務効率化・新人設計者の教育ツール - AI と人間の理想的な協業のカタチ

AI の仕事新規キャラクターを  扱えるAI  AI同士の大量対戦によるデータ生成  結果集計・可視化  既存データにないリリース前キャラクターは教師あり学習 AI では扱いきれない
→ 強化学習 - 機械学習による未知キャラクターの自動戦術獲得！ - 疲れ知らずの大量対戦によるテストプレイの網羅性！ - データ蓄積・可視化による客観性・振り返りの容易さ！『逆転オセロニア』のトップレベル対戦 AI の必要性！他モバイルゲームへ転用できる汎用的な方法で！

目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 2.
逆転オセロニアとその AI 活用 1. 強化学習とは？ 2. 強化学習のプロダクト需要　〜ゲームにおけるバランス調整支援〜 3. トップレベル AI 1. AI 開発トッププロとの協業・HandyRL 2. 人間 vs AI 対戦結果

ゲーム AI への熱意〜なぜオセロニアなのか〜数々のゲーム AI コンペで優勝した大渡勝己氏をお招きして『逆転オセロニア』対戦 AI
の開発を開始まだ手がつけられていない高度なモバイル対戦ゲームへの挑戦に熱意

自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学
習・プログラムを教える講師も • 「GPS将棋」の田中哲朗研究室でゲーム AIを学ぶ • 大富豪、カーリング、サイコロ将棋、 KaggleにてゲームAI大会優勝 • 強化学習ライブラリ　 HandyRLの開発大渡勝己  甲野佑 

ゲーム AI への熱意〜なぜオセロニアなのか〜駒総数 5,000以上  戦略の多様性 → 複雑な現代型知能ゲームへの挑戦に好適！多数のキャラクター
スキルを扱う必要オセロ・囲碁・チェスのような普遍的ゲーム性

強化学習 AI   （深層ニューラルネットワーク使用）  試行錯誤ゲーム  シミュレータ  対戦ログ  状態：ゲーム状況  報酬：勝/負 
強化学習とは・・・データ生成実用化必須技術〜強化学習〜

対戦AI ゲームシミュレータ中枢学習 AI ・・・対戦AI ゲームシミュレータ対戦AI
ゲームシミュレータ対戦AI ゲームシミュレータ並列的に対戦・データ生成並列的にデータ集積して学習・各 AI に最新学習結果を反映任意の対戦ゲームを利用可能な並列強化学習フレームワークを新たに開発！手軽なコードベースの汎用フレームワークとして OSS 化！実用化必須技術〜並列強化学習〜対戦ログ対戦ログ

HandyRL の実績 • 2021/1/25〜07/26 開催 • 7/27〜08/9 評価期間 • 8/10
世界1位！ ◦ (875チーム中) • 2020/9/29〜2020/11/30 開催 • サッカーゲームのAgent作成が目的 • 5位入賞/1138チーム ◦ 日本人最高位 Google Research Football with Manchester City F.C. | Kaggle Hungry Geese | Kaggle 多くの深層強化学習アルゴリズムを網羅するのではなく安定性・効率性の高い Off-policy PG 主眼のシンプルな実装

HandyRL の実績 • 2021/1/25〜07/26 開催 • 7/27〜08/9 評価期間 • 8/10
世界1位！ ◦ (875チーム中) • 2020/9/29〜2020/11/30 開催 • サッカーゲームのAgent作成が目的 • 5位入賞/1138チーム ◦ 日本人最高位 Google Research Football with Manchester City F.C. | Kaggle Hungry Geese | Kaggle 実用性の高さが特徴自分たちが使いやすいものを汎用的に使えるよう作りあげた

人間 vs AI の対戦結果！対戦相手：吉村拓真 - オセロニア現役プレイヤー - AI 部署所属
- 過去にオセロニアの対戦分析経験あり

評価方法 - 定量評価は疲労・デッキ条件から困難 - 体感としては五分以上 - 今回は特徴的な戦術パターンを挙げる人間 vs AI
の対戦結果！

人間 vs AI ※ 対戦動画内容解説は TechCon 本編動画を視聴ください

人間 vs AI の対戦の感想　定石をキチンと打てている　定石から少し外れた？　人間側が耐久戦術だから長期戦覚悟？　人間側は盤面重視＝長期戦術で応戦　定石の亜種！攻撃力と盤面優位の両立狙い？　長期戦術の要が取られる危険
　守りの要を失う・継続ダメージの二者択一を迫る　人間側は守りの要の保護を優先　AI はミスなく盤面優位を保ち続ける　終盤パスで何もできなくなる　そのままHP差をつけられ・・・　AI の勝利・・・！　　　　　　　　　：AI ターンコメント　　　　　　　　　：人間ターンコメント

　守りの要を失う・継続ダメージの二者択一を迫る　人間側は守りの要の保護を優先　AI はミスなく盤面優位を保ち続ける　人間は終盤パスで何もできなくなる　そのままHP差をつけられ・・・　AI の勝利・・・！　　　　　　　　　：AI ターンコメント　　　　　　　　　：人間ターンコメント

　守りの要を失う・継続ダメージの二者択一を迫る　人間側は守りの要の保護を優先　AI はミスなく盤面優位を保ち続ける　終盤パスで何もできなくなる　そのままHP差をつけられ・・・　AI の勝利・・・！　　　　　　　　　：AI ターンコメント　　　　　　　　　：人間ターンコメント

人間 vs AI の対戦の総評 - 多様なスキル・戦術が使い分けできている - 長期戦での盤面をオセロ的に支配力 - 非オセロ的な打ち方の短期決戦型の戦術
- 自傷ダメージスキルなどリスクのある戦術も - 総じて「人間的」で強いプレイヤーと遜色ない - 人間らしくないが強いプレイングは見かけず - 「人間的」なのは逆転オセロニアのゲーム特性？ - HP 削りあうゲームだから

その他機会学習知見からのノウハウ論文化などなんらかのカタチで発表予定！今後も DeNA × AI にご注目くださいゲーム状態  行動  ニューラルネット
キャラクター間のシナジーが捉えられる汎用的ネットワーク構造ゲーム状況を捉えやすい特徴量設計ゲーム状態特徴  特徴抽出 

強化学習でトップレベルの強さに到達した逆転オセロニア対戦 AI【DeNA TechCon 2022】

強化学習でトップレベルの強さに到達した逆転オセロニア対戦 AI【DeNA TechCon 2022】

DeNA_Tech

More Decks by DeNA_Tech

Other Decks in Technology

Featured

Transcript

強化学習でトップレベルの強さに到達した『逆転オセロニア』対戦 AI 大渡勝己　甲野佑

AI vs ヒト 1998年チェス 2016年囲碁 2017年将棋 2019年

自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学

自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学

『逆転オセロニア』とは？ 2人対戦のモバイルゲーム • 16枚の固有のスキルを有した駒を持ち寄り対戦 • オセロのルールで駒を配置 • その際に発生するダメージで相手の体力

『逆転オセロニア』× AI の歴史オススメ編成オセロニア道場レコメンド技術により実践的なデッキを自動構築！プレイヤーの打ち方を学習した強力なAIと対戦！ 2018年

2022 年　AI がトップレベルの強さについに到達・・・？！『逆転オセロニア』× AI の歴史

目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 3.『逆転オセロニア』とその

目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 3.『逆転オセロニア』とその

一般的な Deep Learning (教師あり学習) は与えられたデータを模倣する学習形式対戦環境教師あり学習 AI   （深層ニューラルネットワーク使用）

強化学習とは？対戦環境教師あり学習 AI   （深層ニューラルネットワーク使用）  対戦ログ  データ収集誤差模倣

強化学習のプロダクト需要プロフェッショナルかつ複雑な探索 / 高度な動的判断を AI に置き換える

逆転オセロニアでは・・・？対戦環境の複雑化  駒総数  5,000  以上  AI で解決はできないか？  バランス調整の難易度が上昇

バランス調整フローイメージ検証設計完了設計案の作成 NG  対戦環境への投入評価 OK  -

AI の役割　〜創造性は人間　検証は AI 〜設計完了 NG  対戦環境への投入評価

AI の仕事新規キャラクターを  扱えるAI  AI同士の大量対戦によるデータ生成  結果集計・可視化  既存データにないリリース前キャラクターは教師あり学習 AI では扱いきれない

目次 1. 概要 2. 強化学習とその可能性 1. 概要 2. 自己紹介 2.

ゲーム AI への熱意〜なぜオセロニアなのか〜数々のゲーム AI コンペで優勝した大渡勝己氏をお招きして『逆転オセロニア』対戦 AI

自己紹介 • 強化学習研究で博士号取得 • 入社以来ゲームAI × 強化学習アルゴリズムの研究開発などに従事している • 2018年4月から母校にて機械学習・強化学

ゲーム AI への熱意〜なぜオセロニアなのか〜駒総数 5,000以上  戦略の多様性 → 複雑な現代型知能ゲームへの挑戦に好適！多数のキャラクター

強化学習 AI   （深層ニューラルネットワーク使用）  試行錯誤ゲーム  シミュレータ  対戦ログ  状態：ゲーム状況  報酬：勝/負

対戦AI ゲームシミュレータ中枢学習 AI ・・・対戦AI ゲームシミュレータ対戦AI

HandyRL の実績 • 2021/1/25〜07/26 開催 • 7/27〜08/9 評価期間 • 8/10

HandyRL の実績 • 2021/1/25〜07/26 開催 • 7/27〜08/9 評価期間 • 8/10

人間 vs AI の対戦結果！対戦相手：吉村拓真 - オセロニア現役プレイヤー - AI 部署所属

評価方法 - 定量評価は疲労・デッキ条件から困難 - 体感としては五分以上 - 今回は特徴的な戦術パターンを挙げる人間 vs AI

人間 vs AI ※ 対戦動画内容解説は TechCon 本編動画を視聴ください

人間 vs AI の対戦の総評 - 多様なスキル・戦術が使い分けできている - 長期戦での盤面をオセロ的に支配力 - 非オセロ的な打ち方の短期決戦型の戦術

その他機会学習知見からのノウハウ論文化などなんらかのカタチで発表予定！今後も DeNA × AI にご注目くださいゲーム状態  行動  ニューラルネット