ターン制コマンドバトルにおける強化学習効率化

Copyright © GREE, Inc. All Rights Reserved. ターン制コマンドバトルにおける強化学習効率化グリー株式会社
辻本貴昭尾崎嘉彦森田想平

Copyright © GREE, Inc. All Rights Reserved. • 基本プレイ無料が多い •
追加コンテンツが主な収益源 • 複数の追加コンテンツを並行して開発背景：スマートフォンゲームの開発 2 設計開発調整リリース 2週間設計開発調整リリース設計開発調整リリース設計開発調整リリース設計開発調整設計開発設計 … … … …

Copyright © GREE, Inc. All Rights Reserved. • コンテンツの楽しさを担保する •
調整項目はゲームによって様々 • マーカーの間隔 • クリアに必要な手数 • 敵や味方の強さ • 調整とテストプレイを3回以上繰り返す • 3日程度しか使えない背景：バランス調整 3 バランス調整の効率化が必要 ➢ たたかうどうぐにげる HP:9/10 MP:5/5 ミミック Lv. 5

Copyright © GREE, Inc. All Rights Reserved. Exploring Game Space
Using Survival Analysis Isaksen et al., 2015 • Flappy Bird • 人間をモデル化したAI Human-Like Playtesting with Deep Learning Stefan Freyr et al., 2016 • Candy Crash • プレイヤの行動ログから学習させたAI Exploring Gameplay With AI Agents Mesentier Silva et al., 2018 • The Sims • A*アルゴリズムで探索するAI 背景：テストプレイAIによる効率化 4

Copyright © GREE, Inc. All Rights Reserved. • ターン制コマンドバトル •
ターンごとに行動を選択する • 行動が表形式のデータで表される • 要望 • 最適なプレイ時のハイスコアを知りたい • 制約 • シミュレータは1ターン戻すなどができない背景：社内で運用中のゲームの場合 5 ➢ たたかうどうぐにげる HP:9/10 MP:5/5 ミミック Lv. 5 強化学習によるゲームプレイAIの学習を検討

Copyright © GREE, Inc. All Rights Reserved. • 状態を観測し行動を決定する問題を解く方法 •
環境から得られる報酬を最大化する • 行動価値 • ある状態である行動を取ったときの期待報酬 • Q学習 • 行動を反復して行動価値を最適化する • 行動価値関数は状態x行動の表で実現 • Deep Q-Network (DQN) • 行動価値関数をニューラルネットワークで近似強化学習 6 環境状態報酬行動状態価値1 … 価値n ニューラルネットワーク

Copyright © GREE, Inc. All Rights Reserved. 課題 7 •
強化学習には膨大な時間と計算リソースが必要 AI 実時間セルフプレイ AlphaGo Zero 3日間 490万局 AlphaStar 1週間 200年 OpenAI Five 10ヶ月 45000年 • バランス調整に使える時間は3日程度強化学習の効率化が必要

Copyright © GREE, Inc. All Rights Reserved. • DQNは汎用的な強化学習手法 •
ゲームの特徴を活かせば効率化ができる可能性 • 状態だけでなく行動の意味を考慮して価値を評価する • 事前に特徴を学習しておく強化学習効率化の着目点 8

Copyright © GREE, Inc. All Rights Reserved. Deep Reinforcement Learning
with a Natural Language Action Space He et al., 2016 ゲームの強化学習効率化に関する先行研究 9 • テキストゲームの強化学習効率化 • 状態が自然言語で表される • 行動を自然言語で入力する • Deep Reinforcement Relevance Network (DRRN) • 状態だけでなく行動の意味も行動価値関数に入力 • 状態と行動をそれぞれ埋め込むあなたは川のそばにいます > 南へ行く川は5cm程の隙間に流れ込んでいます > 隙間へ行く隙間は狭すぎて入れません

Copyright © GREE, Inc. All Rights Reserved. 目的・提案手法 10 目的
• ターン制コマンドバトルの強化学習効率化 • Pokémon Showdownを対象提案手法 • 行動の意味を考慮して行動価値を評価する • 行動の特徴を事前に学習しておく

Copyright © GREE, Inc. All Rights Reserved. • 2017年にAI大会開催 •
Computational Intelligence and Games 2017 • 2人対戦ターン制コマンドバトル • 6体のポケモンでチームを構成 • ターン毎に行動を1つ選択する • 行動の選択肢は2種類あり最大9個 • 技 • ポケモン交代 • 相手ポケモンの体力をすべて0にすると勝利 Pokémon Showdown 11

Copyright © GREE, Inc. All Rights Reserved. 1. 強化学習の前に行動の特徴を学習 2.
事前に埋め込んだ行動を使って強化学習提案手法の概要 12 ターン制コマンドバトル行動の意味評価状態行動報酬強化学習Agent 行動の埋め込みマスタデータ Step1 Step2

Copyright © GREE, Inc. All Rights Reserved. マスタデータ • ゲーム内のパラメータの元データ
行動の埋め込み 13 技威力命中率物理ノーマルほのおたいあたり 35 95% True True False ひのこ 40 100% False False True 0.3 0.6 0.9 0.1 0.5 0.4 0.1 0.1 AutoEncoder

Copyright © GREE, Inc. All Rights Reserved. AutoEncoder • 入力のブール値は0/1に変換
• 損失関数は平均二乗誤差 • 確率的勾配降下法で最適化 • 2種類用意 • 技の埋め込み • 交代ポケモンの埋め込み • DRRNと異なり、強化学習前に埋め込む行動の埋め込みの詳細 14 技交代ポケモン AE move AE switch m emb s emb

Copyright © GREE, Inc. All Rights Reserved. • 状態の多様性が低くなる •
DQNは技の並び順が違うだけで全く別の状態とみなす • 個別に評価することで同じような状態が表れやすくなる • 行動の正確な価値を評価可能 • DQNは他の選択肢によって行動の価値が影響される • コマンドバトルでは他の選択肢で行動の価値は変わらないはず考察：行動の個別評価の効果 21

ターン制コマンドバトルにおける強化学習効率化

ターン制コマンドバトルにおける強化学習効率化

gree_tech PRO

More Decks by gree_tech

Other Decks in Technology

Featured

Transcript

Copyright © GREE, Inc. All Rights Reserved. ターン制コマンドバトルにおける強化学習効率化グリー株式会社

Copyright © GREE, Inc. All Rights Reserved. • 基本プレイ無料が多い •

Copyright © GREE, Inc. All Rights Reserved. • コンテンツの楽しさを担保する •

Copyright © GREE, Inc. All Rights Reserved. Exploring Game Space

Copyright © GREE, Inc. All Rights Reserved. • ターン制コマンドバトル •

Copyright © GREE, Inc. All Rights Reserved. • 状態を観測し行動を決定する問題を解く方法 •

Copyright © GREE, Inc. All Rights Reserved. 課題 7 •

Copyright © GREE, Inc. All Rights Reserved. • DQNは汎用的な強化学習手法 •

Copyright © GREE, Inc. All Rights Reserved. Deep Reinforcement Learning

Copyright © GREE, Inc. All Rights Reserved. 目的・提案手法 10 目的

Copyright © GREE, Inc. All Rights Reserved. • 2017年にAI大会開催 •

Copyright © GREE, Inc. All Rights Reserved. 1. 強化学習の前に行動の特徴を学習 2.

Copyright © GREE, Inc. All Rights Reserved. マスタデータ • ゲーム内のパラメータの元データ

Copyright © GREE, Inc. All Rights Reserved. AutoEncoder • 入力のブール値は0/1に変換

Copyright © GREE, Inc. All Rights Reserved. 提案手法 15 DQN

Copyright © GREE, Inc. All Rights Reserved. 比較手法実験設定 16

Copyright © GREE, Inc. All Rights Reserved. 実験結果 17 一括

Copyright © GREE, Inc. All Rights Reserved. 実験結果 18 一括

Copyright © GREE, Inc. All Rights Reserved. 実験結果 19 埋め込みによって学習初期の学習効率が向上

Copyright © GREE, Inc. All Rights Reserved. 実験結果 20 行動を埋め込むと最終的な性能は劣る

Copyright © GREE, Inc. All Rights Reserved. • 状態の多様性が低くなる •

Copyright © GREE, Inc. All Rights Reserved. • わずかな性能低下 •

Copyright © GREE, Inc. All Rights Reserved. まとめ • 行動の個別評価で学習ステップ数を75%以上削減