ターン制コマンドバトルにおける強化学習効率化

by gree_tech

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Copyright © GREE, Inc. All Rights Reserved. • コンテンツの楽しさを担保する • 調整項目はゲームによって様々 • マーカーの間隔 • クリアに必要な手数 • 敵や味方の強さ • 調整とテストプレイを3回以上繰り返す • 3日程度しか使えない背景：バランス調整 3 バランス調整の効率化が必要 ➢ たたかうどうぐにげる HP:9/10 MP:5/5 ミミック Lv. 5

Slide 4

Slide 4 text

Copyright © GREE, Inc. All Rights Reserved. Exploring Game Space Using Survival Analysis Isaksen et al., 2015 • Flappy Bird • 人間をモデル化したAI Human-Like Playtesting with Deep Learning Stefan Freyr et al., 2016 • Candy Crash • プレイヤの行動ログから学習させたAI Exploring Gameplay With AI Agents Mesentier Silva et al., 2018 • The Sims • A*アルゴリズムで探索するAI 背景：テストプレイAIによる効率化 4

Slide 5

Slide 5 text

Copyright © GREE, Inc. All Rights Reserved. • ターン制コマンドバトル • ターンごとに行動を選択する • 行動が表形式のデータで表される • 要望 • 最適なプレイ時のハイスコアを知りたい • 制約 • シミュレータは1ターン戻すなどができない背景：社内で運用中のゲームの場合 5 ➢ たたかうどうぐにげる HP:9/10 MP:5/5 ミミック Lv. 5 強化学習によるゲームプレイAIの学習を検討

Slide 6

Slide 6 text

Copyright © GREE, Inc. All Rights Reserved. • 状態を観測し行動を決定する問題を解く方法 • 環境から得られる報酬を最大化する • 行動価値 • ある状態である行動を取ったときの期待報酬 • Q学習 • 行動を反復して行動価値を最適化する • 行動価値関数は状態x行動の表で実現 • Deep Q-Network (DQN) • 行動価値関数をニューラルネットワークで近似強化学習 6 環境状態報酬行動状態価値1 … 価値n ニューラルネットワーク

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Copyright © GREE, Inc. All Rights Reserved. Deep Reinforcement Learning with a Natural Language Action Space He et al., 2016 ゲームの強化学習効率化に関する先行研究 9 • テキストゲームの強化学習効率化 • 状態が自然言語で表される • 行動を自然言語で入力する • Deep Reinforcement Relevance Network (DRRN) • 状態だけでなく行動の意味も行動価値関数に入力 • 状態と行動をそれぞれ埋め込むあなたは川のそばにいます > 南へ行く川は5cm程の隙間に流れ込んでいます > 隙間へ行く隙間は狭すぎて入れません

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Copyright © GREE, Inc. All Rights Reserved. • 2017年にAI大会開催 • Computational Intelligence and Games 2017 • 2人対戦ターン制コマンドバトル • 6体のポケモンでチームを構成 • ターン毎に行動を1つ選択する • 行動の選択肢は2種類あり最大9個 • 技 • ポケモン交代 • 相手ポケモンの体力をすべて0にすると勝利 Pokémon Showdown 11

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Copyright © GREE, Inc. All Rights Reserved. AutoEncoder • 入力のブール値は0/1に変換 • 損失関数は平均二乗誤差 • 確率的勾配降下法で最適化 • 2種類用意 • 技の埋め込み • 交代ポケモンの埋め込み • DRRNと異なり、強化学習前に埋め込む行動の埋め込みの詳細 14 技交代ポケモン AE move AE switch m emb s emb

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Copyright © GREE, Inc. All Rights Reserved. • 状態の多様性が低くなる • DQNは技の並び順が違うだけで全く別の状態とみなす • 個別に評価することで同じような状態が表れやすくなる • 行動の正確な価値を評価可能 • DQNは他の選択肢によって行動の価値が影響される • コマンドバトルでは他の選択肢で行動の価値は変わらないはず考察：行動の個別評価の効果 21

Slide 22

Slide 22 text

Slide 23

Slide 23 text