Slide 1

Slide 1 text

Copyright © GREE, Inc. All Rights Reserved. ゲームバランス調整補助のための 強化学習の効率化 グリー株式会社 開発本部 辻本 貴昭

Slide 2

Slide 2 text

Copyright © GREE, Inc. All Rights Reserved. • 継続的なコンテンツ追加が必要 • バランス調整作業に工数を費やしている • パラメータ変更 • バランス確認のためのテストプレイ • AIによるテストプレイを利用した事例が存在 背景 2 強化学習によるテストプレイAIで効率化

Slide 3

Slide 3 text

Copyright © GREE, Inc. All Rights Reserved. 課題 3 • 強化学習には膨大な時間と計算リソースが必要 • コンテンツのリリース間隔が短い 強化学習を開発サイクルに組み込めない

Slide 4

Slide 4 text

Copyright © GREE, Inc. All Rights Reserved. Deep Reinforcement Learning with a Natural Language Action Space He et al., 2016 ゲームの強化学習効率化に関する先行研究 4 • テキストゲームの強化学習効率化 • 状態が自然言語で表される • 行動を自然言語で入力する • Deep Reinforcement Relevance Network (DRRN) • 行動を個別に評価 • 状態と行動をそれぞれ埋め込む あなたは川のそばにいます > 南へ行く 川は5cm程の隙間に流れ込んでいます > 隙間へ行く 隙間は狭すぎて入れません

Slide 5

Slide 5 text

Copyright © GREE, Inc. All Rights Reserved. DRRN DRRNの行動の個別評価 5 DQN 行動を一括評価 行動を個別に評価 State Act 1 … Act n V Act1 … V Actn 価値関数 … 価値関数 V Act1 State Act 1 価値関数 V Actn State Act n 行動の個別評価によって選択肢数の変化に対応

Slide 6

Slide 6 text

Copyright © GREE, Inc. All Rights Reserved. • テキストゲームの特徴 • 状態を表す文章は長く複雑 • 行動を表す文章は短く単純 • 状態と行動それぞれを埋め込む • 強化学習と同時に埋め込みを学習 • 2つの埋め込み表現の関連度を評価 DRRNの行動の埋め込み 6 State h1 state h2 state Act 1 h1 act h2 act Relevance 1

Slide 7

Slide 7 text

Copyright © GREE, Inc. All Rights Reserved. 目的・提案手法 7 目的 • DRRNに基づくターン制コマンドバトルの強化学習効率化 • 行動が表形式のデータで表現される • ターンごとに行動を選択する 提案手法 1. マスタデータを用いた行動の埋め込み 2. 埋め込んだ行動を用いた強化学習

Slide 8

Slide 8 text

Copyright © GREE, Inc. All Rights Reserved. マスタデータ 行動の埋め込み 8 技 威力 命中率 物理 水 炎 雷 斬撃 20 90% True False False False 水魔法 30 60% False True False False 0.3 0.6 0.9 0.1 0.5 0.4 0.1 0.1 AutoEncoder

Slide 9

Slide 9 text

Copyright © GREE, Inc. All Rights Reserved. DRRN 行動の評価 9 提案手法 h1 h2 Value 1 State (Emb)Act 1 強化学習中に埋め込み獲得 埋め込まれた行動を入力 State h1 state h2 state Act 1 h1 act h2 act Relevance 1 … …

Slide 10

Slide 10 text

Copyright © GREE, Inc. All Rights Reserved. 比較手法 実験設定 10 埋め込み表現なし 埋め込み表現あり 行動の一括評価 DQN AE 行動の個別評価 PA-DQN AE+PA-DQN 実験方法 • Pokémon Showdown • 100ステップの学習ごとに100回の対戦で評価

Slide 11

Slide 11 text

Copyright © GREE, Inc. All Rights Reserved. • 2人対戦ターン制コマンドバトル • 6体のポケモンでチームを構成 • ターン毎に行動を1つ選択する • 行動の選択肢は最大9個 • 相手ポケモンの体力をすべて0にすると勝利 Pokémon Showdown 11

Slide 12

Slide 12 text

Copyright © GREE, Inc. All Rights Reserved. 実験結果 12 一括 個別

Slide 13

Slide 13 text

Copyright © GREE, Inc. All Rights Reserved. 実験結果 13 一括 個別 性能向上開始

Slide 14

Slide 14 text

Copyright © GREE, Inc. All Rights Reserved. 実験結果 14 埋め込みによって学習初期の学習効率が向上

Slide 15

Slide 15 text

Copyright © GREE, Inc. All Rights Reserved. 実験結果 15 行動を埋め込むと最終的な性能は劣る

Slide 16

Slide 16 text

Copyright © GREE, Inc. All Rights Reserved. 考察 • 行動の個別評価による効率化 • 状態の多様性が低くなる • 行動の純粋な価値を評価可能 • 行動の埋め込みによる性能低下 • 重要な特徴が無視される可能性 課題 • ドメイン知識を活用した埋め込み • 複数のキャラクタの行動を選択するゲームへ適用 考察・課題 16