Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゲームバランス調整補助のための強化学習の効率化

 ゲームバランス調整補助のための強化学習の効率化

『CCSE2019』で発表された資料です。
https://ccse.jp/2019/

gree_tech

August 02, 2019
Tweet

More Decks by gree_tech

Other Decks in Technology

Transcript

  1. Copyright © GREE, Inc. All Rights Reserved. • 継続的なコンテンツ追加が必要 •

    バランス調整作業に工数を費やしている • パラメータ変更 • バランス確認のためのテストプレイ • AIによるテストプレイを利用した事例が存在 背景 2 強化学習によるテストプレイAIで効率化
  2. Copyright © GREE, Inc. All Rights Reserved. 課題 3 •

    強化学習には膨大な時間と計算リソースが必要 • コンテンツのリリース間隔が短い 強化学習を開発サイクルに組み込めない
  3. Copyright © GREE, Inc. All Rights Reserved. Deep Reinforcement Learning

    with a Natural Language Action Space He et al., 2016 ゲームの強化学習効率化に関する先行研究 4 • テキストゲームの強化学習効率化 • 状態が自然言語で表される • 行動を自然言語で入力する • Deep Reinforcement Relevance Network (DRRN) • 行動を個別に評価 • 状態と行動をそれぞれ埋め込む あなたは川のそばにいます > 南へ行く 川は5cm程の隙間に流れ込んでいます > 隙間へ行く 隙間は狭すぎて入れません
  4. Copyright © GREE, Inc. All Rights Reserved. DRRN DRRNの行動の個別評価 5

    DQN 行動を一括評価 行動を個別に評価 State Act 1 … Act n V Act1 … V Actn 価値関数 … 価値関数 V Act1 State Act 1 価値関数 V Actn State Act n 行動の個別評価によって選択肢数の変化に対応
  5. Copyright © GREE, Inc. All Rights Reserved. • テキストゲームの特徴 •

    状態を表す文章は長く複雑 • 行動を表す文章は短く単純 • 状態と行動それぞれを埋め込む • 強化学習と同時に埋め込みを学習 • 2つの埋め込み表現の関連度を評価 DRRNの行動の埋め込み 6 State h1 state h2 state Act 1 h1 act h2 act Relevance 1
  6. Copyright © GREE, Inc. All Rights Reserved. 目的・提案手法 7 目的

    • DRRNに基づくターン制コマンドバトルの強化学習効率化 • 行動が表形式のデータで表現される • ターンごとに行動を選択する 提案手法 1. マスタデータを用いた行動の埋め込み 2. 埋め込んだ行動を用いた強化学習
  7. Copyright © GREE, Inc. All Rights Reserved. マスタデータ 行動の埋め込み 8

    技 威力 命中率 物理 水 炎 雷 斬撃 20 90% True False False False 水魔法 30 60% False True False False 0.3 0.6 0.9 0.1 0.5 0.4 0.1 0.1 AutoEncoder
  8. Copyright © GREE, Inc. All Rights Reserved. DRRN 行動の評価 9

    提案手法 h1 h2 Value 1 State (Emb)Act 1 強化学習中に埋め込み獲得 埋め込まれた行動を入力 State h1 state h2 state Act 1 h1 act h2 act Relevance 1 … …
  9. Copyright © GREE, Inc. All Rights Reserved. 比較手法 実験設定 10

    埋め込み表現なし 埋め込み表現あり 行動の一括評価 DQN AE 行動の個別評価 PA-DQN AE+PA-DQN 実験方法 • Pokémon Showdown • 100ステップの学習ごとに100回の対戦で評価
  10. Copyright © GREE, Inc. All Rights Reserved. • 2人対戦ターン制コマンドバトル •

    6体のポケモンでチームを構成 • ターン毎に行動を1つ選択する • 行動の選択肢は最大9個 • 相手ポケモンの体力をすべて0にすると勝利 Pokémon Showdown 11
  11. Copyright © GREE, Inc. All Rights Reserved. 考察 • 行動の個別評価による効率化

    • 状態の多様性が低くなる • 行動の純粋な価値を評価可能 • 行動の埋め込みによる性能低下 • 重要な特徴が無視される可能性 課題 • ドメイン知識を活用した埋め込み • 複数のキャラクタの行動を選択するゲームへ適用 考察・課題 16