OSS強化学習向けゲーム環境の動向

Slide 1

Slide 1 text

Slide 2

Slide 2 text

● 自社ゲームを強化学習向け環境へ変換する場合 ● 可能ならマルコフ決定過程として定義する ● OSSサーベイにより、追加を検討した方が良い機能をリストしたので、そちらを参照して頂く ● 変換する際のインタフェース ● 環境側のサーベイ結果を見ても、事実上の標準はGym ● それで要件が足りるかはエージェント/フレームワーク次第 ● 次の発表を参照のこと OSS強化学習向けゲーム環境の動向本発表のサマリ

Slide 3

Slide 3 text

● 強化学習における環境とは（2min） ● OSS強化学習向けゲーム環境の歴史 (1min) ● 各OSSの紹介 (18min) ● ALE / Project Malmo / ViZDoom / DeepMind Lab / UnrealCV / OpenAI Gym / SC2LE / Unity ML-Agents Toolkit ● 各OSSから得られた知見まとめ（1min） ● もう一度サマリ (1min) OSS強化学習向けゲーム環境の動向目次

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ゲームを強化学習向け環境に変換する場合 ● できればマルコフ決定過程(MDP)として定義したい ○ 状態遷移確率P(s’|s,a)が成り立ってほしい ○ 報酬関数r(s, a, s’)を忘れずに定義する ○ 具体例はこの後、ALEの項目で話します ● 部分観測マルコフ決定過程として取り扱う事もできるが ○ エージェント側の検討事項が（多分）複雑になる

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Copyright © GREE, Inc. All Rights Reserved. Confidential OSS強化学習向けゲーム環境の歴史プロジェクト開始年と、当初の開発主体 ● Arcade Learning Environment(2012) ○ The Alberta Machine Intelligence Institute(カナダ) ● Project Malmo(2015) ○ Microsoft ● ViZDoom(2016) ○ Ponzan University of Technology(ポーランド) ● DeepMind Lab(2016) ○ DeepMind

Slide 9

Slide 9 text

Copyright © GREE, Inc. All Rights Reserved. Confidential OSS強化学習向けゲーム環境の歴史プロジェクト開始年と、当初の開発主体 ● UnrialCV(2016) ○ Johns Hopkins University(アメリカ) ● OpenAI Gym(2016) ○ OpenAI ● SC2LE(2017) ○ DeepMind / Blizzard ● Unity ML-Agents Toolkit(2018) ○ Unity Technologies

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：概要 ● general, domain-independentなAIの研究開発の推進を目的としてリリース ● Atari 2600エミュレータのStellaを利用している。数百のゲームが利用可能 ● deep Q-network(DQN)の開発に利用されたことで、広く知られるようになった ● 老舗だが今でも研究に使われる、重要な存在

Slide 13

Slide 13 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：行動と状態の定義 ● ALEはエージェントからjoystic motionに類する行動を受け取り、スクリーンとRAM(1024bit)の情報を返し、エミュレーションを実行する ● スクリーン情報(raw pixel)はMDPを満たさない。RAM情報によってMDPを満たすことができる ○ 厳密にはMDPを満たすためにレジスターやタイマーの情報も必要だが、些細な影響である ○ 同じ理由で、ランダムシード固定機能がある

Slide 14

Slide 14 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：DQNでの利用 ● DQNはpixel basedな手法なので、状態のMDPについて言及されている ● スクリーンバッファを状態とみなすとMDPは成り立たないが、スクリーンバッファと行動のシーケンス{x1, a1, x2, a2 ,,,}はMDPである、という主張 ○ Experience Replayのメリットの１つ ○ 実際には近似関数φでシーケンスを写像してる

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：フォワードモデルとしての機能 ● game-handling layerはエミュレータの状態をsaveし、 restoreできる ○ RAM、レジスタ、アドレスカウンタなど ● この特徴により、(MCTSなどの)プラニング手法が利用できる ○ →ある種のアルゴリズムには、１つ先の状態をシミュレートできるフォワードモデルが必要

Slide 17

Slide 17 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：エージェントから見た使い方 from ale_python_interface import ALEInterface ale = ALEInterface(); ale.loadROM(rom_file) agent = MyAgent() total_reward = 0; sc = np.empty(); ram = np.empty() while not ale.game_over(): total_reward += ale.act(agent.act(sc, ram)) sc = ale.getScreenRGB() ram = ale.getRAM()

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym：ラッパーの作り方 ● Envクラスを継承する ○ step : observation, reward, done, infoを返す ○ reset : 最初のobservationを返す ○ render : 画面のレンダリング等を行う ○ close : 環境を終了させる ○ seed : ランダムシードのセット ● といったメソッドを必要に応じて実装する

Slide 22

Slide 22 text

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym : 色々なラッパー ● Gym Retro ○ Librerto APIを利用したゲームエミュレータのラッパー ○ https://github.com/openai/retro ● Dolphn emulatorのラッパー ○ ゲームキューブとWiiのエミュレーター ○ https://arxiv.org/abs/1702.06230 で利用 ○ https://github.com/vladfi1/gym-dolphin ● XFLAGさんの社内利用事例 ○ https://speakerdeck.com/hidetakakojo/ji-jie-xue-xi-woshi- tutagemufalseyun-yong-sapototosagemakerrl

Slide 23

Slide 23 text

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym：エージェントからみた使い方 import gym env = gym.make(‘CartPole-v0’) agent = MyAgent() ob = env.reset(); reward = 0; done = False while True: env.render() ob, reward, done, _ = env.step(agent.act(ob, reward, done) if done: break env.close()

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Copyright © GREE, Inc. All Rights Reserved. Confidential UnrealCV：概要 ● UEのゲームを環境へ拡張する類のOSSは見つけられなかったので、似ているものをピックアップ ● UNREAL ENGINE 4で作られたコンテンツから、コンピュータビジョン研究用画像セットを動的に生成するためのUE4のプラグイン（とそれを利用するクライアントコード）

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ViZDoom：状態と行動 ● 状態 ○ ViZDoom環境はスクリーンバッファといくつかのゲームステータス(player’s health等)を出力する ○ スクリーンバッファとして深度情報も出力する ■ 人間のプレイヤーには必要ないが、エージェントには有用 ● 行動 ○ キーボードやマウスに対応する入力を受け取る

Slide 34

Slide 34 text

Copyright © GREE, Inc. All Rights Reserved. Confidential ViZDoom：コントロールモード ● synchronous/asynchronousモード ○ syncモードはエージェント側の入力をwaitする ■ 実験の再現性を担保したり、デバッグするためのモード ● player/spectatorモード ○ spectatorモードは人間がプレイし、エージェントがそれを観察するためのモード

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Copyright © GREE, Inc. All Rights Reserved. Confidential DeepMind Lab：特徴 ● lock-stepped interaction ○ ViSDoomでいうシンクモード ○ 各ステップにおいて、エージェントからアクションが送信されてくるまでゲームを停止させる ● 速度情報の観測 ○ ゲームエンジンでレンダリングしたピクセル情報 (RGB or RGBD)の他に、必要であれば速度＆各速度情報を送信する ○ MDPとするため？

Slide 39

Slide 39 text

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

Slide 43

Slide 43 text

Slide 44

Slide 44 text

Copyright © GREE, Inc. All Rights Reserved. Confidential SC2LE：行動の取り扱い ● atomic compound function ○ 連続操作で成り立つアクションを1つに纏める ○ 300 function と 13の引数タイプ ● エージェントのaction per minuteは人間プレイヤーと同じくらいに設定 ○ 人間のプレイログからの学習がシンプルになる

Slide 45

Slide 45 text

Slide 46

Slide 46 text

Slide 47

Slide 47 text

Slide 48

Slide 48 text

Copyright © GREE, Inc. All Rights Reserved. Confidential Malmo：概要 ● マイクロソフトによるプロジェクトで、マインクラフトをAI研究のプラットフォームにするためのラッパー ● マインクラフトのMOD(拡張)とクライアントのためのAPI からなる ● 最近はMalmoを更にラップするMarLoというOpenAI Gymのextentionを用いてコンテストを開催したりしてる

Slide 49

Slide 49 text

Slide 50

Slide 50 text

Copyright © GREE, Inc. All Rights Reserved. Confidential 自社ゲームを強化学習向け環境に変換する必須 ● 報酬とゲーム終了状態の定義 ● できればMDPを満たすために、何を状態とするか決めて、それを出力する検討 ● ランダムシード固定機能 ● 結合アクションの定義 ● レンダリング（ビデオキャプチャ）機能 ● シンクロモードの実装 ● フレームスキッピング含めた高速化 ● 学習の為のユーザプレイログの取得方法 ● テストとしてのミニゲーム ● フォワードモデルのためのsave/restore機能 ● headless build等の高速化

Slide 51

Slide 51 text

Slide 52

Slide 52 text

Slide 53

Slide 53 text

Copyright © GREE, Inc. All Rights Reserved. Confidential refs ● ALE ○ https://jair.org/index.php/jair/article/view/10819 ● Gym ○ https://arxiv.org/abs/1606.01540 ● ML-Agents ○ https://arxiv.org/abs/1809.02627 ● UnrealCV ○ https://arxiv.org/abs/1609.01326 ● ViZDoom ○ https://arxiv.org/abs/1605.02097 ● DeepMind Lab ○ https://deepmind.com/documents/29/DeepMindLab.pdf ● SC2LE ○ https://arxiv.org/abs/1708.04782 ● Malmo ○ https://www.ijcai.org/Proceedings/16/Papers/643.pdf

Slide 54

Slide 54 text