OSS強化学習向けゲーム環境の動向

Copyright © GREE, Inc. All Rights Reserved. Confidential OSS強化学習向けゲーム環境の動向グリー株式会社
開発本部森田想平

• 自社ゲームを強化学習向け環境へ変換する場合 • 可能ならマルコフ決定過程として定義する • OSSサーベイにより、追加を検討した方が良い機能をリストしたので、そちらを参照して頂く • 変換する際のインタフェース •
環境側のサーベイ結果を見ても、事実上の標準はGym • それで要件が足りるかはエージェント/フレームワーク次第 • 次の発表を参照のこと OSS強化学習向けゲーム環境の動向本発表のサマリ

• 強化学習における環境とは（2min） • OSS強化学習向けゲーム環境の歴史 (1min) • 各OSSの紹介 (18min) • ALE
/ Project Malmo / ViZDoom / DeepMind Lab / UnrealCV / OpenAI Gym / SC2LE / Unity ML-Agents Toolkit • 各OSSから得られた知見まとめ（1min） • もう一度サマリ (1min) OSS強化学習向けゲーム環境の動向目次

Copyright © GREE, Inc. All Rights Reserved. Confidential 強化学習における環境とはゲーム環境
の実装エージェントの実装

Copyright © GREE, Inc. All Rights Reserved. Confidential （部分観測）マルコフ決定過程強化学習における環境とは
ゲーム環境の実装エージェントの実装行動報酬状態

Copyright © GREE, Inc. All Rights Reserved. Confidential ゲームを強化学習向け環境に変換する場合 •
できればマルコフ決定過程(MDP)として定義したい ◦ 状態遷移確率P(s’|s,a)が成り立ってほしい ◦ 報酬関数r(s, a, s’)を忘れずに定義する ◦ 具体例はこの後、ALEの項目で話します • 部分観測マルコフ決定過程として取り扱う事もできるが ◦ エージェント側の検討事項が（多分）複雑になる

Copyright © GREE, Inc. All Rights Reserved. Confidential OSS強化学習向けゲーム環境の歴史プロジェクト開始年と、当初の開発主体
• Arcade Learning Environment(2012) ◦ The Alberta Machine Intelligence Institute(カナダ) • Project Malmo(2015) ◦ Microsoft • ViZDoom(2016) ◦ Ponzan University of Technology(ポーランド) • DeepMind Lab(2016) ◦ DeepMind

Copyright © GREE, Inc. All Rights Reserved. Confidential OSS強化学習向けゲーム環境の歴史プロジェクト開始年と、当初の開発主体
• UnrialCV(2016) ◦ Johns Hopkins University(アメリカ) • OpenAI Gym(2016) ◦ OpenAI • SC2LE(2017) ◦ DeepMind / Blizzard • Unity ML-Agents Toolkit(2018) ◦ Unity Technologies

Copyright © GREE, Inc. All Rights Reserved. Confidential Arcade Learning
Environment

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：概要 •
general, domain-independentなAIの研究開発の推進を目的としてリリース • Atari 2600エミュレータのStellaを利用している。数百のゲームが利用可能 • deep Q-network(DQN)の開発に利用されたことで、広く知られるようになった • 老舗だが今でも研究に使われる、重要な存在

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：行動と状態の定義 •
ALEはエージェントからjoystic motionに類する行動を受け取り、スクリーンとRAM(1024bit)の情報を返し、エミュレーションを実行する • スクリーン情報(raw pixel)はMDPを満たさない。RAM情報によってMDPを満たすことができる ◦ 厳密にはMDPを満たすためにレジスターやタイマーの情報も必要だが、些細な影響である ◦ 同じ理由で、ランダムシード固定機能がある

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：DQNでの利用 •
DQNはpixel basedな手法なので、状態のMDPについて言及されている • スクリーンバッファを状態とみなすとMDPは成り立たないが、スクリーンバッファと行動のシーケンス{x1, a1, x2, a2 ,,,}はMDPである、という主張 ◦ Experience Replayのメリットの１つ ◦ 実際には近似関数φでシーケンスを写像してる

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：強化学習問題への形式化 •
ALE内のgame-handling layerが各ゲームを強化学習に適した形式に変換する ◦ 累積スコアの定義 ◦ ゲーム終了状態の定義 • →これらを定義すれば、一般的なゲームは強化学習に適した形式になる

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：フォワードモデルとしての機能 •
game-handling layerはエミュレータの状態をsaveし、 restoreできる ◦ RAM、レジスタ、アドレスカウンタなど • この特徴により、(MCTSなどの)プラニング手法が利用できる ◦ →ある種のアルゴリズムには、１つ先の状態をシミュレートできるフォワードモデルが必要

Copyright © GREE, Inc. All Rights Reserved. Confidential ALE：エージェントから見た使い方 from
ale_python_interface import ALEInterface ale = ALEInterface(); ale.loadROM(rom_file) agent = MyAgent() total_reward = 0; sc = np.empty(); ram = np.empty() while not ale.game_over(): total_reward += ale.act(agent.act(sc, ram)) sc = ale.getScreenRGB() ram = ale.getRAM()

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym：概要 •
OpenAIがホストするプロジェクト • ラッパーとして、「環境」の統一的なインタフェースを提供する ◦ Gymプロジェクトが公式にラップしてる環境も沢山 • 今回並列してリストしているが立ち位置が少し違う

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym：概要 •
事実上の標準インタフェース • ラッパーが作りやすい ◦ gym.Envクラスを継承すればよい • ALEも（このあと紹介する）MalmoもML-Agentsも ViZDoomも、gymラッパーがある

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym：ラッパーの作り方 •
Envクラスを継承する ◦ step : observation, reward, done, infoを返す ◦ reset : 最初のobservationを返す ◦ render : 画面のレンダリング等を行う ◦ close : 環境を終了させる ◦ seed : ランダムシードのセット • といったメソッドを必要に応じて実装する

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym :
色々なラッパー • Gym Retro ◦ Librerto APIを利用したゲームエミュレータのラッパー ◦ https://github.com/openai/retro • Dolphn emulatorのラッパー ◦ ゲームキューブとWiiのエミュレーター ◦ https://arxiv.org/abs/1702.06230 で利用 ◦ https://github.com/vladfi1/gym-dolphin • XFLAGさんの社内利用事例 ◦ https://speakerdeck.com/hidetakakojo/ji-jie-xue-xi-woshi- tutagemufalseyun-yong-sapototosagemakerrl

Copyright © GREE, Inc. All Rights Reserved. Confidential Gym：エージェントからみた使い方 import
gym env = gym.make(‘CartPole-v0’) agent = MyAgent() ob = env.reset(); reward = 0; done = False while True: env.render() ob, reward, done, _ = env.step(agent.act(ob, reward, done) if done: break env.close()

Copyright © GREE, Inc. All Rights Reserved. Confidential Unity ML-Agents
Toolkit

Copyright © GREE, Inc. All Rights Reserved. Confidential ML-Agents：概要 •
Unityによる公式プロジェクトで、Unityのプラグイン • 推論モデルの、ビルド後のゲーム内での利用もユースケースとなっている • MLフレームワークが利用するPython APIや、そのgymラッパーがある • Dockerfileが用意されてる

Copyright © GREE, Inc. All Rights Reserved. Confidential UnrealCV：概要 •
UEのゲームを環境へ拡張する類のOSSは見つけられなかったので、似ているものをピックアップ • UNREAL ENGINE 4で作られたコンテンツから、コンピュータビジョン研究用画像セットを動的に生成するためのUE4のプラグイン（とそれを利用するクライアントコード）

Copyright © GREE, Inc. All Rights Reserved. Confidential UnrealCV：CV研究のための機能 •
画面キャプチャの他に、ground truthとしての深度情報やオブジェクトセグメンテーション等を出力する

Copyright © GREE, Inc. All Rights Reserved. Confidential First Person
Shooter系

Copyright © GREE, Inc. All Rights Reserved. Confidential ViZDoom：概要 •
Ponzan University of Technologyの研究者によるプロジェクト • 初代Doom(ZDoom)をラップしている • 一人称視点で3Dな環境からvisual inputを受け取るための環境

Copyright © GREE, Inc. All Rights Reserved. Confidential ViZDoom：状態と行動 •
状態 ◦ ViZDoom環境はスクリーンバッファといくつかのゲームステータス(player’s health等)を出力する ◦ スクリーンバッファとして深度情報も出力する ▪ 人間のプレイヤーには必要ないが、エージェントには有用 • 行動 ◦ キーボードやマウスに対応する入力を受け取る

Copyright © GREE, Inc. All Rights Reserved. Confidential ViZDoom：コントロールモード •
synchronous/asynchronousモード ◦ syncモードはエージェント側の入力をwaitする ▪ 実験の再現性を担保したり、デバッグするためのモード • player/spectatorモード ◦ spectatorモードは人間がプレイし、エージェントがそれを観察するためのモード

Copyright © GREE, Inc. All Rights Reserved. Confidential DeepMind Lab：特徴
• lock-stepped interaction ◦ ViSDoomでいうシンクモード ◦ 各ステップにおいて、エージェントからアクションが送信されてくるまでゲームを停止させる • 速度情報の観測 ◦ ゲームエンジンでレンダリングしたピクセル情報 (RGB or RGBD)の他に、必要であれば速度＆各速度情報を送信する ◦ MDPとするため？

Copyright © GREE, Inc. All Rights Reserved. Confidential SC2LE：行動の取り扱い •
atomic compound function ◦ 連続操作で成り立つアクションを1つに纏める ◦ 300 function と 13の引数タイプ • エージェントのaction per minuteは人間プレイヤーと同じくらいに設定 ◦ 人間のプレイログからの学習がシンプルになる

Copyright © GREE, Inc. All Rights Reserved. Confidential Malmo：概要 •
マイクロソフトによるプロジェクトで、マインクラフトをAI研究のプラットフォームにするためのラッパー • マインクラフトのMOD(拡張)とクライアントのためのAPI からなる • 最近はMalmoを更にラップするMarLoというOpenAI Gymのextentionを用いてコンテストを開催したりしてる

Copyright © GREE, Inc. All Rights Reserved. Confidential 自社ゲームを強化学習向け環境に変換する必須
• 報酬とゲーム終了状態の定義 • できればMDPを満たすために、何を状態とするか決めて、それを出力する検討 • ランダムシード固定機能 • 結合アクションの定義 • レンダリング（ビデオキャプチャ）機能 • シンクロモードの実装 • フレームスキッピング含めた高速化 • 学習の為のユーザプレイログの取得方法 • テストとしてのミニゲーム • フォワードモデルのためのsave/restore機能 • headless build等の高速化

• 自社ゲームを強化学習向け環境へ変換する場合 • 可能ならマルコフ決定過程として定義する • OSSサーベイにより、追加を検討した方が良い機能をリストしたので、そちらを参照して頂く • 変換する際のインタフェース •
環境側のサーベイ結果を見ても、事実上の標準はGym • それで要件が足りるかはエージェント/フレームワーク次第 • 次の発表を参照のこと OSS強化学習向けゲーム環境の動向本発表のサマリ

Copyright © GREE, Inc. All Rights Reserved. Confidential refs •
ALE ◦ https://jair.org/index.php/jair/article/view/10819 • Gym ◦ https://arxiv.org/abs/1606.01540 • ML-Agents ◦ https://arxiv.org/abs/1809.02627 • UnrealCV ◦ https://arxiv.org/abs/1609.01326 • ViZDoom ◦ https://arxiv.org/abs/1605.02097 • DeepMind Lab ◦ https://deepmind.com/documents/29/DeepMindLab.pdf • SC2LE ◦ https://arxiv.org/abs/1708.04782 • Malmo ◦ https://www.ijcai.org/Proceedings/16/Papers/643.pdf

OSS強化学習向けゲーム環境の動向

OSS強化学習向けゲーム環境の動向

More Decks by gree_tech

Other Decks in Technology

Featured

Transcript