20211208.pdf

DQNを用いたゲームプレイシステム

概要・アメリカの家庭用ゲーム機「Atari 2600」のゲームにおいて自動でゲームをするボットを作成した・そのボットでは、プレイヤーから見ることのできないプログラム内部の変数などを一切参照せず、210×160の画素値のみから得られる情報を用いてゲームをプレイしている・ブロック崩しやホッケーなどの7種類のゲームをプレイさせたが、そのいずれもが既存の強化学習手法の成績を上回り、うち3種類のゲームでは人間のエキスパートの成績も上回った
・7種類のゲームにおいて使用したアルゴリズムおよびそのパラメーターなどは全て同一であり、汎化性能に優れている(インベーダーゲームのみ画像取得のフレームレートを変更したがそれ以外は基本的に同一)

用語・報酬 1ターンで得られる利益のこと・収益現在以降得られる報酬の合計のことこれを最大化するのが目的・価値未確定である収益を計算するのは不可能であるため、現在の状態と方策を決定したときの条件つき収益を計算して、それを価値と呼ぶ・時間割引率
上記の収益を計算する際に将来起こる報酬を割り引いて計算するがその割合のこと・行動状態関数上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す

Q学習とは・まず、初期状態では全ての行動状態関数(Q関数)がランダムな値に初期化されている・その後Q関数の値を更新していくが、更新の方法は、(即時報酬)+(次ステップの価値最大の行動の価値の値)×(時間割引率)－(現在のQ関数の値)に学習率を掛けたものの分だけQ関数の値を更新する・そして、ゲームをプレイいくときに確率εでランダムな方策を選択し、確率1- εで現時点で最も価値が高くなる手を選択する(本研究では最初のεが1で、そこから徐々に値を小さくしていき最終的には0.1となる) ・これを繰り返すことで、Q関数の値が適切になっていき徐々に好成績を出せる
ようになる

DQNとは・深層学習とQ学習を組み合わせたモデルのこと・入力として、現在の状態が与えられて(本研究では各画像の画素値)、そこから行動(方策)に対する価値が出力されるようになっている・その結果として報酬が得られるが、報酬は+1、0、－1のいずれかに固定されており、その結果としてニューラルネットワークの重みが更新される・行動状態関数がニューラルネットワークになったものだと考えればよい

実験について・まず、210×160のRGB画像を110×84のグレースケール画像に変換する・そこから84×84の画像を切り出してそれを最終的な入力としており、ニューラルネットワーク内部では畳み込み処理などを行っている・出力として、有効な方策に対してその時点までのＱ値を出力するが、有効な方策の個数は約4～18個程度であった・4フレームごと(インベーダーゲームのみ3フレームごと)にこの操作を行い、各ゲーム1000万フレーム学習を行った

結果・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った

20211208.pdf

20211208.pdf

Keio Computer Society

More Decks by Keio Computer Society

Featured

Transcript

DQNを用いたゲームプレイシステム

結果・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った