Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20211208.pdf
Search
Keio Computer Society
December 17, 2021
0
13
20211208.pdf
Keio Computer Society
December 17, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
自然言語処理~Primer
kcs
0
94
Residual Network.pdf
kcs
0
130
Graph Neural Network
kcs
0
27
Kaggle上位者解法紹介.pdf
kcs
0
42
Scaling Laws for NL Models
kcs
0
44
音声合成の精度比較.pdf
kcs
0
160
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
25
Featured
See All Featured
Optimizing for Happiness
mojombo
379
70k
Side Projects
sachag
455
43k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
The Art of Programming - Codeland 2020
erikaheidi
56
13k
Writing Fast Ruby
sferik
628
62k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Transcript
DQNを用いたゲームプレ イシステム
概要 ・アメリカの家庭用ゲーム機「Atari 2600」のゲームにおいて自動でゲームをす るボットを作成した ・そのボットでは、プレイヤーから見ることのできないプログラム内部の変数な どを一切参照せず、210×160の画素値のみから得られる情報を用いてゲームを プレイしている ・ブロック崩しやホッケーなどの7種類のゲームをプレイさせたが、そのいずれ もが既存の強化学習手法の成績を上回り、うち3種類のゲームでは人間のエキス パートの成績も上回った
・7種類のゲームにおいて使用したアルゴリズムおよびそのパラメーターなどは 全て同一であり、汎化性能に優れている(インベーダーゲームのみ画像取得のフ レームレートを変更したがそれ以外は基本的に同一)
用語 ・報酬 1ターンで得られる利益のこと ・収益 現在以降得られる報酬の合計のこと これを最大化するのが目的 ・価値 未確定である収益を計算するのは不可能であるため、現在の状態と方策 を決定したときの条件つき収益を計算して、それを価値と呼ぶ ・時間割引率
上記の収益を計算する際に将来起こる報酬を割り引いて計算する がその割合のこと ・行動状態関数 上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す
Q学習とは ・まず、初期状態では全ての行動状態関数(Q関数)がランダムな値に初期化され ている ・その後Q関数の値を更新していくが、更新の方法は、(即時報酬)+(次ステップ の価値最大の行動の価値の値)×(時間割引率)-(現在のQ関数の値)に学習率を掛 けたものの分だけQ関数の値を更新する ・そして、ゲームをプレイいくときに確率εでランダムな方策を選択し、確率1- εで現時点で最も価値が高くなる手を選択する(本研究では最初のεが1で、そこ から徐々に値を小さくしていき最終的には0.1となる) ・これを繰り返すことで、Q関数の値が適切になっていき徐々に好成績を出せる
ようになる
DQNとは ・深層学習とQ学習を組み合わせたモデルのこと ・入力として、現在の状態が与えられて(本研究では各画像の画素値)、そこから 行動(方策)に対する価値が出力されるようになっている ・その結果として報酬が得られるが、報酬は+1、0、-1のいずれかに固定され ており、その結果としてニューラルネットワークの重みが更新される ・行動状態関数がニューラルネットワークになったものだと考えればよい
実験について ・まず、210×160のRGB画像を110×84のグレースケール画像に変換する ・そこから84×84の画像を切り出してそれを最終的な入力としており、ニュー ラルネットワーク内部では畳み込み処理などを行っている ・出力として、有効な方策に対してその時点までのQ値を出力するが、有効な方 策の個数は約4~18個程度であった ・4フレームごと(インベーダーゲームのみ3フレームごと)にこの操作を行い、各 ゲーム1000万フレーム学習を行った
結果 ・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った ・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った