Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20211208.pdf
Search
Keio Computer Society
December 17, 2021
0
12
20211208.pdf
Keio Computer Society
December 17, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
自然言語処理~Primer
kcs
0
94
Residual Network.pdf
kcs
0
120
Graph Neural Network
kcs
0
27
Kaggle上位者解法紹介.pdf
kcs
0
42
Scaling Laws for NL Models
kcs
0
44
音声合成の精度比較.pdf
kcs
0
150
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
25
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Code Reviewing Like a Champion
maltzj
524
40k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Navigating Team Friction
lara
187
15k
Optimizing for Happiness
mojombo
379
70k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Writing Fast Ruby
sferik
628
62k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.7k
Become a Pro
speakerdeck
PRO
29
5.4k
Transcript
DQNを用いたゲームプレ イシステム
概要 ・アメリカの家庭用ゲーム機「Atari 2600」のゲームにおいて自動でゲームをす るボットを作成した ・そのボットでは、プレイヤーから見ることのできないプログラム内部の変数な どを一切参照せず、210×160の画素値のみから得られる情報を用いてゲームを プレイしている ・ブロック崩しやホッケーなどの7種類のゲームをプレイさせたが、そのいずれ もが既存の強化学習手法の成績を上回り、うち3種類のゲームでは人間のエキス パートの成績も上回った
・7種類のゲームにおいて使用したアルゴリズムおよびそのパラメーターなどは 全て同一であり、汎化性能に優れている(インベーダーゲームのみ画像取得のフ レームレートを変更したがそれ以外は基本的に同一)
用語 ・報酬 1ターンで得られる利益のこと ・収益 現在以降得られる報酬の合計のこと これを最大化するのが目的 ・価値 未確定である収益を計算するのは不可能であるため、現在の状態と方策 を決定したときの条件つき収益を計算して、それを価値と呼ぶ ・時間割引率
上記の収益を計算する際に将来起こる報酬を割り引いて計算する がその割合のこと ・行動状態関数 上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す
Q学習とは ・まず、初期状態では全ての行動状態関数(Q関数)がランダムな値に初期化され ている ・その後Q関数の値を更新していくが、更新の方法は、(即時報酬)+(次ステップ の価値最大の行動の価値の値)×(時間割引率)-(現在のQ関数の値)に学習率を掛 けたものの分だけQ関数の値を更新する ・そして、ゲームをプレイいくときに確率εでランダムな方策を選択し、確率1- εで現時点で最も価値が高くなる手を選択する(本研究では最初のεが1で、そこ から徐々に値を小さくしていき最終的には0.1となる) ・これを繰り返すことで、Q関数の値が適切になっていき徐々に好成績を出せる
ようになる
DQNとは ・深層学習とQ学習を組み合わせたモデルのこと ・入力として、現在の状態が与えられて(本研究では各画像の画素値)、そこから 行動(方策)に対する価値が出力されるようになっている ・その結果として報酬が得られるが、報酬は+1、0、-1のいずれかに固定され ており、その結果としてニューラルネットワークの重みが更新される ・行動状態関数がニューラルネットワークになったものだと考えればよい
実験について ・まず、210×160のRGB画像を110×84のグレースケール画像に変換する ・そこから84×84の画像を切り出してそれを最終的な入力としており、ニュー ラルネットワーク内部では畳み込み処理などを行っている ・出力として、有効な方策に対してその時点までのQ値を出力するが、有効な方 策の個数は約4~18個程度であった ・4フレームごと(インベーダーゲームのみ3フレームごと)にこの操作を行い、各 ゲーム1000万フレーム学習を行った
結果 ・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った ・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った