Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20211208.pdf
Search
Keio Computer Society
December 17, 2021
0
12
20211208.pdf
Keio Computer Society
December 17, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
自然言語処理~Primer
kcs
0
94
Residual Network.pdf
kcs
0
120
Graph Neural Network
kcs
0
27
Kaggle上位者解法紹介.pdf
kcs
0
42
Scaling Laws for NL Models
kcs
0
44
音声合成の精度比較.pdf
kcs
0
150
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
25
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
173
14k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
690
The Cult of Friendly URLs
andyhume
79
6.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Embracing the Ebb and Flow
colly
86
4.7k
Building an army of robots
kneath
306
45k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
How to train your dragon (web standard)
notwaldorf
95
6.1k
We Have a Design System, Now What?
morganepeng
53
7.7k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
A better future with KSS
kneath
238
17k
Transcript
DQNを用いたゲームプレ イシステム
概要 ・アメリカの家庭用ゲーム機「Atari 2600」のゲームにおいて自動でゲームをす るボットを作成した ・そのボットでは、プレイヤーから見ることのできないプログラム内部の変数な どを一切参照せず、210×160の画素値のみから得られる情報を用いてゲームを プレイしている ・ブロック崩しやホッケーなどの7種類のゲームをプレイさせたが、そのいずれ もが既存の強化学習手法の成績を上回り、うち3種類のゲームでは人間のエキス パートの成績も上回った
・7種類のゲームにおいて使用したアルゴリズムおよびそのパラメーターなどは 全て同一であり、汎化性能に優れている(インベーダーゲームのみ画像取得のフ レームレートを変更したがそれ以外は基本的に同一)
用語 ・報酬 1ターンで得られる利益のこと ・収益 現在以降得られる報酬の合計のこと これを最大化するのが目的 ・価値 未確定である収益を計算するのは不可能であるため、現在の状態と方策 を決定したときの条件つき収益を計算して、それを価値と呼ぶ ・時間割引率
上記の収益を計算する際に将来起こる報酬を割り引いて計算する がその割合のこと ・行動状態関数 上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す
Q学習とは ・まず、初期状態では全ての行動状態関数(Q関数)がランダムな値に初期化され ている ・その後Q関数の値を更新していくが、更新の方法は、(即時報酬)+(次ステップ の価値最大の行動の価値の値)×(時間割引率)-(現在のQ関数の値)に学習率を掛 けたものの分だけQ関数の値を更新する ・そして、ゲームをプレイいくときに確率εでランダムな方策を選択し、確率1- εで現時点で最も価値が高くなる手を選択する(本研究では最初のεが1で、そこ から徐々に値を小さくしていき最終的には0.1となる) ・これを繰り返すことで、Q関数の値が適切になっていき徐々に好成績を出せる
ようになる
DQNとは ・深層学習とQ学習を組み合わせたモデルのこと ・入力として、現在の状態が与えられて(本研究では各画像の画素値)、そこから 行動(方策)に対する価値が出力されるようになっている ・その結果として報酬が得られるが、報酬は+1、0、-1のいずれかに固定され ており、その結果としてニューラルネットワークの重みが更新される ・行動状態関数がニューラルネットワークになったものだと考えればよい
実験について ・まず、210×160のRGB画像を110×84のグレースケール画像に変換する ・そこから84×84の画像を切り出してそれを最終的な入力としており、ニュー ラルネットワーク内部では畳み込み処理などを行っている ・出力として、有効な方策に対してその時点までのQ値を出力するが、有効な方 策の個数は約4~18個程度であった ・4フレームごと(インベーダーゲームのみ3フレームごと)にこの操作を行い、各 ゲーム1000万フレーム学習を行った
結果 ・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った ・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った