Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20211208.pdf
Search
Keio Computer Society
December 17, 2021
0
14
20211208.pdf
Keio Computer Society
December 17, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
自然言語処理~Primer
kcs
0
96
Residual Network.pdf
kcs
0
140
Graph Neural Network
kcs
0
29
Kaggle上位者解法紹介.pdf
kcs
0
43
Scaling Laws for NL Models
kcs
0
47
音声合成の精度比較.pdf
kcs
0
160
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
26
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Six Lessons from altMBA
skipperchong
29
4.1k
Skip the Path - Find Your Career Trail
mkilby
0
28
Fireside Chat
paigeccino
41
3.8k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Abbi's Birthday
coloredviolet
0
4k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
32
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
0
68
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
97
Into the Great Unknown - MozCon
thekraken
40
2.2k
Bash Introduction
62gerente
615
210k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
140
Transcript
DQNを用いたゲームプレ イシステム
概要 ・アメリカの家庭用ゲーム機「Atari 2600」のゲームにおいて自動でゲームをす るボットを作成した ・そのボットでは、プレイヤーから見ることのできないプログラム内部の変数な どを一切参照せず、210×160の画素値のみから得られる情報を用いてゲームを プレイしている ・ブロック崩しやホッケーなどの7種類のゲームをプレイさせたが、そのいずれ もが既存の強化学習手法の成績を上回り、うち3種類のゲームでは人間のエキス パートの成績も上回った
・7種類のゲームにおいて使用したアルゴリズムおよびそのパラメーターなどは 全て同一であり、汎化性能に優れている(インベーダーゲームのみ画像取得のフ レームレートを変更したがそれ以外は基本的に同一)
用語 ・報酬 1ターンで得られる利益のこと ・収益 現在以降得られる報酬の合計のこと これを最大化するのが目的 ・価値 未確定である収益を計算するのは不可能であるため、現在の状態と方策 を決定したときの条件つき収益を計算して、それを価値と呼ぶ ・時間割引率
上記の収益を計算する際に将来起こる報酬を割り引いて計算する がその割合のこと ・行動状態関数 上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す
Q学習とは ・まず、初期状態では全ての行動状態関数(Q関数)がランダムな値に初期化され ている ・その後Q関数の値を更新していくが、更新の方法は、(即時報酬)+(次ステップ の価値最大の行動の価値の値)×(時間割引率)-(現在のQ関数の値)に学習率を掛 けたものの分だけQ関数の値を更新する ・そして、ゲームをプレイいくときに確率εでランダムな方策を選択し、確率1- εで現時点で最も価値が高くなる手を選択する(本研究では最初のεが1で、そこ から徐々に値を小さくしていき最終的には0.1となる) ・これを繰り返すことで、Q関数の値が適切になっていき徐々に好成績を出せる
ようになる
DQNとは ・深層学習とQ学習を組み合わせたモデルのこと ・入力として、現在の状態が与えられて(本研究では各画像の画素値)、そこから 行動(方策)に対する価値が出力されるようになっている ・その結果として報酬が得られるが、報酬は+1、0、-1のいずれかに固定され ており、その結果としてニューラルネットワークの重みが更新される ・行動状態関数がニューラルネットワークになったものだと考えればよい
実験について ・まず、210×160のRGB画像を110×84のグレースケール画像に変換する ・そこから84×84の画像を切り出してそれを最終的な入力としており、ニュー ラルネットワーク内部では畳み込み処理などを行っている ・出力として、有効な方策に対してその時点までのQ値を出力するが、有効な方 策の個数は約4~18個程度であった ・4フレームごと(インベーダーゲームのみ3フレームごと)にこの操作を行い、各 ゲーム1000万フレーム学習を行った
結果 ・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った ・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った