Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20211208.pdf
Search
Keio Computer Society
December 17, 2021
0
15
20211208.pdf
Keio Computer Society
December 17, 2021
Tweet
Share
More Decks by Keio Computer Society
See All by Keio Computer Society
自然言語処理~Primer
kcs
0
98
Residual Network.pdf
kcs
0
140
Graph Neural Network
kcs
0
29
Kaggle上位者解法紹介.pdf
kcs
0
46
Scaling Laws for NL Models
kcs
0
48
音声合成の精度比較.pdf
kcs
0
170
ブロックチェーンによる自律AIのための遺伝的アルゴリズムの検討
kcs
0
27
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.8k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
230
AI: The stuff that nobody shows you
jnunemaker
PRO
3
340
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
KATA
mclloyd
PRO
35
15k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.4k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Transcript
DQNを用いたゲームプレ イシステム
概要 ・アメリカの家庭用ゲーム機「Atari 2600」のゲームにおいて自動でゲームをす るボットを作成した ・そのボットでは、プレイヤーから見ることのできないプログラム内部の変数な どを一切参照せず、210×160の画素値のみから得られる情報を用いてゲームを プレイしている ・ブロック崩しやホッケーなどの7種類のゲームをプレイさせたが、そのいずれ もが既存の強化学習手法の成績を上回り、うち3種類のゲームでは人間のエキス パートの成績も上回った
・7種類のゲームにおいて使用したアルゴリズムおよびそのパラメーターなどは 全て同一であり、汎化性能に優れている(インベーダーゲームのみ画像取得のフ レームレートを変更したがそれ以外は基本的に同一)
用語 ・報酬 1ターンで得られる利益のこと ・収益 現在以降得られる報酬の合計のこと これを最大化するのが目的 ・価値 未確定である収益を計算するのは不可能であるため、現在の状態と方策 を決定したときの条件つき収益を計算して、それを価値と呼ぶ ・時間割引率
上記の収益を計算する際に将来起こる報酬を割り引いて計算する がその割合のこと ・行動状態関数 上記の価値を計算するときに用いる関数のことであり、記号 Q(状態,方策)で表す
Q学習とは ・まず、初期状態では全ての行動状態関数(Q関数)がランダムな値に初期化され ている ・その後Q関数の値を更新していくが、更新の方法は、(即時報酬)+(次ステップ の価値最大の行動の価値の値)×(時間割引率)-(現在のQ関数の値)に学習率を掛 けたものの分だけQ関数の値を更新する ・そして、ゲームをプレイいくときに確率εでランダムな方策を選択し、確率1- εで現時点で最も価値が高くなる手を選択する(本研究では最初のεが1で、そこ から徐々に値を小さくしていき最終的には0.1となる) ・これを繰り返すことで、Q関数の値が適切になっていき徐々に好成績を出せる
ようになる
DQNとは ・深層学習とQ学習を組み合わせたモデルのこと ・入力として、現在の状態が与えられて(本研究では各画像の画素値)、そこから 行動(方策)に対する価値が出力されるようになっている ・その結果として報酬が得られるが、報酬は+1、0、-1のいずれかに固定され ており、その結果としてニューラルネットワークの重みが更新される ・行動状態関数がニューラルネットワークになったものだと考えればよい
実験について ・まず、210×160のRGB画像を110×84のグレースケール画像に変換する ・そこから84×84の画像を切り出してそれを最終的な入力としており、ニュー ラルネットワーク内部では畳み込み処理などを行っている ・出力として、有効な方策に対してその時点までのQ値を出力するが、有効な方 策の個数は約4~18個程度であった ・4フレームごと(インベーダーゲームのみ3フレームごと)にこの操作を行い、各 ゲーム1000万フレーム学習を行った
結果 ・7つのゲーム(B. Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、S. Invaders)全てで既存の手法を上回った ・ 3つのゲーム(Breakout、Enduro、Pong)全てで既存の手法を上回った