Slide 1
Slide 1 text
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
・Atari2600タスクの6/7で先行研究のRLアルゴリズムを上回った
・3つのタスクで人間のエキスパート (プロゲーマー)を上回った
・経験データを使って重み更新をするためサンプル効率が高い
・7つのゲームで,全て同じアーキテクチャ,アルゴリズム,ハイパ
ラを設定
・「ランダム行動,Sarsa,Contingency,2時間程度ゲームした人
間」とDQN (提案手法)を比較した
・Atariフレーム (3, 210, 160)を前処理フレーム (1, 84, 84)にする
・前処理フレームを4つ重ねて処理する (4, 84, 84)
・CNNで複数回処理して,最後に完全結合層で処理する
・出力は,行動 (action)が出力される
・Atari2600タスクに対して,CNNで特徴量を獲得してDQNで学習
してゲームタスクを解いたもの
Playing Atari with Deep Reinforcement Learning
(NIPS Deep Learning Workshop 2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
https://arxiv.org/abs/1312.5602
2024/01/30
論文を表す画像
被引用数:13964
1/10