Slide 1
Slide 1 text
・Atari 2600の49種類のゲームを使用して性能を評価した.
・各ゲームにおいてDQNは観測画像を入力として使用し,従来研究
や人間と比較して高いスコアを達成した.
・先行研究では,特徴を手動で設計する必要があり,低次元の状態
空間でのタスクに限定されていた.
・本研究で提案されたDQNは高次元の入力から直接学習を行うこと
ができる.
・CNNを用いて状態空間を処理し,行動価値関数を近似することが
技術的な肝となっている.
・経験再生を使用して,サンプル間の相関関係を低減した.これに
より,例えばゲームの次のステップでどのような状態に遷移するか
わかりやすいデータの相関を断ち切ることが可能になった.
・高次元の状態入力から方策を学習できるDQNを提案した.
・Atari2600のゲームタスクにおいて,ゲーム内の画像 (状態)を入
力として人間超えの性能を示した.
・DQNが広範なタスクに対して効果的であることを証明した.
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
Human-level control through deep reinforcement learning
(Nature 2015) Volodymyr Mnih et al., Google DeepMind et al.
https://www.nature.com/articles/nature14236
2024/04/29
論文を表す画像
被引用数:29625
1/9