Slide 14
Slide 14 text
Copyright © GREE, Inc. All Rights Reserved.
Confidential
ALE:DQNでの利用
● DQNはpixel basedな手法なので、状態のMDPについて言
及されている
● スクリーンバッファを状態とみなすとMDPは成り立たな
いが、スクリーンバッファと行動のシーケンス{x1, a1,
x2, a2 ,,,}はMDPである、という主張
○ Experience Replayのメリットの1つ
○ 実際には近似関数φでシーケンスを写像してる