Slide 1

Slide 1 text

どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・ゲームタスクに用いられてきた深層強化学習アルゴリズムの派生 図がまとめられている ・各ビデオゲームタスクに対するサンプル効率 ・各ビデオゲームタスクに対する最終的な性能 ・各ビデオゲームタスクに対して手法の詳細がそれぞれ記述されて いる ・ゲームプレイのための深層強化学習サーベイ論文 ・ビデオゲームタスクの環境の説明をしているもの ・各ビデオゲームタスクに対して有効な深層強化学習アルゴリズム が提示されている Deep Learning for Video Game Playing (arXiv 2017) Niels Justesen, Philip Bontrager, Julian Togelius, Sebastian Risi https://arxiv.org/abs/1708.07902 2024/01/30 論文を表す画像 被引用数:288 1/6

Slide 2

Slide 2 text

ピクセル入力を用いたアーキテクチャ 2/6 1. 入力は,前処理された観測画像を4枚重ねたものを使う 2. CNNによって複数回繰り返す 3. CNNによる出力を完全結合層によって処理する 4. その後,LSTMやGRUなどによって処理され行動 (action)を出力する 最終的な出力は行動 (action)となる

Slide 3

Slide 3 text

ゲームタスクに適用されるDRL手法 3/6 ❏ 特徴は「体力,弾薬,スコア,オブ ジェクト」などのゲームの状態を表 す低次元のアイテムや値を指す ❏ MLPは,CNNやRNNを持たない アーキテクチャを意味する

Slide 4

Slide 4 text

DRLアルゴリズムの派生図 4/6 ❏ 各ノードはアルゴリズム ❏ 色はゲームのベンチマーク ❏ 矢印はアルゴリズムの関連性を表す ❏ 中心 (DQN)からの距離は,論文が arXivで発表されるのにかかった年 数を表す

Slide 5

Slide 5 text

まとめ 5/6 ❏ ゲームタスクにおける深層強化学習はCNNベースである ❏ 人間レベルの性能を上回ることはできるが,複雑なゲーム (マルチエー ジェント)などでは多くの課題が残っている

Slide 6

Slide 6 text

感想 6/6 ❏ 自分の知らなかったRLE (Retro Learning Environment)やopen ai universeを初めて知った ❏ ゲームタスクに関しては状態 (正確には部分観測なので観測)が画像の1 フレームになるのでCNNベースの手法が多かった ❏ 観測情報に対してセマセグをしてから強化学習するものがあるが,そ れと同様に観測の特徴抽出の部分でMAEやViTなどの処理が有効になる のか気になった