[論文紹介] Playing Atari with Deep Reinforcement Learning

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・Atari2600タスクの6/7で先行研究のRLアルゴリズムを上回った・3つのタスクで人間のエキスパート (プロゲーマー)を上回った・経験データを使って重み更新をするためサンプル効率が高い・7つのゲームで，全て同じアーキテクチャ，アルゴリズム，ハイパラを設定
・「ランダム行動，Sarsa，Contingency，2時間程度ゲームした人間」とDQN (提案手法)を比較した・Atariフレーム (3, 210, 160)を前処理フレーム (1, 84, 84)にする・前処理フレームを4つ重ねて処理する (4, 84, 84) ・CNNで複数回処理して，最後に完全結合層で処理する・出力は，行動 (action)が出力される・Atari2600タスクに対して，CNNで特徴量を獲得してDQNで学習してゲームタスクを解いたもの Playing Atari with Deep Reinforcement Learning (NIPS Deep Learning Workshop 2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller https://arxiv.org/abs/1312.5602 2024/01/30 論文を表す画像被引用数：13964 1/10

提案手法のアルゴリズム (1/2) 2/10 1. リプレイメモリの初期化： a. リプレイメモリDを容量Nで初期化する 2. 行動価値関数の初期化：
a. 行動価値関数Qをランダムな重みで初期化する 3. エピソードの繰り返し： a. 1,...,Mステップ繰り返す b. シーケンスの初期化 c. タイムステップの繰り返し (次のスライドに続く)

提案手法のアルゴリズム (2/2) 3/10 1. タイムステップの繰り返し a. 行動の選択 i. εでランダム行動選択 b.
行動の実行と報酬の観測 i. 報酬rtと次の画像xt+1 c. 状態の更新と前処理 i. st+1 = st,at,xt+1 d. トランジションの保存 i. (Φt,at,rt,Φt+1) をリプレイメモリDに保存 e. ミニバッチのサンプリング i. Dからミニバッチによるランダムサンプリング f. 目標値yiの設定 i. 終了条件の分岐 g. 勾配降下ステップの実行 i. 誤差に基づいて，Q関数の重み更新

提案手法の利点 4/10 ❏ 経験データからランダムサンプリングすることで経験データ間での相関が崩れる ❏ 経験再生を使うことで，ハイパラの振動や発散を
回避できる

前処理とモデル 5/10 ❏ Atariフレーム (210 × 160, RGB)をグレースケールに変換 ❏ 110
× 84 の画像にダウンサンプリング ❏ 最後に，84 × 84の画像に変換する ❏ この前処理した画像を4つ重ねて処理を行う ❏ 85 (height) × 84 (width) × 4 (frame)となる 1. 第1層 (CNN)：ストライド4，フィルタ8 × 8で16回畳み込み 2. 第2層 (CNN)：ストライド2，フィルタ4 × 4で32回畳み込み 3. 完全結合層：256の次元に変換 4. 出力層：アクションごとに1つの出力を持つ完全結合層 (アクション数は4個〜18個) 前処理モデル

価値関数の可視化 6/10 A．画面左側に敵が現れた後，予測値が上昇している B．エージェントが敵に魚雷を発射し，命中しそうになると予測値がピークに達する C．敵が消滅した後，予測値はベースの値に戻る価値関数がどのようにゲームタスクに対応しているか可視化している

実験設定 7/10 ❏ 報酬クリップを導入 (ポジティブ報酬を1，ネガティブ報酬を-1，それ以外は0) ❏ サイズ32のミニバッチを用いた，RMSpropによる最適化を使用 ❏ 1000万フレームの学習を行い，100万フレームはリプレイバッファに
格納する ❏ 7つのゲームで，「全て同じアーキテクチャ，アルゴリズム，ハイパラ」を設定することで様々なゲームでの動作に対して適応できる (ロバスト)であることを示す

ε=0.05でのスコア結果 8/10 ❏ 平均スコアでは，従来手法と比較して7/7で上回る ❏ Q*bert，Seaquest，Space InvadersではDQNは人間超えができなかった ❏ HNeat
BestとDQN Bestを比較すると，6/7でDQN性能が良い ❏ HNeatは決定論的な方策で，DQNはε=0.05のε-greedey方策を使用

まとめ 9/10 ❏ Atariタスクの1フレーム (画像)からCNNを使って特徴量を獲得し，「確率的勾配降下法」「経験再生」を使ってDQNアルゴリズムで学習を行った

感想 10/10 ❏ 画像をCNNを使って特徴量を獲得している部分を改良するアイデアがありそう ❏ e.g.) 敵対的サンプルを入れる，ViTを使う ❏ ゲームタスクの画像から強化学習をする論文を初めて読んで，学びが
多かった ❏ また，強化学習ではボードゲームなどの完全情報を扱っているのが多い印象だったが「画像を観測」として使えることに驚いた

[論文紹介] Playing Atari with Deep Reinforcement Le...

[論文紹介] Playing Atari with Deep Reinforcement Learning

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

提案手法のアルゴリズム (1/2) 2/10 1. リプレイメモリの初期化： a. リプレイメモリDを容量Nで初期化する 2. 行動価値関数の初期化：

提案手法のアルゴリズム (2/2) 3/10 1. タイムステップの繰り返し a. 行動の選択 i. εでランダム行動選択 b.

提案手法の利点 4/10 ❏ 経験データからランダムサンプリングすることで経験データ間での相関が崩れる ❏ 経験再生を使うことで，ハイパラの振動や発散を

前処理とモデル 5/10 ❏ Atariフレーム (210 × 160, RGB)をグレースケールに変換 ❏ 110

ε=0.05でのスコア結果 8/10 ❏ 平均スコアでは，従来手法と比較して7/7で上回る ❏ Q*bert，Seaquest，Space InvadersではDQNは人間超えができなかった ❏ HNeat

まとめ 9/10 ❏ Atariタスクの1フレーム (画像)からCNNを使って特徴量を獲得し，「確率的勾配降下法」「経験再生」を使ってDQNアルゴリズムで学習を行った

感想 10/10 ❏ 画像をCNNを使って特徴量を獲得している部分を改良するアイデアがありそう ❏ e.g.) 敵対的サンプルを入れる，ViTを使う ❏ ゲームタスクの画像から強化学習をする論文を初めて読んで，学びが