Reinforcement Learning: An Introduction second edition, Chapter 16 Applications and Case Studies

Sutton輪読会 16 Applications and Case Studies 太⽥晋 2020/09/25

⽬次 • 16 Applications and Case Studies • 16.1 TD-Gammon
• 16.2 Samuelʼs Checkers Player • 16.3 Watsonʼs Daily-Double Wagering • 16.4 Optimizing Memory Control • 16.5 Human-level Video Game Play • 16.6 Mastering the Game of Go • 16.6.1 AlphaGo • 16.6.2 AlphaGo Zero • 16.7 Personalized Web Services • 16.8 Thermal Soaring

16 Applications and Case Studies ⽬的 • 強化学習のケーススタディを⽰す • ドメイン知識がどう問題の定式化や解法に組み込まれるか
• 表現⽅法が重要 • アプリケーションをより簡単により分かりやすくすることが現在の強化学習の研究⽬標の⼀つ

参考: モデルフリー強化学習とモデルベース強化学習 • ⽬的 • 価値関数/⽅策の改善 • モデルフリー強化学習 • 直接強化学習
• シンプル • モデル設計のバイアスを受けない • モデルベース強化学習 • 間接強化学習(モデル経由) • 限られた経験を最⼤限利⽤ • 少数の環境との相互作⽤から、より良い⽅策を⾒つけることが出来る Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.

参考: On-Policy(Sarsa)とOff-Policy(Q学習) • On-Policy • 例: Sarsa • ⾏動選択時の⽅策と価値関数更新時の⽅策が同じ
• 両⽅ともε-グリーディ • Off-Policy • 例: Q学習 • ⾏動選択時の⽅策と価値関数更新時の⽅策が異なる • ε-グリーディとグリーディ • 経験リプレイが使える • 経験の⽣成と学習が分離可能 Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.

16.5 Human-level Video Game Play • 従来の多層⼈⼯ニューラルネットワーク(ANN)による強化学習の問題点 • ⼈間の知識に基づく⼈⼿による特徴抽出
• TD-Gammon • Watson • Deep Q-Network (DQN) (Mnih et al., 2013, 2015) • Atari 2600 (1977年から1992年のビデオゲーム機) • 46ゲーム中22ゲームで⼈間を上回る • 全てのゲームで同じネットワーク構造・ハイパーパラメータ(ただし学習はゲーム毎に⾏う) • 84x84x4の”⽣の(raw)” ⼊⼒ベクトル

Deep Q-Network (DQN) (Mnih et al., 2013, 2015) • モデルフリー強化学習
• Q学習(Off-Policy) • ニューラルネットワーク(NN)による⾏動価値関数Qの近似 • 畳み込みニューラルネットワーク(CNN) • Q学習の修正 • 経験リプレイ • 更新の分散を減らして学習を安定化 • 2つのネットワーク(オンラインとターゲット) • Q学習の更新ターゲットが現在の⾏動価値の推定値に依存することを避け安定化 • ⼀定のインターバルCでオンラインからターゲットに重みをコピー • TD誤差(報酬)のクリッピング • ゲーム毎に異なる報酬を統⼀(同じハイパーパラメータを利⽤するため)

DQN (2013, 2015) • 経験リプレイ • ⼀様にランダムサンプリング • 2つのネットワーク(オンラインとターゲット)
• 報酬のクリッピング • 前処理φ • 直近4フレームをグレースケール化して84x84にリスケール Mnih et al., "Human-level control through deep reinforcement learning", Nature, 2015.

DQNの発展 • DQN(2013)〜Rainbow(2017) • 分散型ではない • ダブルQ学習 • 優先順位付き経験リプレイ •
デュエリングネットワーク • nステップTD学習 • Ape-X (2018) • DQN, DDPGの分散型 • 経験の⽣成(Actor)と学習器 (Learner)の分離 • 2018年当時Atari-57のSotA • R2D2 (2019) • Ape-Xの発展 • 経験リプレイからRNNを学習 • 2019年当時Atari-57のSotA • NGU(2019)〜Agent57 (2020) • R2D2, RNDの発展 • 内的報酬 (⻑期/短期) • メタコントローラ(探索と利⽤のバランス調整) • Atari-57のゲーム57種類全てで⼈間以上のスコア • AlphaGo(2016)〜MuZero (2019) • モデルベース強化学習 • モンテカルロ⽊探索(MCTS) • セルフプレイ(経験の⽣成) • 分散型 • 2020年6⽉現在Atari-57のSotA https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark 今回は⾚字の⼿法を中⼼に説明. それ以外の⼿法は以下のスライドが参考になります https://www.slideshare.net/juneokumura/dqnrainbow https://www.slideshare.net/juneokumura/rnnr2d2 https://www.slideshare.net/eratostennis/ss-90506270 https://www.slideshare.net/ssuser1ad085/rnd-124137638

Atari-57 の SotA • Rainbow(2017)までは単⼀型 • Ape-X(2018)以後が分散型 • 今回紹介する⼿法 •
DQN (2015) • Rainbow (2017) • Ape-X (2018) • R2D2 (2019) • MuZero (2019) • Agent57 (2020) • Atari-57のSotAではないが57種類のゲーム全てで⼈間以上のスコア https://paperswithcode.com/sota/atari-games-on-atari-57 Rainbow

Atari-57 の評価⽅法 • Human Normalized Score (HNS) • ⼈間のスコアを 100%
• ランダム⽅策のスコアを 0% • 57個のゲームの平均値(mean)と中央値(median) • 中央値の⽅が重要(平均値は得意なゲームで点数を伸ばすと上昇してしまう) • ⼈間のスコアを超えたゲームの個数 • 最近は苦⼿なゲームをなくすことに注⽬→RND, Go-Explore, NGU, Agent57等 • エピソード開始時の状態 • no-ops: ランダムに0-30ステップ分何もせず(no-op)、エピソード開始 • human starts: ⼈間のエキスパートの経験(プレイ記録)からランダムに開始位置をサンプリングしてエピソード開始 • 初期状態が限られることによる決定論的な過学習を防ぐ • ゲーム毎にネットワーク構造/ハイパーパラメータのチューニングはしない • 報酬のクリッピングが必要になる • ⼈間のエキスパートのプレイ(demonstrations)を使わない • 使う⼿法: R2D3, Go-Explore with domain knowledge 等

DQN (2013, 2015) • モデルフリー強化学習 • Q学習(Off-Policy) • ニューラルネットワーク(NN) による⾏動価値関数Qの近似
• 畳み込みニューラルネットワーク(CNN) • 2つのネットワーク(オンラインとターゲット) • 経験リプレイ • ⼀様にランダムサンプリング • 前処理φ • 直近4フレームをグレースケール化して84x84にリスケール • 報酬のクリッピング • 結果は次スライド Mnih et al., "Human-level control through deep reinforcement learning", Nature, 2015.

Rainbow (2017) • 2017年のAtari-57のSotA • 分散型ではない • DQNの改良⼿法6個を統合 • 6個の⼿法を⼀つずつ切除してど
の⼿法が有効か実験 • 以下の順で有効 • 優先順位付き経験リプレイ(⽔⾊) • n-ステップ学習(⻩⾊) • 収益の分布を学習 • ノイジーネットワーク • デュエリングネットワーク • ダブルQ学習 Hessel et al., "Rainbow: Combining Improvements in Deep Reinforcement Learning", AAAI-18, 2018. DQNからRainbowまでのまとめは奥村さんのスライドが参考になります https://www.slideshare.net/juneokumura/dqnrainbow ダブルQ学習, n-ステップ学習, 優先順位付き経験リプレイの詳細はスライド末尾の付録を参照

Ape-X (2018) • 2018年Atari-57のSotA • 分散型強化学習⼿法 • DQN(2015), Rainbow(2017), Gorila(2015),
DDPG(2016)等がベース • 離散的⾏動(Ape-X DQN)と連続的⾏動(Ape-X DPG)の両⽅に対応 • 分散型強化学習の2つの⽅向性 • 勾配の計算を分散 • 分散型確率的勾配降下法 (distributed stochastic gradient descent) • 勾配の計算は⽐較的重い • 勾配のサイズは⼤きいのでノード間の通信がボトルネックになる場合がある • 経験の⽣成を分散 • 分散型経験リプレイ (distributed experience replay) • Ape-Xはこちらを実装 • 分散型勾配計算を組み合わせることも可能 • 以後の分散型⼿法でもApe-Xのアーキテクチャがベース • R2D2, NGU, Agent57, MuZero等 Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018.

Ape-Xのアーキテクチャ • Learner (学習プロセス) • Replayからサンプリングされた経験を読み込み • NNの重みを更新 •
優先順位を更新してReplayに送る • Actor (経験⽣成プロセス) • NNの重みを定期的に読み込み • 経験を⽣成 • 経験と優先順位の初期値をReplay に送る Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018. • Replay (データベース) • 経験と優先順位を保存 • 優先順位を元に経験をサンプリング

Ape-X DQN (離散的⾏動) • 分散型アーキテクチャ • 経験の⽣成(Actor)と学習(Learner)の分離 • 優先順位付き経験リプレイ
• TD誤差の絶対値を優先順位 pi • 確率的にサンプリング P(i) (α=0.6) • Q関数更新時に重点サンプリング • εi グリーディ • Actor毎に異なるε • アニーリングしない(徐々に減らさない) • nステップTD学習 (n=3) • ダブルQ学習 • デュエリングネットワーク • 状態価値V(s)とアドバンテージA(s, a) Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018. ロス関数最⼤値 ε=0.4 最⼩値 ε=0.00066 優先順位付き経験リプレイの詳細はスライド末尾の付録を参照

Ape-Xのアルゴリズム • 状態を⼊⼒して⽅策から⾏動を得る • 環境に⾏動を適⽤して報酬と割引率γ (エピソード末なら0) と次の状態を得る •
ローカルバッファに経験を貯める • ある程度貯まったら優先順位を計算して、経験と優先順位をリプレイバッファに送る • 定期的にNNの重みを読み込み • リプレイバッファから優先順位を元に確率的にサンプリング • ロスを計算してQ関数を更新 • 優先順位を計算し直す Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018.

Ape-X DQN 結果 • 2018年のSotA • Atari-57のHNSの中央値 • no-opスタート
• 学習5⽇ • HNS 434% • 376 cores, 1 GPU • ⻘: Ape-X DQN • 橙: A3C • 紫: Rainbow • 緑: DQN Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018.

R2D2 (2019) • Ape-Xに再帰的ニューラルネットワーク (RNN)を導⼊ • 経験リプレイにRNNを導⼊する際の問題点 • 経験を⽣成するタイミングと学習するタイミングが異なる
• 隠れ状態の初期状態をどうするか？ • ゼロにする or 経験⽣成時の値を保存しておく • 経験を⽣成した時のネットワークと経験を再⽣する時のネットワークが違う • burn-in フェーズを導⼊(下図) • 重点サンプリング(IS)を使わない • 報酬のクリッピング • 従来: [-1, 0, 1]にクリッピング • 複数のゲームを同じハイパーパラメータで学習するため • R2D2: • エピソード終端 • 従来: 1ライフ • R2D2: ゲームオーバー R2D2については奥村さんのスライドが参考になります https://www.slideshare.net/juneokumura/rnnr2d2 Kapturowski et al., "Recurrent Experience Replay in Distributed Reinforcement Learning", ICLR2019, 2019.

R2D2 結果 • 2019年のSotA • Atari-57の HNSの中央値 • no-opスタート •
学習5⽇ • HNS 1920.6% • 橙: R2D2 (256 Actors) • ⻘: Ape-X (360 Actors) Kapturowski et al., "Recurrent Experience Replay in Distributed Reinforcement Learning", ICLR2019, 2019.

参考: モンテカルロ⽊探索(MCTS) • 実⾏時プランニングの⼀種 • 2種類の⽅策(ツリー⽅策とロールアウト⽅策)を使う • 選択(Selection) •
ツリー⽅策(εグリーディ等)に従ってリーフノードを選択 • 拡張(Expansion) • リーフノードから辿れる未探索の⾏動を⼦ノードとして追加 • シミュレーション(Simulation) • 選択されたノードから、ロールアウト⽅策(ランダム⽅策等)に従って完全なエピソードをシミュレーション • バックアップ(Backup) • ツリー⽅策で訪問されたノードの⾏動価値を更新 • ロールアウト⽅策で訪問された部分は⾏動価値を保存しない Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.

16.6 Mastering the Game of Go • 囲碁の難しさ • 探索空間が広い
• ある局⾯での囲碁の合法⼿≈ 250 (チェスは≈ 35) • 合法な局⾯の総数: 約2.1×10170 (観測可能な宇宙の原⼦の総数約1080) • 局⾯の適切な評価関数を作ることが難しい • モンテカルロ⽊探索(MCTS)の導⼊が重要な⼀歩 • AlphaGo • MCTSの改良 • 対局中にMCTSを利⽤ • ⽅策pと価値関数vをCNNを使った深層強化学習で学習 • セルフプレイで強化学習する際に、ランダムな重みから開始するのではなく、⼤量のプロ棋⼠の棋譜を教師あり学習した重みから開始 • AlphaGo Zero • より単純なMCTS • セルフプレイ中にMCTSを利⽤ • ⼈間の棋譜を全く使⽤しない(セルフプレイのみで学習) • ロールアウトを使⽤しない

MuZero (2019年11⽉) • モデルベース強化学習 • 2020年6⽉現在Atari-57のSotA • MuZeroより前はモデルフリーがSotAだった • AlphaGo
(2016年) • 囲碁 • モンテカルロ⽊探索(MCTS) • セルフプレイ • プロ棋⼠の棋譜データベース • AlphaGo Zero (2017年10⽉) • 囲碁 • MCTS • セルフプレイ • ⼈間の知識なし • プロ棋⼠の棋譜データベースを使わない • AlphaZero (2017年12⽉) • チェス, 将棋, 囲碁 • MCTS • セルフプレイ • 囲碁特有の学習⽅法を除外 • 盤⾯の回転による学習データ⽔増し • 引き分けの追加 • MuZero (2019年11⽉) • チェス, 将棋, 囲碁, ビデオゲーム(Atari) • MCTS • セルフプレイ • ゲームのルールの知識なし • 報酬のみで学習 • 報酬・価値のスケーリング • エピソード途中の報酬 https://storage.googleapis.com/deepmind-media/research/muzero_poster_neurips_2019.pdf Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019. 布留川英⼀, "AlphaZero 深層学習・強化学習・探索⼈⼯知能プログラミング実践⼊⾨", ボーンデジタル, 2019.

MuZero アーキテクチャ • Ape-Xと基本的に同じ • ActorがSelf Play • LearnerがTrainer
• ReplayがReplay Buffer • Shared Storageを追加 • NNの重みを保存するデータベース https://github.com/werner-duvaud/muzero-general/wiki/How-MuZero-works 参考: Ape-Xのアーキテクチャ Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018.

MuZero ⽅法 • 2つのデータベース • リプレイバッファ • エピソード毎の観測・⾏動・報酬・⽅策・価値のシーケンス •
シェアドストレージ • 表現・ダイナミクス・予測の3つのニューラルネットワーク(NN)の重み • 学習器(単⼀のGPUマシン) • 学習 • リプレイバッファからをエピソードを1 つ読み込み • n-ステップTDで学習 • NNの重みをシェアドストレージに保存 • セルフプレイ(多数のCPUマシン) • プランニング • シェアドストレージからNNの重みを読み込み • MCTSでシミュレーション • ある局⾯から始まるツリーの各ノードの価値を計算 • 次の1⼿を決めるバンディット問題(UCBの改良版pUCTで解く) • ⾏動選択 • プランニングで得られた⽅策をもとにランダム性を加えてサンプリングして⾏動を決定 • ⾏動を実環境に作⽤させ観測と報酬を得る • エピソード末で経験をリプレイバッファに保存 Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019. https://github.com/werner-duvaud/muzero-general/wiki/How-MuZero-works

MuZero プランニング(MCTS) • 3つのニューラルネットワーク(NN) • 実状態ではなく隠れ状態のツリー • ツリー⽅策にUCBの改良版pUCT • ロールアウトは⾏わずNNで近似
https://storage.googleapis.com/deepmind-media/research/muzero_poster_neurips_2019.pdf Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019. 右上の添字: シミュレーションのステップ右下の添字: 実環境のステップ

MuZero ⾏動選択 • プランニングで得られた⽅策をもとにサンプリングして⾏動を決定 • 右式でランダム性を加え探索を⾏う • N(α)はMCTSでノードを訪問した回数 • 徐々に温度パラメータTを減らしてランダム性を減らす
• ⾏動を実環境に作⽤させ観測と報酬を得る • エピソード末で経験をリプレイバッファに保存 Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019.

MuZero 学習 • リプレイバッファからをエピソードを1つ読み込み • nステップTDで学習 • NNの重みをシェアド
ストレージに保存 • K=5 ⽅策価値報酬 Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019. 右上の添字: シミュレーションのステップ右下の添字: 実環境のステップ

MuZero 結果 • 2020年6⽉現在Atari-57 のSotA • モデルフリー⼿法に⽐べてサンプル効率が良い • ボードゲーム
• 16 TPU(学習) • 1000 TPU(セルフプレイ) • Atari • 8 TPU(学習) • 32 TPU(セルフプレイ) Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019.

参考: MuZero 結果詳細 • 各ゲームのゲーム内スコア • MuZeroだけ成績が悪い(⾚枠) • montezuma revenge
• solaris • venture • どの⼿法も成績が悪い(⻘枠) • pitfall • →NGUが初めて⼈間を超えた • skiing Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019.

参考: Montezumaʼs Revenge の SotA • 探索が難しい • 環境から得られる報酬(外部報
酬)が疎 • 内発的動機づけ・内部報酬・好奇⼼等のアイデアを導⼊ https://paperswithcode.com/sota/atari-games-on-atari-2600-montezumas-revenge

Agent57 (2020年3⽉) • モデルフリー強化学習 • R2D2 , RND, NGUの発展 •
Atari のゲーム57種類全てで⼈間以上 (左上図) • 基本的なアーキテクチャは Ape-Xと同じ(左下図) • 内発的動機づけが追加 • 内的報酬(NGU) • ⻑期(life-long)と短期 (episodic)に分けて計算 • メタコントローラ(Agent57) • 探索と利⽤のバランスを調整 London Machine Learning Meetup, "Charles Blundell - Agent57: Outperforming the Atari Human Benchmark", YouTube, 2020. https://youtu.be/VQEg8aSpXcU Badia et al., "Agent57: Outperforming the Atari Human Benchmark", arXiv preprint arXiv:2003.13350, 2020. Badia et al., "Never Give Up: Learning Directed Exploration Strategies", ICLR2020, 2020.

NGU 内的報酬(⻑期/短期) • 内的報酬の導⼊ • βをメタコントローラで調整(Agent57) • 内的報酬を⻑期と短期に分けて計算 • ⻑期(life-long):
RND • 短期(episodic): embedding network (ICM?) Badia et al., "Never Give Up: Learning Directed Exploration Strategies", ICLR2020, 2020. Burda et al., "Exploration by Random Network Distillation", arXiv preprint arXiv:1810.12894, 2018. RNDについては向井さんのスライドが参考になります https://www.slideshare.net/ssuser1ad085/rnd-124137638

Agent57 メタコントローラ • 探索と利⽤のバランスを調整 • εi グリーディのアイデアを拡張 • 割引率γと内的/外的報酬の重み付けβをActor毎に設定
• ⼩さいβと⼤きいγ →利⽤寄りの⽅策 • ⼤きいβと⼩さいγ →探索寄りの⽅策 • NGU • Actor毎に異なるγとβを設定して固定 • Agent57 • γとβをエピソード毎に変更 γ(i), β(i) • iはバンディットアルゴリズムで選択 • ⼩さいi→利⽤寄りの⽅策 • ⼤きいi→探索寄りの⽅策 • 学習初期は探索寄り, 後半は利⽤寄りの⽅策を選択(右図) Badia et al., "Never Give Up: Learning Directed Exploration Strategies", ICLR2020, 2020. Badia et al., "Agent57: Outperforming the Atari Human Benchmark", arXiv preprint arXiv:2003.13350, 2020.

NGU アルゴリズム • R2D2がベースで太字部分がNGUの追加部分 • γとβはActor毎に異なる値を設定して固定 • 内的報酬ためのRND(⻑期)とinverse dynamics model(短期)を学習
London Machine Learning Meetup, "Charles Blundell - Agent57: Outperforming the Atari Human Benchmark", YouTube, 2020. https://youtu.be/VQEg8aSpXcU

Agent57 アルゴリズム • NGUがベースで太字部分がAgent57の追加部分 • γとβをエピソード毎に変更 γ(i), β(i) • iはバンディットアルゴリズムで選択
• ⼤きいi→探索寄りの⽅策 London Machine Learning Meetup, "Charles Blundell - Agent57: Outperforming the Atari Human Benchmark", YouTube, 2020. https://youtu.be/VQEg8aSpXcU

Agent57 結果 • 57個全てのゲームで⼈間以上 • 中央値(Median)でR2D2とほぼ同等 • 5 th Percentileでトップ
• 57個のスコアを下から順に並べて、下位 5 %の位置にあるスコア(2.8番⽬) • MuZero は全く解けないゲームがいくつかあるので値が低くなる Badia et al., "Agent57: Outperforming the Atari Human Benchmark", arXiv preprint arXiv:2003.13350, 2020.

16 Applications and Case Studies まとめ • ここ数年は分散型強化学習⼿法がAtari-57のSotA • Actor:
経験の⽣成 (数百台のCPUマシン) • Learner: 学習 (1台のGPUマシン) • MuZero(2019)が2020年6⽉現在のAtari-57のSotA • モデルベース強化学習, MCTS, セルフプレイ • Agent57(2020)がAtari-57のゲーム57種類全てで⼈間以上のスコアを達成 • 内的報酬(⻑期/短期), メタコントローラ • 経験リプレイにRNNを導⼊するには⼯夫が必要 • burn-in フェーズ(R2D2) • 探索が難しいゲームは内的報酬が重要 • RND, NGU, Agent57 • 内的報酬を⽤いないMuZeroで全く解けない問題がある(モンテズマリベンジ等) • 分散型で探索と利⽤のバランスを調整することが重要 • εi グリーディ: Actor毎に違うεを設定しアニーリングしない • メタコントローラ: Actor毎に違う割引率γと内的/外的報酬の重み付けβをバンディットアルゴリズムで選択 • 今回取り上げていない⼿法 • A3C(2016), PPO(2017), Gorila(2015), IMPARA(2018), RND (2018), Go-Explore (2019), R2D3(2019) 等

参考⽂献 • DQN • Mnih et al., "Playing Atari with
Deep Reinforcement Learning", arXiv preprint arXiv:1312.5602, 2013. https://arxiv.org/abs/1312.5602 • Mnih et al., "Human-level control through deep reinforcement learning", Nature, 2015. https://www.nature.com/articles/nature14236 • Prioritized Experience Replay • Schaul et al., "Prioritized Experience Replay", ICLR2016, 2016. https://arxiv.org/abs/1511.05952 • Rainbow • Hessel et al., "Rainbow: Combining Improvements in Deep Reinforcement Learning", AAAI- 18, 2018. https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/17204/16680 • Ape-X • Horgan et al., "Distributed Prioritized Experience Replay", ICLR2018, 2018. https://openreview.net/forum?id=H1Dy---0Z • R2D2 • Kapturowski et al., "Recurrent Experience Replay in Distributed Reinforcement Learning", ICLR2019, 2019. https://openreview.net/forum?id=r1lyTjAqYX • MuZero • Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019. https://arxiv.org/abs/1911.08265 • W. Duvaud, "MuZero General: Open Reimplementation of MuZero", GitHub repository, 2019. https://github.com/werner-duvaud/muzero-general • David Foster, "How To Build Your Own MuZero AI Using Python (Part 1/3)", Medium, 2019. https://medium.com/applied-data-science/how-to-build-your-own-muzero-in-python- f77d5718061a • 布留川英⼀, "AlphaZero 深層学習・強化学習・探索⼈⼯知能プログラミング実践⼊⾨", ボーンデジタル, 2019. https://www.borndigital.co.jp/book/14383.html • Agent57 • Badia et al., "Agent57: Outperforming the Atari Human Benchmark", arXiv preprint arXiv:2003.13350, 2020. https://arxiv.org/abs/2003.13350 • Badia et al., "Never Give Up: Learning Directed Exploration Strategies", ICLR2020, 2020. https://openreview.net/forum?id=Sye57xStvB • Burda et al., "Exploration by Random Network Distillation", arXiv preprint arXiv:1810.12894, 2018. https://arxiv.org/abs/1810.12894 • London Machine Learning Meetup, "Charles Blundell - Agent57: Outperforming the Atari Human Benchmark", YouTube, 2020. https://youtu.be/VQEg8aSpXcU • Sutton and Barto の強化学習の教科書 • Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018. http://incompleteideas.net/book/the-book-2nd.html • 奥村さんの強化学習アーキテクチャ勉強会での発表スライド • “DQNからRainbowまで〜深層強化学習の最新動向〜” https://www.slideshare.net/juneokumura/dqnrainbow • “深層強化学習の分散化・RNN利⽤の動向〜R2D2の紹介をもとに〜” https://www.slideshare.net/juneokumura/rnnr2d2 • 関⾕さんの強化学習アーキテクチャ勉強会での発表スライド • “強化学習の分散アーキテクチャ変遷” https://www.slideshare.net/eratostennis/ss- 90506270 • 向井さんの強化学習アーキテクチャ勉強会での発表スライド • ” RNDは如何にしてモンテスマズリベンジを攻略したか” https://www.slideshare.net/ssuser1ad085/rnd-124137638

参考: バンディット問題 • 例: 10個のスロットマシン • エージェントからは報酬の分布は未知 • 状態は⾏動によって変化しない
• 最適解 • ⾏動3を取り続けると報酬期待値 1.55に収束 • ⽅策 • 序盤は満遍なく • ある程度分布がわかれば集中 • 探索と利⽤のバランスをどうとるか？ Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.

参考: UCB1 (Upper Confidence Bound 1) • バンディット問題の解法の1つ • ステップ数t,
⾏動aの報酬の平均値 Qt (a), ⾏動aの回数Nt (a) • 平均報酬1.55が最適解 • 序盤は探索(第2項)が⼤ • 次第に探索が減っていく • サンプル数が増えると信頼区間が狭くなる • MuZeroでは • ある局⾯において、次の⼀⼿を決める際にUCBの改良版(pUCT)を利⽤利⽤探索 Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018. Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", arXiv preprint arXiv:1911.08265, 2019.

付録: ダブルQ学習 • Q学習の問題点 • 最⼤化バイアス(maximization bias) • 価値を評価する際に最⼤値を過⼤評価してしまう •
2つの⾏動価値関数を使いバイアスを解消 Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018. • 例: 右上図 • ε=0.1 • Aからスタートして右か左に移動 • Bに移動後、正規分布(平均-0.1 分散1)で報酬を得る • Aから右に⾏くのが最適⽅策(報酬合計0) • Bに⾏くと正の報酬があるように⾒える(実際は平均-0.1)

付録: nステップTD学習 • temporal-difference(TD)学習 • 連続する時間(例えばtとt+1)の違いに基づいて学習 • 価値VをターゲットG (⾚線部分)に
近づける • nステップTD学習 • nステップリターンをターゲットとしてTD学習 Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.

付録: Prioritized DDQN • 優先順位を元に確率的サンプリング • 重点サンプリング(IS) • 確率が⼤きい(優先順位が
⾼い)経験はQ関数の更新を⼩さく • 経験リプレイによるバイアスを訂正する • →ただしR2D2ではISなし • TD誤差の絶対値を優先順位に Schaul et al., "Prioritized Experience Replay", ICLR2016, 2016. • Ape-Xのアルゴリズムの省略部分の詳細

Reinforcement Learning: An Introduction second ...

Reinforcement Learning: An Introduction second edition, Chapter 16 Applications and Case Studies

More Decks by S. Ota

Other Decks in Research

Featured

Transcript