強化学習における好奇心

by 今井翔太（えるエル）

Slide 1

Slide 1 text

強化学習における好奇⼼東京⼤学⼤学院⼯学系研究科技術経営戦略学専攻今井翔太 Email:[email protected] Twitter：えるエル@ImAI_Eruel

Slide 2

Slide 2 text

本資料について nこのスライドは以前，別の場所（speaker deck）で公開していた同名の資料を修正して改めて公開したものです n当時とは⾃⾝の知識，置かれた状況ともにアップデートがあったため，⼀部記述が異なる部分や，追加されたスライドがあります 2

Slide 3

Slide 3 text

スライドの図など n本資料における図は基本的に論⽂中のものを引⽤しています n論⽂中以外の場所から引⽤した場合にはリンクを貼る等しています 3

Slide 4

Slide 4 text

⾃⼰紹介今井翔太（Shota Imai） n所属：東京⼤学松尾研究室 n研究分野：強化学習、マルチエージェント強化学習，ゲームAI n最近の活動など - 深層強化学習サマースクール，⾼専AIサマースクール講師 - Sutton著『Reinforcement Learning』翻訳 - メディア記事執筆 - ゲームAIに関する書籍の執筆 • Shota Imai | The University of Tokyo 4 Twitter：えるエル@lmAI_Eruel

Slide 5

Slide 5 text

⽬次 n強化学習・深層強化学習の基礎 n報酬がスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬 - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 5

Slide 6

Slide 6 text

Slide 7

Slide 7 text

強化学習⽤語 1 簡単に出てくる⽤語のみ解説します nエージェント - ⾏動の主体 n環境 - エージェントが⾏動を実⾏して試⾏錯誤を⾏い - 報酬を受け取る場所 n⾏動(Action) - 環境内のエージェントの⾏動 n状態(State) - エージェントが環境から受け取る観測 n報酬(Reward) - 環境内での⾏動に対し環境から与えられる評価値． - 複数⾏動の結果得る報酬和の最⼤化が強化学習の⽬的 7

Slide 8

Slide 8 text

強化学習⽤語 2 n軌道(Trajectory) - 環境における状態，⾏動，報酬の列 n⽅策(Policy) - 状態の⼊⼒に対して⾏動を返す．強化学習における学習対象 • 決定論的⽅策：() = • 確率的⽅策：(|) = [|] n価値関数(Value function) - ある状態や⾏動に対する，将来的な報酬和を考慮した評価値 n遷移確率 - ある状態! で⾏動! を⾏った場合にある状態!"# に遷移する確率P[!"# |! , ! ] 8

Slide 9

Slide 9 text

主な深層強化学習アルゴリズム資料中に登場するいくつかの基本的な深層強化学習アルゴリズムについて簡単に解説 nDQN系統のアルゴリズム - DQN - DDQN - Dueling Network n分散深層強化学習 - A3C - Golira n⽅策更新の安定化⼿法 - TRPO - PPO 9

Slide 10

Slide 10 text

DQN系統のアルゴリズム本資料で，⽐較アルゴリズムとして出てくるのは以下 nDQN(Deep-Q-Network) - 最初の深層強化学習アルゴリズム - Q値を出⼒する深層ニューラルネットを学習 - 過去の経験を貯めるExperience Replayや損失関数の教師信号を出⼒するTarget Networkを導⼊ nDDQN(Double DQN) - DQNの損失関数で，ターゲットで使う⾏動価値評価を⾏うネットワークと，評価する⾏動価値の⾏動を選択するネットワークを分離 nDueling Network - ⾏動価値関数には，⾏動による影響を受けない部分が含まれるため分離 - ⾏動による影響が⼤きいアドバンテージ関数と⾏動が関係ない状態価値関数に分ける 10

Slide 11

Slide 11 text

分散型深層強化学習 nA3C(Asynchronous Advantage Actor-Critic) - 複数エージェントで探索を⾏い，⾮同期に勾配情報をparameter serverに送り，本命の⽅策を - 更新 - ⽅策と価値関数評価のNN出⼒を分けたActor-Criticアルゴリズム - 価値関数は複数ステップ先を考慮した更新を⾏う - CPUで効率的な学習可 nGorila（General Reinforcement Learning Architecture） - Experience Replayに経験を集めるActor，ネットワークのパラメータ情報を保持するParameter Server，勾配を計算するLearnerで構成 - 複数のゲームでDQNより遥かに⾼速に⾼パフォーマンス 11

Slide 12

Slide 12 text

⽅策更新の安定化⼿法⽅策更新の際，場合によって突然⼤幅に偏った⽅向に更新されることを防ぐため，⽅策更新の範囲に制約を設けたアルゴリズム nTRPO(Trust Region Policy Optimization) - ⽅策の⼤幅な更新を防ぐため，ニューラルネットのパラメータ更新に制約を加える - 更新前と更新後のパラメータのKLダイバージェンスの値が以下（信頼区間 Trust Region）になるよう制約 nPPO(Proximal Policy Optimization) - TRPOは実装が複雑であり，アルゴリズムのアーキテクチャによっては適応不可なので，制約条件を改善 - 更新前と更新後のパラメータの⽐を⽅策更新量に応じてクリッピングすることで，⽅策の更新を抑える 12

Slide 13

Slide 13 text

ベンチマーク紹介 n強化学習の論⽂でよく⽤いられるベンチマークを紹介 nここでは特に，好奇⼼による強化学習アルゴリズムのベンチマークとして⽤いられているものを紹介 13

Slide 14

Slide 14 text

Atari2600 nAtari社による57個のゲーム nゲームの種類は，ブロック崩しから探検ゲームまで様々 n好奇⼼による探索⼿法のベンチマークとしては特にMontezumaʼs Revengeというゲームが使⽤される（後述） 14

Slide 15

Slide 15 text

マリオ nみなさんお馴染み，我らがスーパーマリオ n⼿軽な横スクロールのゲームということで，主に初代がベンチマークとして使われる 15

Slide 16

Slide 16 text

物体制御タスク (Continuous Control) n強化学習の論⽂ではお馴染み，４⾜歩⾏の物体や⼈間型の物体などを強化学習で制御するタスク n物体の各部位（⼿⾜関節など）を適切に動かして制御 n各部位の⾏動空間（出⼒）は連続 16

Slide 17

Slide 17 text

VizDoom n少々難しめの迷路探索ゲーム nマップ全体を観測できる⼀般的な２次元迷路課題とは違い，エージェントの視点が１⼈称視点 17

Slide 18

Slide 18 text

Montezumaʼs Revenge nAtari2600のゲーム n最初の深層強化学習⼿法であるDQNでは0点しかとれず，強化学習における最難タスク n主⼈公がクソ弱い n⾮常に広⼤な空間（しかも障害物，敵まみれ）で探索を⾏うため，報酬獲得が極めて困難 18 この分野の主要ベンチマークであるため，少し詳しく紹介

Slide 19

Slide 19 text

Montezumaʼs Revenge 広⼤な探索空間マップ内の⼀部屋マップ全体２３部屋参考：https://medium.com/@awjuliani/on-solving-montezumas-revenge- 2146d83f0bc3 19

Slide 20

Slide 20 text

Montezumaʼs Revenge 弱すぎる主⼈公 1 マリオモンテズマ落下落下グシャ！⾼所からの落下でも⼤丈夫低所からの落下でも死亡 20

Slide 21

Slide 21 text

Montezumaʼs Revenge 弱すぎる主⼈公 2 マリオのジャンプモンテズマのジャンプ Ø 余裕で敵を⾶び越えられる Ø 空中のブロックも楽々⾶び移れる Ø 敵を⾶び越えることすら難しい低空ジャンプ Ø タイミングを⾒計らってジャンプしないと激突して即死 Ø ジャンプで⾼台に⾶び移ることは不可能 21

Slide 22

Slide 22 text

Montezumaʼs Revenge 待ち受ける⼤量の障害物と敵空中で踊るドクロ達絶妙にかわしにくい蛇２体当たれば即死の点滅バリア突然消える床 22

Slide 23

Slide 23 text

どれくらい難しい？最初の深層強化学習アルゴリズムDQN(Deep-Q-Networkの)Atari2600におけるスコアが以下 DQNを⽤いた探索ではスコア０点（！！）で⼀切攻略できず 23

Slide 24

Slide 24 text

Slide 25

Slide 25 text

強化学習における問題報酬がスパースな環境 n⼀般的な強化学習アルゴリズムでは，最初に環境内の各状態の価値関数を本来の評価値以外で初期化 n報酬発⾒前のエージェントは，適当でない価値関数を元に⾏動するため，ランダムな探索をしているに等しい n⼀度報酬を⾒つけてしまえば，学習アルゴリズムにより，各状態の評価に正確な報酬の値が加えられ，正しい評価値を⽤いた⽅策更新が可能になる →最初の報酬発⾒が重要それまではランダム探索に頼るしかない 25

Slide 26

Slide 26 text

実際に強化学習を試して実感 nGrid Worldという，複数マスからなる環境を移動して報酬（ゴール）を⽬指す簡単なタスクを強化学習で解いてみる n以下のサイトで，強化学習の様⼦を視覚的に体験できる https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html 右下(⻩⾊)が報酬1が与えられるマス最初に報酬を⾒つける前は，明確な⽅向が定まらず，ランダム探索を続け，偶然な報酬発⾒まで続ける１度報酬を発⾒すると，各状態の正しい評価値が更新されていき，探索が⽅向性を持つ 26

Slide 27

Slide 27 text

報酬がスパースな環境（イメージ） ※実際はこれより報酬獲得が難しいランダム探索で最初の報酬を獲得するのは難しく，いつまでたっても正しい⽅策更新ができないエージェント報酬 27

Slide 28

Slide 28 text

報酬がスパースな空間における探索 n報酬がスパースな環境で，探索基準なしで報酬に到達することは難しい →外的な報酬に頼らずに，探索の基準を作ることはできないだろうか n⼈間ならどうする？ - （例）：ゲームの広⼤なダンジョン探索で進む⽅向が複数あるとして，デタラメに進む⽅向を決めるか？ NO！：既に進んで⽬的に達しなかったルートは除外し，⾏ったことがないルートを試すことを繰り返して⽬的地を⽬指すはず →未知の部分への優先的探索を⾏っている強化学習のエージェントによる探索でも似たようなことをすればいいのでは？ 28

Slide 29

Slide 29 text

ゲームダンジョンの探索例１回１回０回 Ø 複数進⾏⽅向の候補がある Ø 今まで１度⾏ったことがある⽅向（⻘⾊⽮印）は⽬的地にたどり着かなかったので除外 Ø 今まで⾏ったことがない⽅向（⾚⾊⽮印）の⽅向を⽬指す！ドラゴンクエスト2 ロンダルキアの洞窟 29

Slide 30

Slide 30 text

好奇⼼による探索 n強化学習のエージェントに未知の部分に対する興味を与えることで，未知の部分への探索を優先的に⾏うと，報酬にたどり着きやすくなる未知の部分に対する興味＝好奇⼼ n好奇⼼珍しい物事，未知の事柄に対する興味（広辞苑第六版より） 30

Slide 31

Slide 31 text

好奇⼼による探索のために nエージェントが未知（新規）の状態，つまり訪れたことがない，または少ない状態に対し優先的に探索を⾏う必要がある n強化学習における「⽅策」は，探索中に，多くの報酬を与えられた場所，遷移先の状態の価値が⾼い場所に移動する⾏動を優先的に選択する nランダム探索の段階では，遷移先の価値は未定であるため，報酬の部分をどうにかすれば，未知の部分への探索が進みそう →内発的報酬の導⼊ 31

Slide 32

Slide 32 text

内発的報酬 n外的な報酬に依存せず，何らかの基準でエージェント⾃⾝が報酬を⽣成する報酬 n外的な報酬に依存せず報酬を設計できるため，報酬が少ない環境においても学習可能な⼿法として注⽬ n内発的報酬を利⽤することで，訪問回数が少ない状態遷移の価値が⾼く評価され，優先的に探索を⾏うようになる 32

Slide 33

Slide 33 text

内発的報酬による探索の例 MBIB-EB カウントによる内発的報酬 nある状態で選択した⾏動aの回数をカウントし，(, )とする n(, )の逆数を内発的報酬として与えると，(, )が少ない (新規性が⾼い)状態遷移の価値評価が⾼まる内発的報酬 (, $%&'! )＝4 (, ()*! )＝2 (, +,-. )＝4 (, /0 )＝1 いままであまり選択しなかった⾏動を選択すると，内発的報酬は， (, !" ) = 1 (, #$%& ) = 2 と⼤きくなり，⾏動価値， * , !" や * , #$%& は⾼く評価される⼀⽅，今まで何度も選択した⾏動を選択すると，内発的報酬は， (, '()* ) = (, +,-.& ) = 2 と⼩さくなり，⾏動価値， * , '()* や * , +,-.& は低く評価される 33

Slide 34

Slide 34 text

カウントによる内発的報酬の問題点 n現実的には，実際の強化学習タスクでカウントベースの内発的報酬を⽤いた⼿法を適⽤するのは困難Ｗｈｙ？ →状態候補が莫⼤すぎるため n状態候補が多すぎる環境で１つ１つの状態をカウントしても，ほとんどの状態のカウントが0に近くなり，カウントの意味をなさない次章以降は，様々なタスクに適⽤可能な, 好奇⼼/内発的報酬による探索の最新研究を紹介していきます 34

Slide 35

Slide 35 text

Slide 36

Slide 36 text

環境から得る情報量を⽤いた内発的報酬 VIME: Variational Information Maximizing Exploration[Houthooft+] 論⽂概要 n環境に対する情報量の改善＝好奇⼼とし，情報量が改善されるような状態遷移に対して多くの内発的報酬を付与 n情報量の改善は，状態遷移前後の環境のダイナミクスの分布間のKLダイバージェンス ※⾮常に数式が多い論⽂．概念的な部分を中⼼に話します 36

Slide 37

Slide 37 text

情報量の改善による内発的報酬の⽣成⽅式 37 n環境に対する情報量Ｉの改善を内発的報酬とみなす n情報量Iはとある状態+ における遷移確率の分布と， + から+,- に遷移した後の分布のKLダイバージェンス（確率分布間の距離）で表す記号 p = {! , ! , . . . , " }:時刻までの状態と⾏動による遷移の列 p" ：時刻tにおける状態 p" ：時刻tでとった⾏動 p "#! " , " ; ：" で⾏動" を選択したとき状態"#! に遷移する確率．θでパラメトライズ情報量改善の式内発的報酬そのもの

Slide 38

Slide 38 text

遷移確率の分布とKLダイバージェンス (|ξ! , a" , s"#$ ) (|ξ! ) ⾏動+ ⾏動前の遷移確率は⾚⾊の分布⾏動& によって状態&/0 に遷移後は⻘⾊の分布に分布がどれだけ変形したか，状態!"# に遷移してどれだけの情報を得たかを，確率分布間のKLダイバージェンスで測り，変化分を報酬としている 38

Slide 39

Slide 39 text

実験 nrllabの物体制御タスクで提案⼿法を評価 nVIMEの⽅策学習アルゴリズムとしては，TRPOを使⽤ n⽐較対象はTRPOそのままと，TRPOに先⾏研究で提案された予測誤差による内発的報酬を導⼊したもの(TRPO+L2) 39

Slide 40

Slide 40 text

実験結果 TRPOと，TRPO+BNNの予測誤差による内的報酬を⽤いたもの，TRPO にVIMEを適⽤したものを⽐較 Ø 普通のTRPOではまったく学習できていない（⾒えにくいが，グラフ底辺の⻘ライン） Ø MountainCarではL2もうまくいっているが，他２つではまったく学習できないない Ø VIMEを適⽤すると，全タスクで学習が安定かつ早く⾼いパフォーマンスに到達 40

Slide 41

Slide 41 text

疑似的な状態カウントと内発的報酬を組み合わせた探索 Unifying Count-Based Exploration and Intrinsic Motivation[Bellemare+] 論⽂概要 n既存のカウントベースによる内発的報酬の⼿法を状態候補が極めて多いタスクに応⽤するのは難しい n対策として状態の密度推定を⽤いた疑似的な状態カウントを導⼊することで，内発的報酬を⽣成 41

Slide 42

Slide 42 text

状態の密度推定を⽤いた疑似カウント n状態の密度を推定することで，状態の疑似カウントが可能となる n以下，必要な記号の定義と疑似カウントの導出記号 42 ：n回⽬の状態遷移後とある状態xである確率（密度） ←疑似カウントの総数，xの疑似カウント共に1を加えるだけ：n回⽬の状態遷移後にxを観測したという前提で，n+1 回⽬の状態遷移後再びとある状態xを観測する確率ここで，. を全ての状態の疑似カウントの合計， / (x)をある状態の疑似カウントとするすると，先ほどのと ’は，と計算可能．この⼆つの値を⽤いて式変形すると，となり，どうやら，の密度()と全状態の疑似カウントさえ求めれば，の疑似カウントを計算できるとわかる

Slide 43

Slide 43 text

密度の計算法 n例えば２×２マスのブロックで，各セルが確率的に選ばれた⾊（⾚，⻘，⻩，緑）で塗られるとする n何個かブロックを⽣成すると，以下のようになった Ø ここで，9回⽬にまたブロックを⽣成するとして，⻩緑緑緑のブロックが出る確率は？ →7回⽬に同じ組み合わせが出ている．８回中１回この組み合わせが出ているので出現確率は直観的に1/8 Ø じゃあ，緑⻩⾚⾚の⽣成確率は？同じ組み合わせはなさそうなので，確率0？ →左上のセルに緑が2/8，右上のセルに⻩が3/8，左下のセルに⾚が1/8，右下のセルに⾚が3/8の頻度で発⽣しているので，2/8×3/8×1/8×3/8＝18/4096＝ 0.004が⽣成確率（密度）と⾔えそう生成回数左上右上左下右下 1 赤青黄緑 2 赤青黄青 3 黄黄緑赤 4 緑黄緑青 5 赤青青赤 6 緑青赤黄 7 黄緑緑緑 8 青黄黄赤 43

Slide 44

Slide 44 text

画像からの密度計算 n強化学習で解こうとしているタスクはゲームであることが多く，観測は⼤抵の場合ゲーム画像そのもの →先ほどの密度の議論をピクセルで構成された画像に拡⼤してみよう n例えば，5×5ピクセルで構成された右のような画像を考えるこの画像発⽣前にもいくつかの画像を⼊⼿（状態到達）していたとして，各位置のピクセルで出現した⾊の回数から先ほどのように密度を求める？ →画像の場合は，各ピクセルの発⽣⾊の確率に関係があるため，ピクセル間の関係を考慮する必要あり 44

Slide 45

Slide 45 text

CTS(Context tree switch)を使⽤して密度推定 n画像の発⽣確率（到達確率，密度）を求めるため，著者が以前提案したCTSという⼿法を使⽤あるピクセルの値の発⽣確率を考える．このとき，過去の観測で得た画像から求めた，そのピクセルの周辺ピクセル値が発⽣したときの注⽬ピクセル値が発⽣した確率をかけ合わせる先ほどの画像の例だと，⾚枠の⻩⾊のセルの発⽣確率を求めるとき⾚枠が⻩の確率＝p(⾚枠が⻩|左上が⻘) ×p(⾚枠が⻩|左中央が⻘) ×p(⾚枠が⻩|右上が⻘) ×p(⾚枠が⻩|左が⻩) 45 ※実は論⽂中にこの辺の詳しい計算過程が書かれていないので，正確かどうかは微妙・・・

Slide 46

Slide 46 text

実際の密度推定 nここまでの議論から，ゲームから得たピクセル画像に対してCTSによる処理を⾏えば，疑似カウントに必要なが求められそう nゲームの画像そのままは⼤きすぎるので各ピクセルの表現を3ビットにし，42×42にダウンスケール n後は，この画像から，密度ρ，ρʼを求めれば，各状態の疑似カウントが計算可能 46

Slide 47

Slide 47 text

実験 nAtariのゲームのうち，特に難しいゲーム５つを選んで，疑似カウントによる⼿法とDQN を⽐較 n疑似カウントによる内的報酬を使う場合の⽅策学習アルゴリズムはDouble-DQNを使⽤ n内発的報酬は以下のものを使⽤（β=0.05） 47

Slide 48

Slide 48 text

CTS-Based Pseudo-counts: 実験結果 Ø ⼤抵のタスクで⾼パフォーマンス Ø 特に，Montezumaʼs Revengeで圧倒的なスコア →この⼿法が発表された当時からつい最近までSOTAだった 48

Slide 49

Slide 49 text

状態のハッシュ化を⽤いたカウントによる内発的報酬 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning[Haoran+] 論⽂概要 n⾼次元な探索空間でも，疑似カウントではない普通の状態カウントを⽤いた内発的報酬を得るため，状態をハッシュ化 n状態をハッシュ化する前の良い特徴抽出法についても検討 49

Slide 50

Slide 50 text

ハッシュを⽤いた状態のカウント n既存の状態カウントを⽤いた⼿法では、状態候補数が多いタスクに対応不可 nそのため，本資料で既に解説した疑似カウントを⽤いた⼿法が有効 nしかし，観測した状態をハッシュ化してカウントすることで，実質的に状態の候補数を削減することができ、普通のカウント可 50

Slide 51

Slide 51 text

LSH(Locality Sensitive Hashing) n⽇本語では「局所性鋭敏型ハッシュ」 n「simHash」とも呼ばれ，論⽂内ではこちらの名前で⾔及 n似たようなデータは同じバケットに⼊り，元のデータの種類に対して，バケットの数は⾮常に少なくなるつまり，データ＝状態とみなし，本来ならカウントベースで捌ききれない量の状態数を圧縮してカウントしている 51

Slide 52

Slide 52 text

simHashの計算 1. 次元のランダムなベクトルをガウス分布から⽣成 2. 観測した状態と上記で⽣成したベクトルの内積をとる 3. 内積して得られた値をある基準で0か1に分類 4. ３で得た値にガウス分布からサンプリングした×の⾏列をかけたものをハッシュ値()とする：ハッシュの粒度 52

Slide 53

Slide 53 text

ハッシュ後の状態カウントを⽤いた内的報酬⽣成 n⼤量のデータが⼊ったバケットに分類される状態は報酬を低くし，スカスカなバケットに分類される状態に対しては多くの報酬を与える n()をとある状態に対するハッシュ値とし，ハッシュ後の値のカウントを( ())と nすると，ある状態に対する内的報酬は以下のように定義可 53 ※βはハイパーパラメータ

Slide 54

Slide 54 text

ハッシュ前の学習 n⽣のピクセル画像をそのままハッシュにかけるよりも，何らかの⼿段でピクセルから n特徴抽出して得た表現をハッシュにかけた⽅が良さそう →オートエンコーダ（AE）を⽤いて，ピクセル画像から特徴抽出したものを使⽤ 54

Slide 55

Slide 55 text

実験 n連続制御タスクと，Atariのいくつかのゲームの実験でsimHashを⽤いた⼿法を他の⼿法と⽐較 nハッシュ前の学習⼿法についても⽐較 n⽅策学習アルゴリズムとしてはTRPOを使⽤連続制御タスク MountainCar 55

Slide 56

Slide 56 text

実験結果/連続制御タスクそれなりに良い結果を出しているが、先⾏研究のVIMEとの差は微妙なところ 56

Slide 57

Slide 57 text

実験結果/ハッシュ前の学習⼿法の⽐較 nTRPOをそのまま⽤いる nAEを⽤いる nBASSを⽤いる nピクセルそのままの場合を⽐較 Ø ＡＥで学習して特徴抽出するのが⼀番よさそう Ø BASSを⽤いた場合は，Montezumaʼs Revenge で圧倒的な性能 ※BASS:Atari2600⽤にデザインされた前処理 57

Slide 58

Slide 58 text

実験結果/Atari2600 Ø simHashを⽤いた場合は⼤抵のゲームで結構なスコアを出せる Ø ただ，ゲーム個別なら他にも良いアルゴリズムがある →例えば，内的報酬の⼿法としては，重要ベンチマークであるMontezumaʼs Revengeで先⾏研究の疑似カウントに負けている Ø DQNベースとの差分として，TRPOではexperience replayを使⽤できないのがマイナス 58

Slide 59

Slide 59 text

観測の識別器を⽤いて推定した密度を内発的報酬とする探索 EX2: Exploration with Exemplar Models for Deep Reinforcement Learning [Fu+] 論⽂概要 n新しい状態は現在までに観測していない明らかに違う状態であるため，あるモデルで他の状態と簡単に識別可能 n簡単に判別できる状態＝新しい状態とし，観測した状態を他の状態と識別するモデルの出⼒を⽤いて内発的報酬を⽣成 59

Slide 60

Slide 60 text

Exemplar Model nあるデータセットX={+, … , }に対し，新たに与えられたデータ- (exemplar)と，過去に観測したデータを識別できるよう学習された識別器()を⽤意(exemplar modelと呼ぶ) n探索の中で，新たなデータ(観測)が与えられるとき，その観測が容易に今まで観測した状態と容易に区別できれば，その観測は新しいと考える nExemplar modelの出⼒により観測状態の密度を推定し，内発的報酬として利⽤ 60

Slide 61

Slide 61 text

最適な識別器と密度状態が離散の場合 n最適な識別器は以下の⽬的関数を最⼤化することで導出上式から，以下が最適な識別器となる式変形から識別器の出⼒を⽤い，以下の式で密度を表す x=x*の場合このPを-logp(s)など置いて，以下のような形で内的報酬として利⽤ ← が簡単に他の状態区別できる（到達数が少ない）場合，Dの出⼒が1に近くなる(密度⼩) 61

Slide 62

Slide 62 text

最適な識別器と密度状態が連続の場合 n状態が連続の場合，.∗ (∗)→∞となり， → 1に収束してしまう nこのとき，(.∗ ∗ )(∗)とすればすべてのに対し，以下の⽐例関係は保たれる(＊は畳み込み) δにノイズqを加えて平滑化したとき，Dは以下のようになる 62

Slide 63

Slide 63 text

使⽤する識別器 n 識別器Dとしてはニューラルネットを⽤いる n EX2のアーキテクチャとして以下の⼆つの枠組みを提案 63 識別器を複数⽤意し，複数のx*をバッチ処理する場合中間層は共有し，出⼒層で識別器を分ける潜在変数を⽤い，単⼀の識別器で，全てのx*の識別を⾏う場合

Slide 64

Slide 64 text

実験評価 n提案⼿法の有効性を評価するため，以下のベンチマークで評価 - 単純な2次元迷路タスク:2D Maze - 物体制御タスク：SwimmerGather, SparseHalfCheetah - 観測が第三者視点のAtariゲーム:Freeway, Frostbite, Venture - 観測が⼀⼈称視点の探索:VizDoom n⽐較⼿法 - 提案⼿法の２モデル:k-exemplar - ⼀般的な⽅策学習⼿法：TRPO - カーネル密度推定による報酬：KDE - ハッシュによる状態カウント:Hashing - 情報量の改善による内的報酬：VIME 64

Slide 65

Slide 65 text

実験結果 Ø Atariでは，全体的に⾼パフォーマンス Ø VizDoom(DoomMyWayHome)では，他⼿法を⼤きく超える結果 65

Slide 66

Slide 66 text

EX2による密度推定 2D Mazeで正しい密度推定ができているか確認 EX2による密度推定実験における実際の密度 EX2により，実際の密度に近い密度推定ができている 66

Slide 67

Slide 67 text

まったく報酬が与えられない環境における探索 (ICLR2019 Accepted) Large-Scale Study of Curiosity-Driven Learning [Burda, Edwards, Pathak+] 論⽂概要 n様々なゲームの強化学習で「外的な報酬がまったくない場合にどれくらいパフォーマンスを発揮できるかを検討した論⽂ nVAEなどを⽤いた画像からの特徴抽出や学習の様々な⼯夫を⽤い，内発的報酬のみで複数ゲームで⾼パフォーマンスを確認 67

Slide 68

Slide 68 text

予測誤差による内的報酬⽣成 n観測0 と，その時選択する⾏動0 から，次の観測01+ がどうなるか予測するモデル (0, 0)を考える（順モデル） nモデルの出⼒と実際に0 で0 を選択した場合の次の観測01+ を⽤いて⼆乗誤差を計算し， NNを学習 n既に観測した遷移は予測精度が⾼くなり（⼆乗誤差が⼩さくなる），観測が少ない遷移は予測精度が低くなる（⼆乗誤差が⼤きい） 68

Slide 69

Slide 69 text

観測からの表現獲得 n環境から得られる⽣の観測でなく，Φ ()によって，タスク攻略のためにより良い表現を得られるか議論 nこの表現は，以下の３つの要素を満たすことが望ましい - stable:特徴抽出器は学習と共に変化するため，得られる表現も変化．この変化は最⼩限にする - compact：低次元で，⽣の観測の不必要な部分は無視できる - sufficient：得た表現は重要な情報を全て含む 69

Slide 70

Slide 70 text

様々な表現獲得法 nPixel: 観測画像をそのまま表現として使⽤する nRandom Features(RF): ランダムに初期化したニューラルネットなどに観測を⼊⼒して得た出⼒ nVariational Auto Encoders(VAE): VAEによって低次元の潜在変数zを得る nInverse Dynamics Features(IDF): とある状態! と遷移先の状態!"# から間の⾏動! を出⼒するモデルを⽤い，特徴抽出器Φを学習 70

Slide 71

Slide 71 text

内的報酬のみによる学習のための様々な⼯夫内的報酬のみから学習するため，以下の⼯夫を加える n⽅策学習アルゴリズム：安定した⽅策改善アルゴリズムであるPPOを使⽤ n報酬の正規化：報酬を安定化させるため，標準偏差で報酬を割って正規化 nアドバンテージの正規化：PPOでバッチ処理を⾏う場合のアドバンテージ関数を正規化 n観測の正規化：環境を10000ステップランダム探索して得た観測の平均と標偏偏差で，学習中の観測を正規化 n複数アクターによる探索：学習中には128個のアクターを同じ環境で並列に動かし，学習⽤のデータを収集 n獲得表現の正規化：ニューラルネットによる特徴抽出の際に，バッチ正規化を使⽤ nエピソード終端の変更：ゲーム内のエージェントの死を⼀つの状態遷移とみなし，エピソード継続 →エージェントはゲームのやり直しに戻されるのを避けるため，死ににくくなる 71

Slide 72

Slide 72 text

実験今まで議論した表現の獲得や⼯夫を利⽤し，様々なゲームでパフォーマンスを発揮できるか評価 72

Slide 73

Slide 73 text

様々な表現を⽤いた強化学習 Atariのいくつかのゲームとスーパーマリオで内的報酬のみが与えられる強化学習を⾏い，複数の表現獲得法を⽐較ゲームによって適不適があるが，全体的にVAEとランダムに初期化したCNNで得た表現を使ったものが⾼パフォーマンス 73

Slide 74

Slide 74 text

複数の環境で並列処理する場合マリオで複数の同じ環境を⽤いて並列に探索を⾏ってバッチサイズを増やした場合，並列環境数でパフォーマンスが変化するかどうか実験並列環境数を増やすと，パフォーマンスも向上している 74

Slide 75

Slide 75 text

内的報酬のみで学習したエージェントの汎化性能マリオの1-1で学習したエージェントを2-1や3-1に転移させてパフォーマンスが発揮できるか確認 Ø 1-1→2-1では転移した場合のパフォーマンスの⽅が，最初から 2-1で学習した場合よりかなり⼤きい Ø ⼀⽅，1-1→3-1では，転移した場合にそれほど⼤きいパフォーマンスが発揮できていない 75

Slide 76

Slide 76 text

２プレイヤーでどちらも内発的報酬で学習した場合 Ø途中までは順調に打ち合ってゲーム継続時間がのびる Ø論⽂⽈く，途中からエミュレータがおかしくなったらしい 76

Slide 77

Slide 77 text

NoisyTV problem nUnity（ゲームエンジン）で作った強化学習環境に，次々と違う映像が映し出されるテレビを設置し，内発的報酬による探索をさせてみた →エージェントの動きが⽌まってしまう n理由 - 常に観測がランダム変化することで，予測器の学習が意味をなさず，TVを観測する状態に⾼い報酬が⽣成されるため n環境内の無意味な情報を無視できる特徴抽出が必要 77 エージェント視点壁のTVに映し出される画像が⾼速で切り替わり続ける ↑常に変化 ↑どれだけ学習しても予測できない

Slide 78

Slide 78 text

Noisy TVを置いた環境で実験 nテレビをオフにした状態とオンにした場合のパフォーマンスを⽐較テレビをオンにすると途中からまったく学習できていない 78

Slide 79

Slide 79 text

⾃分に関係あるものだけに注⽬した好奇⼼による探索 Curiosity-driven Exploration by Self-supervised Prediction [Pathak+] 論⽂概要 nエージェントの⾏動に関係があるもののみに注⽬するため特徴抽出を⾏い，予測誤差により内発的報酬を⽣成 n特徴抽出のため順モデルと逆モデルを組み合わせた予測を⾏って報酬を⽣成する ICM(Intrinsic Curiosity Module)を提案 79

Slide 80

Slide 80 text

エージェントによる意味のある観測エージェントの観測には以下のものが含まれる (1)エージェントに影響を与え，エージェントによってコントロールできるもの →マリオ本体 (2)エージェントに影響を与えるが，エージェントが直接的にコントロールできないもの →クリボーなどの敵 (3)エージェントに影響を与えず，エージェントがコントロールすることもできないもの →画⾯上部のコインなど 80 (3)は無視して，(1)と(2)のみに注⽬して学習したい！ (1) (3) (2 )

Slide 81

Slide 81 text

ICMのアーキテクチャ逆モデル順モデル内的報酬⽣成 Ø 状態& と次の状態 &/0 の特徴を獲得 Ø ２つの特徴から間の⾏動を予測 →良い特徴抽出ができるφを学習 Φ(& )と& を⼊⼒し，次の状態の予測値 / (&/0)を出⼒ 81

Slide 82

Slide 82 text

逆モデル nある状態0 と次の状態01+ を特徴量抽出器に通し，特徴量(0),(01+)を取得 n上記の特徴量を⼊⼒とし，状態間で⾏われた⾏動の予測値7 を出⼒ n教師信号となる実際の⾏動を⽤い，これらのモデルを学習 →Φは，⾏動予測に重要な部分（状態の中でエージェントに関係ある部分）に注⽬した特徴を抽出するように 82

Slide 83

Slide 83 text

順モデル nΦと⾏動0 を⽤いて，次の状態を予測 nΦは逆モデルで学習した特徴抽出器を使⽤ nここで出⼒される 8 が，ある状態に対する「予測」を表す 83

Slide 84

Slide 84 text

内的報酬の⽣成 n順モデルで⽣成出⼒した 8 と，実際の状態から特徴抽出したΦの⼆乗誤差により，予測誤差を計算 n順モデルは予測誤差を最⼩化するように学習 n学習していない状態＝未観測の状態に対しては予測誤差が⼤きくなる →この予測誤差を報酬として利⽤すると，新しい状態への探索が促進される 84 損失関数

Slide 85

Slide 85 text

実験/VizDoom VizDoomを⽤い，テスト環境での報酬獲得の難易度を調整しつつ迷路探索課題を⾏う Ø Train Mapで⼀切の外部報酬なしに事前学習を⾏う Ø Test Mapでは，報酬の獲得難易度を調整するため，エージェントの発⽣地点（⻘点）を変える Ø ゴールに到達した場合に外部報酬+1それ以外は0 以下の設定で，エージェントのスタート地点を変更する (a)報酬が多い場合(dense)：⻘点のどこか (b)報酬がスパースな場合(sparse)：Room13 ゴールまで270ステップ (c)報酬が極めてスパースな場合(very sparse):Room17 ゴールまで350 ステップ 85

Slide 86

Slide 86 text

実験結果/VizDoom Ø 普通のA3Cでは，報酬がスパースになるだけでパフォーマンスが⼤幅に低下 Ø 提案⼿法（オレンジ）は，いずれの設定でも⾼いパフォーマンスを維持 86

Slide 87

Slide 87 text

実験/ノイズ⼊りの環境 n本⼿法の強みである「⾃分に関係のあるもの」の特徴抽出をできているかどうか評価 nVizDoomのゲーム画⾯のうち，40%がエージェントにコントロールできないノイズで構成される →提案⼿法は，特徴抽出のによりノイズに対してロバストであるはずノイズが⼊ったゲーム画⾯ 87

Slide 88

Slide 88 text

結果/ノイズ⼊りの環境特徴抽出をせず，単なるピクセル画像から学習した場合より，提案⼿法で特徴抽出をした⽅が⾼パフォーマンス 88

Slide 89

Slide 89 text

実験/マリオ攻略 nスーパーマリオブラザーズ（初代）を，提案⼿法でどこまで攻略できるか実験 nここでは，提案⼿法でエージェントが汎⽤的なスキルを獲得できるかどうかも検討 n⼀つのステージで学習したエージェントが他のステージでも通⽤するか試した 89

Slide 90

Slide 90 text

マリオ攻略/実験結果 Level-1→Level-2 Level-2のみで学習すると， fine-tuningほどの性能はでない Level-1で学習したモデルをそのまま使⽤まったく攻略できない Ø Level1で学習したモデルをそのまま使うと，まったく性能がでない →Level1とLevel2のステージは外観の違いが⼤きいため Ø 後述のLevel-3の議論にもあるが，ステージ構造⾃体は問題ではない fine-tuningで劇的に改善 90

Slide 91

Slide 91 text

Level1→Level2 91 論⽂中では，ステージ構造の問題ではなく，ステージ背景に問題があるのではないかとしている（fine-tuningで容易に改善) Level-1：外部の明るいステージ Level-2:地中で真っ暗 Level-1 Level-2

Slide 92

Slide 92 text

マリオ攻略/実験結果 Level-1→Level-3 Level-1のモデルをそのまま使ってもそこそこ攻略できている Level-3のみの学習だと，まったく性能が出ない Ø Level-3の⽅がLevel-2より難しいはずなのに，なぜfine-tuningなしで⾼パフォーマンス？ →Level-1とLevel-3はステージの外観が似ているため！！ Ø ステージ構造は似ていないが，転移ができる fine-tuningでは性能が悪化 92

Slide 93

Slide 93 text

Level1→Level3 なぜうまくいく？ステージ背景が似ている(構造は似てない) どちらも外部の明るいステージ Level-1 Level-3 93

Slide 94

Slide 94 text

ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 EXPLORATION BY RANDOM NETWORK DISTILLATION [Burda,Edwards+] 論⽂概要 n状態を⼊⼒する⼆つのネットワークとして，ランダムに初期化したネットワークと，このネットワークの出⼒を真似るよう蒸留するネットワークを⽤意 n両⽅のネットワークの出⼒の誤差を内発的報酬とし，新しい状態に対して探索を促進 nRL⼿法として初めてMontezuma’s Revengeで⼈間を超えるスコア 94

Slide 95

Slide 95 text

本⼿法で利⽤したいニューラルネットの特性 1. 単純に学習が不⾜している 2. 出⼒が確率的である（先ほど紹介したNoisy TV問題） 3. モデルがよくない 4. ネットワーク内の最適化プロセスがよくない１を利⽤すると，今まで散々悩んできた未知の状態の評価がうまくいくのでは？また，ニューラルネットは似た⼊⼒に対しては似た出⼒をするため，状態が⾼次元でも状態の近さを考慮した評価が可能 →この論⽂のアイディア 95

Slide 96

Slide 96 text

Random Network Distillationによる内発的報酬⽣成 n ⼆つのネットワーク，ターゲットネットワーク，予測ネットワークを⽤意 n 両ネットワークに，評価したい状態を⼊⼒ n 予測ネットはターゲットの出⼒を真似るよう学習を⾏い，両出⼒の⼆乗誤差が内的報酬となる n →新しく観測した状態に⼤しては内発的報酬が⼤きくなる 96 ゲーム画像! ゲーム画像! ターゲットネットワーク →出⼒を真似される側ランダムに初期化する予測ネットワーク →出⼒をマネする側ターゲットの出⼒を真似できるよう学習（蒸留）を⾏う同じ構造のモデル蒸留ターゲットネットの出⼒予測ネットの出⼒外部報酬etと⾜し合わせ，最終的な報酬とする予測誤差による内的報酬

Slide 97

Slide 97 text

その他⼯夫点 n外部報酬はエピソードの終端で得るepisodicな報酬に，探索報酬はエピソードの⾮終端でも得られるnon-episodicな報酬とする n外部報酬と内的報酬の組み合わせ外部報酬による価値関数 2 と，内的報酬による価値関数- はそれぞれ別の割引報酬率で評価し⾜し合わせる = 2 + - 97

Slide 98

Slide 98 text

実験 nAtari2600のゲームで⽐較⼿法とPPO，RNDを改良したもの(Dynamics)を⽐較 ※Dynamics:RNDの予測誤差として⽤いる⼆つのネットワークの観測時間を⼀つずらした（stとst+1）もの n論⽂中では⾊々状況を変えて実験を⾏っているが，ここではAtariベンチマークで最強モデルのRNDを⽤い，他の⼿法との⽐較を⾏った実験のみを考慮 98

Slide 99

Slide 99 text

実験結果 Ø Montezumaʼs Revengeでは，SOTAだった疑似カウントを⽤いた⼿法(先ほど解説した論⽂Unifying Count-Based Exploration and Intrinsic Motivation)を超えてSOTA Ø RND以外でも結構強いが，他半分では疑似カウントの⽅が強い 99

Slide 100

Slide 100 text

RLがMontezumaʼs Revengeで初めて⼈間の平均スコアを超える ↑DQNの悲惨なスコアから，3年でここまで発展 100

Slide 101

Slide 101 text

しかし・・・ RND発表からわずか数週間後，Uberの研究者からとんでもない発表が Montezumaʼs Revengeにおける現最強アルゴリズム Go-Exploreの登場！！ 101

Slide 102

Slide 102 text

ほんの三週間程度 102

Slide 103

Slide 103 text

３年３週間 103

Slide 104

Slide 104 text

過去に保存した良い状態に戻ってスタート地点とする探索⼿法 Go-Explore: a New Approach for Hard-Exploration Problems [Ecoffet+] 論⽂概要 n報酬がスパースな環境で，従来の好奇⼼による探索とはまったく違う探索⼿法を提案 n学習を２段階に分け，第１段階で状態の記憶とスタート地点の変更による探索，第２段階でデモ軌道ロバストな⽅策を獲得 nMontezumaʼs RevengeでRNDを超えSOTA n今まで紹介してきた好奇⼼/内発的報酬による探索⼿法とは異なる枠組みの⼿法 104

Slide 105

Slide 105 text

従来の好奇⼼による探索⼿法の問題点 Ø 緑⾊の部分が内的報酬を獲得できる場所（新規状態） Ø 渦の中⼼ほど，深い探索が必要 Ø ⼀度は内的報酬に従って，深い状態まで探索を⾏っても，何らかの理由で別エリアの探索に切り替わった場合を考える Ø そうすると，既に探索済みの場所（⽩い部分）は内的報酬が得られないため，深い状態に到達するための探索が難しくなる 105

Slide 106

Slide 106 text

Go-Explore/⼤まかな⼿法の概要２つのフェーズに分けてエージェントの学習を⾏う nフェーズ１：⽬標状態到達まで探索 - 探索をしながら，特定の状態”Cell”をArchiveに追加 - 探索のスタート時にArchiveからランダムにCellを選択し, その状態まで移動 - その状態からスタートしてランダム探索(繰り返し) nフェーズ２：⽅策のロバスト化 - フェーズ１で得られた軌道のうち⽬標に到達した軌道を通るような⽅策を模倣学習で獲得 106

Slide 107

Slide 107 text

フェーズ１状態の保存と始点変更による探索⽬標状態に到達できる軌道を得るため，タスクの⽬標状態到達まで，以下の⼿順を繰り返す 1. あるCellからエージェントをスタートさせる．このCellはArchiveから選択 (Go back to it) 2. 移動⽤の⽅策でCellまで移動する 3. Cellからランダム探索し，特定の状態，または軌道に遭遇したとき，Archiveに状態と軌道を保存（Explore from it） 4. 探索を終了し，1に戻る 107

Slide 108

Slide 108 text

Cellの選択 n⼀般的な強化学習⼿法と異なり，特定のスタートからではなく，Archiveから選択した Cellから探索開始 nCellの選択は基本的にランダム予備実験では，ヒューリスティックで選択確率を操作してパフォーマンスの向上が⾒られたとの報告あり 108

Slide 109

Slide 109 text

Cellの表現 n⽣のゲーム画像は⾼次元で扱いにくいため，Archiveに保存する際に画像を変換 n似たCellは同じとみなし，明らかに違うCellは別ものとするため，画像のダウンスケールとピクセルの表現の縮⼩を⾏う 109 厳密には違う状態だが，抽象化し，同じCellとみなす http://www.cs.uwyo.edu/~jeffclune/share/2018_12_07_NeurIPS_DeepRLWorkshop_Go _Explore.pdf

Slide 110

Slide 110 text

選択したCellからの探索 nランダム探索なので，ニューラルネットは⽤いない nつまり，フェーズ1では⽅策の学習は⼀切⾏わない nただ，⽅策の設計次第では，パフォーマンスを向上させ得ることが⽰唆されている 110

Slide 111

Slide 111 text

Archiveの更新以下の⼆つの基準で，Archiveを更新する 1. 未知のCellに遭遇した場合 2. Archiveに保存されている軌道より短い軌道で同等以上の報酬，同じ軌道でも⾼い報酬の獲得が可能な場合以下の要素とともに，CellをArchiveに保存 (1)Cellへ到達するまでの軌道 (2)Cell到達時の環境の状態 (3)保存軌道で得た総報酬 (4)軌道の⻑さ 111

Slide 112

Slide 112 text

フェーズ２/模倣学習による⽅策のロバスト化 nフェーズ１で⾒つけた理想的な軌道（デモンストレーション）に近い動きができる⽅策を獲得する nテスト環境における状態遷移が確率的であってもデモと同じような動きができる⽅策を獲得可能 nフェーズ１で⾒つけた軌道は余分な⾏動を含むこともあるため，このフェーズで除去 112

Slide 113

Slide 113 text

フェーズ２の詳細 n模倣学習のアルゴリズムとしてはBackwards Imitation Learningを使⽤ nオリジナルの軌道と異なっていても，獲得スコアが上であればそちらを採⽤ →オリジナルの軌道は⽬標状態に到達さえすれば途中経過は気にしないため，余分な⾏動も含んでいる（例えばストックが０にならない程度の死，無意味なバック） nフェーズ１とは異なり，このフェーズではニューラルネットを使⽤して⽅策を学習 113

Slide 114

Slide 114 text

Backwards Imitation Learning n デモンストレーションの軌道の中で，終端から始点に向かって数ステップずつ学習する 1. 終端からスタート 2. kステップ分，始点⽅向へ戻る 3. 戻った先から，スタート地点となった終端まで⾏動するこのときの動きで得た軌道のスコア≧オリジナル軌道のスコアとなるまで3を実⾏ 4. 終端をずらして1に戻る nこれらの⼿順を，元のデモンストレーションの始点にたどり着くまで実⾏ 114

Slide 115

Slide 115 text

実験 Montezumaʼs Revenge nドメイン知識ありの場合と，ドメイン知識なしの場合に分けて，Go-Exploreを Montezumaʼs Revengeで評価 nドメイン知識としては，現在の部屋番号，カギの情報などを使⽤ nデフォルトではAtariはゲーム挙動が決定論的であるがテスト時には確率的にしたい →以下の仕様を追加 no-ops:スタート地点におけるランダム時間停⽌ sticky-action:確率的に同じ⾏動を繰り返す ※本資料ではMontezumaの実験のみ解説 115

Slide 116

Slide 116 text

実験/ドメイン知識なしヒューマンエキスパートの平均スコアが34900に対しGo-Exploreは43763!! 116

Slide 117

Slide 117 text

実験/ドメイン知識ありドメイン知識なしレベル3以降はどのレベルの難易度もレベル３と⼀緒であるためレベル３を必ずクリアできるドメイン知識ありの場合は，法外なスコアを獲得可 117

Slide 118

Slide 118 text

余談/Treasure room curse nMontezumaʼs Revengeの最後の部屋では，スコアUPのアイテムを複数⼊⼿可能 n本来，アイテムをいくつか取得すると，⾃動的に主⼈公が落下して、次のレベルに進むが，ある操作により，永遠にアイテム取得可 nGo-Exploreは学習中にこのバグを発⾒ 118

Slide 119

Slide 119 text

その他好奇⼼による探索⼿法ここまで紹介してきた⼿法とはちょっと違った形で好奇⼼/内的報酬を利⽤している強化学習⼿法を追加で軽めに紹介します 119

Slide 120

Slide 120 text

⼈間の⽣体反応から学び，危険に対する応答を内発的報酬とする⼿法(ICLR2019 Accepted) Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards [McDuff+] 論⽂概要 n⼈間は，危険が近づいたとき，⾃律神経の働きによる⽣体反応を元に内発的なフィードバックを得て⾏動選択を⾏っている n運転時の観測画像と，運転者の⽣体反応パルスを⽤いて学習したCNNの出⼒により内発的報酬を⽣成 n運転タスクで本⼿法を適⽤することで，サンプル効率を改善し，エピソード終了（衝突）までの時間も上昇 120

Slide 121

Slide 121 text

⼈間の⽣体反応を元にした内発的報⽣成 n外的な報酬と，⼈間の⽣体反応を教師データとして学習したCNNの出⼒から得た内発的報酬 ̃ を重みづけし，最終的な報酬とする nCNNの学習には，実際に⼈間の運転⼿を運転させて得た運転者視点画像と，⽣体パルスを使⽤ (⼀種の模倣学習といえる) 121

Slide 122

Slide 122 text

実験 n実験環境として，⾃動運転シミュレータAirSimを使⽤ nベースアルゴリズムとしてはDQNを使⽤ n重みλが1の場合は外的報酬のみによるただのDQN，0の場合は内発的報酬のみに頼った学習となる運転の各要素の制御タスクにおけるパフォーマンス以下に⻑くエピソードを続けられるか（衝突したら終了） 122

Slide 123

Slide 123 text

観測した状態と過去に観測した状態からの離れ具合で内発的報酬を⽣成(ICLR2019 Accepted) EPISODIC CURIOSITY THROUGH REACHABILITY [Savinov, Raichuk, Marinier+] 論⽂概要 n観測の記憶機構を導⼊し，現在の観測と過去の観測を⽐較することで，内的報酬を⽣成 n埋め込みにより観測の表現を獲得し，現在の状態と過去の状態の観測がステップ数的に離れていれば⼤きな内発的報酬を⽣成 123

Slide 124

Slide 124 text

提案⼿法の構成 nReachability network(R-net) 状態を埋め込むEmbedding networkと埋め込み表現から状態間ステップ数を計り，閾値と⽐較して0か1を出⼒するComparator networkで構成 nMemory buffer 過去に⼤きな内発的報酬を得た状態表現を保存する nReachability buffer R-netにより，現在の観測とMemory buffer内の全状態を⽐較した結果を保存 nReward bonus estimation module Rechability bufferの要素全てを⼊⼒とし，内発的報酬を決定 124

Slide 125

Slide 125 text

実験と結果 VizDoomで，報酬が密な状態，スパースな状態，とてもスパースな状態に分け，提案⼿法とPPO，PPO+ICMを⽐較最終到達パフォーマンス的にはICMと同じだが，収束スピードが極めて速い 125

Slide 126

Slide 126 text

壊れやすい物体操作のための優しい操作を内発的報酬により獲得 Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning [Huang, Zambelli] 論⽂概要 nロボットによる壊れやすい物体操作には，強すぎる操作をした場合の罰則を与える必要があるが，これだけでは局所解に陥る nこれを回避するため，ペナルティに加えて，環境に対する予測誤差の内発的報酬と，ペナルティに対する予測誤差の内的報酬を導⼊ https://sites.google.com/view/gentlemanipulation 126

Slide 127

Slide 127 text

複数の内発的報酬の導⼊ nImpact Penelty: 時刻でエージェントが与えた衝撃に対する罰則報酬 nDeynamics-based surprise 複数ネットワークに⾏動と状態を⼊⼒し，各ネットワークの出⼒の分散が⼤きければ⼤きな報酬を⽣成 nPenalty-based surprise Dynamicsの場合と同じく，複数ネットワークに状態と⾏動を⼊⼒した場合の出⼒の分散を元に報酬⽣成最終的な報酬はタスク報酬とこれらの組み合わせ学習⼿法としてはD4PGを使⽤ 127

Slide 128

Slide 128 text

実験と結果 nタスクの外部報酬，強い操作に対するペナルティ，2つの予測誤差による内発的報酬の組み合わせを変えてみたパフォーマンスの違い n上が物体圧縮操作，下は壊れやすいブロック操作 128 ペナルティの予測誤差による内発的報酬が⼀番効いており，両タスクで⾼いパフォーマンス

Slide 129

Slide 129 text

⽬次 n強化学習・深層強化学習の基礎 n報酬なスパースな環境と好奇⼼による探索 n論⽂紹介 - 環境から得る情報量を⽤いた内発的報酬 - 疑似的な状態カウントと内発的報酬を組み合わせた探索 - 状態のハッシュ化を⽤いたカウントによる内発的報酬 - 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 - まったく報酬が与えられない環境における探索 - ⾃分に関係あるものだけに注⽬した好奇⼼による探索 - ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 - 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 - その他好奇⼼による探索⼿法 n参考⽂献 nおまけ/強化学習の勉強資料紹介 129

Slide 130

Slide 130 text

参考⽂献，サイト，資料 1 強化学習・深層強化学習の基礎 nRichard S Sutton and Andrew G Barto. Reinforcement learning: An introduction, volume 1. Bradford, 1998. nDavid Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484‒489, 2016. nHado Van Hasselt, Arthur Guez, and David Silver. Deep reinforcement learning with double q-learning. In AAAI, volume 2, page 5. Phoenix, AZ, 2016. nZiyu Wang, Nando de Freitas, and Marc Lanctot. Dueling network architectures for deep reinforcement learning. In ICML, 2016. nVolodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In ICML, pages 1928‒1937, 2016. nArun Nair, Praveen Srinivasan, Sam Blackwell, Cagdas Alcicek, Rory Fearon, Alessandro De Maria, Vedavyas Panneershelvam, Mustafa Suleyman, Charles Beattie, Stig Petersen, et al. Massively parallel methods for deep reinforcement learning. arXiv preprint arXiv:1507.04296, 2015. nJ. Schulman, S. Levine, P. Moritz, M. I. Jordan, and P. Abbeel, “Trust region policy optimization”, in ICML, 2015. nJohn Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. CoRR, abs/1707.06347, 2017. nY. Duan, X. Chen, R. Houthooft, J. Schulman, and P. Abbeel, “Benchmarking deep reinforcement learning for continous control”, in ICML, 2016. nBellemare, Marc G, Naddaf, Yavar, Veness, Joel, and Bowling, Michael. The arcade learning environment 130

Slide 131

Slide 131 text

参考⽂献，サイト，資料 2 報酬なスパースな環境と好奇⼼による探索 n Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym, 2016. n Unity ML-agents. https://github.com/Unity-Technologies/ml-agents. n S. P. Singh, A. G. Barto, and N. Chentanez. Intrinsically motivated reinforcement learning. In NIPS, 2005. n Strehl, A. L. and Littman, M. L. (2008). An analysis of model-based interval estimation for Markov decision processes. Journal of Computer and System Sciences, 74(8):1309 ‒ 1331. 論⽂紹介環境から得る情報量を⽤いた内発的報酬 n R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. Vime: Variational information maximizing exploration. In NIPS, 2016. n Stadie, B. C., Levine, S., and Abbeel, P. (2015). Incentivizing exploration in reinforcement learning with deep predictive models. arXiv preprint arXiv:1507.00814. 疑似的な状態カウントと内発的報酬を組み合わせた探索 n Marc Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, and Remi Munos. Unifying count-based exploration and intrinsic motivation. In NIPS, pages 1471‒1479, 2016. n Bellemare, M., Veness, J., and Talvitie, E. (2014). Skip context tree switching. In Proceedings of the 31st International Conference on Machine Learning, pages 1458‒1466. 状態のハッシュ化を⽤いたカウントによる内発的報酬 n Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, OpenAI Xi Chen, Yan Duan, John Schulman, Filip DeTurck, and Pieter Abbeel. # exploration: A study of count-based exploration for deep reinforcement learning. In NIPS, pages 2750‒2759, 2017. n Charikar, Moses S. Similarity estimation techniques from rounding algorithms. In Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC), pp. 380‒388, 2002. 131

Slide 132

Slide 132 text

参考⽂献，サイト，資料 3 観測の識別器を⽤いて推定した密度を内発的報酬とする探索 nJ. Fu, J. D. Co-Reyes, and S. Levine. EX2: Exploration with exemplar models for deep reinforcement learning. NIPS, 2017. まったく報酬が与えられない環境における探索 nYuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, and Alexei A. Efros. Large-scale study of curiosity-driven learning. In arXiv:1808.04355, 2018. ⾃分に関係あるものだけに注⽬した好奇⼼による探索 nDeepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. Curiosity-driven exploration by self- supervised prediction. In ICML, 2017. ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬 nYuri Burda, Harrison Edwards, Amos Storkey, and Oleg Klimov. Exploration by random network distillation. arXiv preprint arXiv:1810.12894, 2018. 過去に保存した良い状態に戻ってスタート地点とする探索⼿法 nAdrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O Stanley, and Jeff Clune. 2019. Go-Explore: a New Approach for Hard-Exploration Problems. arXiv preprint arXiv:1901.10995 (2019) nTim Salimans and Richard Chen. Learning montezumaʼs revenge from a single demonstration. arXiv preprint arXiv:1812.03381, 2018. nReinforcement Learning @ NeurIPS2018 https://www.slideshare.net/yukono1/reinforcement-learning- neurips2018 n2018-12-07-NeurIPS-DeepRLWorkshop-Go-Explore http://www.cs.uwyo.edu/~jeffclune/share/2018_12_07_NeurIPS_DeepRLWorkshop_Go_Explore.pdf 132

Slide 133

Slide 133 text

参考⽂献，サイト，資料 4 その他好奇⼼による探索⼿法 n Nikolay Savinov, Anton Raichuk, Raphael Marinier, Damien Vincent, Marc Pollefeys, Timothy Lillicrap, and Sylvain Gelly. Episodic curiosity through reachability. arXiv preprint arXiv:1810.0227, 2018. n Daniel McDuff and Ashish Kapoor. Visceral Machines: Reinforcement Learning with Intrinsic Rewards that Mimic the Human Nervous System. arXiv preprint arXiv:1805.09975, 2018. n Sandy H. Huang and Martina Zambelli and Jackie Kay and Murilo F. Martins and Yuval Tassa and Patrick M. Pilarski and Raia Hadsell. Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning. arXiv preprint arXiv:1903.08542, 2019 133

Slide 134

Slide 134 text

Slide 135

Slide 135 text

おまけ強化学習の学習リソース n参考書 nWeb上で⼊⼿できる学習リソース 135

Slide 136

Slide 136 text

piqcy本の実装はTensorFlowベースなのに対し，こちらはPytorchベースで解説．網羅度は⾼くなく，古典的強化学習の話題がほんの少しと，PyTorchによる深層強化学習アルゴリズムの実装がほとんどを占める． PyTorchを中⼼に使っているのであれば，piqcy本とセットで使うのもあり．後半にはAWSのGPUインスタンス環境構築法や，学習⼿順が載っている．今から強化学習を始めるならまずはこの⼀冊．知識の網羅度も極めて⾼く，古典的強化学習から深層強化学習までPythonコード付きで解説．後半はトップカンファレンスに出てくるような論⽂の内容を交え，発展的な話題．著者のTwitterアカウント名から「piqcy本」，表紙から「緑本」などと呼ばれたり．⼊⾨者向けの参考書 n⼊⾨者にオススメの書籍機械学習スタートアップシリーズ 1ZUIPOで学ぶ強化学習⼊⾨から実践まで久保隆宏著つくりながら学ぶ深層強化学習 d1Z5PSDIによる実践プログラミングd 株式会社電通国際情報サービス⼩川雄太郎 136

Slide 137

Slide 137 text

ここで紹介する本では⼀番薄く，いかにも「速習」だが，⾒た⽬とタイトルに反してガチガチ理論重視の本．学習の初期で⼿を出す本ではなく，ある程度強化学習に慣れてから，理論的な部分を追求したい⼈向け．深層強化学習は，後半に訳者により追加執筆されたものがあり，これはかなりわかりやすい．強化学習の基礎的な話題から始まるが，⽅策勾配の部分や，発展的理論などは数学的要素が強く難易度は⾼め．強化学習の和書としてはたぶん唯⼀強化学習の⼯学応⽤についても多く書かれており，ロボット，医療応⽤など様々．深層強化学習は後半の⽅にAlphaGoやDQN系統のアルゴリズムが少し．各章は独⽴しているため，学びたい所を拾い読みがよい．初期の版は誤植がかなり多いので注意難しめの参考書これからの強化学習牧野貴樹澁⾕⻑史他速習強化学習 ʕ基礎理論とアルゴリズムʕ $TBCB4[FQFTWBSJ ⼩⼭⽥創哲他 137

Slide 138

Slide 138 text

洋書だが，英語は平易でわかりやすい．実装はPytorchを使⽤．かなり実装重視の本であり，数式による解説よりは，実装上の解説がほとんど．実装は著者のオリジナルライブラリ「ptan」を使⽤することになる．ptanでエージェントの探索部分をほとんどラップしてしまっているため，個⼈的にはあまりよくない仕様．ただ，本に書いてある通りの操作で⾮常に簡単にDQNからDDPG，進化戦略のアルゴリズムまでPyTorchで実装可能．とにかく多くのアルゴリズムを動かしてみたい⼈向け．洋書 %FFQ3FJOGPSDFNFOU-FBSOJOH)BOET0O"QQMZNPEFSO3-NFUIPET XJUIEFFQ2 OFUXPSLT WBMVFJUFSBUJPO QPMJDZHSBEJFOUT 5310 "MQIB(P;FSPBOENPSF .BYJN-BQBO 138

Slide 139

Slide 139 text

おまけ/Web上のリソース1 分野別 n強化学習本のバイブル，通称”Sutton本”の第２版ドラフト - ２版は現在我々が翻訳中 http://incompleteideas.net/book/bookdraft2018jan1.pdf n先ほど紹介した『速習強化学習』の原著Web版 https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf n深層強化学習全体の解説深層強化学習アルゴリズムの紹介からベンチマーク，転移学習などの発展的な話題まで扱った教科書『An Introduction to Deep Reinforcement Learning 』のドラフト https://arxiv.org/pdf/1811.12560.pdf nDeepMindによる講義動画 DeepMindの⼀流研究者による，強化学習・深層強化学習のみではなく，深層学習の基礎から⾔語処理，⽣成モデルなどの話題も含めた総合的な講義動画．DeepMindの研究者らによる深層学習研究のアドバイスも随所にあり． https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs 139

Slide 140

Slide 140 text

おまけ/Web上のリソース２分野別 nバンディット問題の教科書のドラフト https://tor-lattimore.com/downloads/book/book.pdf n⾃然⾔語処理のための強化学習に関する授業 https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/syllabus.html n強化学習の簡単なタスクを視覚的に体験できるサイト https://cs.stanford.edu/people/karpathy/reinforcejs/ n⾮剛体ロボに関するまとめ https://t.co/9nVwalzpE9 n深層強化学習によるゲームプレイまとめ https://arxiv.org/abs/1708.07902 nAIで利⽤される神経科学の知⾒をまとめたDeepMindによるレビュー論⽂ https://deepmind.com/research/publications/neuroscience-inspired-artificial-intelligence/ 140