Slide 1

Slide 1 text

Curiosity-driven Exploration by self-supervised Prediction 東京電機大学 先端科学技術研究科 坪谷朱音

Slide 2

Slide 2 text

書誌情報 author:Pathak, Deepak and Agrawal, Pulkit and Efros, Alexei A and Darrell, Trevor title :Curiosity-driven exploration by self-supervised prediction booktitle:International Conference on Machine Learning (ICML) ※ 機械学習分野のトップカンファレンス year :2017 引用数:1285 https://pathak22.github.io/noreward-rl/ 2

Slide 3

Slide 3 text

本論文の目的 ● 好奇心に基づく内発的報酬を生成する手法を提案 ● 報酬がまばらな環境で、好奇心をもつ強化学習エージェントが効 率よく学習できるか検証 3

Slide 4

Slide 4 text

目次 ● 強化学習 ○ 外発的報酬がまばらな環境での問題点 ○ 解決案:好奇心に基づく内発的報酬 ○ 3つの仮説 ● 提案手法:ICM ● 実験 ○ 外発的報酬がまばらな環境 ○ 外発的報酬が得られない環境 ○ 未知のシナリオへの一般化 ● 考察 ● まとめ 4

Slide 5

Slide 5 text

強化学習 ● エージェントと環境の相互作用から、報酬が最大となる方策を学習 する分野 5 「おすわり」と言われている (状態) 餌 (報酬) おすわり  (行動)

Slide 6

Slide 6 text

強化学習における報酬の重要性 ● 行動の良し悪しを報酬で判断 ○ 最初はランダムに動く ○ 得られた報酬から、より良い方策に更新していく ○ 従って初期の報酬 は、ランダム方策から脱出するために重要 ● 外発的報酬 :エージェントの外から与えられる報酬 6 おすわりすると 報酬がもらえる!

Slide 7

Slide 7 text

外発的報酬がまばらな環境 ● 報酬は重要にも関わらず、現実の応用タスクでは外発的報酬がまばら ● 例:スーパーマリオブラザーズ ○ 環境が広大 & ゴールでのみ外発的報酬を得られる ○ ランダムな方策でゴールすることは困難 7 報酬が得られないので ランダムな方策から更新で きない

Slide 8

Slide 8 text

外発的報酬がまばらな環境下における人間 ● 人間は外発的報酬がまばら/得られない環境でも、ランダムに動き続けるわけでは ない 8 敵の近くで ジャンプしたらど うなる? 土管の上に 乗れるか?

Slide 9

Slide 9 text

外発的報酬がまばらな環境下における人間 ● 人間は外発的報酬がまばら/得られない環境でも、ランダムに動き続けるわけでは ない 9 敵の近くで ジャンプしたらど うなる? 土管の上に 乗れるか? 内発的動機付け や好奇心と呼ばれる これらによって、外発的報酬がまばらな環境でも学習可能に

Slide 10

Slide 10 text

強化学習における好奇心による内発的報酬 ● 強化学習でも内発的動機付けや好奇心は、外発的報酬がまばらな時に重要と考 えられ、広く研究されている ○ 一般にエージェントの内側から得られる報酬(内発的報酬 )として定義 内発的報酬の定式化 1. 新規の状態を訪れた時に与える 2. エージェントが行動の結果を予測できない時に与える 10 ← 本論文はこちら

Slide 11

Slide 11 text

著者らの3つの仮説 好奇心をもつエージェントは 1. 外発的報酬のみでは困難だったタスクの学習を可能 に 2. 外発的報酬がない環境での効率的な探索 3. 未知のシナリオへの一般化に貢献 11

Slide 12

Slide 12 text

著者らの3つの仮説 好奇心をもつエージェントは 1. 外発的報酬のみでは困難だったタスクの学習を可能 に 2. 外発的報酬がない環境での効率的な探索 3. 未知のシナリオへの一般化に貢献 本論文では3つの仮説に答えるため3種類の実験をおこなう 12

Slide 13

Slide 13 text

新規性:好奇心が学習しやすい状態の特徴空間 状態の分類 13 エージェント 制御可能 影響の有無 状態 1 ◯ ◯ 2 × ◯ 3 × ×

Slide 14

Slide 14 text

新規性:好奇心が学習しやすい状態の特徴空間 状態の分類 14 エージェント 制御可能 影響の有無 状態 1 ◯ ◯ 2 × ◯ 3 × × 好奇心にとって良い状態の特徴空間は 1と2をモデル化し3の影響を受けないもの

Slide 15

Slide 15 text

好奇心があるエージェントが陥る罠 ● 例:迷路ゲームで壁時計がかかってい るような環境 ○ 状態は一人称のゲーム画面 ● 壁時計の動きを予測できない    = 新規の状態と認識 ○ ずっと好奇心が高いままなので、 エージェントは壁時計に釘付け ● 生のピクセル画像の予測は難しい & 予 測が目的ではない! 15

Slide 16

Slide 16 text

好奇心があるエージェントが陥る罠 ● 例:迷路ゲームで壁時計がかかってい るような環境 ○ 状態は一人称のゲーム画面 ● 壁時計の動きを予測できない    = 新規の状態と認識 ○ ずっと好奇心が高いままなので、 エージェントは壁時計に釘付け ● 生のピクセル画像の予測は難しい & 予 測が目的ではない! 16 エージェントに影響を与えない環境の変化には 鈍感であってほしい

Slide 17

Slide 17 text

提案手法:Intrinsic Curiosity Module (ICM) ● エージェントに影響を与えない環境の予測不可能な面に左右されない 、環境に関 する知識の予測誤差を用いた好奇心に基づく内発的報酬 を作成する手法 17 報酬を最大化 する方策を 学習 好奇心に基づく 内発的報酬を 生成

Slide 18

Slide 18 text

ICMの一連の操作 18 1. 逆モデルで、出力s t+1 と なるような行動a^ t を 学習 入力 出力

Slide 19

Slide 19 text

ICMの一連の操作 19 1. 逆モデルで、出力s t+1 と なるような行動a^ t を 学習 2. 状態s t , s t+1 をφ(s t ), φ (s t+1 )にエンコード これらは行動に影響を与 えない/受けない特徴が 入っていない

Slide 20

Slide 20 text

ICMの一連の操作 20 1. 逆モデルで、出力s t+1 と なるような行動a^ t を 学習 2. 状態s t , s t+1 をφ(s t ), φ (s t+1 )にエンコード これらは行動に影響を与 えない/受けない特徴が 入っていない 3. 順モデルでφ^(s t+1 )を予 測し、実際のφ(s t+1 )との誤 差を内発的報酬として生成 入力 出力

Slide 21

Slide 21 text

3種類の環境による実験 ● 外発的報酬がまばらな環境 ○ ゴールした時のみ報酬が得られる ● 外発的報酬が全くない環境 ● 新しい環境 ○ 同じゲーム内の異なるマップ 21

Slide 22

Slide 22 text

実験で使うゲーム 22 VizDoom(一人称視点の3D迷路) ● 行動:上下左右 ● 外発的報酬:ゴール +1,  そ れ以外 0 ● ゴール or 2100step経過で  ゲーム終了 スーパーマリオブラザーズ ● 行動:14種類(ボタンは6つ) ● 外発的報酬:0 ● ゴール or 穴に落ちるetc で ゲーム終了

Slide 23

Slide 23 text

使用アルゴリズム ● 既存:A3C ○ 探索は古典的な ε-greedy 探索を採用 ● 提案(エンコードなし ):ICM-pixels + A3C ○ 状態のエンコードを行わず生のピクセル画像で予測 ■ エージェントに影響を与えない環境の変化にも敏感 ● 提案(既存のエンコード方法 ):ICM-aenc + A3C ○ エンコードの仕方がピクセルベースの順モデル ■ オートエンコーダベース手法の代表的な既存手法 ● 提案:ICM + A3C 23

Slide 24

Slide 24 text

実験1:外発的報酬がまばらな環境 ● タスク ○ VizDoom ● 外発的報酬 ○ 密・まばら・非常にまばら ● エージェントの初期位置 ○ ランダム・Room13(270step) ・Room17(350step) 24

Slide 25

Slide 25 text

結果 ● 提案手法 ICM + A3C は全てのケースで高い成績 25 良

Slide 26

Slide 26 text

考察 ● ICM は効率的に探索できるため早期にゴールに到達する ● ICM(pixels) はテクスチャが異なる部屋にランダムに初期配置されるた め、ICM より予測が難しく性能が劣る 26 良

Slide 27

Slide 27 text

考察 ● A3C は学習が進まずゴールにたどり着けなかった ● ICM と ICM(pixels) が同等の結果になる理由は初期配置が固定なため 予測できない問題が起こりにくかったため 27 良

Slide 28

Slide 28 text

考察 ● ICM のみ 66% の割合でゴールにたどり着けた 28 良

Slide 29

Slide 29 text

実験2:エージェントに影響を与えない環境の変化に対 するロバスト性 ● 外発的報酬がまばらな環境 (VizDoom) にホワイトノイズを乗せた実験 ● 結果:ICM はゴールに到達、ICM(pixels) は苦戦 29

Slide 30

Slide 30 text

実験2:エージェントに影響を与えない環境の変化に対 するロバスト性 ● 外発的報酬がまばらな環境 (VizDoom) にホワイトノイズを乗せた実験 ● 結果:ICM はゴールに到達、ICM(pixels) は苦戦 30 ICM は自身に影響を与えない環境の変化に鈍感なことがわかる

Slide 31

Slide 31 text

実験3:外発的報酬が全くない環境 ● タスク ○ VizDoom・スーパーマリオ ● 良い探索方策とは ○ 報酬がなくてもできるだけ多くの状態を訪れる探索できる方策 ■ VizDoom:訪れた部屋数と距離 ■ スーパーマリオ:スタートからの移動距離 ○ 好奇心で良い探索方策を実現できるか検証 31

Slide 32

Slide 32 text

結果:VizDoom ● 2100step のうち訪れた箇所を色付け ● ICM は最短でも250step以上かかる、最も遠い部屋に到達 32 ICM ランダム

Slide 33

Slide 33 text

結果:スーパーマリオ ● Level1のステージの30%以上到達 ● 敵を避ける行動に対して報酬は与えられていないが、自然に学習 ○ 敵にやられるとその先に進めないので好奇心が飽和 ○ 好奇心を維持するために自律的に学習 33 https://youtu.be/J3FHOyhUn3A 移動距離

Slide 34

Slide 34 text

実験4:新しい環境への一般化 ● 実験3で得た探索方策は ○ 環境に依存した特有のもの? ○ それとも環境を探索するために一般化されたもの? 34

Slide 35

Slide 35 text

実験4:新しい環境への一般化 ● 実験3で得た探索方策は ○ 環境に依存した特有のもの? ○ それとも環境を探索するために一般化されたもの? スーパーマリオのレベル1で学習した後、得られた探索方策を2つの方法で評価 1. 学習した探索方策をそのまま新しいシナリオに適用する 2. 好奇心の報酬のみで微調整を行い、方策を適応させる 35

Slide 36

Slide 36 text

結果:スーパーマリオ ● レベル1で学習 → レベル3に適用では良い成績 ○ 一般化が可能なことを示唆 ● レベル1で学習 → レベル2に適用では悪い成績 ○ ステージの見た目が大きく異なることが原因? 36 そのまま 適用 そのまま 適用

Slide 37

Slide 37 text

考察:スーパーマリオ ● レベル1で学習した方策を好奇心で微調整することで、一から学習するより遠い場 所に行けた ○ レベル2は難しいステージなので、レベル1で基礎的動作学習 →レベル2で微 調整が有効だった? 37 好奇心で 微調整 一から好奇心で 学習 >

Slide 38

Slide 38 text

考察:スーパーマリオ ● しかしレベル3では、レベル1で学習した方策を好奇心で微調整すると、微調整する 前より悪くなる ○ レベル3では超えることが難しい局面がある ○ 学習済みエージェントはその手前までの好奇心が薄く、報酬は0に近い ○ 結果、徐々に方策は退化 = 人間でいう退屈に近い状態 38 好奇心で 微調整 > そのまま 適用

Slide 39

Slide 39 text

総合考察 3つの仮説 1. 外発的報酬のみでは困難だったタスクの学習を可能 に 2. 外発的報酬がない環境での効率的な探索 3. 未知のシナリオへの一般化に貢献 ● VizDoom ○ 外発的報酬がまばらな環境の学習が可能 (1) ○ ランダムな探索より効率的に探索できる (2) ● スーパーマリオ ○ 外発的報酬がない環境の学習でレベル1の30%以上学習 (2) ○ レベル1で学習した方策がレベル2, 3の攻略に役立つ (3) 39 概ね正しい

Slide 40

Slide 40 text

まとめ ● ピクセルを予測するという困難な問題を回避し、探索方策が環境の厄介な要因に 影響されないことを保証する、好奇心に基づく内発的報酬を生成するメカニズム を提案 ○ 2種類のゲームで3つの仮説を検証 ○ 概ね正しいことがわかった ● 今後は、学習した方策をより一般的なものに落とし込みたい ○ VizDoomでは壁に当たらず廊下を歩く動作を獲得 ○ この学習した行動は別の環境でも十分活かせる 40