Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Curiosity-driven Exploration by self-supervised...

Curiosity-driven Exploration by self-supervised Predictionを読んでみた

2017年に発表された"Curiosity-driven Exploration by self-supervised Prediction"という論文の紹介です。2021年にまとめた内容なので、やや古い情報が混ざっています。

Tsuboya Akane

February 17, 2025
Tweet

More Decks by Tsuboya Akane

Other Decks in Research

Transcript

  1. 書誌情報 author:Pathak, Deepak and Agrawal, Pulkit and Efros, Alexei A

    and Darrell, Trevor title :Curiosity-driven exploration by self-supervised prediction booktitle:International Conference on Machine Learning (ICML) ※ 機械学習分野のトップカンファレンス year :2017 引用数:1285 https://pathak22.github.io/noreward-rl/ 2
  2. 目次 • 強化学習 ◦ 外発的報酬がまばらな環境での問題点 ◦ 解決案:好奇心に基づく内発的報酬 ◦ 3つの仮説 •

    提案手法:ICM • 実験 ◦ 外発的報酬がまばらな環境 ◦ 外発的報酬が得られない環境 ◦ 未知のシナリオへの一般化 • 考察 • まとめ 4
  3. 新規性:好奇心が学習しやすい状態の特徴空間 状態の分類 14 エージェント 制御可能 影響の有無 状態 1 ◯ ◯

    2 × ◯ 3 × × 好奇心にとって良い状態の特徴空間は 1と2をモデル化し3の影響を受けないもの
  4. 好奇心があるエージェントが陥る罠 • 例:迷路ゲームで壁時計がかかってい るような環境 ◦ 状態は一人称のゲーム画面 • 壁時計の動きを予測できない    = 新規の状態と認識

    ◦ ずっと好奇心が高いままなので、 エージェントは壁時計に釘付け • 生のピクセル画像の予測は難しい & 予 測が目的ではない! 15
  5. 好奇心があるエージェントが陥る罠 • 例:迷路ゲームで壁時計がかかってい るような環境 ◦ 状態は一人称のゲーム画面 • 壁時計の動きを予測できない    = 新規の状態と認識

    ◦ ずっと好奇心が高いままなので、 エージェントは壁時計に釘付け • 生のピクセル画像の予測は難しい & 予 測が目的ではない! 16 エージェントに影響を与えない環境の変化には 鈍感であってほしい
  6. ICMの一連の操作 19 1. 逆モデルで、出力s t+1 と なるような行動a^ t を 学習

    2. 状態s t , s t+1 をφ(s t ), φ (s t+1 )にエンコード これらは行動に影響を与 えない/受けない特徴が 入っていない
  7. ICMの一連の操作 20 1. 逆モデルで、出力s t+1 と なるような行動a^ t を 学習

    2. 状態s t , s t+1 をφ(s t ), φ (s t+1 )にエンコード これらは行動に影響を与 えない/受けない特徴が 入っていない 3. 順モデルでφ^(s t+1 )を予 測し、実際のφ(s t+1 )との誤 差を内発的報酬として生成 入力 出力
  8. 実験で使うゲーム 22 VizDoom(一人称視点の3D迷路) • 行動:上下左右 • 外発的報酬:ゴール +1,  そ れ以外

    0 • ゴール or 2100step経過で  ゲーム終了 スーパーマリオブラザーズ • 行動:14種類(ボタンは6つ) • 外発的報酬:0 • ゴール or 穴に落ちるetc で ゲーム終了
  9. 使用アルゴリズム • 既存:A3C ◦ 探索は古典的な ε-greedy 探索を採用 • 提案(エンコードなし ):ICM-pixels

    + A3C ◦ 状態のエンコードを行わず生のピクセル画像で予測 ▪ エージェントに影響を与えない環境の変化にも敏感 • 提案(既存のエンコード方法 ):ICM-aenc + A3C ◦ エンコードの仕方がピクセルベースの順モデル ▪ オートエンコーダベース手法の代表的な既存手法 • 提案:ICM + A3C 23
  10. 実験1:外発的報酬がまばらな環境 • タスク ◦ VizDoom • 外発的報酬 ◦ 密・まばら・非常にまばら •

    エージェントの初期位置 ◦ ランダム・Room13(270step) ・Room17(350step) 24
  11. 実験3:外発的報酬が全くない環境 • タスク ◦ VizDoom・スーパーマリオ • 良い探索方策とは ◦ 報酬がなくてもできるだけ多くの状態を訪れる探索できる方策 ▪

    VizDoom:訪れた部屋数と距離 ▪ スーパーマリオ:スタートからの移動距離 ◦ 好奇心で良い探索方策を実現できるか検証 31
  12. 結果:スーパーマリオ • レベル1で学習 → レベル3に適用では良い成績 ◦ 一般化が可能なことを示唆 • レベル1で学習 →

    レベル2に適用では悪い成績 ◦ ステージの見た目が大きく異なることが原因? 36 そのまま 適用 そのまま 適用
  13. 総合考察 3つの仮説 1. 外発的報酬のみでは困難だったタスクの学習を可能 に 2. 外発的報酬がない環境での効率的な探索 3. 未知のシナリオへの一般化に貢献 •

    VizDoom ◦ 外発的報酬がまばらな環境の学習が可能 (1) ◦ ランダムな探索より効率的に探索できる (2) • スーパーマリオ ◦ 外発的報酬がない環境の学習でレベル1の30%以上学習 (2) ◦ レベル1で学習した方策がレベル2, 3の攻略に役立つ (3) 39 概ね正しい