Upgrade to Pro — share decks privately, control downloads, hide ads and more …

好奇心に基づく深層強化学習手法「Random Network Distillation」の紹介

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

好奇心に基づく深層強化学習手法「Random Network Distillation」の紹介

ICLR2019 で発表された Random Network Distillation と呼ばれる深層強化学習手法の紹介です。この手法は、好奇心(内発的動機づけ)をエージェントに与えるための内発的報酬を設計する機構であり、生成された内発的報酬を利用することでエージェントは探索を促進します。

Avatar for Tsuboya Akane

Tsuboya Akane

March 23, 2026
Tweet

More Decks by Tsuboya Akane

Other Decks in Research

Transcript

  1. 書誌情報 題:Exploration by Random Network Distillation 著者:Yuri Burda, Harrison Edwards,

    Amos Storkey, Oleg Klimov 所属は4人中3人が Open AI カンファレンス:ICLR2019 被引用数(2025/5/28時点):1708 Reinforcement learning with prediction-based rewards | OpenAI 本論文の背景を補足しつつ、内容を説明していくスライドです (2/26)
  2. 概要 【提案手法:Random Network Distillation (RND) 】 この手法は、固定されたランダムなターゲットネットワークと、その出力を模倣する予 測ネットワークを用い、それらの予測誤差を内発的報酬として利用する 【新規性】 ターゲットネットワークは入力(状態)と出力が一意に定まるので、従来で問題視され

    ていた NoisyTV問題 (エージェントにとって意味のない確率的な状態遷移に引き 寄せられる問題)を簡単に回避できる 【成果】 Atariの中でも探索が難しい課題群において、既存手法と同等以上の成果を示し、特 に Montezuma’s Revenge, Gravitar, Venture では当時の SOTA を更新 (3/26)
  3. 背景:強化学習における内発的動機付け 【内発的動機付け(Intrinsic motivation)】※あくまで強化学習における定義 • 環境から与えられる外発的報酬とは別に、何らかの基準でエージェントが内発的 報酬を生成するメカニズムを指す • 何らかの基準 = 状態の新奇性であることが多く、好奇心による探索

    (curiosity driven exploration)とも呼ばれる 時刻 t における報酬 内発的報酬 (intrinsic) 外発的報酬 (extrinsic ) 内発的報酬を探索ボーナスと して与えることで、 RL の枠組みを変更せずに エージェントの学習/探索を 促進できるメカニズム (5/26)
  4. 内発的報酬の与え方1:カウントベース 【考え方】訪問回数をカウントして、あまり訪問していない状態ほど内発的報酬を与え る • 各状態への訪問回数を n とし、内発的報酬を 1/n や 1/√n

    で与える ⭕ tabler RL のような小規模な状態空間なら可 × DeepRL のような大規模な状態空間や連続的な状態だと向かない。ほとんどの 状態は最大でも1回訪問されるのみ  Bellemare らはこの欠点を克服するために、状態の密度から状態の擬似カ ウントを推定し、内発的報酬に利用する手法を考案 今まで観測された状態 現状態 全く同じ状態を観測したことはない... が、マスごとに考えると観測したことがある 2/2×1/2×1/2×1/2=1/8 (7/26)
  5. 何に起因する予測誤差を使うべきか 予測誤差が生じる主な原因 1. 未学習:学習のデータがまだ足りていない 2. 確率的:ターゲット関数の出力が確率的であり予測が難しい 3. モデルの複雑さ:ターゲット関数の出力に対して予測ネットが 小さく、予測しきれない ❌

    状態の特徴抽出を行うターゲット関数(Φ)は、環境の複雑性 や状態遷移の確率性に適切に対応できるように設計しなくては ならない。上手く設計しないと NoisyTV 問題のように内発的 報酬が意図しない挙動を引き起こす危険がある RND は環境に依存しないターゲットネットワークを使用するため、2と3を回避 しながら 1 による予測誤差を利用できる (9/26)
  6. Random Network Distillation (RND) 入力 状態 x ターゲット ネットワーク (重みは固定)

    予測 ネットワーク 予測誤差 内発的報酬 予測誤差が最小になるように学習 (10/26)
  7. 予備実験:MNIST 【目的】予測誤差 (MSE) が新奇性として使えそうか検証 【データ】MNIST • 0 と target class

    (1-9のどれか) を含む学習データを作成 ◦ 0 は頻繁に訪れる状態 / target class は訪問頻度の低い状態の役割 ◦ 学習データ全体の数は変えずに、割合のみ変化させる 0 (5444) 0(444) 1(5000) ︙ 1(5444) 例:0と1を用いた学習データ (トータルで5444) 1 を 予測した時 のMSE Fig. 2 (11/26)
  8. 予備実験:MNIST結果 • どの target class も学習データ に含まれる量が増えると、新奇性が 薄れ MSE が減少

    • 学習データに target class の画 像しか含めていない場合 (x=5444)でも MSE は完全に 0 になるわけではなく、多少の誤 差が残る RND による予測誤差は内発的報酬と して使えそう! (12/26)
  9. RND のその他の工夫 • 外発的報酬は episodic、内発的報酬は non-episodic に扱う ◦ そのため収益 R

    = R e + R i で計算し、それぞれ個別の割引率を使用する ◦ V e とV i でヘッドを分離し、各収益を利用して推定 ◦ 価値関数も同様に V = V e + V i • 内発的報酬の正規化 ◦ 期待収益の標準偏差で内発的報酬を割る (13/26)
  10. 実験概要 【実験1-4】Montezuma’s Revengeを用いて RND の性質を検討 • 指標は平均獲得収益・到達部屋数 • 検討事項 ◦

    episodic / non-episodic な内発的報酬の比較 ◦ 各収益に対する割引率の組み合わせ方 ◦ 並列環境数の増加と成績の関係 【実験5】Montezuma’s Revengeを含む6つのタスクでベンチマークと比較 • PPO • RND • Dynamics (RND を従来の予測誤差ベースっぽく改良したもの※後で補足あり) (14/26)
  11. タスク:Montezuma’s Revenge 【目的】鍵を集めて扉を開けて宝物を集める 【状態】ゲーム画面 • ただしどの扉に鍵を使ったのかなど一部の情報は 画像からは観測できない = POMDP 【行動】コントローラーのボタンに対応する9行動

    【報酬】宝物を入手 DQN論文ではスコア0を示した最難関タスク 23部屋中いくつの部屋に到達できたか=探索指標 全23部屋 ゲーム画面(現在の部屋) (15/26)
  12. 実験1:内発的報酬のみ(episodic/non-episodic) • non-episodic な内発的報酬の 成績は向上 ◦ 中でもγ=0.999が多くの 部屋を訪問 • 好奇心に従い探索することで外発

    的報酬が一時的に上昇 ◦ しかし本設定では外発的報酬 が得られないので、良い行動 (外発的報酬がもらえる行 動)を継続して選択できない ◦ よって収益は下り坂 獲得収益(外発的のみ) 到達部屋数 (16/26)
  13. 実験2:外発的報酬あり(episodic/non-episodic) • 実験 1 と同様に non-episodic な内発的報酬は、訪問した部屋数が多い ◦ しかし獲得収益に大きな差はない •

    single は dual よりやや成績が良い。だが利便性を考え、標準はdual 結果が安定→ ヘッドの分離 (17/26)
  14. 実験4:並列数の増加と成績の関係 • 並列環境数が多いほど成績が高い ◦ 並列環境数に応じてバッチサ イズを大きくしているため • RNN の方が好成績 ◦

    実験2ではCNNの方が優位 だったが、実験5も踏まえると RNN の方が優位であった頻 度が高い CNN RNN 設定:γ I =0.99, γ E =0.999, non-episodic (19/26)
  15. 実験5-2:Dynamics と比較 • 6つ中2つのタスクで顕著な差がでた • Montezuma’s Revenge において Dynamics は部屋を行き来していた

    ◦ Atari では入力の遅延や無視(sticky actions)が一定の確率で起きる ◦ 部屋の境目にいると同じ部屋に留まる/次の部屋に移動といった、次状態 の予測が難しい = NoisyTV問題と同じ問題が発生 ▪ 画面の切り替えが発生する PrivateEye や Pitfall でも確認済 (22/26)
  16. まとめ 【本論文で示したこと】固定化したターゲットネットワークと、その出力を模倣するネッ トワークの予測誤差から内発的報酬を生成する手法として RND を提案 • 価値ヘッドを分割することで、異なる割引率を使用でき柔軟 • 単純な機構ながら Atari

    の中でも 3 つのタスクで SOTA を実現 【RND の限界】短期的な意思決定には十分だが、長期的な意思決定には不十分 • Montezuma’s revenge では、4つの鍵と6つの扉が存在するため、適切な 扉に対して鍵を使わなければ、鍵が足りずにクリアできない • 鍵の保有(内発的報酬の獲得) > 鍵を使わずに宝物を逃す(外発的報酬の損失) でなければクリアできないが、RND エージェントは稀にしか行えなかった (26/26)