好奇心に基づく深層強化学習手法「Random Network Distillation」の紹介

Exploration by Random Network Distillation 東京電機大学先端科学技術研究科3年坪谷朱音 2025/6/9

書誌情報題：Exploration by Random Network Distillation 著者：Yuri Burda, Harrison Edwards,
Amos Storkey, Oleg Klimov 所属は4人中3人が Open AI カンファレンス：ICLR2019 被引用数(2025/5/28時点)：1708 Reinforcement learning with prediction-based rewards | OpenAI 本論文の背景を補足しつつ、内容を説明していくスライドです (2/26)

概要【提案手法：Random Network Distillation (RND) 】この手法は、固定されたランダムなターゲットネットワークと、その出力を模倣する予測ネットワークを用い、それらの予測誤差を内発的報酬として利用する【新規性】ターゲットネットワークは入力(状態)と出力が一意に定まるので、従来で問題視され
ていた NoisyTV問題 (エージェントにとって意味のない確率的な状態遷移に引き寄せられる問題)を簡単に回避できる【成果】 Atariの中でも探索が難しい課題群において、既存手法と同等以上の成果を示し、特に Montezuma’s Revenge, Gravitar, Venture では当時の SOTA を更新 (3/26)

背景：報酬がスパースな強化学習強化学習エージェントは環境から報酬を得ることで、方策や価値を学習する • この学習の枠組みは、密(dense)な報酬下ではうまく機能するが、疎ら (sparse)な報酬下では上手く学習できないことが多い ◦ 報酬が得られずランダム探索から抜け出せないことも... 疎な報酬下で外発的報酬に頼らない探索のアプローチとして内発的動機付けが研究されているエージェント
環境行動 a 状態 s 報酬 r (4/26)

背景：強化学習における内発的動機付け【内発的動機付け(Intrinsic motivation)】※あくまで強化学習における定義 • 環境から与えられる外発的報酬とは別に、何らかの基準でエージェントが内発的報酬を生成するメカニズムを指す • 何らかの基準 = 状態の新奇性であることが多く、好奇心による探索
(curiosity driven exploration)とも呼ばれる時刻 t における報酬内発的報酬 (intrinsic) 外発的報酬 (extrinsic ) 内発的報酬を探索ボーナスとして与えることで、 RL の枠組みを変更せずにエージェントの学習/探索を促進できるメカニズム (5/26)

内発的動機付けにおける課題：NoisyTV問題【NoisyTV】ノイズを写すTV (例：ランダムに画像を描画する) このNoisyTVを環境に置くだけで、エージェントはTVの前から動けなくなる →探索できなくなるイメージ例：エージェントの一人称視点 https://openai.com/index/reinforcement-learning-with-prediction-based-re wards/ 単に新奇性を追い求めるだけではダメ
エージェントの行動選択に関係ない環境内の無意味な情報を無視できる特徴抽出や機構が重要常に内発的報酬が高い状況 (6/26)

内発的報酬の与え方1：カウントベース【考え方】訪問回数をカウントして、あまり訪問していない状態ほど内発的報酬を与える • 各状態への訪問回数を n とし、内発的報酬を 1/n や 1/√n
で与える ⭕ tabler RL のような小規模な状態空間なら可 × DeepRL のような大規模な状態空間や連続的な状態だと向かない。ほとんどの状態は最大でも1回訪問されるのみ　Bellemare らはこの欠点を克服するために、状態の密度から状態の擬似カウントを推定し、内発的報酬に利用する手法を考案今まで観測された状態現状態全く同じ状態を観測したことはない... が、マスごとに考えると観測したことがある 2/2×1/2×1/2×1/2=1/8 (7/26)

内発的報酬の与え方2：予測誤差ベース【考え方】予測誤差が大きい(=新奇性が高い)ほど内発的報酬を与える • 現在の状態行動から次状態を予測する形式が主流 ◦ RND は予測誤差ベースだが上記の形式ではない ⭕ DeepRL のような大規模な状態空間でも適用可
× Φ(x) の設計(生の観測値から意味のある特徴量を設計すること)が難しい現在の状態行動から次状態を予測するモデル特徴抽出器を通じ得られた次状態 (8/26)

何に起因する予測誤差を使うべきか予測誤差が生じる主な原因 1. 未学習：学習のデータがまだ足りていない 2. 確率的：ターゲット関数の出力が確率的であり予測が難しい 3. モデルの複雑さ：ターゲット関数の出力に対して予測ネットが小さく、予測しきれない ❌
状態の特徴抽出を行うターゲット関数(Φ)は、環境の複雑性や状態遷移の確率性に適切に対応できるように設計しなくてはならない。上手く設計しないと NoisyTV 問題のように内発的報酬が意図しない挙動を引き起こす危険がある RND は環境に依存しないターゲットネットワークを使用するため、2と3を回避しながら 1 による予測誤差を利用できる (9/26)

Random Network Distillation (RND) 入力状態 x ターゲットネットワーク (重みは固定)
予測ネットワーク予測誤差内発的報酬予測誤差が最小になるように学習 (10/26)

予備実験：MNIST 【目的】予測誤差 (MSE) が新奇性として使えそうか検証【データ】MNIST • 0 と target class
(1-9のどれか) を含む学習データを作成 ◦ 0 は頻繁に訪れる状態 / target class は訪問頻度の低い状態の役割 ◦ 学習データ全体の数は変えずに、割合のみ変化させる０ (5444) ０(444) １(5000) ︙ １(5444) 例：0と1を用いた学習データ (トータルで5444) 1 を予測した時のMSE Fig. 2 (11/26)

予備実験：MNIST結果 • どの target class も学習データに含まれる量が増えると、新奇性が薄れ MSE が減少
• 学習データに target class の画像しか含めていない場合 (x=5444)でも MSE は完全に 0 になるわけではなく、多少の誤差が残る RND による予測誤差は内発的報酬として使えそう！ (12/26)

RND のその他の工夫 • 外発的報酬は episodic、内発的報酬は non-episodic に扱う ◦ そのため収益 R
= R e + R i で計算し、それぞれ個別の割引率を使用する ◦ V e とV i でヘッドを分離し、各収益を利用して推定 ◦ 価値関数も同様に V = V e + V i • 内発的報酬の正規化 ◦ 期待収益の標準偏差で内発的報酬を割る (13/26)

実験概要【実験1-4】Montezuma’s Revengeを用いて RND の性質を検討 • 指標は平均獲得収益・到達部屋数 • 検討事項 ◦
episodic / non-episodic な内発的報酬の比較 ◦ 各収益に対する割引率の組み合わせ方 ◦ 並列環境数の増加と成績の関係【実験5】Montezuma’s Revengeを含む6つのタスクでベンチマークと比較 • PPO • RND • Dynamics (RND を従来の予測誤差ベースっぽく改良したもの※後で補足あり) (14/26)

タスク：Montezuma’s Revenge 【目的】鍵を集めて扉を開けて宝物を集める【状態】ゲーム画面 • ただしどの扉に鍵を使ったのかなど一部の情報は画像からは観測できない = POMDP 【行動】コントローラーのボタンに対応する9行動
【報酬】宝物を入手 DQN論文ではスコア0を示した最難関タスク 23部屋中いくつの部屋に到達できたか=探索指標全23部屋ゲーム画面(現在の部屋) (15/26)

実験1：内発的報酬のみ(episodic/non-episodic) • non-episodic な内発的報酬の成績は向上 ◦ 中でもγ=0.999が多くの部屋を訪問 • 好奇心に従い探索することで外発
的報酬が一時的に上昇 ◦ しかし本設定では外発的報酬が得られないので、良い行動 (外発的報酬がもらえる行動)を継続して選択できない ◦ よって収益は下り坂獲得収益(外発的のみ) 到達部屋数 (16/26)

実験2：外発的報酬あり(episodic/non-episodic) • 実験 1 と同様に non-episodic な内発的報酬は、訪問した部屋数が多い ◦ しかし獲得収益に大きな差はない •
single は dual よりやや成績が良い。だが利便性を考え、標準はdual 結果が安定→ ヘッドの分離 (17/26)

実験3：割引率と成績の関係 • 実験1(内発的報酬のみの設定) とは相反する結果 • 実験3のように、両方の報酬を使用する設定の方が一般的なので、こちらの結果を優先内　外
γ E = 0.99 γ E = 0.999 γ I = 0.99 ◯ ◎ γ I =0.999 - △ 成績向上成績悪化 (18/26)

実験4：並列数の増加と成績の関係 • 並列環境数が多いほど成績が高い ◦ 並列環境数に応じてバッチサイズを大きくしているため • RNN の方が好成績 ◦
実験2ではCNNの方が優位だったが、実験5も踏まえると RNN の方が優位であった頻度が高い CNN RNN 設定：γ I =0.99, γ E =0.999, non-episodic (19/26)

実験5-1：PPOと比較 (20/26)

補足：比較手法の Dynamics 予測ネットワークの入力のみ違う【Dynamics】現在の状態-行動：従来の予測誤差ベースの手法と同様の形式【RND】次状態：ターゲットネットワークの入力と同じ環境の確率性の影響を受ける (21/26)

実験5-2：Dynamics と比較 • 6つ中2つのタスクで顕著な差がでた • Montezuma’s Revenge において Dynamics は部屋を行き来していた
◦ Atari では入力の遅延や無視(sticky actions)が一定の確率で起きる ◦ 部屋の境目にいると同じ部屋に留まる/次の部屋に移動といった、次状態の予測が難しい = NoisyTV問題と同じ問題が発生 ▪ 画面の切り替えが発生する PrivateEye や Pitfall でも確認済 (22/26)

実験5-3：比較まとめ SOTA (23/26)

おまけ：エージェントのリスク志向エージェントは外発的報酬を全て入手すると、潜在的に危険なオブジェクトと相互作用し続ける行動パターンに落ち着くことが多いわざと頭蓋骨(敵キャラ) の周りを往復する (24/26)

内発的報酬の推移詳細は書かれていないが、おそらく実験5と同じ設定の RND を使用松明を拾う死ぬ敵を回避障害物を超える【小さなスパイク】何度も経験したことは
あるが比較的稀な出来事【大きさスパイク】新しい出来事 (25/26)

まとめ【本論文で示したこと】固定化したターゲットネットワークと、その出力を模倣するネットワークの予測誤差から内発的報酬を生成する手法として RND を提案 • 価値ヘッドを分割することで、異なる割引率を使用でき柔軟 • 単純な機構ながら Atari
の中でも 3 つのタスクで SOTA を実現【RND の限界】短期的な意思決定には十分だが、長期的な意思決定には不十分 • Montezuma’s revenge では、4つの鍵と6つの扉が存在するため、適切な扉に対して鍵を使わなければ、鍵が足りずにクリアできない • 鍵の保有(内発的報酬の獲得) > 鍵を使わずに宝物を逃す(外発的報酬の損失) でなければクリアできないが、RND エージェントは稀にしか行えなかった (26/26)

好奇心に基づく深層強化学習手法「Random Network Distillation」の紹介

好奇心に基づく深層強化学習手法「Random Network Distillation」の紹介

Tsuboya Akane

More Decks by Tsuboya Akane

Other Decks in Research

Featured

Transcript

Exploration by Random Network Distillation 東京電機大学先端科学技術研究科3年坪谷朱音 2025/6/9

書誌情報題：Exploration by Random Network Distillation 著者：Yuri Burda, Harrison Edwards,

内発的報酬の与え方1：カウントベース【考え方】訪問回数をカウントして、あまり訪問していない状態ほど内発的報酬を与える • 各状態への訪問回数を n とし、内発的報酬を 1/n や 1/√n

Random Network Distillation (RND) 入力状態 x ターゲットネットワーク (重みは固定)

予備実験：MNIST 【目的】予測誤差 (MSE) が新奇性として使えそうか検証【データ】MNIST • 0 と target class

予備実験：MNIST結果 • どの target class も学習データに含まれる量が増えると、新奇性が薄れ MSE が減少

RND のその他の工夫 • 外発的報酬は episodic、内発的報酬は non-episodic に扱う ◦ そのため収益 R

実験概要【実験1-4】Montezuma’s Revengeを用いて RND の性質を検討 • 指標は平均獲得収益・到達部屋数 • 検討事項 ◦

実験1：内発的報酬のみ(episodic/non-episodic) • non-episodic な内発的報酬の成績は向上 ◦ 中でもγ=0.999が多くの部屋を訪問 • 好奇心に従い探索することで外発

実験2：外発的報酬あり(episodic/non-episodic) • 実験 1 と同様に non-episodic な内発的報酬は、訪問した部屋数が多い ◦ しかし獲得収益に大きな差はない •

実験3：割引率と成績の関係 • 実験1(内発的報酬のみの設定) とは相反する結果 • 実験3のように、両方の報酬を使用する設定の方が一般的なので、こちらの結果を優先内　外

実験4：並列数の増加と成績の関係 • 並列環境数が多いほど成績が高い ◦ 並列環境数に応じてバッチサイズを大きくしているため • RNN の方が好成績 ◦

実験5-1：PPOと比較 (20/26)

補足：比較手法の Dynamics 予測ネットワークの入力のみ違う【Dynamics】現在の状態-行動：従来の予測誤差ベースの手法と同様の形式【RND】次状態：ターゲットネットワークの入力と同じ環境の確率性の影響を受ける (21/26)

実験5-2：Dynamics と比較 • 6つ中2つのタスクで顕著な差がでた • Montezuma’s Revenge において Dynamics は部屋を行き来していた

実験5-3：比較まとめ SOTA (23/26)

おまけ：エージェントのリスク志向エージェントは外発的報酬を全て入手すると、潜在的に危険なオブジェクトと相互作用し続ける行動パターンに落ち着くことが多いわざと頭蓋骨(敵キャラ) の周りを往復する (24/26)

内発的報酬の推移詳細は書かれていないが、おそらく実験5と同じ設定の RND を使用松明を拾う死ぬ敵を回避障害物を超える【小さなスパイク】何度も経験したことは