Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自律機械知能基礎論 2024

Geson Anko
January 27, 2025
8

自律機械知能基礎論 2024

自律機械知能プロジェクト 2024でメンバーに講義を行った際の資料です。

Geson Anko

January 27, 2025
Tweet

Transcript

  1. 1 ⽬次 1. ⼊⾨:⾃律機械知能 ← AMIの枠組みを知るよ! 1. 定義 2. 具体例

    3. 歴史 2. 好奇⼼という⾃律性 ← ⾃律性の⼀つを知るよ! 1. AMIにおける好奇⼼とは 2. 数式 3. 問題 3. P-AMI<Q>そのものについて ← 具体的な実装を知るよ! 1. Origin 2. 現在
  2. 4 ⾃律機械知能 とは? • Autonomous Machine Intelligence. • LeCunは内発的な報酬に従い⼈間や動物のように学習することので きる機械とし,具体的

    な機能をもとに述べている [Y.LeCun, 2022] • しかし、私の研究における⽬的は、⾃律動作する機械の知能を実装 すること。 • したがって、AMIの形式的な定義を述べる。
  3. 6 系: “System”についてもっと詳しく • 機械知能を適⽤する環境世界そのもの,およびそこから機械知能が 利⽤可能または考慮すべきすべての現象について考える。 • ⽣活空間、電⼒供給、⾃然災害 … •

    なぜこれを考えるのか。 • ⾃律性を適⽤する範囲を定める。どこまで⾃律を考えるか。 • ⼟台の系との関係によって⾃律性が定まる。 • I/Oを考えよう。 • Input: その⼟台となるシステムではどんな現象が発⽣し、AMIはどのようにそれを利⽤ できるのか? • Output: どのように⼲渉することができるのか?
  4. 7 ⽬的や⽬標について 2つの定め⽅ 1. ⾏動⼿続き・ルールの記述により暗黙的に定める • からくり⼈形[細川, 1796]といった、ハードウェア機構レベルの⾏動⽣成計画 2. 累積報酬和(収益)の最⼤化と定める。

    • 報酬仮説を仮定 [Sutton & Barto, 2018] • 強化学習理論における重要な仮定の⼀つ ぱみきゅーでは、⾏動⽣成の最適化に強化学習の⼿法を⽤いるため、 アプローチ 2 を採⽤する。
  5. 9 ⾃明な⾃律機械知能ではない例 • ⼈間 • ⾃律性 • 系 : ⼤⾃然、社会

    • ⽬的やタスク : ⼦孫繁栄、幸せに⽣き続ける。 • 別の⼈間の直接的な⽀配下に置かれた時はあやしい。 • 機械性: 機械ではない。 • 知能か: ⾃明 • 道具を作る • 社会性 • ⽂明
  6. 10 ⾃律機械知能ではない例 • ChatGPT [OpenAI, 2022] 単体 • ⾃律性 •

    系 : ⾃然⾔語 • ⽬的やタスク : 次単語予測、RLHFの⼈間の評価値の向上 • ⾔語⽣成(⾏動)はプロンプトが与えられるまで⾏われない。 • 機械性: 計算機上で動く • 知的か: ⾔語能⼒、そして多くの知識を持つ。 • ⼊⼒を与えてから出⼒が⽌まるまでは⾃律性あり • ※再帰的にプロンプトを⽣成するAutoGPTなどはAMI
  7. 11 ⾃律機械知能の例 • お掃除ロボット • ⾃律性: • 系 : お家の床

    • ⽬的やタスク : 部屋を綺麗にすること • 機械性: ⾃明 • 知的か • 掃除という⾏為を効率的かつ⼗分に⾏う能⼒。 → 知能と呼んで良いこととする。
  8. 12 ⾃律機械知能の例 • ぱみきゅー [Geson+, 2023] • ⾃律性 • 系

    :VRChat • ⽬的やタスク :好奇⼼:未学習や未探索の領域に向かう • 機械性:⾃明 • 知的か • 「知ること」は知能の根源。 • AMIの基盤知識を形成する。
  9. 15 科学技術編 紀元前 時計(⽔, 砂) 1300 ~ 1700年代 機械式時計 1700

    ~ 1800年代 ⾃動機械 (からくり、オートマタ) 産業効率化⽤⾃動機械 ロボット 1800年代 ~ (産業⾰命) 計算機 1950年代 ~ ⼈⼯知能 2000年 ~ 今 ⾃律機械知能 SF作品と 強く影響し合う その時代先端技術(時計、⾃動⾞⽣産ライン、計算機)と共に発達 HONDA: ASIMO GROOVE X: LOVOT 思想 ⾝体 魂
  10. 17 SF作品編 1920年 ロッサム万能ロボット会社 R.U.R 1952年~ 鉄腕アトム 1969年~ ドラえもん ※

    ⼀度以上視聴した事のある作品だけ取り上げています。 1995年~ タチコマ(攻殻機動隊) 2009年~ ユイ(ソードアート・オンライン) アリス(SAO アリシゼーション編) 2012年~ 純産業効率化機械という意味の 「ロボット」という⾔葉を広めた 機械構造が設定の焦点 • 空を⾶べる。 • 床から3mm浮いている。 ガンダムなどの、⼈が操るタイプの ロボット作品へ 知能の構造が設定の焦点 • 並列最適化と個性の関係 • 膨⼤なデータから学習 • 魂の構造定義 知能の現象を描写 具体的な機能を描写
  11. 20 なぜ「好奇⼼」が必要か • (⼀般には)より良い「探索」を実現するため • 強化学習は外部報酬を最⼤化するエージェントを作る • 報酬が無または疎な場合、いつまでもタスクを解けない。 • しかし、、、現実的なタスクはそうである。

    • エージェントが報酬を⾒つけられるまで、今まで到達したことのない領域を探 索し続ける必要がある。 • どんな環境でも学習して欲しい • 内発的なので環境に依存しない。 • 汎⽤的な⾃律性を構築できる。 • AMIの基盤知識を形成するため • 世界を探索し、知っていく あらゆる⽬的・タスクに適⽤するための事前学習のため
  12. 21 好奇⼼の作り⽅ • 未学習の領域へ向かう → 学習済の領域と未学習の領域を判別できる指標(報酬)が必要 • Ex. カウントベース •

    マップの中である領域に訪れた回数の逆数を報酬に • 環境の事前知識が必要 • Ex. 予測誤差ベース ←こっちを詳しく • 学習する内部モデルの予測誤差を報酬に。(驚きとも呼ばれる) • 任意の環境に適⽤できる 学習済 未学習 予測誤差 ⼩ 予測誤差 ⼤
  13. 22 好奇⼼の作り⽅の例(予測誤差ベース) 1. 次に起こることを予測 Forward Dynamics モデル 𝑓 𝑓: 状態,

    ⾏動 ↦ 次の状態 過去の経験から学習、予測誤差を最⼩化 2. 予測誤差(驚き)を報酬化 仮定:未学習なことは予測誤差が⼤きい にゃーん にゃーん 3. 報酬を最⼤化する⾏動を⽣成 Policy モデル 𝜋 𝜋: 状態 ↦ ⾏動 強化学習の枠組みで学習 開ける
  14. 24 予測誤差ベース • 連続値の場合 報酬 = 実際の値 − 予測の値 &

    & 予測の値 ← 𝑀𝑜𝑑𝑒𝑙(経験) • 離散の場合 予測の確率分布𝑝 ← 𝑀𝑜𝑑𝑒𝑙(経験) 報酬 = − log ( 𝑝 実際の値 ) 猫 ⽝ おじさん 0.0 1.0
  15. 25 予測誤差ベース • 定式化 • 実は連続も離散と同じ式。 報酬 = − log

    ( 𝑝 実際の値 ) 1. 確率分布 𝑝 を正規分布と仮定 2. モデルは平均𝜇 のみを予測 3. 標準偏差𝜎 は定数と仮定 4. 実際の値を 𝑥 と置く 予測の確率分布𝑝 ← 𝑀𝑜𝑑𝑒𝑙(経験) 𝑝 = 1 2𝜋𝜎& exp(− 𝑥 − 𝜇 & 2𝜎& ) − log 𝑝 ∝ 𝑥 − 𝜇 & & = 報酬 あれこれ 計算 定数の差やスケールはあれど、線形に正の相関があるので報酬としては⼗分
  16. 29 解決⽅法 • Random Network Distillation (Y. Burda et al

    2018) • 時間遷移を⽤いないので NoisyTV ProblemはOK. • ランダムノイズはエンコードできないので摂動問題は OK. • Self-Supervised Exploration via Disagreement (D. Pathak et al 2019) • 複数のForward Dynamicsモデルによる、予測の分散が報酬
  17. 30 問題に対する疑問 • ホワイトノイズへの対策 • 埋め込み空間で予測誤差取れば良くね? → 情報量が最⼤なのでエンコードができない。 • NoisyTV

    Problemは問題ではない? • 視覚空間、視覚空間がループしたり構造が常に変わり続けるよう な状態にしたら、探索が終わらないというのはその通りでは? Tik Tokに惹きつけられ続ける⼈間的な意味合いで。
  18. 32 P-AMI<Q>:ぱみきゅーとは? 好奇⼼ベースの原始⾃律機械知能 Primitive Autonomous Machine Intelligence based on Q(Cu)riosity.

    ⾃律性 • 系 : VRChat • ⽬的: 探索(好奇⼼) 好奇⼼に従って VRChatのワールド上を動き回っている。 バーチャル学会2023 で発表したよ。 アップデートに伴い原始性は消失。 でも「ぱみきゅー」の語感が良いのでそのまま Japan Streetに いるよ! 2023年9⽉ 誕⽣
  19. 33 VRChatにAMIを作るには? Linux上にPythonで構築 • 観測の取得 VRChatをOBSでキャプチャ(画像) OpenCVで読取り • ⾏動の送信 “OSC

    as Input Controller”で操作 OBS OpenCV VRChat OSC API Ubuntu Linux Python 観測 ⾏動 ⼀つのVRChatterとして • 専⽤のPC • VRCアカウント作成 proton
  20. 35 系 • ⼊⼒(センサー) • RGB画像, 解像度 84x84. • 出⼒(アクチュエータ)

    • OSCコマンド (全て −1, 1 のfloat → スティック操作) • 前後移動速度:”/input/Vertical” • 左右移動速度:”/input/Horizontal” • 左右回転速度:”/input/LookHorizontal” • 10FPS (100ms周期)で⼊出⼒を⾏う。
  21. 36 モデル • D. Pathak ら(2017)の⼿法をそのまま適⽤ • 3つのコンポーネントモデルにより構成される。 Observation Encoder

    z' = 𝜙(𝑜') Forward Dynamics ̂ 𝑧'() ← 𝑓(𝑎'*) , 𝑧' , 𝑎' ) Policy 𝑎' ∼ 𝜋(𝑎' |𝑜' ) 観測 𝑜! 埋め込み観測 𝑧! 埋め込み観測 𝑧! 次ステップの予測 埋め込み観測 ̂ 𝑧!"# ⾏動 𝑎! 観測 𝑜! ⾏動 𝑎! 報酬 𝑟!"# ≔ ̂ 𝑧!"# − 𝑧!"# $ $
  22. 37 Observation Encoder • Inverse Dynamics Features (IDF) • 2時刻の観測𝒐𝒕,

    𝒐𝒕"𝟏 の間に取った⾏動𝒂𝒕 を予測する。 • 𝑔 𝜙 𝑜$ , 𝜙 𝑜$"% → 𝑎$ 損失: ℒ&'( = 𝑎$ − 𝑔 𝜙 𝑜$ , 𝜙 𝑜$"% ) ) • ⾃らの⾏動に関係のある特徴量を抽出する仮定 → ホワイトノイズなどの⾃分の⾏動に関係無い観測の摂動はエンコードし ない? (でも実は学習が不安定…) • 環境とインタラクションし、その ダイナミクスデータ 𝑜$, 𝑎$, 𝑜$"% で学習。 𝜙 𝑔 𝑜' 𝑜'() 𝑧' 𝑧'() 𝑎' Observation Encoder Inverse Dynamics
  23. 38 Forward Dynamics • 1ステップだけ • 観測と⾏動 から次ステップの観測を予測する • ※

    Observation Encoderの出⼒を使う。 • 𝑓 𝑧$, 𝑎$ → 𝑧$"% • 損失: ℒ(' = 𝑧$"% − 𝑓 𝑧$, 𝑎$ ) ) • 環境とインタラクションし、そのダイナミクスデータで学習。 • 1ステップの観測と⾏動からしか予測しないので、シンプルなワールドしか適 ⽤できない…
  24. 39 Policy • Proximal Policy Optimization (PPO) • [J. Schulman+,

    2017] • 安定かつハイパラの数が少ないモデルフリー強化学習⼿法 • Forward Dynamicsの予測誤差を報酬 𝑟$"% とする。 • その割引報酬和(収益)𝐺$ = ∑*+, - 𝑟$"*"% 𝛾*を最⼤化(𝛾 ∈ [0,1] は割引率) • 2つのモデルの組み合わせ • ⽅策 Policy 𝜋 𝑎$ 𝑜$) ∼ 𝑎$ ← ⾏動を⽣成 • 価値関数 Value 𝑉.(𝑜$) ← 収益を予測する • モデルフリー & オフポリシー⼿法なので学習効率が悪い…
  25. 40 モデルについて補⾜ • ⾏動の作⽤の遅延 • VRChatに⾏動を送信する際に遅延が発⽣するため、2つの時刻間 の観測 𝑜' , 𝑜'()

    の間には⾏動 𝑎' だけでなく 𝒂𝒕*𝟏 も作⽤している と考えられる。 • 修正 • Inverse Dynamicsの出⼒ • 𝑔(𝜙 𝑜' , 𝜙 𝑜'() → 𝑎'*), 𝑎' • Forward Dynamicsの⼊⼒ • 𝑓 𝑎'*), 𝑧', 𝑎' → 𝑧'() ややこしいことをしてしまった…
  26. 41 理論的な補⾜ • 観測 𝑜A で状態 𝑠A を近似している。 • 本来、全てのモデルは状態𝑠$

    が⼊⼒と想定される。 • 状態 𝑠$ とは? • システムの現在の条件や状況を完全に記述するもの • マルコフ決定過程(MDP, マルコフ性)を満たす情報 → 次の状態 𝑠$"% が 現在の状態 𝑠$ と⾏動𝑎$ にのみ依存して決まる。 → 過去の状態や履歴に依存しないことが重要 • 例:チェス • 現在の盤⾯とその時の⼿にのみ依存して次の盤⾯が決まる。 • ⼀般のVRChatの環境はこの近似が成り⽴たない。
  27. 43 処理の⼿続き 起動 インタラクション 学習 観測 取得 ⾏動 ⽣成 次の観測

    予測 報酬(予測誤差)計算 ⼤枠 インタラクション ×128回 (10 fps) 観測 取得 次の観測 予測 ⾏動 ⽣成 セット アップ ここで⾏動が ⽌まる!
  28. 44 システムの課題 • 定期的に⽌まる 推論と学習を交互に⾏うため。 • 問題 • 経験の連続性が切れる:現実の時間進⾏との不⼀致 →

    プランニングアルゴリズムなどに悪影響 • モデルサイズを⼤きくできない:学習時間が増加 → 停⽌時間も増加 → ⼤規模化は深層モデルの要 • 計算リソースの⾮効率的使⽤
  29. 45 P-AMI<Q>のオブジェクト構造 Data Collectors Neural Networks Interaction Environ- ment Agent

    Trainers 観測 データ ⾏動 収集 使⽤ モデル 使⽤ 学習 実データ VRChatと 直接やり取り インタラクション 形式の設定 観測 → ⾏動 ⼿続き 学習する AIモデル群 学習のための データ収集 データを使って モデルを更新
  30. 47 系 • ⼊⼒(センサー) • RGB画像, 解像度 84x84. • 出⼒(アクチュエータ)←

    変わった • OSCコマンドは 全て離散(ボタン操作)に。 • 前後移動:”/input/MoveForward” or “Input/MoveBackward” • 左右移動:”/input/MoveLeft” or ”/input/MoveRight” • 左右回転:”/input/LookLeft” or “/input/LookRight” • ジャンプ:”/input/Jump” • ラン :”/input/Run” • 10FPS (100ms周期)で⼊出⼒を⾏う。
  31. 48 モデル • Forward DynamicsとPolicyの⼊出⼒が変わる • 3つのコンポーネントモデルにより構成されるのは同じ Forward Dynamics ̂

    𝑧'() , ℎ'() ← 𝑓(𝑧' , ℎ' , 𝑎' ) Policy 𝑎' ∼ 𝜋(𝑎'|𝑠') 埋め込み観測 𝑧! 次ステップの予測 埋め込み観測 ̂ 𝑧!"# ⾏動 𝑎! 状態 𝒔𝒕 ≔ [𝒛𝒕 , 𝒉𝒕 ] ⾏動 𝑎! 隠れ状態(履歴) 𝒉𝒕 隠れ状態 𝒉𝒕"𝟏
  32. 49 状態情報の近似 • ⻑期時系列モデルを使⽤したForward Dynamcis • 隠れ状態ℎ' (履歴情報)を持たせ、RNN化。 • ̂

    𝑧'() , ℎ'() ← 𝑓 𝑧' , ℎ' , 𝑎' • 𝑠' ≔ 𝑧', ℎ' とおくと、 ̂ 𝑠'() ← 𝑓(𝑠', 𝑎') • もしモデルが完全に近似できたとすると、時刻 𝑡 の状態と⾏ 動のみ依存して 𝑠'() が定まる。 → マルコフ決定過程を満たす! • しかし、モデルには必ず誤差があるので、あくまで近似。 • 状態情報 𝑠' が得られたので 強化学習の理論が成り⽴つ!
  33. 50 Observation Encoder • Variational Auto Encoder (VAE) [D.P.Kingma+, 2013]

    • Encoder ‒ Decoderモデル • ⽣成モデルとして提案されたが、Encoderはデータ圧縮に使える。 • Encoder: 𝑧$ ~ 𝑞/ 𝑧$ 𝑜$ • Decoder: E 𝑜$ ~ 𝑝'(𝑜$|𝑧$) • Loss: ℒ = E 𝑜$ − 𝑜$ ) + 𝐷01(𝑞/ ∥ 𝒩 0, 𝐼 ) • 潜在空間(𝑧の空間)では元データをDisentangle(簡単な表現に紐解く)され ることが知られている。(β-VAE)[I. Higgins+, 2016] Encoder 𝑞' Decoder 𝑝( 𝑜! 𝑧! ; 𝑜!
  34. 51 Forward Dynamics • SioConv • Myxy さんが提案した時系列モデル • Transformer

    のように並列計算でき、RNNのように逐次的な推論 もできる。 • Mamba2 [T. Dao+, 2024] から導出できるらしい… • ↑だと隠れ状態が⼤きくなりすぎるので軽量化している。 • (2024/7/06追記:関係なかった。Myxyさんの資料を参照)
  35. 52 Policy (とValue)の修正 • 変更点 (PPOは変わらず⽤いている) • ⼊⼒が観測𝑜' から状態𝑠' (𝑧'

    とℎ' のペア)に。 • Observation EncoderやForward Dynamcis から⽣成される 𝑠' は”良い”情報を持つらしい(World Models [D. Ha+, 2017] ) → 3層程度の簡易なDNNアーキテクチャを採⽤
  36. 54 AMI Systemについて • ⼤きく変わったことは3つ。 1. 処理⼿続き システムがマルチスレッド化 Mainスレッド、Inferenceスレッド、Trainingスレッド 2.

    学習データの収集、使⽤の ⼿続き Inferenceスレッドで集めて、Trainingスレッドで使う 3. モデルの推論と学習 Inferenceスレッドで推論 Trainingスレッドで学習
  37. 55 1. 処理⼿続き インタラクション 起動 推論 VRChatと インタラクション 学習 新システム

    制御 複数スレッドに分岐 終了命令を出すまでそれぞれの スレッドは実⾏し続ける
  38. 56 2. 学習データの収集・使⽤ • 既存システム 1. 空のバッファを⽤意 2. データを N

    個 収集 3. 集めたデータを学習に提供 4. 2に戻る 全て同期的に⾏われるよ。 空の バッファ N個 Buffer 提供 Trainer
  39. 57 2. 学習データの収集・使⽤ • 新システム Data Collector / Data User

    システム • Data Collector (推論スレッド) 1. 空のバッファを⽤意 2. データを集める。(無限ループ) … ?. Userに渡したら新しい空のバッ ファにセット • Data User (学習スレッド) 1. 空のバッファを⽤意 2. データを Collectorから受け取る この時 Collectorに空のバッファをセット 3. 古いバッファと結合 4. 学習処理へ提供 5. 2へ戻る。 推論 スレッド 学習 スレッド Buffer 移動 Buffer 空の バッファ Old Buffer + 同期 処理
  40. 58 2. 学習データの収集・使⽤ • Re-constructable Class 「空のバッファが必要なら、新しく作り直せば 良いではないか。」 • コンストラクタをラップ

    • 引数をディープコピーして保存 • `new()` で新規バッファ を⽣成 • 引数にでかいオブジェクト渡すとメモリコ ピーがヤバい。 • そもそもコンストラクタが重い場合ヤバい… ⽤法を守って安全に使えばとっても便利!
  41. 59 3. モデルの推論と学習 • ⼤枠 学習スレッド⽤モデル、推論スレッド⽤モデルが存在する。 1. 学習スレッドでパラメータを更新 2. 推論スレッドのモデルと同期(⾼速に)

    推論⽤ モデル 学習⽤ モデル 同期 • 同期⽅式︓内部モデルスイッチング ラッパークラスを介してモデルを扱う。 推論ラッパー モデルラッパー モデル モデル Switching スイッチ後、推論⽤モデルから学習⽤モデルにパラメータコピー ⼤きい深層モデルのコピーには時間がかかる。推論スレッドを待たせないため。
  42. 61 参考⽂献・資料 • Yann LeCun, ”A path towards autonomous machine

    intelligence Version 0.9.2, 2022- 06-27”, https://openreview.net/pdf?id=BZ5a1r-kVsf • 細川頼直, ”機巧図彙”, 須原屋市兵衛, 1796. https://dl.ndl.go.jp/pid/2607731 • Richard S. Sutton and Andrew G. Barto, ”Reinforcement Learning: An Introduction”, p.75, The MIT Press, 2018. • Introducing ChatGPT, https://openai.com/blog/chatgpt • GesonAnko et al, “VRChat 上における好奇⼼ベースの⾃律機械知能の実装”, バーチャル 学会2023, 2023. https://doi.org/10.57460/vconf.2023.0_81 • John Schulman et al, “Proximal Policy Optimization Algorithms”, arXiv, 2017. https://arxiv.org/abs/1707.06347 • Diederik P Kingma and Max Welling, “Auto-Encoding Variational Bayes”, arXiv, 2013. https://arxiv.org/abs/1312.6114 • Tri Dao and Albert Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv, 2024. https://arxiv.org/abs/2405.21060
  43. 62 参考⽂献・資料 • David Ha and Jürgen Schmidhuber, “Recurrent World

    Models Facilitate Policy Evolution”, NeurIPS, 2018. https://worldmodels.github.io • ソースコード • P-AMI<Q> Origin: https://github.com/MLShukai/PrimitiveAMI • P-AMI<Q> 現在: https://github.com/MLShukai/ami • 動画 • ⼊⾨:⾃律機械知能 https://youtu.be/P1LiB4WAIW4?si=O9lid0QftF8sPP8y • 機械学習における「好奇⼼」https://youtu.be/ACulPki98Ps?si=5T90I0BUlsQWi-4J • P-AMI<Q>の実装設計について https://youtu.be/iMZ_ST35qeQ?si=LfNBduZq3Pi5SGle • AMI 基盤システムαステージ: https://youtu.be/dKsgBx6iURs?si=hpv5BV8sKl7XtAdg
  44. 63 参考⽂献:SF作品について • ロッサム万能ロボット会社 ‒ RUR ‒ (カレル・チャペック) https://www.aozora.gr.jp/cards/001236/card46345.html •

    鉄腕アトム(⼿塚治⾍) https://tezukaosamu.net/jp/manga/291.html • ドラえもん(藤⼦ F 不⼆雄) てんとう⾍コミックス, 第1巻, 1974.07.31 • 攻殻機動隊(⼠郎 正宗) The Laughing Man 攻殻機動隊 STAND ALONE COMPLEX (Blu-ray) • ソードアート・オンライン(川原 礫) 電撃⽂庫, 第2巻, 2009.08.10 電撃⽂庫, 第9巻, 2012.02.10
  45. 64 参考⽂献:好奇⼼についてまとめ • P.-Y. Oudeyer et al, (2007). “What is

    intrinsic motivation? A typology of computational approaches.” • M. G. Bellemare et al, (2016) “Unifying Count-Based Exploration and Intrinsic Motivation” • D. Pathak et al, (2017) “Curiosity-driven Exploration by Self-supervised Prediction” • Y. Burda et al, (2018) “Large-Scale Study of Curiosity-Driven Learning” • Y. Burda et al, (2018) “EXPLORATION BY RANDOM NETWORK DISTILLATION” • D. Pathak et al, (2019) “Self-Supervised Exploration via Disagreement”