Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自律機械知能基礎論 2024

Avatar for Geson Anko Geson Anko
January 27, 2025
28

自律機械知能基礎論 2024

自律機械知能プロジェクト 2024でメンバーに講義を行った際の資料です。

Avatar for Geson Anko

Geson Anko

January 27, 2025
Tweet

More Decks by Geson Anko

Transcript

  1. 1 ⽬次 1. ⼊⾨:⾃律機械知能 ← AMIの枠組みを知るよ! 1. 定義 2. 具体例

    3. 歴史 2. 好奇⼼という⾃律性 ← ⾃律性の⼀つを知るよ! 1. AMIにおける好奇⼼とは 2. 数式 3. 問題 3. P-AMI<Q>そのものについて ← 具体的な実装を知るよ! 1. Origin 2. 現在
  2. 4 ⾃律機械知能 とは? • Autonomous Machine Intelligence. • LeCunは内発的な報酬に従い⼈間や動物のように学習することので きる機械とし,具体的

    な機能をもとに述べている [Y.LeCun, 2022] • しかし、私の研究における⽬的は、⾃律動作する機械の知能を実装 すること。 • したがって、AMIの形式的な定義を述べる。
  3. 6 系: “System”についてもっと詳しく • 機械知能を適⽤する環境世界そのもの,およびそこから機械知能が 利⽤可能または考慮すべきすべての現象について考える。 • ⽣活空間、電⼒供給、⾃然災害 … •

    なぜこれを考えるのか。 • ⾃律性を適⽤する範囲を定める。どこまで⾃律を考えるか。 • ⼟台の系との関係によって⾃律性が定まる。 • I/Oを考えよう。 • Input: その⼟台となるシステムではどんな現象が発⽣し、AMIはどのようにそれを利⽤ できるのか? • Output: どのように⼲渉することができるのか?
  4. 7 ⽬的や⽬標について 2つの定め⽅ 1. ⾏動⼿続き・ルールの記述により暗黙的に定める • からくり⼈形[細川, 1796]といった、ハードウェア機構レベルの⾏動⽣成計画 2. 累積報酬和(収益)の最⼤化と定める。

    • 報酬仮説を仮定 [Sutton & Barto, 2018] • 強化学習理論における重要な仮定の⼀つ ぱみきゅーでは、⾏動⽣成の最適化に強化学習の⼿法を⽤いるため、 アプローチ 2 を採⽤する。
  5. 9 ⾃明な⾃律機械知能ではない例 • ⼈間 • ⾃律性 • 系 : ⼤⾃然、社会

    • ⽬的やタスク : ⼦孫繁栄、幸せに⽣き続ける。 • 別の⼈間の直接的な⽀配下に置かれた時はあやしい。 • 機械性: 機械ではない。 • 知能か: ⾃明 • 道具を作る • 社会性 • ⽂明
  6. 10 ⾃律機械知能ではない例 • ChatGPT [OpenAI, 2022] 単体 • ⾃律性 •

    系 : ⾃然⾔語 • ⽬的やタスク : 次単語予測、RLHFの⼈間の評価値の向上 • ⾔語⽣成(⾏動)はプロンプトが与えられるまで⾏われない。 • 機械性: 計算機上で動く • 知的か: ⾔語能⼒、そして多くの知識を持つ。 • ⼊⼒を与えてから出⼒が⽌まるまでは⾃律性あり • ※再帰的にプロンプトを⽣成するAutoGPTなどはAMI
  7. 11 ⾃律機械知能の例 • お掃除ロボット • ⾃律性: • 系 : お家の床

    • ⽬的やタスク : 部屋を綺麗にすること • 機械性: ⾃明 • 知的か • 掃除という⾏為を効率的かつ⼗分に⾏う能⼒。 → 知能と呼んで良いこととする。
  8. 12 ⾃律機械知能の例 • ぱみきゅー [Geson+, 2023] • ⾃律性 • 系

    :VRChat • ⽬的やタスク :好奇⼼:未学習や未探索の領域に向かう • 機械性:⾃明 • 知的か • 「知ること」は知能の根源。 • AMIの基盤知識を形成する。
  9. 15 科学技術編 紀元前 時計(⽔, 砂) 1300 ~ 1700年代 機械式時計 1700

    ~ 1800年代 ⾃動機械 (からくり、オートマタ) 産業効率化⽤⾃動機械 ロボット 1800年代 ~ (産業⾰命) 計算機 1950年代 ~ ⼈⼯知能 2000年 ~ 今 ⾃律機械知能 SF作品と 強く影響し合う その時代先端技術(時計、⾃動⾞⽣産ライン、計算機)と共に発達 HONDA: ASIMO GROOVE X: LOVOT 思想 ⾝体 魂
  10. 17 SF作品編 1920年 ロッサム万能ロボット会社 R.U.R 1952年~ 鉄腕アトム 1969年~ ドラえもん ※

    ⼀度以上視聴した事のある作品だけ取り上げています。 1995年~ タチコマ(攻殻機動隊) 2009年~ ユイ(ソードアート・オンライン) アリス(SAO アリシゼーション編) 2012年~ 純産業効率化機械という意味の 「ロボット」という⾔葉を広めた 機械構造が設定の焦点 • 空を⾶べる。 • 床から3mm浮いている。 ガンダムなどの、⼈が操るタイプの ロボット作品へ 知能の構造が設定の焦点 • 並列最適化と個性の関係 • 膨⼤なデータから学習 • 魂の構造定義 知能の現象を描写 具体的な機能を描写
  11. 20 なぜ「好奇⼼」が必要か • (⼀般には)より良い「探索」を実現するため • 強化学習は外部報酬を最⼤化するエージェントを作る • 報酬が無または疎な場合、いつまでもタスクを解けない。 • しかし、、、現実的なタスクはそうである。

    • エージェントが報酬を⾒つけられるまで、今まで到達したことのない領域を探 索し続ける必要がある。 • どんな環境でも学習して欲しい • 内発的なので環境に依存しない。 • 汎⽤的な⾃律性を構築できる。 • AMIの基盤知識を形成するため • 世界を探索し、知っていく あらゆる⽬的・タスクに適⽤するための事前学習のため
  12. 21 好奇⼼の作り⽅ • 未学習の領域へ向かう → 学習済の領域と未学習の領域を判別できる指標(報酬)が必要 • Ex. カウントベース •

    マップの中である領域に訪れた回数の逆数を報酬に • 環境の事前知識が必要 • Ex. 予測誤差ベース ←こっちを詳しく • 学習する内部モデルの予測誤差を報酬に。(驚きとも呼ばれる) • 任意の環境に適⽤できる 学習済 未学習 予測誤差 ⼩ 予測誤差 ⼤
  13. 22 好奇⼼の作り⽅の例(予測誤差ベース) 1. 次に起こることを予測 Forward Dynamics モデル 𝑓 𝑓: 状態,

    ⾏動 ↦ 次の状態 過去の経験から学習、予測誤差を最⼩化 2. 予測誤差(驚き)を報酬化 仮定:未学習なことは予測誤差が⼤きい にゃーん にゃーん 3. 報酬を最⼤化する⾏動を⽣成 Policy モデル 𝜋 𝜋: 状態 ↦ ⾏動 強化学習の枠組みで学習 開ける
  14. 24 予測誤差ベース • 連続値の場合 報酬 = 実際の値 − 予測の値 &

    & 予測の値 ← 𝑀𝑜𝑑𝑒𝑙(経験) • 離散の場合 予測の確率分布𝑝 ← 𝑀𝑜𝑑𝑒𝑙(経験) 報酬 = − log ( 𝑝 実際の値 ) 猫 ⽝ おじさん 0.0 1.0
  15. 25 予測誤差ベース • 定式化 • 実は連続も離散と同じ式。 報酬 = − log

    ( 𝑝 実際の値 ) 1. 確率分布 𝑝 を正規分布と仮定 2. モデルは平均𝜇 のみを予測 3. 標準偏差𝜎 は定数と仮定 4. 実際の値を 𝑥 と置く 予測の確率分布𝑝 ← 𝑀𝑜𝑑𝑒𝑙(経験) 𝑝 = 1 2𝜋𝜎& exp(− 𝑥 − 𝜇 & 2𝜎& ) − log 𝑝 ∝ 𝑥 − 𝜇 & & = 報酬 あれこれ 計算 定数の差やスケールはあれど、線形に正の相関があるので報酬としては⼗分
  16. 29 解決⽅法 • Random Network Distillation (Y. Burda et al

    2018) • 時間遷移を⽤いないので NoisyTV ProblemはOK. • ランダムノイズはエンコードできないので摂動問題は OK. • Self-Supervised Exploration via Disagreement (D. Pathak et al 2019) • 複数のForward Dynamicsモデルによる、予測の分散が報酬
  17. 30 問題に対する疑問 • ホワイトノイズへの対策 • 埋め込み空間で予測誤差取れば良くね? → 情報量が最⼤なのでエンコードができない。 • NoisyTV

    Problemは問題ではない? • 視覚空間、視覚空間がループしたり構造が常に変わり続けるよう な状態にしたら、探索が終わらないというのはその通りでは? Tik Tokに惹きつけられ続ける⼈間的な意味合いで。
  18. 32 P-AMI<Q>:ぱみきゅーとは? 好奇⼼ベースの原始⾃律機械知能 Primitive Autonomous Machine Intelligence based on Q(Cu)riosity.

    ⾃律性 • 系 : VRChat • ⽬的: 探索(好奇⼼) 好奇⼼に従って VRChatのワールド上を動き回っている。 バーチャル学会2023 で発表したよ。 アップデートに伴い原始性は消失。 でも「ぱみきゅー」の語感が良いのでそのまま Japan Streetに いるよ! 2023年9⽉ 誕⽣
  19. 33 VRChatにAMIを作るには? Linux上にPythonで構築 • 観測の取得 VRChatをOBSでキャプチャ(画像) OpenCVで読取り • ⾏動の送信 “OSC

    as Input Controller”で操作 OBS OpenCV VRChat OSC API Ubuntu Linux Python 観測 ⾏動 ⼀つのVRChatterとして • 専⽤のPC • VRCアカウント作成 proton
  20. 35 系 • ⼊⼒(センサー) • RGB画像, 解像度 84x84. • 出⼒(アクチュエータ)

    • OSCコマンド (全て −1, 1 のfloat → スティック操作) • 前後移動速度:”/input/Vertical” • 左右移動速度:”/input/Horizontal” • 左右回転速度:”/input/LookHorizontal” • 10FPS (100ms周期)で⼊出⼒を⾏う。
  21. 36 モデル • D. Pathak ら(2017)の⼿法をそのまま適⽤ • 3つのコンポーネントモデルにより構成される。 Observation Encoder

    z' = 𝜙(𝑜') Forward Dynamics ̂ 𝑧'() ← 𝑓(𝑎'*) , 𝑧' , 𝑎' ) Policy 𝑎' ∼ 𝜋(𝑎' |𝑜' ) 観測 𝑜! 埋め込み観測 𝑧! 埋め込み観測 𝑧! 次ステップの予測 埋め込み観測 ̂ 𝑧!"# ⾏動 𝑎! 観測 𝑜! ⾏動 𝑎! 報酬 𝑟!"# ≔ ̂ 𝑧!"# − 𝑧!"# $ $
  22. 37 Observation Encoder • Inverse Dynamics Features (IDF) • 2時刻の観測𝒐𝒕,

    𝒐𝒕"𝟏 の間に取った⾏動𝒂𝒕 を予測する。 • 𝑔 𝜙 𝑜$ , 𝜙 𝑜$"% → 𝑎$ 損失: ℒ&'( = 𝑎$ − 𝑔 𝜙 𝑜$ , 𝜙 𝑜$"% ) ) • ⾃らの⾏動に関係のある特徴量を抽出する仮定 → ホワイトノイズなどの⾃分の⾏動に関係無い観測の摂動はエンコードし ない? (でも実は学習が不安定…) • 環境とインタラクションし、その ダイナミクスデータ 𝑜$, 𝑎$, 𝑜$"% で学習。 𝜙 𝑔 𝑜' 𝑜'() 𝑧' 𝑧'() 𝑎' Observation Encoder Inverse Dynamics
  23. 38 Forward Dynamics • 1ステップだけ • 観測と⾏動 から次ステップの観測を予測する • ※

    Observation Encoderの出⼒を使う。 • 𝑓 𝑧$, 𝑎$ → 𝑧$"% • 損失: ℒ(' = 𝑧$"% − 𝑓 𝑧$, 𝑎$ ) ) • 環境とインタラクションし、そのダイナミクスデータで学習。 • 1ステップの観測と⾏動からしか予測しないので、シンプルなワールドしか適 ⽤できない…
  24. 39 Policy • Proximal Policy Optimization (PPO) • [J. Schulman+,

    2017] • 安定かつハイパラの数が少ないモデルフリー強化学習⼿法 • Forward Dynamicsの予測誤差を報酬 𝑟$"% とする。 • その割引報酬和(収益)𝐺$ = ∑*+, - 𝑟$"*"% 𝛾*を最⼤化(𝛾 ∈ [0,1] は割引率) • 2つのモデルの組み合わせ • ⽅策 Policy 𝜋 𝑎$ 𝑜$) ∼ 𝑎$ ← ⾏動を⽣成 • 価値関数 Value 𝑉.(𝑜$) ← 収益を予測する • モデルフリー & オフポリシー⼿法なので学習効率が悪い…
  25. 40 モデルについて補⾜ • ⾏動の作⽤の遅延 • VRChatに⾏動を送信する際に遅延が発⽣するため、2つの時刻間 の観測 𝑜' , 𝑜'()

    の間には⾏動 𝑎' だけでなく 𝒂𝒕*𝟏 も作⽤している と考えられる。 • 修正 • Inverse Dynamicsの出⼒ • 𝑔(𝜙 𝑜' , 𝜙 𝑜'() → 𝑎'*), 𝑎' • Forward Dynamicsの⼊⼒ • 𝑓 𝑎'*), 𝑧', 𝑎' → 𝑧'() ややこしいことをしてしまった…
  26. 41 理論的な補⾜ • 観測 𝑜A で状態 𝑠A を近似している。 • 本来、全てのモデルは状態𝑠$

    が⼊⼒と想定される。 • 状態 𝑠$ とは? • システムの現在の条件や状況を完全に記述するもの • マルコフ決定過程(MDP, マルコフ性)を満たす情報 → 次の状態 𝑠$"% が 現在の状態 𝑠$ と⾏動𝑎$ にのみ依存して決まる。 → 過去の状態や履歴に依存しないことが重要 • 例:チェス • 現在の盤⾯とその時の⼿にのみ依存して次の盤⾯が決まる。 • ⼀般のVRChatの環境はこの近似が成り⽴たない。
  27. 43 処理の⼿続き 起動 インタラクション 学習 観測 取得 ⾏動 ⽣成 次の観測

    予測 報酬(予測誤差)計算 ⼤枠 インタラクション ×128回 (10 fps) 観測 取得 次の観測 予測 ⾏動 ⽣成 セット アップ ここで⾏動が ⽌まる!
  28. 44 システムの課題 • 定期的に⽌まる 推論と学習を交互に⾏うため。 • 問題 • 経験の連続性が切れる:現実の時間進⾏との不⼀致 →

    プランニングアルゴリズムなどに悪影響 • モデルサイズを⼤きくできない:学習時間が増加 → 停⽌時間も増加 → ⼤規模化は深層モデルの要 • 計算リソースの⾮効率的使⽤
  29. 45 P-AMI<Q>のオブジェクト構造 Data Collectors Neural Networks Interaction Environ- ment Agent

    Trainers 観測 データ ⾏動 収集 使⽤ モデル 使⽤ 学習 実データ VRChatと 直接やり取り インタラクション 形式の設定 観測 → ⾏動 ⼿続き 学習する AIモデル群 学習のための データ収集 データを使って モデルを更新
  30. 47 系 • ⼊⼒(センサー) • RGB画像, 解像度 84x84. • 出⼒(アクチュエータ)←

    変わった • OSCコマンドは 全て離散(ボタン操作)に。 • 前後移動:”/input/MoveForward” or “Input/MoveBackward” • 左右移動:”/input/MoveLeft” or ”/input/MoveRight” • 左右回転:”/input/LookLeft” or “/input/LookRight” • ジャンプ:”/input/Jump” • ラン :”/input/Run” • 10FPS (100ms周期)で⼊出⼒を⾏う。
  31. 48 モデル • Forward DynamicsとPolicyの⼊出⼒が変わる • 3つのコンポーネントモデルにより構成されるのは同じ Forward Dynamics ̂

    𝑧'() , ℎ'() ← 𝑓(𝑧' , ℎ' , 𝑎' ) Policy 𝑎' ∼ 𝜋(𝑎'|𝑠') 埋め込み観測 𝑧! 次ステップの予測 埋め込み観測 ̂ 𝑧!"# ⾏動 𝑎! 状態 𝒔𝒕 ≔ [𝒛𝒕 , 𝒉𝒕 ] ⾏動 𝑎! 隠れ状態(履歴) 𝒉𝒕 隠れ状態 𝒉𝒕"𝟏
  32. 49 状態情報の近似 • ⻑期時系列モデルを使⽤したForward Dynamcis • 隠れ状態ℎ' (履歴情報)を持たせ、RNN化。 • ̂

    𝑧'() , ℎ'() ← 𝑓 𝑧' , ℎ' , 𝑎' • 𝑠' ≔ 𝑧', ℎ' とおくと、 ̂ 𝑠'() ← 𝑓(𝑠', 𝑎') • もしモデルが完全に近似できたとすると、時刻 𝑡 の状態と⾏ 動のみ依存して 𝑠'() が定まる。 → マルコフ決定過程を満たす! • しかし、モデルには必ず誤差があるので、あくまで近似。 • 状態情報 𝑠' が得られたので 強化学習の理論が成り⽴つ!
  33. 50 Observation Encoder • Variational Auto Encoder (VAE) [D.P.Kingma+, 2013]

    • Encoder ‒ Decoderモデル • ⽣成モデルとして提案されたが、Encoderはデータ圧縮に使える。 • Encoder: 𝑧$ ~ 𝑞/ 𝑧$ 𝑜$ • Decoder: E 𝑜$ ~ 𝑝'(𝑜$|𝑧$) • Loss: ℒ = E 𝑜$ − 𝑜$ ) + 𝐷01(𝑞/ ∥ 𝒩 0, 𝐼 ) • 潜在空間(𝑧の空間)では元データをDisentangle(簡単な表現に紐解く)され ることが知られている。(β-VAE)[I. Higgins+, 2016] Encoder 𝑞' Decoder 𝑝( 𝑜! 𝑧! ; 𝑜!
  34. 51 Forward Dynamics • SioConv • Myxy さんが提案した時系列モデル • Transformer

    のように並列計算でき、RNNのように逐次的な推論 もできる。 • Mamba2 [T. Dao+, 2024] から導出できるらしい… • ↑だと隠れ状態が⼤きくなりすぎるので軽量化している。 • (2024/7/06追記:関係なかった。Myxyさんの資料を参照)
  35. 52 Policy (とValue)の修正 • 変更点 (PPOは変わらず⽤いている) • ⼊⼒が観測𝑜' から状態𝑠' (𝑧'

    とℎ' のペア)に。 • Observation EncoderやForward Dynamcis から⽣成される 𝑠' は”良い”情報を持つらしい(World Models [D. Ha+, 2017] ) → 3層程度の簡易なDNNアーキテクチャを採⽤
  36. 54 AMI Systemについて • ⼤きく変わったことは3つ。 1. 処理⼿続き システムがマルチスレッド化 Mainスレッド、Inferenceスレッド、Trainingスレッド 2.

    学習データの収集、使⽤の ⼿続き Inferenceスレッドで集めて、Trainingスレッドで使う 3. モデルの推論と学習 Inferenceスレッドで推論 Trainingスレッドで学習
  37. 55 1. 処理⼿続き インタラクション 起動 推論 VRChatと インタラクション 学習 新システム

    制御 複数スレッドに分岐 終了命令を出すまでそれぞれの スレッドは実⾏し続ける
  38. 56 2. 学習データの収集・使⽤ • 既存システム 1. 空のバッファを⽤意 2. データを N

    個 収集 3. 集めたデータを学習に提供 4. 2に戻る 全て同期的に⾏われるよ。 空の バッファ N個 Buffer 提供 Trainer
  39. 57 2. 学習データの収集・使⽤ • 新システム Data Collector / Data User

    システム • Data Collector (推論スレッド) 1. 空のバッファを⽤意 2. データを集める。(無限ループ) … ?. Userに渡したら新しい空のバッ ファにセット • Data User (学習スレッド) 1. 空のバッファを⽤意 2. データを Collectorから受け取る この時 Collectorに空のバッファをセット 3. 古いバッファと結合 4. 学習処理へ提供 5. 2へ戻る。 推論 スレッド 学習 スレッド Buffer 移動 Buffer 空の バッファ Old Buffer + 同期 処理
  40. 58 2. 学習データの収集・使⽤ • Re-constructable Class 「空のバッファが必要なら、新しく作り直せば 良いではないか。」 • コンストラクタをラップ

    • 引数をディープコピーして保存 • `new()` で新規バッファ を⽣成 • 引数にでかいオブジェクト渡すとメモリコ ピーがヤバい。 • そもそもコンストラクタが重い場合ヤバい… ⽤法を守って安全に使えばとっても便利!
  41. 59 3. モデルの推論と学習 • ⼤枠 学習スレッド⽤モデル、推論スレッド⽤モデルが存在する。 1. 学習スレッドでパラメータを更新 2. 推論スレッドのモデルと同期(⾼速に)

    推論⽤ モデル 学習⽤ モデル 同期 • 同期⽅式︓内部モデルスイッチング ラッパークラスを介してモデルを扱う。 推論ラッパー モデルラッパー モデル モデル Switching スイッチ後、推論⽤モデルから学習⽤モデルにパラメータコピー ⼤きい深層モデルのコピーには時間がかかる。推論スレッドを待たせないため。
  42. 61 参考⽂献・資料 • Yann LeCun, ”A path towards autonomous machine

    intelligence Version 0.9.2, 2022- 06-27”, https://openreview.net/pdf?id=BZ5a1r-kVsf • 細川頼直, ”機巧図彙”, 須原屋市兵衛, 1796. https://dl.ndl.go.jp/pid/2607731 • Richard S. Sutton and Andrew G. Barto, ”Reinforcement Learning: An Introduction”, p.75, The MIT Press, 2018. • Introducing ChatGPT, https://openai.com/blog/chatgpt • GesonAnko et al, “VRChat 上における好奇⼼ベースの⾃律機械知能の実装”, バーチャル 学会2023, 2023. https://doi.org/10.57460/vconf.2023.0_81 • John Schulman et al, “Proximal Policy Optimization Algorithms”, arXiv, 2017. https://arxiv.org/abs/1707.06347 • Diederik P Kingma and Max Welling, “Auto-Encoding Variational Bayes”, arXiv, 2013. https://arxiv.org/abs/1312.6114 • Tri Dao and Albert Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv, 2024. https://arxiv.org/abs/2405.21060
  43. 62 参考⽂献・資料 • David Ha and Jürgen Schmidhuber, “Recurrent World

    Models Facilitate Policy Evolution”, NeurIPS, 2018. https://worldmodels.github.io • ソースコード • P-AMI<Q> Origin: https://github.com/MLShukai/PrimitiveAMI • P-AMI<Q> 現在: https://github.com/MLShukai/ami • 動画 • ⼊⾨:⾃律機械知能 https://youtu.be/P1LiB4WAIW4?si=O9lid0QftF8sPP8y • 機械学習における「好奇⼼」https://youtu.be/ACulPki98Ps?si=5T90I0BUlsQWi-4J • P-AMI<Q>の実装設計について https://youtu.be/iMZ_ST35qeQ?si=LfNBduZq3Pi5SGle • AMI 基盤システムαステージ: https://youtu.be/dKsgBx6iURs?si=hpv5BV8sKl7XtAdg
  44. 63 参考⽂献:SF作品について • ロッサム万能ロボット会社 ‒ RUR ‒ (カレル・チャペック) https://www.aozora.gr.jp/cards/001236/card46345.html •

    鉄腕アトム(⼿塚治⾍) https://tezukaosamu.net/jp/manga/291.html • ドラえもん(藤⼦ F 不⼆雄) てんとう⾍コミックス, 第1巻, 1974.07.31 • 攻殻機動隊(⼠郎 正宗) The Laughing Man 攻殻機動隊 STAND ALONE COMPLEX (Blu-ray) • ソードアート・オンライン(川原 礫) 電撃⽂庫, 第2巻, 2009.08.10 電撃⽂庫, 第9巻, 2012.02.10
  45. 64 参考⽂献:好奇⼼についてまとめ • P.-Y. Oudeyer et al, (2007). “What is

    intrinsic motivation? A typology of computational approaches.” • M. G. Bellemare et al, (2016) “Unifying Count-Based Exploration and Intrinsic Motivation” • D. Pathak et al, (2017) “Curiosity-driven Exploration by Self-supervised Prediction” • Y. Burda et al, (2018) “Large-Scale Study of Curiosity-Driven Learning” • Y. Burda et al, (2018) “EXPLORATION BY RANDOM NETWORK DISTILLATION” • D. Pathak et al, (2019) “Self-Supervised Exploration via Disagreement”