自律機械知能基礎論 2024

⾃律機械知能基礎論 2024 GesonAnko

1 ⽬次 1. ⼊⾨：⾃律機械知能 ← AMIの枠組みを知るよ！ 1. 定義 2. 具体例
3. 歴史 2. 好奇⼼という⾃律性 ← ⾃律性の⼀つを知るよ！ 1. AMIにおける好奇⼼とは 2. 数式 3. 問題 3. P-AMI<Q>そのものについて ← 具体的な実装を知るよ！ 1. Origin 2. 現在

⼊⾨

⾃律機械知能の定義

4 ⾃律機械知能とは？ • Autonomous Machine Intelligence. • LeCunは内発的な報酬に従い⼈間や動物のように学習することのできる機械とし，具体的
な機能をもとに述べている [Y.LeCun, 2022] • しかし、私の研究における⽬的は、⾃律動作する機械の知能を実装すること。 • したがって、AMIの形式的な定義を述べる。

5 ⾃律機械知能（AMI）とは？⾃律性を持った機械知能のこと。 • ⾃律性ある系の中で、定められた⽬的・⽬標に従って⾏動を⽣成し続けること • 系とは？ AMIとその周りの環境のこと
Autonomous Machine Intelligence • ⽬的・⽬標は？⾏動を⽣成するための⽅向性

6 系: “System”についてもっと詳しく • 機械知能を適⽤する環境世界そのもの，およびそこから機械知能が利⽤可能または考慮すべきすべての現象について考える。 • ⽣活空間、電⼒供給、⾃然災害 … •
なぜこれを考えるのか。 • ⾃律性を適⽤する範囲を定める。どこまで⾃律を考えるか。 • ⼟台の系との関係によって⾃律性が定まる。 • I/Oを考えよう。 • Input: その⼟台となるシステムではどんな現象が発⽣し、AMIはどのようにそれを利⽤できるのか？ • Output: どのように⼲渉することができるのか？

7 ⽬的や⽬標について 2つの定め⽅ 1. ⾏動⼿続き・ルールの記述により暗黙的に定める • からくり⼈形[細川, 1796]といった、ハードウェア機構レベルの⾏動⽣成計画 2. 累積報酬和（収益）の最⼤化と定める。
• 報酬仮説を仮定 [Sutton & Barto, 2018] • 強化学習理論における重要な仮定の⼀つぱみきゅーでは、⾏動⽣成の最適化に強化学習の⼿法を⽤いるため、アプローチ 2 を採⽤する。

⾃律機械知能の具体例

9 ⾃明な⾃律機械知能ではない例 • ⼈間 • ⾃律性 • 系 : ⼤⾃然、社会
• ⽬的やタスク : ⼦孫繁栄、幸せに⽣き続ける。 • 別の⼈間の直接的な⽀配下に置かれた時はあやしい。 • 機械性: 機械ではない。 • 知能か: ⾃明 • 道具を作る • 社会性 • ⽂明

10 ⾃律機械知能ではない例 • ChatGPT [OpenAI, 2022] 単体 • ⾃律性 •
系 : ⾃然⾔語 • ⽬的やタスク : 次単語予測、RLHFの⼈間の評価値の向上 • ⾔語⽣成（⾏動）はプロンプトが与えられるまで⾏われない。 • 機械性: 計算機上で動く • 知的か: ⾔語能⼒、そして多くの知識を持つ。 • ⼊⼒を与えてから出⼒が⽌まるまでは⾃律性あり • ※再帰的にプロンプトを⽣成するAutoGPTなどはAMI

11 ⾃律機械知能の例 • お掃除ロボット • ⾃律性: • 系 : お家の床
• ⽬的やタスク : 部屋を綺麗にすること • 機械性: ⾃明 • 知的か • 掃除という⾏為を効率的かつ⼗分に⾏う能⼒。 → 知能と呼んで良いこととする。

12 ⾃律機械知能の例 • ぱみきゅー [Geson+, 2023] • ⾃律性 • 系
：VRChat • ⽬的やタスク：好奇⼼：未学習や未探索の領域に向かう • 機械性：⾃明 • 知的か • 「知ること」は知能の根源。 • AMIの基盤知識を形成する。

⾃律機械知能の歴史

• ⾃律機械知能はロボットと⼈⼯知能の歴史 14 分野⾃動機械 ≒(ロボット)
機械知能 (⼈⼯知能) • これを基に調べていく。

15 科学技術編紀元前時計（⽔, 砂） 1300 ~ 1700年代機械式時計 1700
~ 1800年代⾃動機械（からくり、オートマタ）産業効率化⽤⾃動機械ロボット 1800年代 ~ （産業⾰命）計算機 1950年代 ~ ⼈⼯知能 2000年 ~ 今⾃律機械知能 SF作品と強く影響し合うその時代先端技術（時計、⾃動⾞⽣産ライン、計算機）と共に発達 HONDA: ASIMO GROOVE X: LOVOT 思想⾝体魂

16 空想の歴史の存在 • 空想上のAMIについて⼈々が⽣き物でないものに対し、⾃らと同様の知能・知性を⾒出そうとした歴史は⻑い。 • ⼈形遊び • SF創作物
• etc… ⾃律機械知能の歴史の⼀部⼈類が夢みる、由緒正しきファンタジーの領域

17 SF作品編 1920年ロッサム万能ロボット会社 R.U.R 1952年~ 鉄腕アトム 1969年~ ドラえもん ※
⼀度以上視聴した事のある作品だけ取り上げています。 1995年~ タチコマ（攻殻機動隊） 2009年~ ユイ（ソードアート・オンライン）アリス（SAO アリシゼーション編） 2012年~ 純産業効率化機械という意味の「ロボット」という⾔葉を広めた機械構造が設定の焦点 • 空を⾶べる。 • 床から3mm浮いている。ガンダムなどの、⼈が操るタイプのロボット作品へ知能の構造が設定の焦点 • 並列最適化と個性の関係 • 膨⼤なデータから学習 • 魂の構造定義知能の現象を描写具体的な機能を描写

好奇⼼という⾃律性

19 AMIにおける「好奇⼼」とは何なのか • エージェントが環境内において未学習（未探索）領域へ向かおうとする性質 • また、それを実現するための報酬そのものを指して⾔うこともある。 • （予測誤差ベースでは驚きと⾔われる。）
• 内発的な動機づけの⼀つ • ヘテロスタシス（変化を促進する） • この性質を持つようにエージェントを設計する。

20 なぜ「好奇⼼」が必要か • （⼀般には）より良い「探索」を実現するため • 強化学習は外部報酬を最⼤化するエージェントを作る • 報酬が無または疎な場合、いつまでもタスクを解けない。 • しかし、、、現実的なタスクはそうである。
• エージェントが報酬を⾒つけられるまで、今まで到達したことのない領域を探索し続ける必要がある。 • どんな環境でも学習して欲しい • 内発的なので環境に依存しない。 • 汎⽤的な⾃律性を構築できる。 • AMIの基盤知識を形成するため • 世界を探索し、知っていくあらゆる⽬的・タスクに適⽤するための事前学習のため

21 好奇⼼の作り⽅ • 未学習の領域へ向かう → 学習済の領域と未学習の領域を判別できる指標（報酬）が必要 • Ex. カウントベース •
マップの中である領域に訪れた回数の逆数を報酬に • 環境の事前知識が必要 • Ex. 予測誤差ベース ←こっちを詳しく • 学習する内部モデルの予測誤差を報酬に。（驚きとも呼ばれる） • 任意の環境に適⽤できる学習済未学習予測誤差⼩予測誤差⼤

22 好奇⼼の作り⽅の例（予測誤差ベース） 1. 次に起こることを予測 Forward Dynamics モデル 𝑓 𝑓: 状態,
⾏動 ↦ 次の状態過去の経験から学習、予測誤差を最⼩化 2. 予測誤差（驚き）を報酬化仮定：未学習なことは予測誤差が⼤きいにゃーんにゃーん 3. 報酬を最⼤化する⾏動を⽣成 Policy モデル 𝜋 𝜋: 状態 ↦ ⾏動強化学習の枠組みで学習開ける

23 数式

24 予測誤差ベース • 連続値の場合報酬 = 実際の値 − 予測の値 &
& 予測の値 ← 𝑀𝑜𝑑𝑒𝑙(経験) • 離散の場合予測の確率分布𝑝 ← 𝑀𝑜𝑑𝑒𝑙(経験) 報酬 = − log ( 𝑝 実際の値 ) 猫⽝おじさん 0.0 1.0

25 予測誤差ベース • 定式化 • 実は連続も離散と同じ式。報酬 = − log
( 𝑝 実際の値 ) 1. 確率分布 𝑝 を正規分布と仮定 2. モデルは平均𝜇 のみを予測 3. 標準偏差𝜎 は定数と仮定 4. 実際の値を 𝑥 と置く予測の確率分布𝑝 ← 𝑀𝑜𝑑𝑒𝑙(経験) 𝑝 = 1 2𝜋𝜎& exp(− 𝑥 − 𝜇 & 2𝜎& ) − log 𝑝 ∝ 𝑥 − 𝜇 & & = 報酬あれこれ計算定数の差やスケールはあれど、線形に正の相関があるので報酬としては⼗分

26 問題

27 予測誤差による好奇⼼の課題 • 本質的に予測不可能な現象の報酬が⾼い • 摂動問題: ホワイトノイズ • NoisyTV Problem:
⾼速かつランダムに切り替わり続けるTV

28 予測誤差による好奇⼼の課題にゃーんワオーンギギギ #$%&$ 早すぎる • そもそもマジで予想がつかない時は驚かないよね。

29 解決⽅法 • Random Network Distillation (Y. Burda et al
2018) • 時間遷移を⽤いないので NoisyTV ProblemはOK. • ランダムノイズはエンコードできないので摂動問題は OK. • Self-Supervised Exploration via Disagreement (D. Pathak et al 2019) • 複数のForward Dynamicsモデルによる、予測の分散が報酬

30 問題に対する疑問 • ホワイトノイズへの対策 • 埋め込み空間で予測誤差取れば良くね？ → 情報量が最⼤なのでエンコードができない。 • NoisyTV
Problemは問題ではない？ • 視覚空間、視覚空間がループしたり構造が常に変わり続けるような状態にしたら、探索が終わらないというのはその通りでは？ Tik Tokに惹きつけられ続ける⼈間的な意味合いで。

ぱみきゅー

32 P-AMI<Q>：ぱみきゅーとは？好奇⼼ベースの原始⾃律機械知能 Primitive Autonomous Machine Intelligence based on Q(Cu)riosity.
⾃律性 • 系： VRChat • ⽬的：探索（好奇⼼）好奇⼼に従って VRChatのワールド上を動き回っている。バーチャル学会2023 で発表したよ。アップデートに伴い原始性は消失。でも「ぱみきゅー」の語感が良いのでそのまま Japan Streetにいるよ！ 2023年9⽉誕⽣

33 VRChatにAMIを作るには？ Linux上にPythonで構築 • 観測の取得 VRChatをOBSでキャプチャ（画像） OpenCVで読取り • ⾏動の送信 “OSC
as Input Controller”で操作 OBS OpenCV VRChat OSC API Ubuntu Linux Python 観測⾏動⼀つのVRChatterとして • 専⽤のPC • VRCアカウント作成 proton

P-AMI<Q>: Origin.

35 系 • ⼊⼒（センサー） • RGB画像, 解像度 84x84. • 出⼒（アクチュエータ）
• OSCコマンド (全て −1, 1 のfloat → スティック操作) • 前後移動速度：”/input/Vertical” • 左右移動速度：”/input/Horizontal” • 左右回転速度：”/input/LookHorizontal” • 10FPS (100ms周期)で⼊出⼒を⾏う。

36 モデル • D. Pathak ら(2017)の⼿法をそのまま適⽤ • 3つのコンポーネントモデルにより構成される。 Observation Encoder
z' = 𝜙(𝑜') Forward Dynamics ̂ 𝑧'() ← 𝑓(𝑎'*) , 𝑧' , 𝑎' ) Policy 𝑎' ∼ 𝜋(𝑎' |𝑜' ) 観測 𝑜! 埋め込み観測 𝑧! 埋め込み観測 𝑧! 次ステップの予測埋め込み観測 ̂ 𝑧!"# ⾏動 𝑎! 観測 𝑜! ⾏動 𝑎! 報酬 𝑟!"# ≔ ̂ 𝑧!"# − 𝑧!"# $ $

37 Observation Encoder • Inverse Dynamics Features (IDF) • 2時刻の観測𝒐𝒕,
𝒐𝒕"𝟏 の間に取った⾏動𝒂𝒕 を予測する。 • 𝑔 𝜙 𝑜$ , 𝜙 𝑜$"% → 𝑎$ 損失: ℒ&'( = 𝑎$ − 𝑔 𝜙 𝑜$ , 𝜙 𝑜$"% ) ) • ⾃らの⾏動に関係のある特徴量を抽出する仮定 → ホワイトノイズなどの⾃分の⾏動に関係無い観測の摂動はエンコードしない？ (でも実は学習が不安定…) • 環境とインタラクションし、そのダイナミクスデータ 𝑜$, 𝑎$, 𝑜$"% で学習。 𝜙 𝑔 𝑜' 𝑜'() 𝑧' 𝑧'() 𝑎' Observation Encoder Inverse Dynamics

38 Forward Dynamics • 1ステップだけ • 観測と⾏動から次ステップの観測を予測する • ※
Observation Encoderの出⼒を使う。 • 𝑓 𝑧$, 𝑎$ → 𝑧$"% • 損失: ℒ(' = 𝑧$"% − 𝑓 𝑧$, 𝑎$ ) ) • 環境とインタラクションし、そのダイナミクスデータで学習。 • 1ステップの観測と⾏動からしか予測しないので、シンプルなワールドしか適⽤できない…

39 Policy • Proximal Policy Optimization (PPO) • [J. Schulman+,
2017] • 安定かつハイパラの数が少ないモデルフリー強化学習⼿法 • Forward Dynamicsの予測誤差を報酬 𝑟$"% とする。 • その割引報酬和（収益）𝐺$ = ∑*+, - 𝑟$"*"% 𝛾*を最⼤化（𝛾 ∈ [0,1] は割引率) • 2つのモデルの組み合わせ • ⽅策 Policy 𝜋 𝑎$ 𝑜$) ∼ 𝑎$ ← ⾏動を⽣成 • 価値関数 Value 𝑉.(𝑜$) ← 収益を予測する • モデルフリー & オフポリシー⼿法なので学習効率が悪い…

40 モデルについて補⾜ • ⾏動の作⽤の遅延 • VRChatに⾏動を送信する際に遅延が発⽣するため、2つの時刻間の観測 𝑜' , 𝑜'()
の間には⾏動 𝑎' だけでなく 𝒂𝒕*𝟏 も作⽤していると考えられる。 • 修正 • Inverse Dynamicsの出⼒ • 𝑔(𝜙 𝑜' , 𝜙 𝑜'() → 𝑎'*), 𝑎' • Forward Dynamicsの⼊⼒ • 𝑓 𝑎'*), 𝑧', 𝑎' → 𝑧'() ややこしいことをしてしまった…

41 理論的な補⾜ • 観測 𝑜A で状態 𝑠A を近似している。 • 本来、全てのモデルは状態𝑠$
が⼊⼒と想定される。 • 状態 𝑠$ とは？ • システムの現在の条件や状況を完全に記述するもの • マルコフ決定過程（MDP, マルコフ性）を満たす情報 → 次の状態 𝑠$"% が現在の状態 𝑠$ と⾏動𝑎$ にのみ依存して決まる。 → 過去の状態や履歴に依存しないことが重要 • 例：チェス • 現在の盤⾯とその時の⼿にのみ依存して次の盤⾯が決まる。 • ⼀般のVRChatの環境はこの近似が成り⽴たない。

42 システム

43 処理の⼿続き起動インタラクション学習観測取得⾏動⽣成次の観測
予測報酬（予測誤差）計算⼤枠インタラクション ×128回 (10 fps) 観測取得次の観測予測⾏動⽣成セットアップここで⾏動が⽌まる！

44 システムの課題 • 定期的に⽌まる推論と学習を交互に⾏うため。 • 問題 • 経験の連続性が切れる：現実の時間進⾏との不⼀致 →
プランニングアルゴリズムなどに悪影響 • モデルサイズを⼤きくできない：学習時間が増加 → 停⽌時間も増加 → ⼤規模化は深層モデルの要 • 計算リソースの⾮効率的使⽤

45 P-AMI<Q>のオブジェクト構造 Data Collectors Neural Networks Interaction Environ- ment Agent
Trainers 観測データ⾏動収集使⽤モデル使⽤学習実データ VRChatと直接やり取りインタラクション形式の設定観測 → ⾏動⼿続き学習する AIモデル群学習のためのデータ収集データを使ってモデルを更新

P-AMI<Q>: 現在.

47 系 • ⼊⼒（センサー） • RGB画像, 解像度 84x84. • 出⼒（アクチュエータ）←
変わった • OSCコマンドは全て離散（ボタン操作）に。 • 前後移動：”/input/MoveForward” or “Input/MoveBackward” • 左右移動：”/input/MoveLeft” or ”/input/MoveRight” • 左右回転：”/input/LookLeft” or “/input/LookRight” • ジャンプ：”/input/Jump” • ラン：”/input/Run” • 10FPS (100ms周期)で⼊出⼒を⾏う。

48 モデル • Forward DynamicsとPolicyの⼊出⼒が変わる • 3つのコンポーネントモデルにより構成されるのは同じ Forward Dynamics ̂
𝑧'() , ℎ'() ← 𝑓(𝑧' , ℎ' , 𝑎' ) Policy 𝑎' ∼ 𝜋(𝑎'|𝑠') 埋め込み観測 𝑧! 次ステップの予測埋め込み観測 ̂ 𝑧!"# ⾏動 𝑎! 状態 𝒔𝒕 ≔ [𝒛𝒕 , 𝒉𝒕 ] ⾏動 𝑎! 隠れ状態（履歴） 𝒉𝒕 隠れ状態 𝒉𝒕"𝟏

49 状態情報の近似 • ⻑期時系列モデルを使⽤したForward Dynamcis • 隠れ状態ℎ' （履歴情報）を持たせ、RNN化。 • ̂
𝑧'() , ℎ'() ← 𝑓 𝑧' , ℎ' , 𝑎' • 𝑠' ≔ 𝑧', ℎ' とおくと、 ̂ 𝑠'() ← 𝑓(𝑠', 𝑎') • もしモデルが完全に近似できたとすると、時刻 𝑡 の状態と⾏動のみ依存して 𝑠'() が定まる。 → マルコフ決定過程を満たす！ • しかし、モデルには必ず誤差があるので、あくまで近似。 • 状態情報 𝑠' が得られたので強化学習の理論が成り⽴つ！

50 Observation Encoder • Variational Auto Encoder (VAE) [D.P.Kingma+, 2013]
• Encoder ‒ Decoderモデル • ⽣成モデルとして提案されたが、Encoderはデータ圧縮に使える。 • Encoder: 𝑧$ ~ 𝑞/ 𝑧$ 𝑜$ • Decoder: E 𝑜$ ~ 𝑝'(𝑜$|𝑧$) • Loss: ℒ = E 𝑜$ − 𝑜$ ) + 𝐷01(𝑞/ ∥ 𝒩 0, 𝐼 ) • 潜在空間(𝑧の空間）では元データをDisentangle（簡単な表現に紐解く）されることが知られている。(β-VAE)[I. Higgins+, 2016] Encoder 𝑞' Decoder 𝑝( 𝑜! 𝑧! ; 𝑜!

51 Forward Dynamics • SioConv • Myxy さんが提案した時系列モデル • Transformer
のように並列計算でき、RNNのように逐次的な推論もできる。 • Mamba2 [T. Dao+, 2024] から導出できるらしい… • ↑だと隠れ状態が⼤きくなりすぎるので軽量化している。 • （2024/7/06追記：関係なかった。Myxyさんの資料を参照）

52 Policy (とValue)の修正 • 変更点 (PPOは変わらず⽤いている） • ⼊⼒が観測𝑜' から状態𝑠' （𝑧'
とℎ' のペア）に。 • Observation EncoderやForward Dynamcis から⽣成される 𝑠' は”良い”情報を持つらしい（World Models [D. Ha+, 2017] ） → 3層程度の簡易なDNNアーキテクチャを採⽤

53 システム

54 AMI Systemについて • ⼤きく変わったことは3つ。 1. 処理⼿続きシステムがマルチスレッド化 Mainスレッド、Inferenceスレッド、Trainingスレッド 2.
学習データの収集、使⽤の⼿続き Inferenceスレッドで集めて、Trainingスレッドで使う 3. モデルの推論と学習 Inferenceスレッドで推論 Trainingスレッドで学習

55 1. 処理⼿続きインタラクション起動推論 VRChatとインタラクション学習新システム
制御複数スレッドに分岐終了命令を出すまでそれぞれのスレッドは実⾏し続ける

56 2. 学習データの収集・使⽤ • 既存システム 1. 空のバッファを⽤意 2. データを N
個収集 3. 集めたデータを学習に提供 4. 2に戻る全て同期的に⾏われるよ。空のバッファ N個 Buffer 提供 Trainer

57 2. 学習データの収集・使⽤ • 新システム Data Collector / Data User
システム • Data Collector （推論スレッド） 1. 空のバッファを⽤意 2. データを集める。（無限ループ） … ?. Userに渡したら新しい空のバッファにセット • Data User （学習スレッド） 1. 空のバッファを⽤意 2. データを Collectorから受け取るこの時 Collectorに空のバッファをセット 3. 古いバッファと結合 4. 学習処理へ提供 5. 2へ戻る。推論スレッド学習スレッド Buffer 移動 Buffer 空のバッファ Old Buffer + 同期処理

58 2. 学習データの収集・使⽤ • Re-constructable Class 「空のバッファが必要なら、新しく作り直せば良いではないか。」 • コンストラクタをラップ
• 引数をディープコピーして保存 • `new()` で新規バッファを⽣成 • 引数にでかいオブジェクト渡すとメモリコピーがヤバい。 • そもそもコンストラクタが重い場合ヤバい… ⽤法を守って安全に使えばとっても便利！

59 3. モデルの推論と学習 • ⼤枠学習スレッド⽤モデル、推論スレッド⽤モデルが存在する。 1. 学習スレッドでパラメータを更新 2. 推論スレッドのモデルと同期（⾼速に）
推論⽤モデル学習⽤モデル同期 • 同期⽅式︓内部モデルスイッチングラッパークラスを介してモデルを扱う。推論ラッパーモデルラッパーモデルモデル Switching スイッチ後、推論⽤モデルから学習⽤モデルにパラメータコピー⼤きい深層モデルのコピーには時間がかかる。推論スレッドを待たせないため。

60 システムの全体像（クラス関係図）推論スレッドサイド学習スレッドサイド１つだったのスレッドを２つに分割したので対象的な構造になっているよ！
※⽮印→は依存関係

61 参考⽂献・資料 • Yann LeCun, ”A path towards autonomous machine
intelligence Version 0.9.2, 2022- 06-27”, https://openreview.net/pdf?id=BZ5a1r-kVsf • 細川頼直, ”機巧図彙”, 須原屋市兵衛, 1796. https://dl.ndl.go.jp/pid/2607731 • Richard S. Sutton and Andrew G. Barto, ”Reinforcement Learning: An Introduction”, p.75, The MIT Press, 2018. • Introducing ChatGPT, https://openai.com/blog/chatgpt • GesonAnko et al, “VRChat 上における好奇⼼ベースの⾃律機械知能の実装”, バーチャル学会2023, 2023. https://doi.org/10.57460/vconf.2023.0_81 • John Schulman et al, “Proximal Policy Optimization Algorithms”, arXiv, 2017. https://arxiv.org/abs/1707.06347 • Diederik P Kingma and Max Welling, “Auto-Encoding Variational Bayes”, arXiv, 2013. https://arxiv.org/abs/1312.6114 • Tri Dao and Albert Gu, “Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality”, arXiv, 2024. https://arxiv.org/abs/2405.21060

62 参考⽂献・資料 • David Ha and Jürgen Schmidhuber, “Recurrent World
Models Facilitate Policy Evolution”, NeurIPS, 2018. https://worldmodels.github.io • ソースコード • P-AMI<Q> Origin: https://github.com/MLShukai/PrimitiveAMI • P-AMI<Q> 現在: https://github.com/MLShukai/ami • 動画 • ⼊⾨：⾃律機械知能 https://youtu.be/P1LiB4WAIW4?si=O9lid0QftF8sPP8y • 機械学習における「好奇⼼」https://youtu.be/ACulPki98Ps?si=5T90I0BUlsQWi-4J • P-AMI<Q>の実装設計について https://youtu.be/iMZ_ST35qeQ?si=LfNBduZq3Pi5SGle • AMI 基盤システムαステージ: https://youtu.be/dKsgBx6iURs?si=hpv5BV8sKl7XtAdg

63 参考⽂献：SF作品について • ロッサム万能ロボット会社 ‒ RUR ‒ （カレル・チャペック） https://www.aozora.gr.jp/cards/001236/card46345.html •
鉄腕アトム（⼿塚治⾍） https://tezukaosamu.net/jp/manga/291.html • ドラえもん（藤⼦ F 不⼆雄）てんとう⾍コミックス, 第1巻, 1974.07.31 • 攻殻機動隊（⼠郎正宗） The Laughing Man 攻殻機動隊 STAND ALONE COMPLEX (Blu-ray) • ソードアート・オンライン（川原礫）電撃⽂庫, 第2巻, 2009.08.10 電撃⽂庫, 第9巻, 2012.02.10

64 参考⽂献：好奇⼼についてまとめ • P.-Y. Oudeyer et al, (2007). “What is
intrinsic motivation? A typology of computational approaches.” • M. G. Bellemare et al, (2016) “Unifying Count-Based Exploration and Intrinsic Motivation” • D. Pathak et al, (2017) “Curiosity-driven Exploration by Self-supervised Prediction” • Y. Burda et al, (2018) “Large-Scale Study of Curiosity-Driven Learning” • Y. Burda et al, (2018) “EXPLORATION BY RANDOM NETWORK DISTILLATION” • D. Pathak et al, (2019) “Self-Supervised Exploration via Disagreement”

自律機械知能基礎論 2024

自律機械知能基礎論 2024

More Decks by Geson Anko

Featured

Transcript