非同期更新AMI基盤システム

＜企画書＞⾮同期AMI システムの実装 GesonAnko

1 Virtual AI Exploresについて • 和名：仮装AI研究所仮想世界上で AI, 特に⾃律機械知能 (AMI)
を造る集団 • テーマ「なぜと問い、探求する知性を造る。」 ͜ͷԾ૝ੈքʹ৽ͨͳ஌ੑΛ஀ੜͤ͞Δɻ ๻ͨͪ͸ɺ൴Βػց஌ೳʹڵฃ͍͍ͯͨ͠ɻ ͦΜͳ൴ΒΛੜΈग़͠ɺ୳ڀ͍͍ͯͨ͠ɻ ͦͯ͠൴ΒʹΑͬͯ๰͕ΕΔະདྷΛݟಧ͚͍ͨɻ

2 概要 • 背景と⽬的 • VRChatに⾃律機械知能ぱみきゅーを作成したが、学習中は動作が⽌まる問題がある。 •
学習と推論を⾮同期に並⾏して⾏うシステムを造る • ぱみきゅーが常に動くようになる！より強いモデルが使える! • 進め⽅ • ⼩さなマイルストーンを定め、着実に達成していく⽅針 • 週1ミーティングで進捗確認＆タスク決定 • 期間 • 2024年 1⽉18⽇ ‒ 4⽉ 3⽇ (予定）

3 背景

4 ⾃律機械知能（AMI）とは？⾃律動作する機械でできた知能のこと。 • ⾃律性ある系の中で、定められた⽬的に従って動作し続けること • 系とは？ AMIとその周りの環境のこと Autonomous
Machine Intelligence • ⽬的は？報酬によって定められる（強化学習の場合） • 機械知能におけるロケット様々な技術の総結集

5 P-AMI<Q>：ぱみきゅーとは？好奇⼼ベースの原始⾃律機械知能 Primitive Autonomous Machine Intelligence based on Q(Cu)riosity.
⾃律性 • 系： VRChat • ⽬的：探索（好奇⼼）← 今回は解説しないよ好奇⼼に従って VRChatのワールド上を動き回っている。バーチャル学会2023 で発表したよ。アップデートに伴い原始性は消失。でも「ぱみきゅー」の語感が良いのでそのまま Japan Streetにいるよ！ 2023年9⽉誕⽣

6 VRChatにAMIを作るには？ Linux上にPythonで構築 • 映像の取得 VRChatをOBSでキャプチャ OpenCVで読取り • ⾏動の送信 “OSC
as Input Controller”で操作前後左右の移動、⽔平回転ジャンプ、ラン OBS OpenCV VRChat OSC API Ubuntu Linux Python 観測⾏動⼀つのVRChatterとして • 専⽤のPC • VRCアカウント作成

7 P-AMI<Q>の構成パーツは？ Data Collectors Neural Networks Interaction Environ- ment Agent
Trainers 観測データ⾏動収集使⽤モデル使⽤学習実データ VRChatと直接やり取りインタラクション形式の設定観測 → ⾏動⼿続き学習する AIモデル群学習のためのデータ収集データを使ってモデルを更新

8 処理の⼿続きは？起動インタラクション学習観測取得⾏動⽣成次の観測
予測報酬（予測誤差）計算⼤枠インタラクション ×128回 (10 fps) 観測取得次の観測予測⾏動⽣成セットアップ

9 システムの課題 • 定期的に⽌まる推論と学習を交互に⾏うため。 • 問題 • 経験の連続性が切れる：現実の時間進⾏との不⼀致 →
プランニングアルゴリズムなどに悪影響 • モデルサイズを⼤きくできない：学習時間が増加→停⽌時間も増加 → ⼤規模化は深層モデルの要 • 計算リソースの⾮効率的使⽤

10 ⽬的・⽬標 • 以上の課題より、推論と学習を⾮同期に並⾏して⾏うシステムが必須。 • ⽬標 • ⾮同期更新システムが実装され、推論（ロールアウト、インタラクション）処理と学習処理が並⾏して⾏われることによって、
AMIが常時動作していること。 • ⾮同期システムを新たに作成し、そこに既存のモデルを移⾏する。 • さらに、今まで不可能だったモデルの⼤規模化の試運転までやってみたい。

11 嬉しいこと • ずっと動く • ⽌まっている間はぱみきゅーがどんな⾵に動くか⾒れない。 • いつもインタラクションできるようになる！ •
⼤きなモデルで、⾼度な知能に • より複雑で興味深い⾏動を獲得する可能性 • プランニングアルゴリズムが使えるようになる • ようは「考えること」をするための基盤が作れる。

12 ⾒通し

13 構想起動前準備メインスレッド推論スレッド学習スレッド
CUI System制御 VRChatとやり取り内部モデルの学習共有オブジェクトはスレッド開始前に全て集めるよ！並⾏処理中に新たに共有なんてされたら…

14 構想：スレッド間の関係性メインスレッド推論スレッド学習スレッド終了命令⼀時停⽌・再開命令
学習スレッド推論スレッドモデル更新後パラメータ同期集めた経験バッファ推論⽤モデル学習⽤モデルデータデータデータ ※現時点での深層モデルは推論モードと学習モードがあるため、⼆つモデルが必要

15 ロードマップ • ステップ1 ⾮同期システムが動作する。 • 推論スレッド：モデルの推論をしつつ、データ収集 • 学習スレッド：集められたデータでパラメータ更新、同期 •
メインスレッド：終了、⼀時停⽌、再開ができるモデル • ランダムな⼊⼒を与えて、AutoEncoderを学習してみる（構想） • AutoEncoderは Encoderのみしか推論では使わない → 簡単に実装できて実際の動作形式に近い

16 ロードマップ • ステップ2 既存の深層モデルが引き継がれる現状P-AMI<Q>に使われているモデル群を移⾏する。 • Observation Encoder: VAE
• Forward Dynamics: SConv, ResnetFD • Policy: PPO • Hydraによる設定ファイルからの起動

17 ロードマップ • ステップ3 モデルの規模拡⼤計算リソースをフル活⽤できるようにする • 基本はパラメータ数を単純に増やしてみる • 発⽣する問題の調査（メモリオーバーフローなど）
• 解決策の提案

18 スケージューリング 1/21 2/4 2/18 3/3 3/17 3/27 ⾮同期システム既存モデル引き継ぎ
モデル規模拡⼤最終報告・振り返り中間報告 LTしてもいいかも

19 進め⽅ • プロジェクト • 週 1 程度でミーティング。進捗確認とタスク決定 • ML集会
Discord #ディスカッションフォーラムでやるよ • 実装 • 機能設計 • GitHub上で開発。 Issueにタスク書く → Branch切って作業 → Pull Request → レビューしてマージ

20 メンバー募集！

21 募集 • 1〜2⼈ほど既に Myxyさんが参戦。私は設計や実装⽅⾯。 • 実装担当 ← ゆんたんさん
IN (1/17) • マネージャー担当 • 要件 • PyTorchなどでMLのプログラムを書いた事がある⽅ • C++/C#など、静的型付け⾔語（または mypy) を使⽤した経験 • GitなどのCIを⽤いた開発経験 • ⾮同期処理を書いた事がある⽅（Udon#でのグローバル同期など、所有権のお話がわかる⽅…）

22 得られるもの • スキル • ⾮同期システムを安全に造る設計・実装⽅法 • Pythonによる機械学習の実装能⼒ • 実時間スケールで動作する機械知能システムの実装⼒
→ ロボティクス⽅⾯への応⽤ • ドキュメンテーション能⼒（タスクをissueに書くので）

非同期更新AMI基盤システム

非同期更新AMI基盤システム

Geson Anko

More Decks by Geson Anko

Featured

Transcript

＜企画書＞⾮同期AMI システムの実装 GesonAnko

1 Virtual AI Exploresについて • 和名：仮装AI研究所仮想世界上で AI, 特に⾃律機械知能 (AMI)

2 概要 • 背景と⽬的 • VRChatに⾃律機械知能ぱみきゅーを作成したが、学習中は動作が⽌まる問題がある。 •

3 背景

4 ⾃律機械知能（AMI）とは？⾃律動作する機械でできた知能のこと。 • ⾃律性ある系の中で、定められた⽬的に従って動作し続けること • 系とは？ AMIとその周りの環境のこと Autonomous

5 P-AMI<Q>：ぱみきゅーとは？好奇⼼ベースの原始⾃律機械知能 Primitive Autonomous Machine Intelligence based on Q(Cu)riosity.

6 VRChatにAMIを作るには？ Linux上にPythonで構築 • 映像の取得 VRChatをOBSでキャプチャ OpenCVで読取り • ⾏動の送信 “OSC

7 P-AMI<Q>の構成パーツは？ Data Collectors Neural Networks Interaction Environ- ment Agent

8 処理の⼿続きは？起動インタラクション学習観測取得⾏動⽣成次の観測

9 システムの課題 • 定期的に⽌まる推論と学習を交互に⾏うため。 • 問題 • 経験の連続性が切れる：現実の時間進⾏との不⼀致 →

11 嬉しいこと • ずっと動く • ⽌まっている間はぱみきゅーがどんな⾵に動くか⾒れない。 • いつもインタラクションできるようになる！ •

12 ⾒通し

13 構想起動前準備メインスレッド推論スレッド学習スレッド

14 構想：スレッド間の関係性メインスレッド推論スレッド学習スレッド終了命令⼀時停⽌・再開命令

15 ロードマップ • ステップ1 ⾮同期システムが動作する。 • 推論スレッド：モデルの推論をしつつ、データ収集 • 学習スレッド：集められたデータでパラメータ更新、同期 •

16 ロードマップ • ステップ2 既存の深層モデルが引き継がれる現状P-AMI<Q>に使われているモデル群を移⾏する。 • Observation Encoder: VAE

17 ロードマップ • ステップ3 モデルの規模拡⼤計算リソースをフル活⽤できるようにする • 基本はパラメータ数を単純に増やしてみる • 発⽣する問題の調査（メモリオーバーフローなど）

18 スケージューリング 1/21 2/4 2/18 3/3 3/17 3/27 ⾮同期システム既存モデル引き継ぎ

19 進め⽅ • プロジェクト • 週 1 程度でミーティング。進捗確認とタスク決定 • ML集会

20 メンバー募集！

21 募集 • 1〜2⼈ほど既に Myxyさんが参戦。私は設計や実装⽅⾯。 • 実装担当 ← ゆんたんさん

22 得られるもの • スキル • ⾮同期システムを安全に造る設計・実装⽅法 • Pythonによる機械学習の実装能⼒ • 実時間スケールで動作する機械知能システムの実装⼒