Slide 1

Slide 1 text

クラスターメタバース研究所における機械学習研究 早瀬 友裕 Tomohiro HAYASE, Ph.D  Weights and Biases Meetup 2024/Aug./22

Slide 2

Slide 2 text

clusterとは? VR スマートフォン PC VRからスマホまでどこからでも遊べる   国 内最大のメタバースプラットフォーム メタバース研究所のミッション エモーション モーション ボイス 独⾃のコミュニティ 大量の3Dデータ 「世界と⼈を計算可能に」

Slide 3

Slide 3 text

⼤規模3Dメタデータによる 撮影スポット探索機の学習 with Sacha Braun (Ecole Polytech), 折登 樹,柳川光理, 廣井裕⼀ PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes https://cluster-lab.github.io/panotree/ arxiv:2405.17136

Slide 4

Slide 4 text

4 背景:メタバースには3D顕著性データがある 3Dシーンの顕著性/Attentionを表すもの: 写真撮影 単なる視線履歴ではなく、明⽰的に⼈間がカメラ を向けて撮影した情報であり、顕著性としての価 値が⾼い PFには、写真撮影時のメタデータ(3D座標‧回 転、シーンID)が溜まっている Figure. cluster, VRモードでのカメラUI.

Slide 5

Slide 5 text

5 写真撮影の例

Slide 6

Slide 6 text

6 研究概要 Question 未知3Dシーンにおける撮影スポットを発⾒できますか? Answer 1.顕著性の定式化&⼤規模3Dデータで価値観数の学習&汎化 2.未知シーンにおける⾼速な強化学習探索アルゴリズムの構成 性能検証は価値関数の汎化性能と探索アルゴリズムの速さで⾏う Takeaway ⾃動撮影 3Dシーンの設計, 導線管理, デザイン ⼈間を⼊れる前に, 事前推測なので, 3Dシーンの設計ができる Game AIの視覚基盤

Slide 7

Slide 7 text

7 評価関数の定式化 この画像はどちらに属していますか? - 0:ランダムに配置されたカメラによる画像 - 1:人が撮った画像からアバターを除いたもの

Slide 8

Slide 8 text

8 評価関数の学習

Slide 9

Slide 9 text

9 データセット Dataset 3Dシーン:約240シーン 3Dメタデータ: 合計約80万件 ランダムデータ: 合計約80万件 学習⽤画像約160万枚 Pretraining ImageNet-21k & ImageNet-1k Model MLP-Mixer, ViT

Slide 10

Slide 10 text

10 価値関数の学習 *75⼈, 性別: 男性60名, ⼥性14名, ⾮解答1名, 年齢32.1(± 4.3) 歳 *シーン数10

Slide 11

Slide 11 text

探索アルゴリズム

Slide 12

Slide 12 text

12 カメラ座標のブラックボックス最適化 評価値を最⼤化したいが, レンダリング(カメラパラメータから画像を出⼒する写 像)は、⼀般には微分が提供されていないため, ブラックボックス最適化を⾏う. ブラックボックス関数がある程度連続であるとき, 連続補正付き⽊構造探索&強化学 習により, 最⼤値を探索する. 階層的ブラックボックス最適化(Hierachical Optimial Optimization) [“X-armed bandits”, S.Bubeck et.al., J. Machine Learning Research (2011)] 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index

Slide 13

Slide 13 text

13 階層的ブラックボックス最適化 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index 繰り返し 葉の展開 値更新 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf T=3 U=0.4 T=3 U=0.7 T=0 U=0.9 葉の選択

Slide 14

Slide 14 text

14 階層的ブラックボックス最適化 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=3 U=0.7 T=3 U=0.4 T=0 U=0.9 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index

Slide 15

Slide 15 text

15 従来のHOOからの変更点 … X Y Z (1)空間分割方策:xyzの順に行わず、大きな 辺を優先して確率的に分割する: (2)各葉において、方向ベクトルをいくつかと り、その方向の画像の評価について最大値を葉 のスコアとする:

Slide 16

Slide 16 text

16 探索の様⼦

Slide 17

Slide 17 text

17 ⾃動撮影結果 clusterの3Dシーンで自動撮影アルゴリズムが撮ってきたスコア>0.9の写真たち

Slide 18

Slide 18 text

18 局所的⽅向探索:グリッドサーチ

Slide 19

Slide 19 text

19 wandb usecase : Augmentation探索 価値関数学習⽤ハイパラサーチ: ImageNetとfine-tuning⽤の画像群のドメ インシフトを吸収するためdata augmentationの選択をsweepで⾏う。 program: train_world_images.py method: grid metric: goal: maximize name: eval_top1 parameters: rand-aug-n: values: - 5 rand-aug-m: values: - 8 - 9 …

Slide 20

Slide 20 text

20 wandb usecase : 探索の並列化 探索アルゴリズムの並列化: 強化学習⽤のシミュレーターを複数台 ⽤意し、sweepをそれぞれ実⾏。並列処理 が可能。 program: train_agents.py method: grid metric: goal: maximize name: cumulative_max parameters: world-id: values: - 1 - 2 - 3 - 4 - 5 …

Slide 21

Slide 21 text

Understanding MLP-Mixer as a Wide and Sparse MLP with Ryo Karakida (AIST) ICML2024, arxiv:2306.01470

Slide 22

Slide 22 text

22 MLP-Mixer: Attentionなくても性能がでる Tolstikhin, et al., 2021

Slide 23

Slide 23 text

23 なぜ性能がでるのか? 極めてスパースなMLPだから。ランダムにchannel/token軸いれかえてもOK。

Slide 24

Slide 24 text

24 wandb usecase : imagenet学習での並列化 ImageNetでバッチサイズ4096, 32インス タンスで分散学習。 ただし、wandbにログを取るのは1イン スタンスだけにすることにより負荷軽減 program: train_imagenet.py method: grid metric: goal: maximize name: eval_accuracy parameters: dim: values: - 64 - 128 - 256 - 512 seed: …

Slide 25

Slide 25 text

Future Work

Slide 26

Slide 26 text

26 Future Work Math x ML x VR メタバースのデータは 深層学習に、深層学 習はメタバースに、相 互に影響を与えること を期待 e.g. 自動撮影をサムネイ ル作成支援に応用, より広範な強化学習 , 自律 的Agent, ….