Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Search
Ryo Kanazawa
September 04, 2024
0
130
メタバース研究所による機械学習研究(W&Bミートアップ #15)
Ryo Kanazawa
September 04, 2024
Tweet
Share
More Decks by Ryo Kanazawa
See All by Ryo Kanazawa
AIキャラクター向けLLMの開発
ryokanazawa1227
0
150
OpenUI AI Application Journey
ryokanazawa1227
0
38
Featured
See All Featured
Unsuck your backbone
ammeep
668
57k
Teambox: Starting and Learning
jrom
133
8.8k
Why Our Code Smells
bkeepers
PRO
334
57k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Building an army of robots
kneath
302
43k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Optimizing for Happiness
mojombo
376
70k
How to train your dragon (web standard)
notwaldorf
88
5.7k
Site-Speed That Sticks
csswizardry
0
36
Transcript
クラスターメタバース研究所における機械学習研究 早瀬 友裕 Tomohiro HAYASE, Ph.D Weights and Biases Meetup 2024/Aug./22
clusterとは? VR スマートフォン PC VRからスマホまでどこからでも遊べる 国 内最大のメタバースプラットフォーム メタバース研究所のミッション エモーション モーション ボイス
独⾃のコミュニティ 大量の3Dデータ 「世界と⼈を計算可能に」
⼤規模3Dメタデータによる 撮影スポット探索機の学習 with Sacha Braun (Ecole Polytech), 折登 樹,柳川光理, 廣井裕⼀
PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes https://cluster-lab.github.io/panotree/ arxiv:2405.17136
4 背景:メタバースには3D顕著性データがある 3Dシーンの顕著性/Attentionを表すもの: 写真撮影 単なる視線履歴ではなく、明⽰的に⼈間がカメラ を向けて撮影した情報であり、顕著性としての価 値が⾼い PFには、写真撮影時のメタデータ(3D座標‧回 転、シーンID)が溜まっている Figure.
cluster, VRモードでのカメラUI.
5 写真撮影の例
6 研究概要 Question 未知3Dシーンにおける撮影スポットを発⾒できますか? Answer 1.顕著性の定式化&⼤規模3Dデータで価値観数の学習&汎化 2.未知シーンにおける⾼速な強化学習探索アルゴリズムの構成 性能検証は価値関数の汎化性能と探索アルゴリズムの速さで⾏う Takeaway ⾃動撮影 3Dシーンの設計,
導線管理, デザイン ⼈間を⼊れる前に, 事前推測なので, 3Dシーンの設計ができる Game AIの視覚基盤
7 評価関数の定式化 この画像はどちらに属していますか? - 0:ランダムに配置されたカメラによる画像 - 1:人が撮った画像からアバターを除いたもの
8 評価関数の学習
9 データセット Dataset 3Dシーン:約240シーン 3Dメタデータ: 合計約80万件 ランダムデータ: 合計約80万件 学習⽤画像約160万枚 Pretraining
ImageNet-21k & ImageNet-1k Model MLP-Mixer, ViT
10 価値関数の学習 *75⼈, 性別: 男性60名, ⼥性14名, ⾮解答1名, 年齢32.1(± 4.3) 歳
*シーン数10
探索アルゴリズム
12 カメラ座標のブラックボックス最適化 評価値を最⼤化したいが, レンダリング(カメラパラメータから画像を出⼒する写 像)は、⼀般には微分が提供されていないため, ブラックボックス最適化を⾏う. ブラックボックス関数がある程度連続であるとき, 連続補正付き⽊構造探索&強化学 習により, 最⼤値を探索する.
階層的ブラックボックス最適化(Hierachical Optimial Optimization) [“X-armed bandits”, S.Bubeck et.al., J. Machine Learning Research (2011)] 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
13 階層的ブラックボックス最適化 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
繰り返し 葉の展開 値更新 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf T=3 U=0.4 T=3 U=0.7 T=0 U=0.9 葉の選択
14 階層的ブラックボックス最適化 T=3 U=0.4 T=0 U=0.7 T=2 U=0.4 T=0 U=Inf
T=0 U=Inf T=0 U=0.9 T=0 U=0.7 T=1 U=0.5 T=2 U=0.4 T=3 U=0.7 T=3 U=0.4 T=3 U=0.7 T=3 U=0.4 T=0 U=0.9 T=1 U=0.5 T=2 U=0.4 T=0 U=Inf 平均スコア 探索バイアス項 連続バイアス項 訪問数 node depth node index
15 従来のHOOからの変更点 … X Y Z (1)空間分割方策:xyzの順に行わず、大きな 辺を優先して確率的に分割する: (2)各葉において、方向ベクトルをいくつかと り、その方向の画像の評価について最大値を葉
のスコアとする:
16 探索の様⼦
17 ⾃動撮影結果 clusterの3Dシーンで自動撮影アルゴリズムが撮ってきたスコア>0.9の写真たち
18 局所的⽅向探索:グリッドサーチ
19 wandb usecase : Augmentation探索 価値関数学習⽤ハイパラサーチ: ImageNetとfine-tuning⽤の画像群のドメ インシフトを吸収するためdata augmentationの選択をsweepで⾏う。 program:
train_world_images.py method: grid metric: goal: maximize name: eval_top1 parameters: rand-aug-n: values: - 5 rand-aug-m: values: - 8 - 9 …
20 wandb usecase : 探索の並列化 探索アルゴリズムの並列化: 強化学習⽤のシミュレーターを複数台 ⽤意し、sweepをそれぞれ実⾏。並列処理 が可能。 program:
train_agents.py method: grid metric: goal: maximize name: cumulative_max parameters: world-id: values: - 1 - 2 - 3 - 4 - 5 …
Understanding MLP-Mixer as a Wide and Sparse MLP with Ryo
Karakida (AIST) ICML2024, arxiv:2306.01470
22 MLP-Mixer: Attentionなくても性能がでる Tolstikhin, et al., 2021
23 なぜ性能がでるのか? 極めてスパースなMLPだから。ランダムにchannel/token軸いれかえてもOK。
24 wandb usecase : imagenet学習での並列化 ImageNetでバッチサイズ4096, 32インス タンスで分散学習。 ただし、wandbにログを取るのは1イン スタンスだけにすることにより負荷軽減
program: train_imagenet.py method: grid metric: goal: maximize name: eval_accuracy parameters: dim: values: - 64 - 128 - 256 - 512 seed: …
Future Work
26 Future Work Math x ML x VR メタバースのデータは 深層学習に、深層学
習はメタバースに、相 互に影響を与えること を期待 e.g. 自動撮影をサムネイ ル作成支援に応用, より広範な強化学習 , 自律 的Agent, ….