Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VRChatのワールド情報が大量に集まっていた
Search
みかん大学
March 10, 2024
Research
0
94
VRChatのワールド情報が大量に集まっていた
VRChatのワールド情報が大量に集まっていた件について
みかん大学
March 10, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
データウェアハウスを使ってみよう
hidetobara
0
46
VRChat と cluster ワールドの違い-その1-
hidetobara
0
280
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
130
VRChat日本語圏のワールドの特徴
hidetobara
0
180
VRChat Lab抜けの条件
hidetobara
0
1.4k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
58
Other Decks in Research
See All in Research
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
3
170
言語モデルの内部機序:解析と解釈
eumesy
PRO
21
6.6k
The Economics of Platforms 輪読会 第1章
tomonatu8
0
150
2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
ran350
8
3.9k
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
300
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
440
【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024)
akifumi_wachi
3
540
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
3
190
国際会議ACL2024参加報告
chemical_tree
1
450
Poster: Feasibility of Runtime-Neutral Wasm Instrumentation for Edge-Cloud Workload Handover
chikuwait
0
390
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
210
Weekly AI Agents News! 1月号 アーカイブ
masatoto
1
200
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
51
7.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
The Pragmatic Product Professional
lauravandoore
32
6.4k
The Invisible Side of Design
smashingmag
299
50k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Faster Mobile Websites
deanohume
306
31k
Gamification - CAS2011
davidbonilla
80
5.2k
Designing for Performance
lara
605
68k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.5k
What's in a price? How to price your products and services
michaelherold
244
12k
Transcript
VRChat のワールド情報が 大量に集まっていた みかん電機
きっかけ ・・・忘れました 自分の性格から考えると「VRC API叩いたらデータとれたし、BigQuery にとりあえず入れて利 用方法はあとから考えるか」だったかも テーブル作成時間を見ると、2020/09/22, 16:01:24 UTC+9 から始まっていました。
BigQuery とは • GCP が提供する、ペタバイト単位のデータに対するスケーラブルな分析を可能にする、フ ルマネージドのサーバーレスのデータウェアハウス • PostgreSQL や MySQL などの RDB と違い、データの保存と検索性に優れます ◦ 代わりに、レスポンスは遅い • 同様の製品やサービスに、Snowflake や AWS RedShift • 管理が楽 • (データ量が少ないと)安い
全体設計 1. スケジューラで Cloud Run を起動 2. コンテナ内 Crawler がワールド情報を取得
◦ 更新されたワールド、アップロードされたワールド情報を取得 3. ワールド情報は BigQuery へ保存 Cloud Run とは • GCP が提供するサーバーレスのコンテナ実行環境 • 管理が楽 • 安い
スキーマとデータ量 (2024/02/18) レコード数は約67万ですが、1ワールドにつき複数時刻でのレコードが存在し、ユニークで数える と約12万ワールド分
レコードの例
月日が流れ 大量のデータが集まっており・・
これだけのデータ量があれば 色々調べられるよなあ
ラボ抜けの条件を調べられるね ⇒ 訪問数が200を越えると、approved (ラボ抜け)になるワールドが急激に増加
日本語圏と非日本語圏での違いも調べられるね ⇒ 日本語圏だと、sleep や sea のタ グが多く使われがちなのに対して、非 日本語圏だと、furry が使われやすい タグ
日本語圏 それ以外 P値 author_tag_japan 470 547 4.39E-219 system_approved 4245 27939 4.40E-174 system_updated_recently 10204 83853 8.77E-149 author_tag_jp 216 199 8.31E-115 author_tag_avatars 27 3396 7.61E-96 author_tag_furry 23 2985 4.61E-85 author_tag_avatar 206 6535 1.96E-78 author_tag_hangout 132 4645 5.17E-63 author_tag_japanese 143 218 2.48E-57 author_tag_chill 898 15269 5.64E-52 author_tag_room 436 1919 5.60E-51 author_tag_sea 143 311 2.13E-43 author_tag_club 53 2223 3.75E-36 author_tag_mirror 110 3176 2.27E-34 author_tag_music 121 3184 3.21E-30 author_tag_game 467 2697 3.01E-29 author_tag_vibe 7 955 2.24E-28 author_tag_sleep 714 4738 5.18E-28 author_tag_games 13 1100 8.23E-28 author_tag_quest 389 2156 1.41E-27
流行りのワールドも調べられるね ⇒ 訪問数やお気に入り数の日々の増加分から計算 ( https://vworldtrend.com/ )
(今後)ワールド名とキャプチャを使えば これは、マルチモーダルAIのための教師データ...!? name favorites thumbnail_image_url Prismic's Avatar Search 536942 https://api.vrchat.cloud/api/1/image/file_f2664ae9-c606-4e1c-b3f3-
6d8961763a99/14/256 Test Pilots 332806 https://api.vrchat.cloud/api/1/image/file_2b167073-abc0-4b14-b8e 5-2c59463996ae/25/256 The Black Cat 294343 https://api.vrchat.cloud/api/1/image/file_ab2d3af4-c6da-41b9-8a3d -6f554462cfaf/26/256 Among Us' game 274353 https://api.vrchat.cloud/api/1/image/file_b4fdf7fc-6e6d-41af-a532-9 13729549a45/7/256 Nony's Avatar World 271421 https://api.vrchat.cloud/api/1/image/file_a87b578f-e1e9-4b5f-a3b5- 417c45ff2c69/4/256 Murder 4 254029 https://api.vrchat.cloud/api/1/image/file_f3f2b71b-d416-4711-8177- eeaca0a9af20/32/256 The Ultimate Spider-Lair 213706 https://api.vrchat.cloud/api/1/image/file_b709e2d8-f20a-49e6-bb6a -ac4cc7bebee4/21/256 McDonald's 192456 https://api.vrchat.cloud/api/1/image/file_e05a0400-a56c-4cd0-8d4c -36e7a59096cd/43/256 Spirits of the Sea 海の幽霊 184016 https://api.vrchat.cloud/api/1/image/file_9f25ef78-5bab-4c4d-99f2- b40d66002e12/10/256 Midnight Spooktop 181987 https://api.vrchat.cloud/api/1/image/file_c1ec735d-070b-4aac-9783 -736ef7feef56/4/256
まとめ • 最初は目的も考えずに VRChat のワールド情報を集め始めた • データが集まってくると色々面白いことに使えることが分かった • 実は、NeosVR や
cluster も同様に集めてました • DS 集会でワールド情報データは公開する予定 • 個人開発集会と DS 集会は、木曜22時に交互に開催 ※データ収集、Crawling する時は、各ガイドラインに沿って行いましょう • VRChat だと、VRChat API Doc ( https://vrchatapi.github.io/ )